高速缓冲存储器
第四章-存储器04-高速缓冲存储器

Cache 000 001 010 011 100 101 110 111 000 001 010 011 100 101 110 111
调入
4.1、地址映象——直接映像
例2:设一个Cache中有8块,访问主存进行读操作的块地址依次为: 10110、11010、10110、11010、10000、00100、10010, 求每次访问时Cache的内容。
硬件完成功能: 访存地址 转成 Cache地址 辅助存储器
Cache 的全部功能都是 由硬件完成的, 对程序员来说是透明的。
4.1、地址映象
映象:其物理意义就是位置的对应关系,将主存地址变成Cache地址。
常见的映象方式主要有三种: 1)直接映象 2)全相联映象 3)组相联映象
CPU Cache 字 数据总线 字
2位 主存区号标记 00 主存块号 比较 3位 区内块号 100 Cache块号 未命中 访问内存 000 001 010 011 100 101 110 111 块内地址 块内地址
Cache
000 001 010 011 100 101 110 111
调入
块表 000 001 010 011 100 101 110 111
4、高速缓冲存储器(Cache)
考研试题精选:
假设:CPU执行某段程序时,共访问Cache 3800 次,访问主存200 次,已知Cache存取周期为50ns,主存存取周期为250ns。
求:Cache—主存系统的平均存取时间和效率。 解: 系统命中率 h = 3800 / 3800 + 200 = 0.95
Cache
000 001 010 011 100 101 110 111 调入
块表 000 10 001 010 11 011 100 101 110 10 111
有关存储器读写速度的排列正确的是

有关存储器读写速度的排列正确的是答案是B,Cache>RAM>硬盘>软盘。
Cache:高速缓冲存储器(Cache)是位于cpu和内存之间的存储器,是一个读写速度比内存更快的存储器,当cpu向内存中读取或写入数据的时候买这些数据也会存入Cache中。
当cup再需要这些数据的时候,就会直接去Cache中读取,而不是内存中,当然,若需要的数据在Cache中没有,cpu会再去内存中读取。
RAM:随机存储器(Random Access Memory)表示既可以从中读取数据,也可以写入数据。
当机器电源关闭时,存于其中的数据就会丢失。
我们通常购买或升级的内存条就是用作电脑的内存。
内存条(SIMM)就是将RAM集成块集中在一起的一小块电路板,它插在计算机中的内存插槽上,以减少RAM集成块占用的空间。
目前市场上常见的内存条有4M/条、8M/条、16M/条等。
硬盘:传输速率(Data Transfer Rate)硬盘的数据传输率是指硬盘读写数据的速度,单位为兆字节每秒(MB/s)。
硬盘数据传输率又包括了内部数据传输率和外部数据传输率。
内部传输率(Internal Transfer Rate) 也称为持续传输率(Sustained Transfer Rate),它反映了硬盘缓冲区未用时的性能。
内部传输率主要依赖于硬盘的旋转速度。
外部传输率(External Transfer Rate)也称为突发数据传输率(Burst Data Transfer Rate)或接口传输率,它标称的是系统总线与硬盘缓冲区之间的数据传输率,外部数据传输率与硬盘接口类型和硬盘缓存的大小有关。
Fast ATA接口硬盘的最大外部传输率为16.6MB/s,而Ultra ATA接口的硬盘则达到33.3MB/s。
软盘:软盘在个人计算机中作为一种可移贮存硬件,它是用于那些需要被物理移动的小文件的理想选择。
软盘有八寸、五又四分之一寸、三寸半之分。
当中又分为硬磁区Hard-sectored 及软磁区Soft-Sectored。
高速缓冲存储器名词解释

高速缓冲存储器名词解释高速缓冲存储器(CacheMemory)是计算机系统中用来加快访问速度的一种临时存储器。
它可以被看作是内存系统中一层虚拟存储器,能够有效地把系统从内存、磁盘等设备中获取的数据以及未来所需要的数据暂存到cache memory中。
简言之,cache memory是一种可用来为CPU加速数据访问速度的存储器,是由CPU直接访问的一种高速存储器。
高速缓冲存储器由三个部分组成:cache级(cache level)、cache 缓存行(cache line)和cache单元(cache cell)。
cache是一组缓存行的集合,是 cache memory最小单元。
cache是由一组相连接的 cache line成。
cache line括一组相同大小的 cache元,每个单元根据它的作用可分为三类:索引(index)、标记(tag)、数据(data)。
cache可以将源数据分成多个子集,并将其中一部分存储到cache memory 中,以便快速访问。
cache据地址映射(address mapping)原理,将一段内存区域缩小,便于数据的快速访问。
当 CPU求某条指令时,它会首先检查 cache 中是否已经缓存了这条指令,如果缓存中有,就可以从 cache 中取出该指令,省去了访问主存的时间,这样就提高了 CPU运算速度。
除此之外,高速缓冲存储器还利用了多级缓存(multi-level cache)技术,把cache memory分为多级,从而提高了 cache memory 命中率。
在这种技术下,如果一级缓存(L1 cache)中没有找到所要访问的数据,则会再到二级缓存(L2 cache)中查找。
如果L2 cache中也没有相应的数据,则会再去其他更高级的缓存中查找,直至主存中的数据被访问到。
多级缓存的出现大大提高了 cache memory性能,大大提升了整个系统的访问效率,从而使CPU能更加高效地运行程序。
高速缓冲存储器cache的原理

高速缓冲存储器cache的原理高速缓冲存储器(Cache)原理简介什么是高速缓冲存储器•高速缓冲存储器(Cache)是计算机体系结构中一种用于提高数据传输速度的存储器层次结构。
•它位于处理器和主存储器之间,作为一个中间层,存储处理器频繁使用的数据,以提供更快的访问速度。
高速缓冲存储器的工作原理1.局部性原理–高速缓冲存储器的设计基于计算机程序的局部性原理。
–局部性原理包括时间局部性和空间局部性两个方面。
–时间局部性指的是在一段时间内,CPU对某些数据的访问很频繁。
–空间局部性指的是当访问某个地址时,很可能在不久的将来还会访问附近的地址。
2.缓存工作原理–高速缓冲存储器通过存储最近使用的数据来加速访问速度。
–缓存采用一种称为缓存行的数据块单位,将主存储器中的数据缓存在缓存中。
–缓存行的大小一般为2^n字节,其中n为缓存行地址的位数。
–当CPU需要从主存储器中读取数据时,首先会检查缓存中是否有对应的缓存行。
–如果有,称为缓存命中;如果没有,称为缓存未命中。
3.缓存命中–当缓存命中时,CPU可以直接从缓存中读取数据,避免了对主存储器的访问,大大提高了访问速度。
–同时,缓存还可以缓存下一条指令,提前加载到缓存中,以等待CPU的执行。
4.缓存未命中–当缓存未命中时,需要从主存储器中读取数据,此时会引起一定的延迟。
–缓存未命中会触发缓存替换算法,将最近最少使用的缓存行替换出去,腾出空间存放新的缓存行。
5.缓存替换算法–常见的缓存替换算法有最近最久未使用(LRU)、先进先出(FIFO)和随机替换等。
–这些算法会根据缓存行的使用频率等因素来进行替换决策。
–替换算法的选择往往取决于不同的应用场景和硬件架构。
高速缓冲存储器的优势与应用•高速缓冲存储器极大地提高了计算机的性能和效率。
•它可以减少CPU对主存储器的访问次数,缩短了数据传输的时间。
•高速缓冲存储器被广泛应用于各种计算机硬件架构中,包括个人电脑、服务器和嵌入式系统等。
高速缓冲存储器

高速缓冲存储器(Cache)
–Cache的写操作
Cache中的块是主存中相应块的副本。如果程序执
行过程中要对某块的某单元进行写操作,有两种方法:
(1)标志交换方式(写回法):即只向Cache写入,
并用标志注明,直至该块在替换中被排挤出来,才将该
块写回主存,代替未经修改的原本;
12/
高速缓冲存储器(Cache)
(t,T)表示,也称之为工作集合。 根据程序访问局部 化性质,W(t,T)随时间的变化是相当缓慢的。把这 个集合从主存中移至(读出)一个能高速访问的小容量 存储器内,供程序在一段时间内随时访问,大大减少程
序访问主存的次数,从而加速程序的运行。
6/
高速缓冲存储器(Cache)
(2)这个介于主存和CPU之间的高速小容量存储器就称 为Cache。所以,程序访问局部化性质是Cache得以实现 的原理基础,而高速(能与CPU匹配)则是Cache得以
高速缓冲存储器(Cache)
–Cache的读操作
CPU进行读存储器作时,根据其送出的主存地址区分两 种不同情况: (1)一种是需要的信息已在Cache中,那末直接访问 Cache就行了; (2)另一种是所需信息不在Cache中,就要把该单元 所在的块从主存调Cache。后一种情况又有两种实现方 法:一种是将块调入Cache后再读入CPU;另一种读直 达(读直达通路)。在调入新的块时,如果Cache已占 满,这就产生替换,由替换控制部件按已定的替换算法 实现。
如果进程切换发生在用户程序因为系统运行管理程
序、处理I/O中断或时钟中断时,QSW值越小,表明
由管理程序切换至原来的用户程序越块,Cache中
(2)写直达法:即在写入Cache的同时,也写入
高速缓冲存储器

Cache的实现原理是:将CPU最近最可能用到的指令或数据从主存复制到Cache中,当CPU下次再用到 这些信息时,就不必访问慢速的主存,而直接从快速的Cache中得到,从而提高访问速度。
Cache的工作原理
当 CPU 发 出 读 命 令 时 , Cache 控 制部件先要检查CPU送出的地址,判 断 CPU 要 访 问 的 地 址 单 元 是 否 在 Cache 中 。 若 在 , 称 为 Cache 命 中 , CPU 就 可 直 接 从 Cache 中 访 问 ; 若 不 在,则称为Cache未命中(或失效), 这时就需要从内存中访问,并把与本 次访问相邻近的存储区内容复制到 Cache中,以备下次使用。组内全相联映来自的方法。高速缓冲存储器
1.3 Cache的替换策略
当CPU访问的数据不在Cache中(即Cache未命中)时,就要访问主存,并把数据所在的页调入Cache,以 替换Cache中的页。
从C随ac机he替中换随算机法地选 一页替换。
先进选先择出最(先F调IF入O的)页算法 替换
最近最少使用(LRU) 选择最算近法最少使用 的页替换。
写 贯 穿 法 ( WT ) : 在 对 Cache 进 行 写 操作的同时,也写入主存。
回 写 法 ( WB ) : 在 对 Cache 进行写操作时,不写入主存,只是 在Cache中加以标记。只有当Cache 中的数据被再次更改时,才将原更 新的数据写入主存。
微机原理与接口技术
高速缓冲存储器
1.2 Cache的地址映射
被复制到Cache中的数据在内存中的地址与在Cache 中的地址之间的对应关系称为Cache的地址映射。
为了方便管理,将主存和Cache都分成大小相等的 若干页。设主存容量为2n,Cache容量为2m,页的大小 为2p(即页内地址有p位),则主存的页号(即页地址) 共有n-p位,Cache页号共有m-p位。这样,在进行地 址映射时,就是把主存页映射到Cache页上(即页号的 映射)。
高速缓冲存储器cache

高速缓冲存储器cache程序的访问局部性程序的访问局部性定义在较短时间间隔内,程序产生的地址往往聚集在很小的一段地址空间内。
具体体现有两方面:时间局部性:被访问的某一存储单元,在一个较短的时间间隔内可能被再次访问;空间局部性:被访问的存储单元的邻近单元在一个较短的时间间隔内,可能也会被访问。
产生访问局部性的原因程序是由指令和数据组成的。
指令在主存中是按序存放的,存储单元是连续的,地址也是连续的,循环结构程序段或函数等子程序段再较短时间间隔内可能被重复执行,因此,指令的访问具有明显的局部化特性;数据在主存中的也是按序连续存放的,尤其是数组元素,常常被按序重复访问,因此,数据的访问也具有明显的局部化特性。
命中(Hit):若CPU访问单元所在的块在cache中,则称为命中。
命中的概率称为命中率(Hit Rate),是命中次数与访问总次数之比。
命中时,CPU在cache直接存取信息,所用的时间开销为cache的访问时间,称为命中时间(Hit Time)。
缺失(Miss):若CPU访问单元所在的块不在cache中,则称为不命中或缺失,缺失的概率称为缺失率(Miss Rate),是缺失次数与访问总次数之比。
缺失时,需要从主存读取一个主存块送cache,同时将所需信息送CPU,所用的时间开销为主存访问时间和cache访问时间之和。
通常将从主存读入一个主存块到cache的时间称为缺失损失(Miss Penalty)。
CPU在cache—主存层次的平均访问时间为。
由于程序访问的局部性特定,cache的命中率可以达到很高,接近于1,因此,即使Miss Penalty 远远大于Hit Time,但最终的平均访问时间仍可接近cache的访问时间。
cache工作流程程序执行中过程中,需要从主存取指令或读数据时,先检查cache是否命中,若命中,则直接从cache中读取信息送CPU进行运算,而不用访问主存储器;若缺失,则将访问地址内的数据送CPU进行运算,同时将当前访问的主存块复制到cache中。
高速缓冲存储器一致性

感谢观看
I(Invalid):这行数据无效。
在该协议的作用下,虽然各cache控制器随时都在监听系统总线,但能监听到的只有读未命中、写未命中以 及共享行写命中三种情况。读监听命中的有效行都要进入S态并发出监听命中指示,但M态行要抢先写回主存;写 监听命中的有效行都要进入I态,但收到RWITM时的M态行要抢先写回主存。总之监控逻辑并不复杂,增添的系统 总线传输开销也不大,但MESI协议却有力地保证了主存块脏拷贝在多cache中的一致性,并能及时写回,保证 cache主存存取的正确性 。
在MESI协议中,每个Cache line有4个状态,可用2个bit表示,它们分别是:
M(Modified):这行数据有效,数据被修改了,和内存中的数据不一致,数据只存在于本Cache中。
E(Exclusive):这行数据有效,数据和内存中的数据一致,数据只存在于本Cache中。
S(Shared):这行数据有效,数据和内存中的数据一致,数据存在于很多Cache中。
一个完整的一致性模型包括高速缓存一致性及存储同一性两个方面,且这两个是互补的:高速缓存一致性定 义了对同一个存储进行的读写操作行为,而存储同一性模型定义了访问所有存储的读写行为。在共享存储空间中, 多个进程对存储的不同单元做并发的读写操作,每个进程都会看到一个这些操作被完成的序。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3.7 高速缓冲存储器
高速缓冲存储器的功能是提高CPU数据输入/输出的速率,突破所谓的存储器瓶颈问题,即CPU与存储系统间数据传送带宽限制。
高速缓冲存储器能以极高的速率进行数据的访问,但因其价格高昂,所以只在CPU和主存之间添加少量的Cache,利用程序的局部性原理来进行工作。
3.7.1 程序访问的局部性原理
程序访问的局部性有两个方面的含义:时间局部性和空间局部性。
时间局部性是指最近的访问项(指令/数据)很可能在不久的将来再次被访问(往往会引起对最近使用区域的集中访问),而空间局部性是指一个进程访问的各项地址彼此很近。
换句话说,就是最近的、未来要用的指令和数据大多局限于正在用的指令和数据,或是存放在与这些指令和数据位置上邻近的单元中。
这样,就可以把目前常用或将要用到的信息预先放在存取速度最快的存储器中,从而使CPU的访问速度大大提高。
依据局部性原理,把主存储器中访问概率高的内容存放在Cache中,当CPU需要读取数据时,首先在Cache中查找是否有所需内容,如果有则直接从Cache中读取;若没有再从主存中读取该数据,然后同时送往Cache和CPU。
如果CP
U需要访问的内容大多都能在Cache中找到(称为命中),则可以大大提高系统性能。
3.7.2 Cache的基本工作原理
如图3-13所示给出了Cache的基本结构。
Cache和主存都被分成若干个大小相等的块,每块由若干字节组成。
由于Cache的容量远小于主存的容量,所以Cache的块数要远少于主存的块数,它保存的信息只是主存中最活跃的若干块的副本。
用主存地址的块号字段访问Cache标记,并将取出的标记和主存地址的标记字段相比较,若相等,说明访问Cac he有效,称Cache命中,若不相等,说明访问Cache无效,称Cache不命中或失效,而此时需要从主存中将该块取出至Cache中。
当CPU发出读请求时,如果Cache命中,就直接对Cac he进行读操作,与主存无关;如果Cache不命中,则仍需访问主存,并把该块信息一次从主存调入Cache内。
若此时C ache已满,则须根据某种替换算法,用这个块替换掉Cache 中原来的某块信息。
当CPU发出写请求时,如果Cache命中,有可能会遇到Cache与主存中的内容不一致的问题,处理的方法主要有两种,一是同时写入Cache和主存,称为写直达法;二是将信息暂时只写入Cache,并用标志将该块加以注明,直到该块从Cache中替换出来时才一次写入主存,称为写回法。
如果不命中,就直接把信息写入主存,而与Cache无关。
3.7.3 Cache和主存之间的映像方式
为了把信息放到Cache中,必须应用某种函数把主存地址映像到Cache中定位,称为地址映像(映射)。
而将主存地址变换成Cache地址,称做地址变换,它们之间是密切相关的。
常用的地址映像方式有三种,分别是全相联映像、直接映像和组相联映像。
1.全相联映像
全相联映像是指将内存和Cache按照固定的相同的大小进行分块。
内存的块和Cache的块可以任意对应,即内存的任何一块都可以映像到Cache的任何一块。
在Cache的存储
空间被占满的情况下,也允许确实已被占满的Cache存储器中替换出任何一个旧块,具体如图3-14所示。
2.直接映像
直接映像先将Cache分成若干块,每个块的大小相同,并对每个块进行编号。
同时根据Cache容量大小将内存分成若干区(页),每个区的容量都跟Cache的容量相同,然后对内存进行分块,每块的大小跟Cache块的大小相同,同样对区内的块进行编号。
映像时,内存的某个区的块只能保存在与其块号相同的Cache块中。
如图3-15所示,内存各区中的第0块只能映像到Cache的第0块,而不能映像到其他块。
3.组相联映像
组相联映像实际上是直接映像和全相联映像的折中方案。
组相联映像方式先将Cache分成大小相同的若干区(组),对每个区按照直接映像的方式进行分块,并且编号,因此,Cache中有多个编号相同的块。
对内存按照Cache区的大小进行分页,再对每页按照Cache块的大小进行分块,每个内存块可以对应不同Cache区中的相同块号的块。
如图3-16中内存第0页的第0块,可以对应Cache的第0区的第0块,
也可以对应第j区的第0块。
在三种方式中,全相联映像方式比较灵活,Cache的块冲突概率最低、空间利用率最高,但是地址变换速度慢,而且成本高,实现起来比较困难;直接映像方式是最简单的地址映像方式,成本低,易实现,地址变换速度快,而且不涉及其他两种映像方式中的替换算法问题。
但这种方式不够灵活,Cache的块冲突概率最高、空间利用率最低;组相联映像实际上是全相联映像和直接映像的折中方案,其优点和缺点介于全相联和直接映像方式的优缺点之间。
3.7.4 Cache中主存块的替换算法
当采用全相联映像和组相联映像方式从主存向Cache传送一个新块,而Cache中的可用位置已经占满时,就产生了替换算法的问题。
目前,常用的替换算法主要有以下几种。
1.随机替换算法
随机替换算法的思想最简单,即随机地选择一个Cache 块进行替换,它不考虑Cache块过去、现在及将来的使用情况。
2.先进先出算法
先进先出(First Input First Output,FIFO)算法的思想是:按调入Cache的先后决定淘汰的顺序,即在需要更新时,将最先进入Cache的块作为被替换的块。
这种方法不需要随时记录各个块的使用情况,容易实现,而且系统开销小。
其缺点是可能会把一些需要经常使用的程序块(如循环程序)也作为最早进入Cache的块替换掉。
3.近期最少使用算法
最近最少使用(Least Recently Used,LRU)算法是把CPU近期最少使用的块作为被替换的块。
这种替换方法需要随时记录Cache中各块的使用情况,以便确定哪个块是近期最少使用的块。
LRU算法相对合理,但实现起来比较复杂,系统开销较大。
通常需要对每一块设置一个称为计数器的硬件或软件模块,用以记录其被使用的情况。
无论FIFO算法还是LRU算法,都不能确定调出去的块
近期将绝不会再被使用。
研究表明,采用这两种算法后可使Cache的命中率达到90%左右,其中LRU算法略优于FIFO算法,这在实际使用中已经是很不错的了。
3.7.5 Cache写策略
CPU对Cache的写入更改了Cache的内容。
可选用写操作策略使Cache内容和主存内容保持一致。
Cache写的策略主要有以下几种。
1.写回法
当CPU写Cache命中时,只修改Cache的内容,而不立即写入主存。
只有当该块被换出时才写回主存。
这种方法减少了访问主存的次数,但是存在不一致性的隐患。
实现这种方法时,每个Cache块必须配置一个修改位,以反映此块是否被CPU修改过。
这种方法的优点是操作速度快,缺点是因主存中的字块未随时修改而有可能出错。
2.写全法
也称为写直达法。
当写Cache命中时,Cache与主存同时发生写修改,因而较好地维护了Cache与主存的内容的一致性;当写Cache未命中时,直接向主存进行写入。
Cache 中每块无须设置一个修改位及相应的判断逻辑。
缺点是降低了Cache的功效。
3.写一次法
写一次法是基于写回法并结合了写全法的写策略,写命中与写未命中的处理方法与写回法基本相同,只是第一次写命中时要同时写入主存。
这便于维护系统全部Cache的一致性。
3.7.6 Cache的性能
增加Cache的目的,就是在性能上使主存的平均读出时间尽可能接近Cache的读出时间,因此,Cache的命中率应接近于1。
由于程序访问的局部性,这是可能的。
在一个程序执行期间,设Nc表示Cache完成存取的总次数,Nm表示主存完成存取的总次数,h为命中率,则有:
若tc表示命中时的Cache访问时间,tm表示未命中时的主存访问时间,则Cache/主存系统的平均访问时间ta为:
设r=tm/tc,表示主存慢于Cache的倍率,e表示访问效率,则有:
为提高访问效率,命中率h越接近1越好,r值以5~1 0为宜,不宜太大。
命中率h与程序的行为、Cache的容量、组织方式、块的大小有关。