高速缓冲存储器(Cache)

合集下载

第四章-存储器04-高速缓冲存储器

Cache 000 001 010 011 100 101 110 111 000 001 010 011 100 101 110 111
调入
4.1、地址映象——直接映像
例2：设一个Cache中有8块，访问主存进行读操作的块地址依次为： 10110、11010、10110、11010、10000、00100、10010，求每次访问时Cache的内容。
硬件完成功能：访存地址转成 Cache地址辅助存储器
Cache 的全部功能都是由硬件完成的，对程序员来说是透明的。
4.1、地址映象
映象：其物理意义就是位置的对应关系，将主存地址变成Cache地址。
常见的映象方式主要有三种： 1）直接映象 2）全相联映象 3）组相联映象
CPU Cache 字数据总线字
2位主存区号标记 00 主存块号比较 3位区内块号 100 Cache块号未命中访问内存 000 001 010 011 100 101 110 111 块内地址块内地址
Cache
000 001 010 011 100 101 110 111
调入
块表 000 001 010 011 100 101 110 111
4、高速缓冲存储器（Cache）
考研试题精选：
假设：CPU执行某段程序时，共访问Cache 3800 次，访问主存200 次，已知Cache存取周期为50ns，主存存取周期为250ns。
求：Cache—主存系统的平均存取时间和效率。解：系统命中率 h = 3800 / 3800 + 200 = 0.95
Cache
000 001 010 011 100 101 110 111 调入
块表 000 10 001 010 11 011 100 101 110 10 111

有关存储器读写速度的排列正确的是

有关存储器读写速度的排列正确的是答案是B，Cache＞RAM＞硬盘＞软盘。

Cache：高速缓冲存储器（Cache）是位于cpu和内存之间的存储器，是一个读写速度比内存更快的存储器，当cpu向内存中读取或写入数据的时候买这些数据也会存入Cache中。

当cup再需要这些数据的时候，就会直接去Cache中读取，而不是内存中，当然，若需要的数据在Cache中没有，cpu会再去内存中读取。

RAM：随机存储器（Random Access Memory）表示既可以从中读取数据，也可以写入数据。

当机器电源关闭时，存于其中的数据就会丢失。

我们通常购买或升级的内存条就是用作电脑的内存。

内存条（SIMM）就是将RAM集成块集中在一起的一小块电路板，它插在计算机中的内存插槽上，以减少RAM集成块占用的空间。

目前市场上常见的内存条有4M／条、8M／条、16M／条等。

硬盘：传输速率（Data Transfer Rate)硬盘的数据传输率是指硬盘读写数据的速度，单位为兆字节每秒（MB/s）。

硬盘数据传输率又包括了内部数据传输率和外部数据传输率。

内部传输率（Internal Transfer Rate) 也称为持续传输率（Sustained Transfer Rate），它反映了硬盘缓冲区未用时的性能。

内部传输率主要依赖于硬盘的旋转速度。

外部传输率（External Transfer Rate）也称为突发数据传输率（Burst Data Transfer Rate）或接口传输率，它标称的是系统总线与硬盘缓冲区之间的数据传输率，外部数据传输率与硬盘接口类型和硬盘缓存的大小有关。

Fast ATA接口硬盘的最大外部传输率为16.6MB/s，而Ultra ATA接口的硬盘则达到33.3MB/s。

软盘：软盘在个人计算机中作为一种可移贮存硬件，它是用于那些需要被物理移动的小文件的理想选择。

软盘有八寸、五又四分之一寸、三寸半之分。

当中又分为硬磁区Hard-sectored 及软磁区Soft-Sectored。

虚拟存储和高速缓冲存储器

cache中央处理器cache外存主存中央处理器cachecache中央处理器cachecache中央处理器cachecache中央处理器cachecache中央处理器cache主存cache中央处理器cache外存主存cache中央处理器cachecache中央处理器cache主存中央处理器cachecache中央处理器cachecache中央处理器cachecache中央处理器cachecache中央处理器cache主存cache中央处理器cache外存主存cache中央处理器cachecache外存主存cachecachecachecache主存cache外存主存cachecache主存cachecachecachecache主存cache外存主存cache中央处理器cache二级缓存二级缓存是为了协调一级缓存与内存之间的速度
在实际应用中，虚拟文件系统存储方案以非对称式拓扑结构为表现形式。
第十一页，共49页
虚拟存储的特点：
虚拟存储提供了一个大容量存储系统集中管理的手段，由网络中的一个环节（如服务器）进行统一管理，避免了由于存储设备扩充所带来的管理方面的麻烦。
虚拟存储对于视频网络系统最有价值的特点是：可以大大提高存储系统整体访问带宽。
第十八页，共49页
三级缓存的性能影响
❖ 在游戏方面，提升三级缓存的容量对游戏的性能影响很大，如果是网吧机提升三级缓存的容量，会有显著的性能提升的。
❖ 对PC机来说，三级缓存其实只是做了个辅助的作用，除了服务器，其实对大多数家庭机没什么用的，对于家庭机内存是最重要的。
第十九页，共49页
高速存储器的工作原理图：
地址总线
LRU管理逻辑
CAM
相联存储图表
主
CPU

Cache基础知识介绍

如何提高cache的性能
• 提高cache的性能也就是要降低主存的平均存取时间主存平均存取时间=命中时间+未命中率*未命中惩罚 • 提高cache的性能有以下三种方法：减少命中时间，减少未命中率，减少未命中惩罚。
影响命中率的硬件因素主要有以下四点： • Cache的容量。 • Cache与主存储器交换信息的单位量（cache line size）。 • Cache的组织方式 • Cache的替换算法
什么是cache
• Cache又叫高速缓冲存储器，位于CPU与内存之间，是一种特殊的存储器子系统。 • 目前比较常见的是两极cache结构，即cache系统由一级高速缓存L1 cache和二级高速缓存L2 cache组成，L1 cache通常又分为数据cache（I-Cache）和指令cache（D-Cache），它们分别用来存放数据和执行这些数据的指令。
Way 1
x[i+2][0] Entry 1
x[i+2][1]
x[i+2][2]
x[i+2][3]
Way 0
x[i+1][0]
x[i+1][1]
x[i+1][2]
x[i+1][3]
Way 1
x[i+3][0]
x[i+3][1]
x[i+3][2]
x[i+3][3]
代码段A：对于数组元素x[i][0]（i=0…1024）的访问是miss的，但对于 x[i][1]， x[i][2]， x[i][3]的访问是hit的，因此miss的总次数为 1024次。代码段B：对于数组元素x[i][0]， x[i][1]， x[i][2]， x[i][3] （i=0…1024）的访问都是miss的，他们被x[i+4][0] ， x[i+4][1]， x[i+4][2]， x[i+4][3]所替换，因此miss的总次数为4096次。 • 当需要对大量数据访问的时候，一定要注意对内存的访问要尽量是连续而且循环内层的访问接近cache的块大小，以提高cache的命中率，从而提高程序的运行效率。

第4章半导体存储器-4.2高速缓冲存储器Cache

3、存储器管理
虚拟存储器：虚拟存储器是由主存－辅存物理结构和负责信息块划分以及主存－辅存之间信息调度的存储器管理部件(MMU)的辅助硬件及操作系统的存储器管理软件所组成的存储系统。管理方式：页式虚拟存储器、段式虚拟存储器、段页式虚拟存储器虚拟地址：能访问虚拟空间的指令地址码称为虚拟地址。物理地址：实际的主存地址。
地址对准实际上是保证数据的对准。未对准的数据要在CPU内部经过字节交换，使其在数据线上对准存储体。非对准的字要两个总线周期，对相邻的两个字进行两次操作，在CPU内部经过字节交换，最终完成读写。
№ 13
2、替换策略
先进先出FIFO：选择最早装入快存的页作为被替换的页；最近最少使用策略LRU：选择CPU最近最少访问的页作为被替换的页
AD0 L H L H
读写的字节两个字节（AD15—AD0）高字节（AD15—AD8）低字节（AD7—AD0）不读写
如何连接，满足读写一个字节的需要，又能达到读一个字（低 № 10 位字节在偶地址）？
� � � �
1、存储器的奇偶分体偶地址（从0开始）单元组成偶存储体，奇地址单元组成奇存储体。偶体、奇体共同组成16位存储器系统。 16位读写是从偶体中选中1个单元、再从地址加1的奇体中选中1个单元同时读写。
虚地址
…
段式虚拟存储器的映像
3）段页式虚拟存储器
3、段页式虚拟存储器虚地址
基号
段号
段表 0
页号
页表
页内地址实地址
段基址表 0 L N-1
段表段表长度基址 ‥ 1 L-1
M
装入段长位
页表下址
实页装入号位
访问方式

高速缓冲存储器名词解释

高速缓冲存储器名词解释高速缓冲存储器（CacheMemory）是计算机系统中用来加快访问速度的一种临时存储器。

它可以被看作是内存系统中一层虚拟存储器，能够有效地把系统从内存、磁盘等设备中获取的数据以及未来所需要的数据暂存到cache memory中。

简言之，cache memory是一种可用来为CPU加速数据访问速度的存储器，是由CPU直接访问的一种高速存储器。

高速缓冲存储器由三个部分组成：cache级（cache level）、cache 缓存行（cache line）和cache单元（cache cell）。

cache是一组缓存行的集合，是 cache memory最小单元。

cache是由一组相连接的 cache line成。

cache line括一组相同大小的 cache元，每个单元根据它的作用可分为三类：索引（index）、标记（tag）、数据（data）。

cache可以将源数据分成多个子集，并将其中一部分存储到cache memory 中，以便快速访问。

cache据地址映射（address mapping）原理，将一段内存区域缩小，便于数据的快速访问。

当 CPU求某条指令时，它会首先检查 cache 中是否已经缓存了这条指令，如果缓存中有，就可以从 cache 中取出该指令，省去了访问主存的时间，这样就提高了 CPU运算速度。

除此之外，高速缓冲存储器还利用了多级缓存（multi-level cache）技术，把cache memory分为多级，从而提高了 cache memory 命中率。

在这种技术下，如果一级缓存（L1 cache）中没有找到所要访问的数据，则会再到二级缓存（L2 cache）中查找。

如果L2 cache中也没有相应的数据，则会再去其他更高级的缓存中查找，直至主存中的数据被访问到。

多级缓存的出现大大提高了 cache memory性能，大大提升了整个系统的访问效率，从而使CPU能更加高效地运行程序。

什么是Cache

什么是CacheCache”是什么Cache(即高速缓冲存储器(Cache Memory)，是我们最常听到的一个词了。

在老鸟们眼中，这个词或许已没有再谈的必要，因为他们对Cache从设计的必要性到工作原理、工作过程等等都已了如指掌了；而对菜鸟朋友们而言，这些未必就很清楚。

那么，它们到底是指的什么呢？不用急，下面就请随笔者一起来全面认识Cache。

为什么要设计Cache我们知道，电脑的内存是以系统总线的时钟频率工作的，这个频率通常也就是CPU的外频(对于雷鸟、毒龙系列的处理器，由于在设计采用了DDR技术，CPU 工作的外频为系统总线频率的两倍)。

但是，CPU的工作频率(主频)是外频与倍频因子的乘积。

这样一来，内存的工作频率就远低于CPU的工作频率了。

这样造成的直接结果是：CPU在执行完一条指令后，常常需要“等待”一些时间才能再次访问内存，极大降了CPU工作效率。

在这样一种情况下，Cache就应运而生了！Cache是什么Cache是一种特殊的存储器，它由Cache 存储部件和Cache控制部件组成。

Cache 存储部件一般采用与CPU同类型的半导体存储器件，存取速度比内存快几倍甚至十几倍。

而Cache 控制器部件包括主存地址寄存器、Cache 地址寄存器，主存—Cache地址变换部件及替换控制部件等。

至于它们各自又是怎样工作的、有何作用等等，我想我们就没有必要做进一步的研究，知道一般Cache分为L1 Cache(其中又分为数据Cache、代码Cache)、L2 Cache就行了。

Cache是怎样工作的我们知道，CPU运行程序是一条指令一条指令地执行的，而且指令地址往往是连续的，意思就是说CPU在访问内存时，在较短的一段时间内往往集中于某个局部，这时候可能会碰到一些需要反复调用的子程序。

电脑在工作时，把这些活跃的子程序存入比内存快得多的Cache 中。

CPU在访问内存时，首先判断所要访问的内容是否在Cache中，如果在，就称为“命中”，此时CPU直接从Cache中调用该内容；否则，就称为“不命中”，CPU只好去内存中调用所需的子程序或指令了。

高速缓冲存储器

11/
高速缓冲存储器（Cache）
–Cache的写操作
Cache中的块是主存中相应块的副本。如果程序执
行过程中要对某块的某单元进行写操作，有两种方法：
（1）标志交换方式（写回法）：即只向Cache写入，
并用标志注明，直至该块在替换中被排挤出来，才将该
块写回主存，代替未经修改的原本；
12/
高速缓冲存储器（Cache）
（t，T）表示，也称之为工作集合。根据程序访问局部化性质，W（t，T）随时间的变化是相当缓慢的。把这个集合从主存中移至（读出）一个能高速访问的小容量存储器内，供程序在一段时间内随时访问，大大减少程
序访问主存的次数，从而加速程序的运行。
6/
高速缓冲存储器（Cache）
（2）这个介于主存和CPU之间的高速小容量存储器就称为Cache。所以，程序访问局部化性质是Cache得以实现的原理基础，而高速（能与CPU匹配）则是Cache得以
高速缓冲存储器（Cache）
–Cache的读操作
CPU进行读存储器作时，根据其送出的主存地址区分两种不同情况：（1）一种是需要的信息已在Cache中，那末直接访问 Cache就行了；（2）另一种是所需信息不在Cache中，就要把该单元所在的块从主存调Cache。后一种情况又有两种实现方法：一种是将块调入Cache后再读入CPU；另一种读直达（读直达通路）。在调入新的块时，如果Cache已占满，这就产生替换，由替换控制部件按已定的替换算法实现。
如果进程切换发生在用户程序因为系统运行管理程
序、处理I/O中断或时钟中断时，QSW值越小，表明
由管理程序切换至原来的用户程序越块，Cache中
（2）写直达法：即在写入Cache的同时，也写入

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

§3 高速缓冲存储器（Cache）
工作原理和基本结构地址映象与变换 Cache存储器的LRU替换算法的硬件实现 Cache存储器的透明性及性能分析
为什么要使用Cache?
用以弥补主存速度的不足。
CPU速度与主存速度相差很大（例如，一般的DRAM的工作速度比CPU慢100倍以上。
有Cache的主存系统都采用多体交叉存储器；应尽量提高Cache的访主存的优先级；
地址映象与变换
地址映象：是将每个主存块按某种规则（算法）装入（定位于）Cache,并建立主存地址与 Cache地址之间的对应关系。
地址变换：是主存块按照这种映象关系装入 Cache后,每次访Cache，如何将主存地址变换成Cache地址。
比较结果不相等, 有效位为0, 表示Cache中的这一块是空的
比较结果不相等, 有效位为1, 表示原来在CaE
块号B 块内地址w
块号b 块失效相等比较 Cache地址
块内地址w 命中
比较相等且
E
1 有效位为1，
访问Cache
区号E (按地址访问) 有效位
预取法
恒预取：只要访问到主存第i块的某个字，不论 Cache是否命中，恒发预取命令。
不命中时预取：近当访问第i块不命中时，才预取命令。
采用预取法并非能提高命中率，其他因素
块的大小预取开销
说明
采用缓冲器技术是减少预取干扰的好办法
模拟结果表明
恒预取法使不命中率降低75%--80% 不命中率时预取法使不命中率降低30%--
块失效率明显降低
组相联映象方式的缺点：实现难度和造价要比直接映象方式高
地址变换过程：用主存地址的组号G按地址访问块表存储器
把读出来的一组区号和块号与主存地址中的区号和块号进行相联比较如果有相等的，表示Cache命中如果没有相等的，表示Cache没有命中
段相联映象
减少相联目录表的容量，降低成本，提高地址变换速度。
本节讨论的内容仅限于单处理机、单存储器造成Cache与主存的不一致的原因：
由于CPU写Cache，没有立即写主存由于IO处理机或IO设备写主存
CPU I/O
CPU I/O
X’ Cache
X’ Cache
主存储器 X
主存储器 X
(a) CPU写Cache
(b) I/O写主存
Cache与主存不一致的两种情况
访问Cache的时间时访问主存时间的1/4到1/10； Cache和CPU是同类型的半导体器件； Cache-主存间的地址映像和变换，以及替换、
调度算法用硬件实现，对应用程序员透明，也对系统程序员透明；
基本结构（续）
Cache在物理位置上靠近CPU，不在主存，减少传输延迟；
除Cache到处理机的通路外，还设有主存到处理机的通路，因此，Cache既是Cache-主存存储层次中的一级，又是处理机和主存的一个旁视存储器；
如果Cache的块数为Cb，主存的块数为Mb，映象关系共有：Cb×Mb种。
用硬件实现非常复杂在虚拟存储器中，全部用软件实现
相联目录表法变换过程，如下图。特点：
冲突概率低空间利用率高地址变换复杂
块0 块1 …… 块Cb-1
Cache
块0 块1 …… 块i …… 块Mb-1
被访问的块号（经相联比较找到）
比较对法
让各个块成对组合，用一个触发器的状态表示该比较对内两块访问的远近次序，再经门电路就可找到 LRU块。
适用于组内块数较少的组相联映像Cache。
&
&
&
0
10
1
TAB
TAC
0
1
TBC
访问C
访问B
访问A
替换算法的设计要考虑的问题
如何对每次访问进行纪录（适用位法、堆栈法、比较对法所用的记录方法都不同）
主存储器
全相联映象方式
主存地址相联比较
块号B
块号b 命中
块内地址
块内地址w Cache地址
B
b
主存块号B Cache块号b 有效位目录表（由相联存储器组成，共Cb个字）
直接映象与变换
定义及规则
映象规则：主存中一块只能映象到Cache的一个特定的块中。
计算公式： b＝B mod Cb，其中：
写回法与写直达法的优缺点比较
可靠性，写直达法优于写回法
与主存的通信量,写回法少于写直达法
例如：写操作占总访存次数的20％, Cache命中率为 99%, 每块4个字。当Cache发生块替换时, 有30% 块需要写回主存, 其余的因未被修改过而不必写回主存。则对于WT法, 写主存次数占总访存次数的 20%。而WB法为(1-99%) *30%*4=1.2%。因此,
在选取地址映象方法要考虑的主要因素：
地址变换的硬件容易实现；地址变换的速度要快；主存空间利用率要高；发生块冲突的概率要小
四种方式
全相联映象与变换直接映象与变换组相联映像与变换段相联映象
全相联映象与变换
定义及规则
映象规则：主存中的任意一块都可以映象到 Cache中的任意一块。
如何根据所纪录的信息来判定近期内哪一块是最久没有被访问过的
Cache替换算法的主要特点：全部用硬件实现
Cache存储器的透明性及性能分析
Cache的透明性 Cache的取算法 Cache存储器性能分析
Cache的透明性和一致性问题
由于Cache存储器的地址变换和块替换算法全由硬件实现，因此Cache-主存存储层次对应用程序员和系统程序员都是透明的。
Cache工作速度很高，可以将其集成到CPU内。高性能 CPU通常用两级Cache,一级在CPU内，其容量比较小，速度很快，第二级在主板上，容量比较大，速度比第一级低5倍左右。
Cache全部用硬件调度对所有程序员都是透明的。 Cache与主存储器之间以块为单位进行数据交换。块的
大小通常以在主存储器的一个存储周期内可以访问到的数据长度为限。
区表存储器
提高Cache速度的一种方法：
把区号存储器与Cache合并成一个存储器
直接映象方法的主要优点：
硬件实现很简单, 不需要相联访问存储器访问速度也比较快, 实际上不做地址变换
直接映象方式的主要缺点:
块的冲突率较高
区号E
块号B 块内地址w
块号b 块内地址w
访主存相等比较相等
Cache存储系统与虚拟存储系统比较
存储系统要达到的目标
Cache 虚拟存储器提高速度扩大容量
实现方法
全部硬件
软件为主硬件为辅
两级存储器速度比
页(块)大小等效存储容量
3~10倍 1~16字主存储器
105倍
1KB~16KB 虚拟存储器
透明性
对系统和仅对应用应用程序员程序员
不命中时处理方式等待主存储器任务切换
来自处理机
主存地址
块号
块内地址
不命中
已装不进
还命中
可装入
主存-Cache 地址映象变换机构
Cache 替换策略
访主存装入Cache
块号
块内地址
Cache 地址
访主存替换Cache
高速缓冲存储器Cache
Cache 单字宽
多字宽
单字宽
去处理机
直接通路
主存
基本结构
把主存和Cache机械等分成相同大小的块（行），块比页小得多；
不按写分配法：在写Cache不命中时，只把所要写的字写入主存。
按写分配法：在写Cache不命中时，还把一个块从主存读入Cache。
目前，在写回法中采用按写分配法，在写直达法中采用不按写分配法。
Cache的取算法
按需取进法：出现Cache块失效时，才将要访问的字所在的块（行）取进。

块0

……
组 0

Gb-1

Gb

……
组 1

2Gb-1

区
……
0

块0

组0
……

GbCg-Gb ……
组 Cg-1

Gb-1

Cb-1=GbCg-1

Gb

1
……

……

2Gb-1

……
GbCg(Me-1)

……
Cg(Me-1)
GbCg(Me-1)+G
…… 块2Cb-1
…… 块Mb-Cb
…… 块Mb-1
区0 区1 区Me-1 主存储器
地址变换过程
用主存地址中的块号B去访问区号存储器
把读出来的区号与主存地址中的区号E进行比较
比较结果相等, 且有效位为1, 则Cache命中
比较结果相等, 有效位为0, 表示Cache中的这一块已经作废
送CPU 1/w
…
1
E D0 D1 …… Dw-1
有效位区号数据0 数据1 …… 数据w-1 按地址访问的Cache
组相联映像与变换
定义及规则：各组之间是直接映象，组内各块间是全相联映象。
变换过程，如下图。讨论：
S=nv时，全相联映像； S=0时，直接映像；当主存空间和Cache空间确定时，q+s已确定； s值大，组内页数多，冲突概率小，变换复杂； s值小，组内页数少，冲突概率大，变换简单；