Lecture 14 高速缓冲存储器

合集下载

组成第十四讲：快速缓冲存储器

计算机组成原理
cache基本原理直达法：优点：数据不会出现不一致缺点：对写操作没有高速缓存的作用回写法：优点：速度快缺点：存在数据不一致隐患
计算机组成原理
cache基本原理对于共享一个主存的多处理机系统，因为处理机各自拥有 cache存储器，所以必须采用写直达法将任何一个cache 中修改的内容同时写入主存，保证其他cache向主存调用信息块时是修改过的而不是失效的信息。这点对于拥有多个处理机而共享一个主存的计算机系统特别重要。
计算机组成原理
高速缓冲存储器（cache） cache的工作机制 cache基本原理地址映象（映射）与地址变换 cache与主存数据的一致性替换策略高速缓冲器cache的构成
计算机组成原理
cache的工作机制高速缓冲存储器cache的工作机制基于程序访问的局部性原则。一个运行程序的代码大都顺序存放在地址连续的存储器中，与程序相关的数据在存储器中也相对集中。程序运行时，尤其有循环程序段和子程序段时，在较短的时间区间内，常会对局部范围的存储器频繁访问，某存储单元被访问了，该单位可能会被再次访问，大多数存取又是在紧接着上次存取地址附近，而此范围之外的地址访问甚少。这种现象称程序访问的局部性。
cache基本原理 cache存储器多采用与CPU相同类型的半导体集成电路制成的高速存储元件SRAM；存取速度比主存快且与CPU接近；整个cache存储器介于CPU和主存之间，直接接受 CPU访问； CPU不仅与cache相接，而且与主存仍然保持通路。
计算机组成原理
计算机组成原理
计算机组成原理
cache基本原理高速缓冲存储器包括： cache控制部件 cache存储器

Lecture 14 存储器-高速缓冲存储器

高速缓存的理论依据

程序访问的局部性时间局部性：如果一个存储单元被访问，则可能该单元会很快被再次访问，这称为程序访问的时间局部性。空间局部性：在一个较短的时间间隔内，CPU对局部范围的存储器地址频繁访问，而对此地址范围之外的地址访问很少；设立高速缓存的理论依据是程序访问的局部性

逐行相加
逐列相加
代码1多次运行的平均时间为0.25ms 代码2多次运行的平均时间为0.35ms
例
对于双精度数的矩阵，处理器为拥有1MB二级Cache的 MIPS R4000，在机器SG Challeage L上，CPU运行时间为77.2s。如果循环次序改为k,j,i，执行时间为44.2s。利用一种称为分块的技术进一步优化编译，大大提高调整缓存的命中率，可以使运行时间少于10s! for(i=0;i!=500;i++) 面对CPU与存储器越来 for(j=0;j!=500;j++) 越大的速度差异，一种 for(k=0;k!=500;k++) 可能的途径是寻求软件 x[i][j]=x[i][j]+y[i][k]*z[k][j]; 帮助。使用大量的程序
00组
01组
1111
(1) 直接映射
块号
0001
组标记
00 00 01 10 11
0000 0001 0010 0011 0100 0101 0110 0111源自00组01组1111
分析：CPU访问主存第1块的过程
(1) 直接映射
块号
0001
组标记
00 01 01 10 11
0000 0001 0010 0011 0100 0101 0110 0111

高速缓冲存储器名词解释

高速缓冲存储器名词解释高速缓冲存储器（CacheMemory）是计算机系统中用来加快访问速度的一种临时存储器。

它可以被看作是内存系统中一层虚拟存储器，能够有效地把系统从内存、磁盘等设备中获取的数据以及未来所需要的数据暂存到cache memory中。

简言之，cache memory是一种可用来为CPU加速数据访问速度的存储器，是由CPU直接访问的一种高速存储器。

高速缓冲存储器由三个部分组成：cache级（cache level）、cache 缓存行（cache line）和cache单元（cache cell）。

cache是一组缓存行的集合，是 cache memory最小单元。

cache是由一组相连接的 cache line成。

cache line括一组相同大小的 cache元，每个单元根据它的作用可分为三类：索引（index）、标记（tag）、数据（data）。

cache可以将源数据分成多个子集，并将其中一部分存储到cache memory 中，以便快速访问。

cache据地址映射（address mapping）原理，将一段内存区域缩小，便于数据的快速访问。

当 CPU求某条指令时，它会首先检查 cache 中是否已经缓存了这条指令，如果缓存中有，就可以从 cache 中取出该指令，省去了访问主存的时间，这样就提高了 CPU运算速度。

除此之外，高速缓冲存储器还利用了多级缓存（multi-level cache）技术，把cache memory分为多级，从而提高了 cache memory 命中率。

在这种技术下，如果一级缓存（L1 cache）中没有找到所要访问的数据，则会再到二级缓存（L2 cache）中查找。

如果L2 cache中也没有相应的数据，则会再去其他更高级的缓存中查找，直至主存中的数据被访问到。

多级缓存的出现大大提高了 cache memory性能，大大提升了整个系统的访问效率，从而使CPU能更加高效地运行程序。

高速缓冲存储器

3.7 高速缓冲存储器高速缓冲存储器的功能是提高CPU数据输入/输出的速率，突破所谓的存储器瓶颈问题，即CPU与存储系统间数据传送带宽限制。

高速缓冲存储器能以极高的速率进行数据的访问，但因其价格高昂，所以只在CPU和主存之间添加少量的Cache，利用程序的局部性原理来进行工作。

3.7.1 程序访问的局部性原理程序访问的局部性有两个方面的含义：时间局部性和空间局部性。

时间局部性是指最近的访问项（指令/数据）很可能在不久的将来再次被访问（往往会引起对最近使用区域的集中访问），而空间局部性是指一个进程访问的各项地址彼此很近。

换句话说，就是最近的、未来要用的指令和数据大多局限于正在用的指令和数据，或是存放在与这些指令和数据位置上邻近的单元中。

这样，就可以把目前常用或将要用到的信息预先放在存取速度最快的存储器中，从而使CPU的访问速度大大提高。

依据局部性原理，把主存储器中访问概率高的内容存放在Cache中，当CPU需要读取数据时，首先在Cache中查找是否有所需内容，如果有则直接从Cache中读取；若没有再从主存中读取该数据，然后同时送往Cache和CPU。

如果CPU需要访问的内容大多都能在Cache中找到（称为命中），则可以大大提高系统性能。

3.7.2 Cache的基本工作原理如图3-13所示给出了Cache的基本结构。

Cache和主存都被分成若干个大小相等的块，每块由若干字节组成。

由于Cache的容量远小于主存的容量，所以Cache的块数要远少于主存的块数，它保存的信息只是主存中最活跃的若干块的副本。

用主存地址的块号字段访问Cache标记，并将取出的标记和主存地址的标记字段相比较，若相等，说明访问Cac he有效，称Cache命中，若不相等，说明访问Cache无效，称Cache不命中或失效，而此时需要从主存中将该块取出至Cache中。

当CPU发出读请求时，如果Cache命中，就直接对Cac he进行读操作，与主存无关；如果Cache不命中，则仍需访问主存，并把该块信息一次从主存调入Cache内。

《高速缓冲存储器》PPT课件

2021/3/8
20
不命中时处理方式等待主存储器任务切换
2021/3/8
3
来自处理机
主存地址
块号
块内地址
不命中
已装不进
还命中
可装入
主存-Cache 地址映象变换机构
Cache 替换策略
访主存装入Cache
块号
块内地址
Cache 地址
访主存替换Cache
高速缓冲存储器Cache
Cache 单字宽
多字宽
地址变换的硬件容易实现；
地址变换的速度要快；
主存空间利用率要高；
发生块冲突的概率要小
2021/3/8
7
四种方式
全相联映象与变换
直接映象与变换
组相联映像与变换
段相联映象
2021/3/8
8
全相联映象与变换
定义及规则
映象规则：主存中的任意一块都可以映象到 Cache中的任意一块。
如果Cache的块数为Cb，主存的块数为Mb，映象关系共有：Cb×Mb种。
11
主存地址相联比较
块号B
块号b 命中
块内地址
块内地址w Cache地址
B
b
主存块号B Cache块号b 有效位目录表（由相联存储器组成，共Cb个字）
2021/3/8
12
直接映象与变换
定义及规则
映象规则：主存中一块只能映象到Cache的一个特定的块中。
计算公式： b＝B mod Cb，其中：
比较结果不相等, 有效位为0, 表示Cache中的这一块是空的
比较结果不相等, 有效位为1, 表示原来在Cache中的这一块是有用的

高速缓冲存储器cache的原理

高速缓冲存储器cache的原理高速缓冲存储器（Cache）原理简介什么是高速缓冲存储器•高速缓冲存储器（Cache）是计算机体系结构中一种用于提高数据传输速度的存储器层次结构。

•它位于处理器和主存储器之间，作为一个中间层，存储处理器频繁使用的数据，以提供更快的访问速度。

高速缓冲存储器的工作原理1.局部性原理–高速缓冲存储器的设计基于计算机程序的局部性原理。

–局部性原理包括时间局部性和空间局部性两个方面。

–时间局部性指的是在一段时间内，CPU对某些数据的访问很频繁。

–空间局部性指的是当访问某个地址时，很可能在不久的将来还会访问附近的地址。

2.缓存工作原理–高速缓冲存储器通过存储最近使用的数据来加速访问速度。

–缓存采用一种称为缓存行的数据块单位，将主存储器中的数据缓存在缓存中。

–缓存行的大小一般为2^n字节，其中n为缓存行地址的位数。

–当CPU需要从主存储器中读取数据时，首先会检查缓存中是否有对应的缓存行。

–如果有，称为缓存命中；如果没有，称为缓存未命中。

3.缓存命中–当缓存命中时，CPU可以直接从缓存中读取数据，避免了对主存储器的访问，大大提高了访问速度。

–同时，缓存还可以缓存下一条指令，提前加载到缓存中，以等待CPU的执行。

4.缓存未命中–当缓存未命中时，需要从主存储器中读取数据，此时会引起一定的延迟。

–缓存未命中会触发缓存替换算法，将最近最少使用的缓存行替换出去，腾出空间存放新的缓存行。

5.缓存替换算法–常见的缓存替换算法有最近最久未使用（LRU）、先进先出（FIFO）和随机替换等。

–这些算法会根据缓存行的使用频率等因素来进行替换决策。

–替换算法的选择往往取决于不同的应用场景和硬件架构。

高速缓冲存储器的优势与应用•高速缓冲存储器极大地提高了计算机的性能和效率。

•它可以减少CPU对主存储器的访问次数，缩短了数据传输的时间。

•高速缓冲存储器被广泛应用于各种计算机硬件架构中，包括个人电脑、服务器和嵌入式系统等。

高速缓冲存储器

1.1 Cache的工作原理
Cache的实现原理是：将CPU最近最可能用到的指令或数据从主存复制到Cache中，当CPU下次再用到这些信息时，就不必访问慢速的主存，而直接从快速的Cache中得到，从而提高访问速度。
Cache的工作原理
当 CPU 发出读命令时， Cache 控制部件先要检查CPU送出的地址，判断 CPU 要访问的地址单元是否在 Cache 中。若在，称为 Cache 命中， CPU 就可直接从 Cache 中访问；若不在，则称为Cache未命中（或失效），这时就需要从内存中访问，并把与本次访问相邻近的存储区内容复制到 Cache中，以备下次使用。组内全相联映来自的方法。高速缓冲存储器
1.3 Cache的替换策略
当CPU访问的数据不在Cache中（即Cache未命中）时，就要访问主存，并把数据所在的页调入Cache，以替换Cache中的页。
从C随ac机he替中换随算机法地选一页替换。
先进选先择出最（先F调IF入O的）页算法替换
最近最少使用（LRU）选择最算近法最少使用的页替换。
写贯穿法（ WT ）：在对 Cache 进行写操作的同时，也写入主存。
回写法（ WB ）：在对 Cache 进行写操作时，不写入主存，只是在Cache中加以标记。只有当Cache 中的数据被再次更改时，才将原更新的数据写入主存。
微机原理与接口技术
高速缓冲存储器
1.2 Cache的地址映射
被复制到Cache中的数据在内存中的地址与在Cache 中的地址之间的对应关系称为Cache的地址映射。
为了方便管理，将主存和Cache都分成大小相等的若干页。设主存容量为2n，Cache容量为2m，页的大小为2p（即页内地址有p位），则主存的页号（即页地址）共有n－p位，Cache页号共有m－p位。这样，在进行地址映射时，就是把主存页映射到Cache页上（即页号的映射）。

高速缓冲存储器相关知识

高速缓冲存储器高速缓冲存储器（Cache）其原始意义是指存取速度比一般随机存取记忆体（RAM）来得快的一种RAM，一般而言它不像系统主记忆体那样使用DRAM技术，而使用昂贵但较快速的SRAM技术，也有快取记忆体的名称。

一、基本概念在计算机存储系统的层次结构中，介于中央处理器和主存储器之间的高速小容量存储器。

它和主存储器一起构成一级的存储器。

高速缓冲存储器和主存储器之间信息的调度和传送是由硬件自动进行的。

某些机器甚至有二级三级缓存，每级缓存比前一级缓存速度慢且容量大。

而这时，一开始的高速小容量存储器就被人称为一级缓存。

二、组成结构高速缓冲存储器是存在于主存与CPU之间的一级存储器，由静态存储芯片(SRAM)组成，容量比较小但速度比主存高得多，接近于CPU的速度。

主要由三大部分组成：Cache存储体：存放由主存调入的指令与数据块。

地址转换部件：建立目录表以实现主存地址到缓存地址的转换。

替换部件：在缓存已满时按一定策略进行数据块替换，并修改地址转换部件。

三、作用介绍在计算机技术发展过程中，主存储器存取速度一直比中央处理器操作速度慢得多，使中央处理器的高速处理能力不能充分发挥，整个计算机系统的工作效率受到影响。

有很多方法可用来缓和中央处理器和主存储器之间速度不匹配的矛盾，如采用多个通用寄存器、多存储体交叉存取等，在存储层次上采用高速缓冲存储器也是常用的方法之一。

很多大、中型计算机以及新近的一些小型机、微型机也都采用高速缓冲存储器。

高速缓冲存储器的容量一般只有主存储器的几百分之一，但它的存取速度能与中央处理器相匹配。

根据程序局部性原理，正在使用的主存储器某一单元邻近的那些单元将被用到的可能性很大。

因而，当中央处理器存取主存储器某一单元时，计算机硬件就自动地将包括该单元在内的那一组单元内容调入高速缓冲存储器，中央处理器即将存取的主存储器单元很可能就在刚刚调入到高速缓冲存储器的那一组单元内。

于是，中央处理器就可以直接对高速缓冲存储器进行存取。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

地址映射策略（如何判断命中取决于映射策略）替换策略写策略
Cache－主存的地址映射
主存和缓存的编址
主存储器
0… 1
主存块号字块 0 字块 1
标记
0
1
Cache
…
缓存块号字块 0 字块 1
… …
~
2s－1
~
~~
2r－1
字块 S－1
~~
地址映射策略（如何判断命中取决于映射策略）替换策略写策略
关键问题之一：地址映射
0
1 2
0组
3
0
4
1 2 3
5 6
1组
（1）直接映射：主存中的每个块只能映7 射到
高速缓存中某固定的行；
特点：硬件简单、成本低、适合于需要大容量
高速缓存的场合。
(1) 直接映射
5
组标记
0
11
2 3
0
1 2
0组
主要内容
高速缓存的目的高速缓存的理论依据高速缓存的工作过程关键问题
地址映射策略（如何判断命中取决于映射策略）替换策略写策略
关键问题之二：替换策略
组标记
0
11
2 3
0
1 2
0组
3
4
5 6
1组
7
对于直接映射，映射位置唯一，直接替换。
关键问题之二：替换策略
组标记
0 1 2 3
3
4
5 6
1组
7
分析：CPU访问主存第5块的过程
(1) 直接映射
组标记
0
11
2 3
0
1 2
0组
3
4
5 6
1组
7
缺点：高速缓存空间的利用率较低；
分析：如果第5块已在高速缓存中，CPU又要访问第1块
（2）全相联映射
0
1
2
组标记
3
0
4
51
5
2 3
6
7
缺点：需要描述所有行，效率低；改进：组相联映射！
分析：CPU访问第5块的过程
0
1 20组34源自5 61组7
对于全相联映射，有空闲行时，不需要替换
关键问题之二：替换策略
组标记
0 1 2 3
0
1 2
0组
3
4
5 6
1组
7
对于全相联映射，无闲行时，由于映射位置不唯一，需要按一定策略从多个候选中选择一行替换。
Cache-主存储器的技术指标
缓存共有 R 块主存共有 S 块 S >> R 命中主存块调入缓存
逐列
代码1多次运行的平均时间为0.25ms 代码2多次运行的平均时间为0.35ms
课程结构
高速缓冲存储器
主要内容
高速缓存的目的高速缓存的理论依据高速缓存的工作过程关键问题
主存与高速缓存的地址映射替换策略
高速缓存的目的
高速缓冲存储器
高速缓存的目的
高速缓存
CPU
主
外
存
存
高速缓冲存储器：容量小、速度快目的是提高CPU访问存储器的效率
主存块与缓存块建立了对应关系未命中主存块未调入缓存
主存块与缓存块未建立对应关系
Cache-主存储器的技术指标
设执行一段程序时， Cache存储器完成存取的次数为Nc，主存储器完成存取的次数为Nm， Cache存储器存取周期为Tc，主存储器为Tm ，则Cache存储器的技术指标为： ① cache的命中率: H＝ Nc／(Nc＋Nm) ② 两级存储器的平均访问时间：
程序访问的局部性时间局部性：如果一个存储单元被访问，则可能该单元会很快被再次访问，这称为程序访问的时间局部性。空间局部性：在一个较短的时间间隔内，CPU对局部范围的存储器地址频繁访问，而对此地址范围之外的地址访问很少；
设立高速缓存的理论依据是程序访问的局部性
主要内容
高速缓存的目的高速缓存的理论依据高速缓存的工作过程关键问题
地址映射策略（如何判断命中取决于映射策略）替换策略写策略
高速缓存的工作过程
数据交换单位： •cache与主存间：块； •CPU与cache间：字。
问题1：如何判断命中？
高速缓存的工作过程
问题2：映射到哪里？
高速缓存的工作过程
问题3：替换谁？即留下谁？
主要内容
高速缓存的目的高速缓存的理论依据高速缓存的工作过程关键问题
例
代码1 int a[3000][10]; for (i=0;i<3000;i++)
for(j=0;j<10;j++) { sum+=a[i][j];}
逐行
代码2 int a[3000][10];
for(j=0;j<10;j++) for(i=0;i<3000;i++) { sum+=a[i][j];}
地址映射策略（如何判断命中取决于映射策略）替换策略写策略
一个例子
问题：宿舍书架上有很多书，今天上课你是否会把整个书架都带教室中？
如果我们不知道今天上什么课，但记得上周上了《计算组成原理》的第1章，《大学英语》的第2课，...。这周会上什么课、什么内容呢？
高速缓存的理论依据
Ta＝H×Tc＋(1 – H)×(Tc＋Tm) = Tc＋(1 – H)×Tm
③ 两级存储器的访问效率：e＝Tc／Ta
说明
用0,1分别标记对应块中的内容是否有效开始执行程序时，命中率较低。 Cache的容量和块的大小是影响Cache的效
率的重要因素。通常用“命中率”来测量 Cache的效率。 Cache容量太小会使命中率太低； Cache容量过大会增加成本，而且当容量超过一定值后，命中率随容量的增加将不会有明显地增大。
补充：存储系统的层次结构
Cache－主存－辅存三级存储层次如图所示。
❖Cache由SRAM组成，容量最小，速度最快； ❖内存由DRAM组成，容量适中，速度适中； ❖外存由磁表面存储器组成，容量最大，速度最慢； ❖各层次中存放的内容都可以在下一层次中找到。
主要内容
高速缓存的目的高速缓存的理论依据高速缓存的工作过程关键问题
例
CPU执行一段程序时，Cache完成存取的次数为5000次，主存完成存取的次数为200次。已知Cache存取周期为40ns，主存存取周期为160ns。求：
(1) Cache 命中率H。 (2) 平均访问时间Ta。 (3) Cache／主存系统的访问效率e。解：(1)命中率 H＝Nc／(Nc＋Nm)
＝5000／(5000＋200)＝0.96 (2)平均访问时间：Ta＝Tc＋(1 – H)×Tm ＝40ns＋(1 – 0.96)×160ns＝46.4ns (3)访问效率：e＝Tc／Ta＝（40ns／46.4ns）×100%＝ 86.2%
主要内容
高速缓存的目的高速缓存的理论依据高速缓存的工作过程关键问题