cache性能分析及优化实验报告

合集下载

数据库缓存技术的设计与性能优化实验研究成果评述

数据库缓存技术的设计与性能优化实验研究成果评述一、引言数据库缓存技术是当前互联网应用和大数据领域中重要的一种技术手段。

通过减少对数据库系统的访问次数和时间，数据库缓存技术可以显著提高系统的性能和吞吐量。

本文将针对数据库缓存技术进行实验研究，评述相关的设计及性能优化成果。

二、数据库缓存技术的设计1. 数据库缓存的基本原理与设计数据库缓存是在数据库系统内部建立的一种高速缓存机制，用于存储数据库中经常访问的数据和查询结果。

传统的数据库会在每次查询时直接从磁盘中读取数据，而数据库缓存会将这些热门数据缓存到内存中，减少了磁盘IO的开销。

设计数据库缓存需要考虑缓存的一致性、命中率和清理策略等因素。

2. 缓存机制的优化与进化随着应用场景的变迁和技术的发展，数据库缓存技术也进行了不断的优化和进化。

例如，引入了分布式缓存技术（如Redis、Memcached）来应对高并发访问的需求；采用缓存预热技术来提前加载热门数据，避免冷启动的性能问题；引入了缓存穿透、缓存击穿和缓存雪崩的解决方案，提高了缓存的稳定性和容错性。

三、数据库缓存技术的性能优化1. 缓存命中率的优化方式缓存命中率是评估数据库缓存性能的重要指标。

若缓存命中率过低，将导致数据库压力加大，性能下降。

为提升缓存命中率，可采用以下优化方式：（1）合理设置缓存的容量和过期时间，避免缓存无效、过期导致的命中率下降；（2）使用LRU（Least Recently Used）等缓存淘汰算法，保留最常访问的数据，增加命中率；（3）对于特定查询或热门数据，可以采用缓存预热的方式，提前将其加载到缓存中。

2. 缓存策略的性能优化缓存策略直接影响了缓存的读写性能。

常见的优化策略有：（1）使用多级缓存，将缓存分为不同层级，将数据尽量放在更接近用户的缓存中，减少网络传输时间；（2）采用异步更新策略，将数据库的变更操作以消息队列或发布-订阅的方式异步传递给缓存，提高写入性能；（3）利用数据库的触发器或订阅机制，实时更新缓存，减少缓存与数据库之间的数据不一致性。

现代cache技术的研究课程设计报告

计算机组成与体系结构课程设计报告题目：现代计算机cache技术的研究学生姓名：谱学号： 10204102班级：10204102指导教师：谌洪茂2013 年1月6日摘要随着集成电路制造技术的持续发展,芯片的集成度和工作速度不断增加,功耗密度显著增大,功耗已经成为计算机系统设计中与性能同等重要的首要设计约束。

在现代计算机系统中,处理器速度远远高于存储器速度,Cache作为处理器与主存之间的重要桥梁,在计算机系统的性能优化中发挥着重要作用,但Cache也占据着处理器的大部分能耗。

处理器及其Cache存储器是整个计算机系统能耗的主要来源,降低其能耗对于优化计算机系统,特别是嵌入式系统,有着重要的意义。

本文主要研究体系结构级的低能耗技术,利用优化Cache结构和动态电压缩放两种技术来实现处理器及其Cache的低能耗。

本文首先详细地分析了低能耗Cache技术的研究现状,将该技术总结为基于模块分割的方法、基于路预测的方法、添加一级小Cache的方法、优化标识比较的方法和动态可重构Cache的方法等五大类,并在此基础上,提出了带有效位预判的部分标识比较Cache、带有效位判别的分离比较Cache、基于程序段的可重构Cache等三种Cache结构。

然后从不同的实现层面分析比较了现有的电压缩放技术及其缩放算法,提出了一种基于程序段的动态电压缩放算法。

最后结合可重构Cache和动态电压缩放技术,提出了一种基于程序段的可重构Cache及处理器电压自适应算法。

本文通过仿真实验证明了上述几种方法的有效性。

本文所取得的研究成果主要有: 1.一种带有效位预判的部分标识比较Cache(PTC-V Cache)。

组相联Cache实现了高命中率,但同时也带来了更多的能耗。

本文针对组相联Cache,提出了一种带有效位预判的部分标识比较Cache,它能够有效地节省Cache中信号放大器和位线的能耗。

结果表明,PTC-V Cache平均能够节省指令Cache中约55%的能耗。

Cache性能分析

第22卷第1期新乡教育学院学报2009年3月　V ol.22,N o.1JOURNA L OF XINXIANG E DUCATION COLLEGE M AR,2009　Cache性能分析Ξ程军锋(陇南师范高等专科学校,甘肃陇南742500)摘　要:随着计算机CPU的速度越来越快,计算机主存和CPU之间速度差异问题也日益突出,已经严重影响了计算机系统性能的提高。

现已有多种技术改进主存的存取速度来提高计算机系统性能,其中通过Cache提高存储系统速度是广泛采用的一种技术。

笔者主要介绍Cache的基本工作原理,同时也分析了引入Cache后计算机系统的性能,并介绍了一些改进Cache性能的方法。

关键词:高速缓冲存储器;命中率;加速比;失效;映射中图分类号:TP3 文献标识码:A 文章编号:1672Ο3325(2009)01Ο0111Ο03作者简介:程军锋(1980Ο),男,甘肃礼县人,助教。

研究方向:计算机基础理论教学。

计算机发展到现在,CPU主频的提升使得计算机系统性能有了极大地提高,但计算机系统性能提高不仅取决于CPU的性能,还与系统结构、指令系统、数据在各部件间的传送速度及存储部件的存取速度等因素有密切关系,特别是与CPU和主存之间的存取速度有着很大的关系。

如果CPU工作速度较快,而主存访问速度相对较慢,这样就会造成CPU 等待,浪费CPU的性能,降低处理器速度,进而影响计算机整体性能。

长期以来,计算机工作者一直研究解决主存与CPU的速度差异问题的方法,已有多种技术用来提高主存的访问速度,其中通过Cache(高速缓冲存储器)来提高存储系统速度就是一种有效的技术。

Cache是容量较小但速度快的半导体随机存储器,位于CPU和大容量主存之间,但存取速度比主存快得多。

它的作用是为CPU提供一个速度与之相当,而容量与主存相同的存储系统,以解决CPU和主存间速度不匹配的一项技术。

这种技术可在计算机系统成本增加很小的前提下,使计算机性能得到明显的提升。

计组实验报告

计组实验报告【实验名称】：基于MIPS的Cache设计与实现【实验目的】：通过设计、模拟和测试基于MIPS的Cache，理解和掌握Cache的基本原理和实现方法，加深对计算机组成原理的理解和应用。

【实验设备】：Xilinx ISE Design Suite 14.7、Verilog HDL仿真工具、Mars模拟器。

【实验原理】Cache是计算机系统中重要的存储器层次结构，它可以提高访问速度，降低访问延迟。

Cache是一种由高速存储器和控制电路组成的存储器，它的作用是缓存主存中最近使用过的指令和数据，当下一次需要使用这些指令和数据时，可以直接从Cache中获取，而不需要访问主存，从而提高访问速度。

计算机系统中的Cache存储器既可以用硬件实现，也可以用软件实现。

MIPS Cache包括指令Cache和数据Cache两个部分。

指令Cache用于存储CPU需要的指令，而数据Cache用于存储CPU需要的数据。

Cache中的每一个存储块叫做一个Cache 行，每一个Cache行包括若干字块，每一个字块包括若干字节。

Cache行的大小一般是2^n 个字节。

Cache使用一种叫做Cache命中的技术，通过判断当前CPU需要的数据是否在Cache中来确定是否需要访问主存。

如果当前CPU需要的数据在Cache中，则称为Cache命中，可以直接从Cache中获取数据；如果当前CPU需要的数据不在Cache中，则称为Cache未命中，需要从主存中获取数据。

Cache有三种常见的替换算法：随机替换算法、先进先出（FIFO）替换算法和最近最少使用（LRU）替换算法。

随机替换算法是最简单的方法，它实现起来比较简单，但是效率不高。

FIFO替换算法是一种比较简单的替换算法，它在实现的时候需要维护一个队列来保证替换最早进入Cache的数据，但是这种算法无法适应程序的访存局部性。

LRU替换算法是一种比较复杂的替换算法，它需要维护一个使用时间序列来记录各数据块被使用的时间，当需要替换时，选择使用时间最旧的数据块替换掉。

缓存算法的优化与性能分析研究

缓存算法的优化与性能分析研究随着互联网的发展，数据处理量越来越大，为了提高网站的响应速度，减轻服务器的负载，人们越来越需要用各种方法优化缓存算法，以提高缓存的效率与精度。

一、缓存算法的优化缓存技术不仅可以加速数据访问，还可以节约带宽等网络资源。

因此，缓存算法的优化非常重要，以下是几种可以优化缓存算法的方法。

1、增加缓存容量增加缓存容量是一种简单有效的方法。

缓存的容量通常受限于系统的硬件资源，因此通过增加硬件设置，可以有效提高缓存容量，提高缓存效率。

2、控制缓存过期时间为了避免缓存的过期时间太长，导致缓存中的数据不再是最新的，需要对过期时间进行控制。

对于一些高频率的数据，可以将过期时间适当调短，而对于一些不经常变化的数据，则可以将过期时间延长。

3、使用多级缓存使用多级缓存是一种非常有效的优化加速方法。

多级缓存可以将数据放入内存、硬盘、网络缓存器等缓存介质中，以满足不同级别的数据访问需求。

4、使用分布式缓存分布式缓存是一种能够提高系统性能的方法。

它可以将缓存对象分布在多个计算机节点上，从而实现数据的共享和扩展。

二、缓存算法的性能分析研究缓存算法的性能对于网站的响应速度和负载承受能力至关重要。

因此，需要对缓存算法进行全面的性能分析研究，以寻求更加高效的算法。

1、缓存算法性能分析指标缓存算法的性能可以通过以下指标进行评估：（1）缓存命中率缓存命中率是指缓存系统中所请求的的数据中，已经存在于缓存中的数据占总数据量的比例。

缓存命中率越高，系统效率越高。

（2）缓存访问频率缓存访问频率是指缓存中某个数据在一定时间内被访问的次数。

通过分析缓存中每个数据的访问频率，可以了解缓存算法的效果。

（3）缓存排列方式缓存排列方式指的是缓存中数据的存储方式。

良好的缓存排列方式可以提高缓存的命中率和效率。

2、常见的缓存算法常见的缓存算法包括以下几种：（1）LRU缓存算法LRU缓存算法即Least Recently Used缓存算法，是一种基于数据访问频率的缓存算法。

西安交大计算机系统结构实验报告.

《计算机系统结构课内实验》实验报告第一次实验：记分牌算法和Tomasulo算法第二次实验：cache性能分析班级：物联网21姓名：李伟东学号：2120509011日期：2015.5.21第一次实验：记分牌算法和Tomasulo算法一、实验目的及要求1. 掌握DLXview模拟器的使用方法；2. 进一步理解指令动态调度的基本思想，了解指令动态调度的基本过程与方法；3. 理解记分牌算法和Tomasulo算法的基本思想，了解它们的基本结构、运行过程；4. 比较分析基本流水线与记分牌算法和Tomasulo算法的性能及优缺点。

二、实验环境DLXview模拟器三、实验内容1.用DLX汇编语言编写代码文件*.s（程序中应包括指令的数据相关、控制相关以及结构相关），以及相关的初始化寄存器文件*.i和数据文件*.d；2.观察程序中出现的数据相关、控制相关、结构相关，并指出三种相关的指令组合；四、实验步骤将自己编写的程序*.s、*.i、*.d装载到DLXview模拟器上，（1）分别用基本流水线、记分牌算法和Tomasulo算法模拟，针对每一种模拟做如下分析：①统计程序的执行周期数和流水线中的暂停时钟周期数；②改变功能部件数目重新模拟，观察并记录性能的改变；③改变功能部件延迟重新模拟，观察并记录性能的改变；论述功能部件数目、功能部件延迟对性能的影响。

（2）记录运行记分牌算法时的功能部件状态表和指令状态表；（3）记录运行Tomasulo算法时的指令状态表和保留站信息；五、实验结果1）基本流水线原始即加法延迟2，乘法延迟5，实验结果显示该段程序运行了11个时钟周期增加了一个除法器。

加法器延迟2，乘法器延迟5，除法器延迟19。

实验结果显示该段程序运行了11个时钟周期。

增加除法器对程序的执行无影响。

加法器延迟2，乘法器延迟6，无除法器。

实验结果显示该段程序运行了12个时钟周期乘法器的延迟对程序执行有有影响。

加法器延迟1，乘法器延迟5。

cache实验报告

cache实验报告Cache实验报告一、引言计算机系统中的缓存（Cache）是一种用于提高数据访问速度的技术。

通过在CPU与主存之间插入一个高速缓存存储器，可以减少CPU等待主存数据的时间，从而提高系统的整体性能。

本实验旨在通过实际操作，深入了解并掌握Cache的工作原理。

二、实验目的1. 了解Cache的基本概念和工作原理；2. 学习Cache的组织结构和映射方式；3. 掌握Cache的读写操作流程；4. 分析Cache的命中率和访问延迟。

三、实验环境本实验使用Intel Core i7处理器和8GB内存的计算机。

四、实验步骤1. 确定实验所需的Cache参数，包括Cache大小、Cache块大小和关联度等；2. 设计并编写测试程序，用于模拟不同的内存访问模式；3. 运行测试程序，并记录Cache的读写命中次数和访问延迟；4. 分析实验结果，计算Cache的命中率和平均访问延迟。

五、实验结果与分析1. Cache命中率根据实验数据统计，我们可以计算出Cache的命中率。

命中率是指在所有内存访问中，Cache能够直接从Cache中读取数据的比例。

通过调整Cache的大小和关联度等参数，可以观察到命中率的变化。

实验结果表明，增加Cache的大小和提高关联度可以显著提高命中率。

2. 访问延迟访问延迟是指从CPU发出内存读写请求到实际完成读写操作所需的时间。

通过实验测量，我们可以得到不同访问模式下的平均访问延迟。

实验结果显示，随着Cache大小的增加，访问延迟逐渐减少。

这是因为Cache能够更快地响应CPU的读写请求，减少了CPU等待主存数据的时间。

3. 性能优化通过实验结果的分析，我们可以发现一些性能优化的方法。

首先，合理设置Cache的大小和关联度，可以提高命中率和降低访问延迟。

其次，采用合适的替换算法（如LRU）可以减少缓存失效的次数，提高Cache的效率。

此外，程序的空间局部性和时间局部性对Cache的性能也有重要影响，优化算法和数据结构可以提高程序的局部性，从而提高Cache的命中率。

实验1-Cache性能分析

西安邮电大学(计算机学院）课内实验报告实验名称：Cache性能分析专业名称：计算机科学与技术班级：学生姓名：学号（8位)：指导教师：实验日期：实验1 Cache性能分析1 实验目的(1)加深对Cache的基本概念、基本组织结构以及基本工作原理的理解。

(2)掌握Cache容量、相联度、块大小对Cache性能的影响。

(3)掌握降低Cache不命中率的各种方法.2 实验平台采用MyCache模拟器.MyCache模拟器的使用方法:（1) 双击MyCache。

exe，启动模拟器。

（2）系统打开操作界面,如下图所示:（3)略、写不命中时的调块策略。

可以直接从列表中选择.(4) 访问地址可以选择来自地址流文件，也可以选择手动输入.如果是前者，则可以通过单击“浏览"按钮，从模拟器所在文件夹下的“地址流”文件夹中选取地址流文件（.din）文件，然后执行。

执行得方式可以是单步,也可以选择一次执行结束。

如果选择手动输入，就可以在“执行控制”区域中输入块地址,然后单击“访问”按钮.系统会在界面的右边显示访问类型、地址、块号以及块内地址.(5) 模拟结果包括：●访问总次数,总的不命中次数,总的不命中率。

●读指令操作的次数,其不命中次数及其不命中率.●读数据操作的次数,其不命中次数及其不命中率。

●写数据操作的次数，其不命中次数及其不命中率。

●手动输入单次访问的相关信息。

3 实验内容和步骤3。

1 Cache容量对不命中率的影响（1) 启动MyCache.（2）单击“复位”按钮，将各参数设置为默认值。

（3）选择一个地址流文件。

具体方法：选择“访问地址”→“地址流文件"选项，然后单击“浏览”按钮，从本模拟器所在的文件夹下的“地址流”文件夹中选取。

（4) 选择不同的Cache容量，包括2KB，4 KB，8 KB，16 KB，32 KB,64 KB,128 KB和256 KB,分别执行模拟器（单击“执行到底”按钮就可执行),然后在表1.1中记录各种情况下的不命中率。

利用高速缓存(Cache)的局部性优化矩阵乘法

int sj, si, sk; for ( sj = 0; sj < n; sj += blocksize )
for ( si = 0; si < n; si += blocksize ) for ( sk = 0; sk < n; sk += blocksize )
-4-
do_block(n, blocksize, si, sj, sk, A, B, C); }
*B, double *C)
{
dgemm (n, blocksize, A+si*n+sk, B+sk*n+sj, C+si*n+sj);
//printf("\n");
//printf("%d %d %d\n", si, sj, sk);
//for(int i = 0; i < n; i++)
//{
}
-2-
分析：计算机在实际计算上述普通矩阵乘法时，所计算矩阵 C 的每一个数据时，都要用到矩阵 A 的某行和矩阵 B 中的某列，而矩阵 A、B 和 C 都是存储在内存中的，又由于 CPU 的速度远远大于访问内存的速度，如果是直接从内存读取和写回计算数据，那么计算效率是非常低下的，由于访问内存会导致时延，CPU 的计算资源被浪费，即计算效率低。为了提高计算速度，引入了 cache 机制，即先把存放在内存中的矩阵 A、B 的元素调入 cache，这样寄存器可以先寻访 cache，访问 cache 的速度要比访问内存的速度快，如果在 cache 中没有所需要的数据时，才需要访问内存。但是，矩阵 A、B 在实际应用中都包含大量的元素，数据量非常分庞大，也即，上述程序中 n 很大，而处理器中的 cache 往往很小，因此不能将整个矩阵全部放入 cache 中。因此需要将这些大的矩阵按照某种方法进行分块，使得分块后的小矩阵可以放入到 cache 中，但是分块又不能随意分，需要有一定的原则去分块，如果分块子矩阵太大，那么子矩阵还是不能全部放入 cache 中，如果分块子矩阵太小，那么为了计算一个大矩阵的数据，需要调入 cache 的子矩阵的次数会增加，因此需要选择合适的分块方法。 2.分块实现矩阵乘法，利用 cache 的局部性，优化程序性能： a) 安装 Linux 系统： b) 查看 Linux 系统 cache 的大小：

实验5 Cache实验

深圳大学实验报告课程名称：计算机系统(2)实验项目名称：Cache实验学院：计算机与软件学院专业：计算机与软件学院所有专业指导教师：罗秋明报告人：学号：班级：实验时间：2017年6月6日实验报告提交时间：2017年6月9日教务处制一、实验目标：了解Cache对系统性能的影响二、实验环境：1、个人电脑（Intel CPU）2、Fedora 13 Linux 操作系统三、实验内容与步骤1、编译并运行程序A，记录相关数据。

2、不改变矩阵大小时，编译并运行程序B，记录相关数据。

3、改变矩阵大小，重复1和2两步。

4、通过以上的实验现象，分析出现这种现象的原因。

程序A：#include <sys/time.h>#include <unistd.h>#include <stdio.h>main(int argc,char *argv[]){float *a,*b,*c, temp;long int i,j,k,size, m;struct timeval time1,time2;if(argc<2) {printf("\n\tUsage:%s <Row of square matrix>\n",argv[0]);exit(-1);} //ifsize=atoi(argv[1]);m =size*size;a=(float*)malloc(sizeof(float)*m);b=(float*)malloc(sizeof(float)*m);c=(float*)malloc(sizeof(float)*m);for(i=0;i<size;i++) {for(j=0;j<size;j++) {a[i*size+j]=(float)(rand()%1000/100.0);b[i*size+j]=(float)(rand()%1000/100.0);}gettimeofday(&time1,NULL);for(i=0;i<size;i++){for(j=0;j<size;j++){c[i*size+j]=0;for(k=0;k<size;k++)c[i*size+j]+=a[i*size+k]*b[k*size+j];}gettimeofday(&time2,NULL);_sec-=_sec;_usec-=_usec;if(_usec<0L) {_usec+=1000000L;_sec-=1;}printf("Executiontime=%ld.%6ld seconds\n",_sec,_usec);} //forreturn(0);}//main程序B：#include <sys/time.h>#include <unistd.h>#include <stdio.h>main(int argc,char *argv[]){float *a,*b,*c,temp;long int i,j,k,size,m;struct timeval time1,time2;if(argc<2){printf("\n\tUsage:%s <Row of square matrix>\n",argv[0]);exit(-1);}size=atoi(argv[1]);m=size*size;a=(float*)malloc(sizeof(float)*m);b=(float*)malloc(sizeof(float)*m);c=(float*)malloc(sizeof(float)*m);for(i=0;i<size;i++)for(j=0;j<size;j++){a[i*size+j]=(float)(rand()%1000/100.0);c[i*size+j]=(float)(rand()%1000/100.0);}gettimeofday(&time1,NULL);for(i=0;i<size;i++)for (j=0;j<size;j++){b[i*size+j]= c[j*size+i];for (i=0;i<size;i++)for(j=0;j<size;j++){c[i*size+j]= 0;for (k=0;k<size;k++)c[i*size+j]+=a[i*size+k]*b[j*size+k];} //forgettimeofday(&time2,NULL);_sec-=_sec;_usec-=_usec;if(_usec<0L){_usec+=1000000L;_sec-=1;}printf("Executiontime=%ld.%6ld seconds\n",_sec,_usec);}//forreturn(0);}四、实验结果及分析1、用C语言实现矩阵（方阵）乘积一般算法（程序A），填写下表：分析：由下图1，可得到上表的结果，程序主要代码如下所示，对二维数组b是跳跃的，类似下表1的访问顺序，这样导致了程序的空间局部性很差：for(j=0;j<size;j++){c[i*size+j] = 0;for (k=0;k<size;k++)c[i*size+j] += a[i*size+k]*b[k*size+j];}表1图22、程序B是基于Cache的矩阵（方阵）乘积优化算法，填写下表：分析：由下图4可以得到上表的数据，由下面主要代码可知，优化后的代码访问数组b的顺序类似下图3，这样相对程序A对cache的命中率大大得到了提高：for(j=0;j<size;j++){c[i*size+j] = 0;for (k=0;k<size;k++)c[i*size+j] += a[i*size+k] *b[j*size+k];} //for表2以下图说明为什么程序B的空间局部性好：图43、优化后的加速比（speedup）加速比定义：加速比=优化前系统耗时/优化后系统耗时；所谓加速比，就是优化前的耗时与优化后耗时的比值。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

实验报告实验名称：计算机原理cache性能分析及优化实验学员：张英杰学号： 201008040092 培养类型： 4+1军人年级：任职培训队专业：计算机科学与技术所属学院：计算机学院指导教员：唐玉华职称：研究员实验室：校计算机中心四号院机房实验日期： 2010.12.1—2010.12.19国防科学技术大学训练部制《实验报告》填写说明1．学员完成人才培养方案和课程标准要所要求的每个实验后，均须提交实验报告。

2．实验报告封面必须打印，报告内容可以手写或打印。

3．实验报告内容编排及打印应符合以下要求：（1）采用A4（21cm×29.7cm）白色复印纸，单面黑字打印。

上下左右各侧的页边距均为3cm；缺省文档网格：字号为小4号，中文为宋体，英文和阿拉伯数字为Times New Roman，每页30行，每行36字；页脚距边界为2.5cm，页码置于页脚、居中，采用小5号阿拉伯数字从1开始连续编排，封面不编页码。

（2）报告正文最多可设四级标题，字体均为黑体，第一级标题字号为4号，其余各级标题为小4号；标题序号第一级用“一、”、“二、”……，第二级用“（一）”、“（二）” ……，第三级用“1.”、“2.”……，第四级用“（1）”、“（2）” ……，分别按序连续编排。

（3）正文插图、表格中的文字字号均为5号。

一实验概述（一）实验目的1.掌握Cache的基本概念、基本组织结构2.掌握影响Cache性能的三个指标3.了解相联度对Cache的影响4.了解块大小对Cache的影响5.了解替换算法对Cache的影响6.了解Cache失效的分类及组成情况7.了解一些基本的Cache性能优化方法(选做)（二）实验步骤1.运行模拟器SimpleScalar2.在基本配置情况下运行矩阵乘计算程序统计Cache失效次数，并统计三种不同类型的失效3.改变Cache容量，统计各种失效的次数，并进行分析4.改变Cache的相联度，统计各种失效的次数，并进行分析5.改变Cache块大小，统计各种失效的次数，并进行分析6.改变Cache的替换策略，统计各种失效次数，并分析7.对给出的矩阵乘计算程序进行适当改写以优化cache性能。

(选做) （三）实验平台Vmware 虚拟机，redhat 9.0 linux 操作系统，SimpleScalar模拟器。

（四）实验课时3课时（五）参考资料计算机体系结构教材、SimpleScalar模拟器使用指南等二背景知识（一）Cache基本知识(1) 可以从三个方面改进Cache的性能：降低失效率、减少失效开销、减少Cache 命中时间；(2) 按照产生失效的原因不同，可以把Cache失效分为三类：1)强制性失效（Compulsory miss）当第一次访问一个块时，该块不在Cache中，需从下一级存储器中调入Cache，这就是强制性失效。

这种失效也称为冷启动失效或首次访问失效。

2)容量失效（Capacity miss）如果程序执行时所需的块不能全部调入Cache中，则当某些块被替换后，若又重新被访问，就会发生失效。

这种失效称为容量失效。

3)冲突失效（Conflict miss）在组相联或直接映象Cache中，若太多的块映象到同一组（块）中，则会出现该组中某个块被别的块替换（即使别的组或块有空闲位置），然后又被重新访问的情况。

这就是发生了冲突失效。

这种失效也称为碰撞失效（collision）或干扰失效（interference）。

(3) 降低Cache失效率的方法：增加Cache块大小、提高相联度、Victim Cache、伪相联Cache、硬件预取技术、由编译器控制的预取和编译器优化。

(4) 替换算法1)先进先出法(FIFO)2)随机法：为了均匀使用一组中的各块，这种方法随机地选择被替换的块。

3)最近最少使用法LRU（Least Recently Used）：选择近期最少被访问的块作为被替换的块。

但由于实现比较困难，现在实际上实现的LRU都只是选择最久没有被访问过的块作为被替换的块。

（二）Simpl eScalar简介及使用SimpleScalar 是上世纪由威斯康辛大学发布的一款开源模拟器，具备良好的可移植性和可扩展性。

SimpleScalar 在学术界具有十分重要的影响力，根据其官方网站统计，2000-2002 年体系结构顶级会议中有一半以上的研究者采用该模拟器来评估他们的研究成果。

作为一款时钟精确的模拟器，SimpleScalar 采用执行驱动方式模拟，包含功能模拟和性能模拟。

SimpleScalar 的指令集架构采用C 语言宏声明，目前3.0 版本主要支持PISA 指令集和Alpha 指令集。

根据模拟的目的不同，SimpleScalar 包含多个模拟器实体，从最简单的Sim-fast 到最为复杂的Sim-outorder，可分别用于功能模拟、Cache 配置策略、流水线、前瞻预测等体系结构问题的全面研究。

同时，随着SimpleScalar 一起发布的还有一系列工具链(交叉编译器，汇编器，流水线跟踪器等)，他们与SimpleScalar 的交互过程如图4.1所示。

Fortran 代码需要先由F2C工具转换为标准C 代码，交叉编译器则将标准C 代码编译为模拟器后端指令集下的二进制代码，交由模拟器执行模拟，通过这些交互最终实现一个完整的模拟平台。

图1 SimpleScalar模拟流程1.编写测试程序2.编译程序sslittle-na-sstrix-gcc hello.c含义：用simplescalar的编译器对hello.c进行编译，以生成能够在模拟器中运行的可执行文件，此条命令将hello.c编译成a.out.这种可执行文件并不是通常意义下的可执行文件，它的可执行性是相对于模拟器程序而已的。

（在这里我们猜测生成的可执行文件默认为a.out，a.out是默认生成的。

3.模拟运行sim-safe a.out含义：用sim-safe对a.out进行模拟运行。

Sim-safe是simplescalar中的一个模拟器，它会在指令的执行时检查指令的齐整性，检查访存指令的合法性等一些安全性检查。

SimpleScalar包含多个模拟器，复杂度由最简单的Sim-safe到最复杂的Sim-outordor,下面简要介绍这些模拟器。

（1）Sim-fastSim-fast是执行速度最快，最不关心模拟过程细节信息的子模拟器程序。

它采用顺序执行指令的方式，没有指令并行；不支持cache的使用，也不进行指令正确性检查，由程序员保证每条指令的正确性；不支持模拟器本身内嵌的Dlite！调试器（类似于gdb调试器）。

为了模拟器的速度优化，在缺省情况下，sim-fast模拟器不进行时间统计，不对指令的有关信息（如指令总数及访存指令数目）进行统计。

当然，可以修改模拟器源程序，通过改变其设置，使模拟器更加符合设计人员的需求。

（2）Sim-safe在工具集中，是最简单的最友好的模拟器，检查所有的指令错误，不讲究速度。

（3）Sim-bpred实现一个分支预测分析器。

（4）Sim-cache这个工具实现cache模拟功能，为用户择的cache和快表设置生成cache统计，其中可能包含两级指令和数据cache ，还有一级指令和数据快表，不会生成时间信息。

（5）Sim-eio这个模拟器支持生成外部事件跟踪（EIO traces）和断点文件。

外部事件跟踪俘获程序的执行，并且允许被打包到一个单独的文件，以备以后的再次执行。

这个模拟器也提供在外部事件跟踪执行中在任意一点做断点。

断点文件可被用于在程序运行中启动simplescalar 模拟器。

（6）Sim-outorder最完整的工具。

支持依序和乱序执行，branch predictor，memory hierarchy，function unit个数等参数设定。

这个模拟器追踪潜在的所有流水（pipeline）操作。

（7）Sim-profile也叫functional simulation，但提供较完整的模拟参数，可依照使用者之设定，决定所要模拟之项目，如instruction classes and addresses、text symbols、memory accesses、branches and data segment symbols以方便使用者整理收集数据材料。

三实验内容（一）Simpl eScalar基本运行模拟开启虚拟机软件Vmware，点击菜单“Flie->Open”，打开目录” D:\Red Hat Linux\”下的Red Hat虚拟机。

该虚拟机的用户名和密码如下：用户名为:root密码:123456其中，SimpleScalar模拟器安装在目录/root/SimpleScalar下，test目录为矩阵乘测试程序所在目录点击右键->新建终端，进入目录/root/SimpleScalar/test/目录，命令为：[root@localhost root]# cd /root/simplescalar/test/1. 编译测试程序该目录下有一个 1.c文件，该文件为矩阵乘测试程序文件，首先需要使用SimpleScalar的交叉编译器将该文件便以为SimpleScalar模拟器上可以执行的二进制文件，编译命令为：[root@localhost test]# sslittle-na-sstrix-gcc 1.c此时该目录下会多出来一个a.out文件，该文件即为SimpleScalar上可执行二进制文件。

2．模拟执行我们采用SimpleScalar的sim-cache模拟器对刚才编译出来的可执行文件进行模拟执行，最简单的执行命令为：[root@localhost test]# sim-cache a.out如果执行成功，会出现如下图所示的界面：此时输入三个矩阵A,B,C的大小M、N、K，得到模拟执行结果，如下图所示：3．Cache配置在上述的执行中，没有对Cache的结构进行配置，使用了默认的Cache配置。

在我们的实验中，需要对Cache 参数进行详细配置。

一般来说，Cache的结构参数主要包括以下几个方面：容量、块大小、相联度、替换算法等。

在SimpleScalar模拟器中，采用了两级Cache结构，同时数据和指令Cache分开。

SimpleScalar的Cache参数配置命令为：<name>:<nsets>:<bsize>:<assoc>:<repl>其中：<name> ：Cache的名称，其中:dl1：一级数据Cachedl2：二级数据Cacheil1：一级指令Cacheil2：二级指令Cachedtlb：数据TLBitlb：指令TLB<nsets> ：组的数目<bsize>：块大小<assoc> -：相联度<repl> -：替换策略此时，Cache容量为：<nsets>*<bsize>*<assoc>替换策略主要有以下几种：l ：LRU，最近最少使用f ：FIFO，先进先出r ：RANDOM，随机策略例如:-cache:dl1 dl1:1024:32:2:l表示对一级数据cache进行配置，1024表示有1024组，Cache块大小为32个byte，每个组有2个Cache块，即相联度为2，替换策略为LRU。