众核处理器cache一致性研究综述_韩立敏

合集下载

片上多处理器体系结构中Cache一致性模型研究的开题报告

片上多处理器体系结构中Cache一致性模型研究的开题报告一、研究背景及意义随着计算机体系结构的不断发展和多核处理器技术的普及，现代计算机系统中出现了许多面临Cache一致性问题的共享内存并发程序。

在这些并发程序中，多个处理器同时访问共享数据，并且对这些共享数据进行修改与更新，这就会产生Cache一致性问题，即多个处理器拥有自己的Cache，相互之间的缓存数据可能不一致，导致程序出错。

因此，研究Cache一致性问题是至关重要的。

目前，对于Cache一致性问题的解决方案已经有了很多研究，其中较为常见的方案是通过多个处理器之间的协议来维护Cache一致性。

这些协议可以保证在多个处理器并发访问同一块数据时，处理器之间的Cache中的数据保持一致。

二、研究内容本研究将深入研究片上多处理器体系结构中的Cache一致性问题，并通过设计实验并进行仿真验证，来探究不同Cache一致性协议下的性能表现。

具体而言，本研究将包括以下内容：1. 系统性能分析：通过对片上多处理器体系结构的性能分析，了解系统的主要瓶颈，以及不同处理器之间的通信方式。

2. Cache一致性协议设计：设计不同的Cache一致性协议，并对协议进行评估，以找到最佳的Cache一致性协议。

3. 实验设计和仿真验证：通过使用模拟器对设计的Cache一致性协议进行验证，来测试不同处理器之间的性能表现。

4. 结果分析：对比不同Cache一致性协议的性能表现，并分析其优缺点。

三、研究方法和技术路线本研究将采用以下方法和技术路线：1. 文献综述：对相关文献进行详细的调研和分析，了解已有的研究成果和不足。

2. 系统性能分析：基于Simics模拟器搭建片上多处理器体系结构，对系统性能进行分析，从体系结构角度分析系统性能瓶颈。

3. Cache一致性协议设计：设计易于实现和优化的Cache一致性协议，并进行有效性和可扩展性分析。

4. 实验设计和仿真验证：利用gem5模拟器验证不同Cache一致性协议的性能表现。

多处理器Cache一致性分析

多处理器Cache一致性分析[摘要]随着社会不断向前发展，人类对计算速度和计算规模的需求不断提高。

而单处理器计算机系统由于处理器运算性能受限于芯片速度极限和加工工艺极限，不可能无限提高。

于是超大规模并行处理系统应运而生。

但这也引入了一些在单处理器系统中没有出现的问题。

在系统中出现的多机存储信息的一致性问题便是当今国际上研究的热门问题之一。

为了缓和CPU与存储器之间的速度差距，在计算机系统的CPU与主存之间引入了cache。

但在多处理器系统中，由于多个处理器可能对同一数据块进行读写操作，当某个处理器对共享的数据块进行写操作时，其它处理器的cache中该数据块的副本将成为过时的数据。

如果不及时地通知相应的处理器，将导致错误的运行结果。

本文介绍了Cache的作用，Cache一致性问题的原因及解决这个问题的两种协议。

[关键字]Cache、Cache一致性、监听协议、基于目录的协议一、Cache简介和工作原理虽然CPU主频的提升会带动系统性能的改善，但系统性能的提高不仅仅取决于CPU，还与系统架构、指令结构、信息在各个部件之间的传送速度及存储部件的存取速度等因素有关，特别是与CPU/内存之间的存取速度有关。

若CPU工作速度较高，但内存存取速度相对较低，则造成CPU等待，降低处理速度，浪费CPU的能力。

如500MHz的PⅢ，一次指令执行时间为2ns,与其相配的内存（SDRAM）存取时间为10ns，比前者慢5倍，CPU和PC的性能怎么发挥出来？目前最好的方法是在慢速的DRAM和快速CPU之间插入一速度较快、容量较小的SRAM，起到缓冲作用；使CPU既可以以较快速度存取SRAM中的数据，又不使系统成本上升过高，这就是Cache法。

Cache的工作原理是基于程序访问的局部性。

对大量典型程序运行情况的分析结果表明，在一个较短的时间间隔内，由程序产生的地址往往集中在存储器逻辑地址空间的很小范围内。

指令地址的分布本来就是连续的，再加上循环程序段和子程序段要重复执行多次。

一种多处理器下的cache一致性解决方案的开题报告

一种多处理器下的cache一致性解决方案的开题报告一、研究背景随着计算机科技的迅速发展和应用范围的扩大，人们对计算机系统性能的需求也越来越高，其中一个重要的指标就是系统的响应速度。

cache，是计算机系统中用于提高数据访问速度的一种高速缓存。

在多处理器系统中，由于各个处理器都可以同时访问cache并修改其中的数据，因此即便是同一份数据在不同的cache中存在多个副本，它们也应该保持一致性。

cache不一致性会导致程序错误和系统性能下降。

为了解决这个问题，研究人员开发了cache一致性协议。

常见的处理器cache一致性协议有MSI、MESI、MOSI等。

它们通过控制cache的写入和读取来保证cache之间数据的一致性。

然而，这些协议的实现复杂，且随着系统规模和处理器数量增加，cache一致性问题变得更加困难。

因此，本研究将尝试设计一种更高效的多处理器下的cache一致性解决方案，以提高系统的性能和效率。

二、研究内容和目标本研究的主要内容和目标如下：1. 分析现有cache一致性协议的实现方法和问题，探讨其不足之处；2. 设计一种高效的多处理器下的cache一致性解决方案，重点考虑解决现有协议的瓶颈问题；3. 实现所设计的cache一致性解决方案，并通过仿真和实验验证其正确性和性能；4. 对所设计的解决方案进行优化和改进，提高系统的性能和效率。

三、研究方法和技术路线本研究将采用以下方法和技术路线：1. 文献研究：对现有的cache一致性协议和解决方案进行深入分析，探讨其优缺点和不足之处；2. 系统设计：根据对现有协议的分析，设计高效的多处理器下的cache一致性解决方案；3. 系统实现：实现所设计的cache一致性解决方案，并通过仿真和实验验证其正确性和性能；4. 优化改进：对所设计的解决方案进行优化和改进，提高系统的性能和效率。

四、研究意义和预期结果本研究的意义在于：1. 提高系统的性能和效率：通过设计更高效的cache一致性解决方案，可以大大提高多处理器系统的性能和效率；2. 推动cache一致性技术的发展：本研究所设计的解决方案可以为cache一致性技术的研究和应用提供新的思路和方向；3. 加深对cache一致性问题的理解：通过对cache一致性协议的分析和设计，可以更深入地理解cache一致性问题的本质和特点。

多核处理器Cache一致性协议关键技术研究

多核处理器Cache一致性协议关键技术研究黄安文;张民选【期刊名称】《计算机工程与科学》【年(卷),期】2009(031)0z1【摘要】How to maintain the cache coherence becomes an intractable issue as the multi-core scales and communication mechanism between cores is complicated. After introducing the background of cache coherence in multi-core processor, this paper analyses the principles of traditional cache coherence protocols based on snooping, directory, Token and Hammer, respectively. The advantages and disadvantages are discussed in detail. Finally, the development trends and potential challenges are explored from the perspective of co-design of coherence protocol and on-chip interconnection, power-aware cache coherence policy, verification of coherence protocol, and fault-tolerant coherence protocol, respectively.%多核处理器规模的不断扩大和核间通信机制的日益复杂,使得Cache一致性维护变得更加困难.本文从多核处理器Cache一致性问题的产生背景出发,分析监听协议、目录协议、Token协议和Hammer协议的实现机制以及在多核环境中的优缺点,分别从一致性协议与片上互连结构协同设计、面向低功耗应用的协议优化策略、Cache一致性协议验证及容错机制等角度考虑,对未来多核处理器Cache一致性协议设计的发展趋势和技术挑战进行详细分析与讨论.【总页数】5页(P104-108)【作者】黄安文;张民选【作者单位】国防科技大学计算机学院并行与分布处理国防科技重点实验室,湖南,长沙,410073;国防科技大学计算机学院并行与分布处理国防科技重点实验室,湖南,长沙,410073【正文语种】中文【中图分类】TP302.1【相关文献】1.多核处理器Cache一致性的改进 [J], 刘柯2.用于多核同步优化的cache一致性协议设计 [J], 陈李维;张广飞;汪文祥;王焕东;李玲3.片上多核处理器Cache一致性协议优化研究综述 [J], 胡森森;计卫星;王一拙;陈旭;付文飞;石峰4.多核处理器及其Cache一致性机制 [J], 孙继科5.多核处理器Cache一致性的改进 [J], 刘柯;因版权原因，仅展示原文概要，查看原文内容请购买。

多核处理器cache一致性

一．多核处理器cashe一致性 (2)二．基于无锁机制的事务存储 (3)1．事务的基本概念 (3)2．实现流程－design (4)3．缓存状态 (5)4．事务行为 (5)5. 回退机制 (6)三．TCC模型 (6)1．编程模型 (6)2．TCC系统 (7)四．ASTM (7)1．背景 (7)2．STM设计 (8)2.1. 急迫申请与懒惰申请 (8)2.2．元数据结构 (8)2.3. 间接引用对象 (8)3．基本ASTM设计 (9)五．参考文献 (10)一．多核处理器cache一致性由于后续章节要用到多处理器cashe一致性的协议，这里先简单阐述一下！维持多处理器cashe一致性的协议叫做cashe一致性协议。

而实现cashe一致性协议的关键就是要跟踪一个共享数据块的任何状态。

目前有两种协议，分别使用不同的技术来跟踪共享状态。

一种是基于目录的，一个物理内存中数据块的共享状态保存在一个位置，叫做目录。

另外一种就是snooping协议。

我们先来看看snooping协议的具体实现。

Snooping的做法是，每个cashe不仅保存着一份物理内存的拷贝，而且保存着数据块的共享状态的拷贝。

通过广播介质这些cashe可以被访问，所有的cashe控制器通过介质检测来决定自己是否拥有一份来自总线请求的数据块的拷贝。

目前多处理器普遍采用写无效协议来维持一致性的需求。

它的核心思想就是一个处理器在写数据之前必须确保它对该数据块的互斥访问。

如果一个读操作紧随一个写操作之后，由于写操作是互斥的，它在写之前必须对无效化所有该数据块在其它cashe上的拷贝，当读发生时，它获得一个读缺失而被迫去获取新的拷贝。

如果两个写操作试图对同一数据同时操作，那么只有一个获胜，获胜方使得其它处理器种的cashe拷贝无效化，其它操作要完成它的写操作必须先获得数据的新拷贝，也就是更新的数据的拷贝，因此写无效协议实际上实现了写的序列化。

实现写无效协议的关键是使用总线(bus)，或者其它的广播介质来执行无效操作。

多处理器系统缓存一致性的分析

多处理器系统缓存一致性的分析
贺宁
【期刊名称】《电子工程师》
【年(卷),期】2007(33)2
【摘要】并行处理系统是处理器发展的主要趋势。

为了在访问时间上与高速的处理器相匹配,多处理器系统要使用高速缓存。

文中介绍了多处理器的两种结构———集中式共享存储结构和分布式存储结构;阐述了多处理器的高速缓存一致性问题以及解决方法,着重讨论了监听协议和目录协议。

监听协议又分为写无效协议和写更新协议,重点介绍了写更新协议。

分析比较了写更新协议和目录协议中高速缓存块的状态及状态之间的转换。

【总页数】4页(P46-48)
【关键词】多处理器系统;高速缓存;一致性协议
【作者】贺宁
【作者单位】同济大学微电子中心
【正文语种】中文
【中图分类】TP302.1
【相关文献】
1.多处理器系统Cache一致性协议的探讨 [J], 林宏
2.基于P6总线的多处理器系统Cache一致性设计 [J], 张江陵;刘劲松;冯丹
3.异构多处理器系统Cache一致性解决方案 [J], 田芳;姜秀柱;王书芹;李娜
4.片内多处理器系统中存储器一致性的设计 [J], 郑昌陆;冉峰;陈章进;徐美华
5.多处理器高速缓存一致性分析与评价 [J], 刘妍; 王达
因版权原因，仅展示原文概要，查看原文内容请购买。

多核处理器及其Cache一致性机制

由于指令级并行需要的硬件资源最少，处理器微体系结构中，早在最出现的并行技术就是指令级并行，而实现指令级并行通常采用的是ＶＩ（ＬＷ超长指令字）技术和Ｓｐｒｓａａ（标量）ｕｅ— ｃｌｒ超技术。Ｖｕｗ：处理器在处理一个长指令字中赋予编译程序控制所有功能单元
多核处理器结构不仅有性能潜力大、成度高、集并行度高、结构简单
指令，以获得并行性。２线程级并行．
和设计验证方便等诸多优势，而且它还能继承传统单核处理器研究中的某些成果，例如同时多线程、低功耗等。减压但多核处理器毕竟是一种新的结构给多核处理器的未来提出了挑战。
１前言．
自从计算机诞生以来，推动处理器高速发展的动力主要来源于两个方
面：电子技术的巨大进步和处理器体系结构的演化和发展，微而这两个动力则促成了多核处理器技术的出现和发展。多内核是在一个处理器中集成两个或多个完整计算引擎，内核。即而多核处理器则是将多个功能完全的核心集成在同一个芯片上，个芯片作为整
的能力，使得被编译的程序能够精确地调度在何处执行每个操作、每个寄存器存储器读写和每个转移操作。Ｓｐｒｓａａ：ｕｅ — ｃｌｒ由于各个指令之间可能用到不同的数据单元，所以通过次发射多个指令来获取指令级的并行。此技术，主要是依靠运行时的复杂硬件逻辑，打乱指令的执行顺序，发射阶段同时发射多个使用不同资源的在

片上多核处理器Cache一致性协议优化研究综述

英文引用格式：ＨｕＳＳ，ＪｉＷＸ，ＷａｎｇＹＺ，ＣｈｅｔｒＸ，ＦｕＷＦ，ＳｈｉＦ．Ｓｕｒｖｅｙｏｎｃａｃｈｅｃｏｈｅｒｅｎｃｅｐｒｏｔｏｃｏｌａｎｄｐｅｒｆｏｒｍａｎｃｅｏｐｔｉｍｉｚａｔｉｏｎｆｏｒｃｈｉｐｍｕｌｔｉ－ｐｒｏｃｅｓｓｏｒ．ＲｕａｎＪｉａｎＸｕｅＢａｏ／ＪｏｕｒｎａｌｏｆＳｏｆｔｗａｒｅ，２０１７，２８（４）：１０２７，１０４７（ｉｎＣｈｉｎｅｓｅ）．ｈｔｔｐ：／／ｗｗｗ．ｊｏｓ．ｏｒｇ．ｃｎ／ｌＯ００－９８２５／５２４５．ｈｔｍ
软件学报ＩＳＳＮ１０００ — ９８２５，ＣＯＤＥＮＲＵＸＵＥＷＪｏｕｒｎａｌｏｆＳｏｆｔｗａｒｅ，２０１７，２８（４）：１０２７ — １０４７［ｄｏｉ：１０．１３３２８￣．ｃｎｋｉ．ｊｏｓ．００５２４５】＠中国科学院软件研究所版权所有．
ＳｕｒｖｅｙｏｎＣａｃｈｅＣｏｈｅｒｅｎｃｅＰｒｏｔｏｃｏｌａｎｄＰｅｒｆｏｒｍａｎｃｅＯｐｔｉｍｉｚａｔｉｏｎｆｏｒＣｈｉｐＭｕｌｔｉ－
Ｐｒｏｃｅｓｓｏｒ

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

［12 ］
。当 NUCA 被静态地组织成处理器核的私
。
每个处理器核所连接的私有部分也可以被其他核所有部分时，访问；当本地 cache 瓦片被填满，则寻找其他 core 上的 cache 瓦片填充数据。因为无法控制哪些分段被哪些处理器核所共享， “污染 ” 。当处理器核数目多于 8 个时，这样必然导致远程访问增多，维护 cache 一致性的代价明显增大，限制了其可扩展性；动态 NUCA 则依赖于系统软件的支持实现优化的数据布局，提高了数据局部性。例如，可以通过操作系统的虚拟存储器机制，根据第一次接触原则，控制存储器到处理器核的动态的数据布局，将数据映射到线程所在处理器核的本地 cache，充分利用到数据访问的局部性，而这样的布局也有利于用一致性协议的实现。 2. 2 共享模式和私有模式的 NUCA 根据片上存储的管理方式对 NUCA 分类，不同共享方式的 NUCA 结构对一致性协议会产生重大影响。从通信效率角度看，非包含式的共享 cache 会招致间接通信（即数据请求者、目录、共享者之间的通信）以及协议设计和验证的复杂性
0
引言
技术的发展驱使单个芯片上集成的处理器核个数越来越
增大；维护一致性的硬件逻辑随着处理器核数目呈线性增长，一致性消息量剧增。 c）应用的差异性。云计算和服务器应用作为众核处理器系统的主要负载，均具有异构性和不均衡性。这种特性导致单个一致性协议无法让所有程序取得高性能。 cache 行以交叉方式分布在各另外，在传统的目录协议中，个处理器节点中，这种交叉方式方便确定数据的宿主节点，但是会引入大量的 cache 一致性事务。由于在执行一致性事务之前目录协议需要获取每个存储块的共享状态，这就导致一系列的问题
· 4012·
计算机应用研究
第 29 卷
能、面积、功耗等不可扩展的原因已不适用于众核处理器，如用于 Intel Xeon
［2 ］
cache（指令 cache 和数据 cache ）、末级 cache 的局部瓦片（ L2 slices）以及点对点的互联网络的接口组成［13 ～ 16］。
［11 ］
在 2010 年研究了与
T 众核处理器一致性协议的实现密切相关的问其 Godson— —同步机制，题— 他们认为硬件支持的同步机制性能很重要，而且专用的同步机制的扩展性好；同年，基于 64 核心的 GodsonT 众核处理器；中国科学院计算技术研究所的范东睿等人为了提高对共享数据的读取效率，使用软件对共享数据实现访维护一致性问控制，
［18 ～ 20 ］
。面向片上众核处理器方面，中国科学
［10 ］
。
院计算技术研究所的黄河等人
针对目录一致性协议存在难
任何 cache 一致性问题都是源于 cache 的组织结构和使用方式，本章按照三种分类方法（数据在存储器中的布局策略、 cache 的组织方式）来分析现存的 NU片上存储器的管理方式、 CA 对一致性策略的影响。 2. 1 静态和动态的 NUCA 根据数据映射和布局策略，可以将 NUCA 划分为静态 NUCA 和动态 NUCA。数据在 NUCA 中的布局决定了远程 cache 访问的频率和访问时间。静态 NUCA 采用简单的数据映射策略，这会导致物理地址连续的数据块分布在不同的存储体中，增加了远程片上存储访问的数量。处理器核数目越大，长访问延时效应越明显
［8 ］
提出一种
致长延时的存储访问；集中式访问会造成严重的大量的存储访人们提出了 NUCA 结构，它是一种混问冲突。针对这些问题，合的私有 / 共享 cache 组织
［17 ］
Cohesion 结构在细软件硬件协同控制的 Cohesion 一致性策略， Cohesion 无须片上目录，当使用软件控制，粒度上实现一致性，减少了很多一致性消息。国内多家研究机构也在近几年做了不少相关研究。针对大规模多核处理器，为了减少基于目录的一致性协议中访问远程目录存储器的平均访问延时，清华大学信息科学与技术国家实验室的郭松柳、王海霞等人于 2009 年提出面向 CMP 结构的层次结构 cache 目录
［9 ］
。另外，随着片上处理器核心的
增多，片上总的存储器容量急剧增大，管理这些瓦片内的 cache 容量及其一致性呈现出新的需求。只有当 cache 的组织、目录存储器、存储器控制器和一致性引擎都是分布式的才有利于数据一致性的实现，而这样的系统才是可扩展的。基于以上两 NUCA 结构被作为众核处理器的片上存储结构已经成为点，共识
［1 ］
多，各大半导体公司于 2006 年之后纷纷推出其众核处理器产 IBM 公司推出其 1025 核心的 Kilocore 众核处理品。2006 年，于 2009 器； Tilera 公司于 2007 年发布了其 64 核心的 TILE64 ， Gx100 众核处理器； Intel 公司年推出最新的 100 核心的 TILE于 2008 年披露了其 80 核心的 POLARIS 原型； ClearSpeed 公司在 2008 年推出其 192 核心的 CSX700 处理器。即便如此，众核处理器的很多设计问题至今依然没有得到有效解决。由于众核处理器的处理器核心数目巨大，维护处理器核心之间的数据 cache 一致性协议就成为亟待解决的一致性呈现出新的需求，关键设计问题之一。以下是众核处理器系统特有的技术参数限制和负载特性： a）互联结构发生变革。共享总线和交叉开关这种有序连点对点的网络连接结构接结构不再适合大规模众核。无序的、因具备可扩展性而被作为未来众核处理器的片上连接结构。 b）处理器核数目众多。基于点对点连接网络形成的瓦片结构（ tiled）将是众核处理器结构的理想选择，而瓦片结构的众核处理器呈现出新的特征：核间通信延迟随着核数目增多急剧
的相关研究; 介绍了不同 NUCA 结构对一致性协议的影响; 分析和对比了几种传统目录一致性协议的特性及其存在的问题; 归纳了最新几个面向众核结构一致性协议的设计思想和特性。最后为设计具备应用程序适应性和可扩展性的 cache 一致性协议指出了几个关键的设计方向。关键词： cache 一致性协议; 众核处理器; 瓦片化结构; NUCA 中图分类号： TP302 文献标志码： A 文章编号： 1001-3695 ( 2012 ) 11-4011-06 doi： 10． 3969 / j． issn． 10013695． 2012． 11． 003
Review on cache coherence for manycore CMPs
HAN Limin，AN Jianfeng ，GAO Deyuan，FAN Xiaoya，REN Xianglong
（ School of Computer Science，Northwestern Polytechnical University，Xi’ an 710129 ，China）
和 Tilera TILE64
［3 ］
的一致性协议就仅适用于少
设计人员必须使用新的办法解决数几个处理器核的情形， cache 一致性问题。最近 10 年来，很多人致力于可扩展的 cache 一致性协议相关研究工作。2008 年，匹兹堡大学的 Fensch 等人［4］从软件管理的角度研究了瓦片式多核处理器的一致性策略； 2009 年，麻省理工学院的 Celio 为了研究众核 cache 一致性协议，开发了一款支持 256 核的众核仿真器 Graphite［5］，他们认为在众核中实现硬件 cache 一致性是可行的，但是为了得到最优的性能，软件开发者需要谨慎地编写代码， Intel 公司的确保软件算法和目标硬件架构相匹配；同年，
［21 ］
于实现、验证复杂和存储空间开销大等问题，提出一种由硬件结构支持、基于同步的高速缓存一致性协议。该方案不使用目 filter ）表示一致性信息，录，而是通过布龙滤波器（ Bloom在并行程序的同步点维护高速缓存一致性和解决数据冲突。中国科学院计算技术研究所的徐卫志等人
61003037 ， 60736012 ) ; 国家 “863 ” 基金项目：国家自然科学基金资助项目( 61173047 ，计
划资助项目( 2009AA01Z110 ) ; 西北工业大学基础研究基金资助项目( JC201212 ) 作者简介：韩立敏( 1983-) ，女，陕西扶风人，博士研究生，主要研究方向为计算机体系结构、存储系统; 安建峰( 1977-) ，男( 通信作者) ，讲师，博士，主要研究方向为计算机体系结构、数字系统设计( anjf@ nwpu． edu． cn ) ; 高德远 ( 1946-) ，男，教授，博导，主要研究方向为高性能处理器体系结 VLSI 设计及计算机网络; 樊晓桠( 1962-) ， VLSI 设计及计算机网络; 任向隆( 1982-) ，构、教授，博导，主要研究方向为高性能处理器体系结构、男，博士研究生，主要研究方向为计算机体系结构、片上网络．
7 ］ Dubey、 Zhou 等人［6，认为一些面向众核处理器的并行应用算
2
NUCA 结构对一致性协议策略的影响
集中式的 cache 结构（ NUA）存在两个问题：长的线延迟导
法，如 RMS，具有较少的数据共享，因此他们基于实验芯片 SCC （ singlechip cloud computer）和一款 32core 服务器初步探索了纯软件管理的一致性协议的原型系统。Kelm 等人
Abstract： This paper took tiled manycore processor coherence protocol design as masterstroke，summed up manycore processor cache coherence related research work． It enumerated the influence of NUCA on cache coherence protocol schemes， explored the features and drawback in conventional directorybased coherence protocols，and exacted the characteristics of several novel cache coherence protocols oriented to manycore architecture． At last，It pointed out several design directions for a scalable and workloads adaptable coherence mechanisms adopted in manycore CMPs． Key words： cache coherence protocol； manycore processor； tiled structure； NUCA