基于数据流块的空间指令调度方法_刘炳涛

合集下载

单片机中的任务调度算法

单片机中的任务调度算法任务调度是指在一个系统中，根据任务的优先级和执行条件，按照一定的策略来分配和安排任务的执行顺序。

在单片机系统中，任务调度算法是实现多任务并发执行的关键技术之一。

本文将介绍单片机中常用的任务调度算法及其原理。

一、任务调度算法的概述任务调度算法是指根据任务的优先级和执行条件，在多任务系统中进行任务执行顺序的安排的策略。

在单片机系统中，由于资源有限，任务调度算法需要合理地安排任务执行顺序，以充分利用系统资源，提高系统的响应速度和效率。

二、常用的任务调度算法1. 优先级调度算法优先级调度算法是最常用的任务调度算法之一。

该算法根据任务的优先级来确定任务的执行顺序。

优先级高的任务将优先被执行，而优先级低的任务将被推迟执行。

这种算法简单易实现，适用于任务优先级固定且相对固定的场景。

2. 循环调度算法循环调度算法是一种较为简单和公平的任务调度算法。

该算法将任务按照一定的顺序排序，并循环遍历执行这些任务，保证每个任务都有机会执行。

循环调度算法适用于任务之间的优先级差异不大，需要保证任务都能得到执行的场景。

3. 时间片轮转调度算法时间片轮转调度算法是一种公平且高效的任务调度算法。

该算法为每个任务分配一个固定大小的时间片，任务在该时间片内执行完毕或者被中断后，按照顺序被放到队列的末尾，等待下次执行。

时间片轮转调度算法能够公平地分配系统资源，并且保证每个任务都有机会得到执行。

4. 最短剩余时间优先调度算法最短剩余时间优先调度算法是一种基于任务剩余执行时间的动态任务调度算法。

该算法在每个时间片开始时，根据任务的剩余执行时间排序，选择剩余时间最短的任务执行。

这种调度算法能够充分利用系统资源，提高系统的响应速度和效率。

三、任务调度算法的选择在选择任务调度算法时，需要根据具体的系统需求和资源限制进行综合考虑。

如果任务的优先级差异比较大，可以选择优先级调度算法。

如果任务之间的优先级差异不大，需要保证任务都能得到执行，可以选择循环调度算法。

基于内存池的空间数据调度算法

ＧＵＯｎ－ｕｎＺＨＡＮＧｉｇｌ，Ｂｉｇｘａ，Ｊｎ・ｉＺＨＡＮＧｉｈｏＺｈ－ａｃ
（ｔｔＫｅａｏａｏｙｆｒｎｏｍａｉｎＥｇｎｅｎｕｖｙｎｐｉｇａｄＲｅｔＳｎｉｇＷｕａｉｅｓｙＷｕａ３０９ＳａｅｙＬｂｒｔｒｆｒｔｎｉｅｒｇｉＳｒｅｉｇＭａｐｎｎｍｏｅｅｓｎ，ｈＵｎｖｒｉ，ｈｎ４０７）ｏＩｏｉｎｎｔ
ｄｓａｃｐｔｌａａａｄｅｈｎｅｅｃｅｃ．ｓｄｏｎａｖｒｅｙｏｐｃｆｃｍａｓｎｄｌ，ｄｏｔｏｆｔｅｔｃｎｌｇｔｉｉｇｄｉｅｅｔｍｏｉｐｔｈｓａｉｔｎｎａｃｆｉｎｙＢａｅａｔｆｓｅｉｐｕｉｇｍｏｅｓａｐｎｏｈｏｏｙｕｉｚｎｆｒｎａｄｉｉｉｉｈｅｌｆｍｅｒｙｐｏｓｐｇｅａｅｅｔａｇｏｔｍａｆｅｔｅｙｒｄｃｅｔｅｉｔｒｃｉｎｂｔｅｘｅｎｌｅｙｎｎｅａｍｏ．ｐｒｍｅｔｌｒｓｌｓｓｏｏｌａｅｒｐｌｃｍｎｌｒｈｃｎｅｆｃｉｌｅｕｅｈｎｅａｔｅｗｅｎｅｔｒａｍｏｒａｄｉｔｒｌｉｖｏｍｎｍｅｒＥｘｅｙｉｎａｅｕｔｈｗｔｅｐｏｏｅｏｕｉｎｉｄａｏＳｓｓｅｉｈｍｂｄｄｄｅｕｐｎｔｉｔｄｍｅｏａａｉ．ｈｒｐｓｄｓｌｔｓｉｅｌｒＧＩｙｔｍｔｅｅｅｅｑｉｍｅｔｏｆｎｗｉｈｌｍｉｅｍｒｃｐｃｔｙｙ

基于RM调度的任务抢占次数最多分析

基于RM调度的任务抢占次数最多分析
彭德坤;宋红军;刘博阳
【期刊名称】《计算机工程》
【年(卷),期】2009(035)008
【摘要】传统的实时系统可调度性分析方法往往忽略任务抢占的时间开销,然而在重负载情况下,如果任务抢占次数很多,则由此带来的时间开销将不可忽略.该文分析基于单调速率调度算法的系统中任务抢占次数最多需要满足的条件,提出通过修改任务参数来减少抢占次数的方法,减少了系统在最坏情况下的任务响应时间.
【总页数】3页(P263-265)
【作者】彭德坤;宋红军;刘博阳
【作者单位】中国科学院电子学研究所,北京,100080;中国科学院研究生院,北京,100080;中国科学院电子学研究所,北京,100080;四方电气(集团)有限公司,北京,100085
【正文语种】中文
【中图分类】N945
【相关文献】
1.基于非抢占RMS的分布式控制系统中实时任务调度算法 [J], 刘怀;黄建新;史国生
2.基于特定应用的可抢占与不可抢占任务调度算法 [J], 何东之;李伟;朱长海;张向文
3.基于抢占阈值调度的周期任务最小响应时间分析 [J], 杨玉海;宾雪莲;金士尧;宾
亚
4.改进的基于抢占阈值调度的任务响应时间分析方法 [J], 王涛;刘大昕
5.改进的基于抢占阈值调度的任务响应时间分析方法 [J], 王涛;刘大昕
因版权原因，仅展示原文概要，查看原文内容请购买。

SDN数据中心网络基于流表项转换的流表调度优化

SDN数据中心网络基于流表项转换的流表调度优化唐菀;王敢甫;吴京京;王文涛【期刊名称】《中南民族大学学报（自然科学版）》【年(卷),期】2017(036)003【摘要】The resource limitation of the flowtable in OpenFlow switches causes the problem of flowtable overflow or controller congestion in the SDN-based datacenter network. To address the issue, in this paper, the concept of Free Entries Cost is introduced for describing the utilization efficiency of network resources, and the relationship between the numbers of free flowtable resources and that of the flowentries being forwarded repeatedly is analyzed. Then, a flowtable scheduling strategy based on the flowtable timeout mechanism is proposed, which can do real-time conversion between static and dynamic flowentries according to the survival time and the count of the flowentry matching. Via the simulation platform of SDN-based datacenter network with the Fat-tree topology, the availability of the proposed mechanism for optimizing the usage of flowtables is verified.%针对基于软件定义网络(SDN)架构的数据中心网络中,SDN交换机流表资源的有限性导致的流表溢出或控制器拥塞等问题,引入空闲流表资源代价的概念描述了网络资源的利用率,并分析了空闲流表资源量与重复下发的流表项数量之间的关系,提出了一个基于流表超时机制的流表调度策略,依据流表项生存时间和匹配计数来进行静态流表项和动态流表项之间的实时转换.在Fat-tree拓扑SDN数据中心网络仿真实验中,对该机制对流表资源优化的有效性进行了验证.【总页数】7页(P111-117)【作者】唐菀;王敢甫;吴京京;王文涛【作者单位】中南民族大学计算机科学学院,武汉430074;武汉烽火信息集成技术有限公司 IT事业部,武汉430074;中南民族大学计算机科学学院,武汉430074;中南民族大学计算机科学学院,武汉430074【正文语种】中文【中图分类】TP393【相关文献】1.数据中心网络中基于SDN的大象流负载均衡的研究 [J], 金玲;束永安2.基于SDN的数据中心网络流概率路径选择方法 [J], 张钊;李海龙;董思歧;胡磊;马景仁3.基于蚁群算法的SDN数据中心网络大象流调度研究 [J], 李宏慧; 杨光; 路海亮; 付学良; 申志军4.基于SDN的数据中心网络中考虑等待时间的流调度策略研究 [J], 黄梅根;庞瑞琴;刘亮;何大聪;汪涛5.基于分类搜索的SDN流表无环一致性更新方案 [J], 杨荣宽;张奇支;赵淦森;郑伟平因版权原因，仅展示原文概要，查看原文内容请购买。

2022年北华航天工业学院计算机科学与技术专业《操作系统》科目期末试卷B(有答案)

2022年北华航天工业学院计算机科学与技术专业《操作系统》科目期末试卷B（有答案）一、选择题1、（）结构的文件最适合于随机存取的应用场合。

A.流式B.索引C.链接D.顺序2、操作系统为了管理文件，设计了文件控制块（FCB），文件控制块的建立是（）.A.在调用create（）时B.在调用open（）时C.在调用read（）时D.在调用write（）3、若一个用户进程通过read系统调用读取一个磁盘文件中的数据，则下列关于此过程的叙述中，正确的是（）。

I.若该文件的数据不在内存中，则该进程进入睡眠等待状态II.请求rcad系统调用会导致CPU从用户态切换到核心态III.read系统调用的参数应包含文件的名称A.仅I、IIB. 仅I、IIIC.仅II、IIID. I、II和III4、设有n个进程共用一个相同的程序段，若每次最多允许m个进程（mSn）同时进入，临界区，则信号量的初值为（）。

A.nB.mC.m-nD.-m5、使用TSL（TestandSetLock）指令实现进程互斥的伪代码如下所示。

do{while（TSL（&lock））；criticalsection；lock=FALSE；}while（TRUE）；下列与该实现机制相关的叙述中，正确的是（）A.退出临界区的进程负责唤醒阻塞态进程B.等待进入临界区的进程不会主动放弃CPUC.上述伪代码满足“让权等待”的同步准则D.while（TSL（&lock））语句应在关中断状态下执行6、下列关于页式存储说法中，正确的是（）。

I.在页式存储管理中，若关闭TLB，则每当访问一条指令或存取一个操作数时都要访问两次内存II.页式存储管理不会产生内部碎片III.页式存储管理当中的页面是为用户所感知的IV.页式存储方式可以采用静态重定位A.仅I、II，IVB. 仅I、IVC. 仅ID.I、II、III、IV7、有一个矩阵为100行x200列，即a[100][200]。

并行任务调度算法研究

314 非确定性调度
非确定性调度技术又称为随机搜索调度技术 ,它主要是通过有导向的随机选择来搜索问题的解空间而并不是单纯的随机搜索。这类技术组合前面搜索结果的知识和特定的随机搜索特点来产生新的结果。遗传算法是最流行和使用最广泛的该类技术 ,它们的调度时间一般高于使用其他技术的调度算法 ,适合于某一种任务图的控制参数优化集并不适合于另一种类型的任务图 ,即对新的任务图遗传算法需要长时间的训练学习。另外 ,模拟退火方法也属于该类型技术。
考虑到任务图的基本信息以及处理单元本身和其互连结构的基本信息是否在应用程序执行前可以得到 ,已经调度好的任务是否可以由于其处理单元失效而实时迁移等因数可以把并行任务调度算法分为两大类。一类假设任务图和处理单元相关的信息在程序执行前可以精确获取 ,调度好的任务节点不能迁移 ,基于这类假设的调度算法称为静态调度算法 ,也叫编译时间调度算法 ;反之则称为动态调度算法 ,也叫实时调度算法。前者存在如何精确获取所需信息的问题 ,但其可凭借成熟的模型组织有效而具体的启发式算法 ,文献中大多数算法均属于此类算法 ;后者需要程序实时执行期间得到相应调度信息来调度任务 ,有许多不确定因数存在 ,调度开销一般较大 ,但在大型分布式系统如网格计算中该类算法不失为有效的方法 ,也适合于含有条件分支和循环的任务图调度。本文讨论的并行任务调度算法主要限于第一类。图 1 就已有的并行任务调度算法进行了粗略的分类。
第 11 期
马丹等 :并行任务调度算法研究
·91 ·
并行任务调度算法研究
马丹1 , 张薇1 ,2 , 李肯立1
(1. 华中科技大学计算机学院 , 湖北武汉 430074 ; 2. 武汉军械士官学校 , 湖北武汉 430075)

基于优先级调度的8位单片机内核实现方案

基于优先级调度的8位单片机内核实现方案
李开旭;温东彪;刘锦棠
【期刊名称】《日用电器》
【年(卷),期】2015(000)008
【摘要】普通的8位单片机的程序在主循环里一般都是顺序执行，主循环中有时候执行较长，有时候又较短，导致有些实时性要求较高，需要优先处理的程序无法放在主循环里运行，如果放在中断里又会增加中断的内容，同时也会影响整个程序的架构，使程序的可读性和移植性变差。

鉴于此，在时间片内核的基础上引入优先级的调度，形成了不可剥夺的优先级内核。

【总页数】3页(P66-68)
【作者】李开旭;温东彪;刘锦棠
【作者单位】珠海格力电器股份有限公司珠海 519070;珠海格力电器股份有限公司珠海 519070;珠海格力电器股份有限公司珠海 519070
【正文语种】中文
【相关文献】
1.基于优先级调度算法的高校排课系统设计与实现 [J], 徐谦;邓婕
2.基于8位单片机的玩具控制器的研究与实现 [J], 祁兵兵;吴长奇
3.基于8位单片机的小型机器人系统的设计与实现 [J], 郝佳晶
4.Nachos中基于优先级调度器的实现 [J], 张芳琴
5.基于自适应随机线性网络编码的优先级调度方案 [J], 王练;张贺;张昭;张勋杨
因版权原因，仅展示原文概要，查看原文内容请购买。

2022年东华理工大学计算机科学与技术专业《操作系统》科目期末试卷B(有答案)

2022年东华理工大学计算机科学与技术专业《操作系统》科目期末试卷B（有答案）一、选择题1、某文件系统物理结构采用三级索引分配方法，如果每个磁盘块的大小为1024B.每个盘块索引号占用4B，请问在该文件系统中，最大文件的大小最接近的是（）A.8GBB.16GBC.32GBD.2TB2、驱动调度算法中，（）算法可能会随时改变移动臂的运动方向。

A.电梯调度B.最短寻道时间优先C.扫描D.单向扫描3、可以被多个进程在任意时刻共享的代码必须是（）。

A.顺序代码B.机器语言代码C.不能自身修改的代码D.无转移指令代码4、若每个作业只能建立“一个进程，为了照顾短作业用户，应采用（）；为了照顾紧急作业用户，应采用（）：为了实现人机交，应采用（）：为了使短作业、长作业，和交互作业用户都满意，应采用（）。

I.FCFS调度算法II.短作业优先调度算法，III.时间片轮转调度算法IV.多级反馈队列调度算法V.基于优先级的剥夺调度算法A. II、V、I，IVB. I、V、III、IVC. I、II、IV、IIID.II、V、III、IV5、进程调度算法中，可以设计成可抢占式的算法有（）。

A.先来先服务调度算法B.最高响应比优先调度算法C.最短作业优先调度算法D.时间片轮转调度算法6、总体上说，“按需调页”（Demand-Paging）是个很好的虚拟内存管理策略。

但是，有些程序设计技术并不适合于这种环境，例如（）A.堆栈B.线性搜索C.矢量运算D.分法搜索7、有一个矩阵为100行x200列，即a[100][200]。

在一个虚拟系统中，采用LRU算法。

系统分给该进程5个页面来存储数据（不包含程序），设每页可存放200个整数，该程序要对整个数组初始化，数组存储时是按行存放的。

试计算下列两个程序各自的缺页次数（假定所有页都以请求方式调入）（）。

程序一：for（i=0；i<=99；i++）for（j=0：j<=199；j++）A[i][j]=i*j：程序二：for（j=0：j<=199；j++）for（i=0；i<=99；i++）A[i][j]=i*j；A.100，200B.100，20000C.200.100D.20000，1008、下列选项中，操作系统提供给应用程序的接口是（）。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

计算机研究与发展ＤＯＩ：１０．７５４４／ｉｓｓｎ１０００－１２３９．２０１７．２０１６０１３８Ｊｏｕｒｎａｌ　ｏｆ　Ｃｏｍｐｕｔｅｒ　Ｒｅｓｅａｒｃｈ　ａｎｄ　Ｄｅｖｅｌｏｐｍｅｎｔ　５４（４）：７５０－７６３，２０１７基于数据流块的空间指令调度方法刘炳涛１，２，３　王　达１　叶笑春１　范东睿１，２　张志敏１　唐志敏１１（计算机体系结构国家重点实验室（中国科学院计算技术研究所）　北京　１００１９０）２（中国科学院大学计算机与控制学院　北京　１０００４９）３（杭州电子科技大学信息与控制研究所　３１００１８）（ｌｉｕｂｉｎｇｔａｏ＠ｉｃｔ．ａｃ．ｃｎ）Ｔｈｅ　Ｄａｔａ－Ｆｌｏｗ　Ｂｌｏｃｋ　Ｂａｓｅｄ　Ｓｐａｔｉａｌ　Ｉｎｓｔｒｕｃｔｉｏｎ　Ｓｃｈｅｄｕｌｉｎｇ　ＭｅｔｈｏｄＬｉｕ　Ｂｉｎｇｔａｏ１，２，３，Ｗａｎｇ　Ｄａ１，Ｙｅ　Ｘｉａｏｃｈｕｎ１，Ｆａｎ　Ｄｏｎｇｒｕｉ　１，２，Ｚｈａｎｇ　Ｚｈｉｍｉｎ１，ａｎｄ　Ｔａｎｇ　Ｚｈｉｍｉｎ１１（Ｓｔａｔｅ　Ｋｅｙ　Ｌａｂｏｒａｔｏｒｙ　ｏｆ　Ｃｏｍｐｕｔｅｒ　Ａｒｃｈｉｔｅｃｔｕｒｅ（Ｉｎｓｔｉｔｕｔｅ　ｏｆ　Ｃｏｍｐｕｔｉｎｇ　Ｔｅｃｈｎｏｌｏｇｙ，Ｃｈｉｎｅｓｅ　Ａｃａｄｅｍｙ　ｏｆ　Ｓｃｉｅｎｃｅｓ），Ｂｅｉｊｉｎｇ１００１９０）２（Ｓｃｈｏｏｌ　ｏｆ　Ｃｏｍｐｕｔｅｒ　ａｎｄ　Ｃｏｎｔｒｏｌ　Ｅｎｇｉｎｅｅｒｉｎｇ，Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｃｈｉｎｅｓｅ　Ａｃａｄｅｍｙ　ｏｆ　Ｓｃｉｅｎｃｅｓ，Ｂｅｉｊｉｎｇ１０００４９）３（Ｉｎｓｔｉｔｕｔｅ　ｏｆ　Ｉｎｆｏｒｍａｔｉｏｎ　ａｎｄ　Ｃｏｎｔｒｏｌ，Ｈａｎｇｚｈｏｕ　Ｄｉａｎｚｉ　Ｕｎｉｖｅｒｓｉｔｙ，Ｈａｎｇｚｈｏｕ３１００１８）Ａｂｓｔｒａｃｔ　Ｃｌｕｓｔｅｒｅｄ　ｓｕｐｅｒｓｃａｌａｒ　ｐｒｏｃｅｓｓｏｒｓ　ｐａｒｔｉｔｉｏｎ　ｈａｒｄｗａｒｅ　ｒｅｓｏｕｒｃｅｓ　ｔｏ　ｃｉｒｃｕｍｖｅｎｔ　ｔｈｅ　ｅｎｅｒｇｙ　ａｎｄｃｙｃｌｅ　ｔｉｍｅ　ｐｅｎａｌｔｉｅｓ　ｉｎｃｕｒｒｅｄ　ｂｙ　ｌａｒｇｅ，ｍｏｎｏｌｉｔｈｉｃ　ｓｔｒｕｃｔｕｒｅｓ．Ｄｙｎａｍｉｃ　ｍｕｌｔｉ－ｃｏｒｅ　ｐｒｏｃｅｓｓｏｒｓ　ｆｕｓｅｈａｒｄｗａｒｅ　ｒｅｓｏｕｒｃｅｓ　ｏｆ　ｓｅｖｅｒａｌ　ｐｈｙｓｉｃａｌ　ｃｏｒｅｓ　ｔｏ　ｐｒｏｖｉｄｅ　ｔｈｅ　ｃｏｍｐｕｔａｔｉｏｎ　ｃａｐａｂｉｌｉｔｙ　ａｄａｐｔｉｎｇ　ｔｏａｐｐｌｉｃａｔｉｏｎｓ．Ｅｎｅｒｇｙ－ｅｆｆｉｃｉｅｎｔ　ｃｏｍｐｕｔａｔｉｏｎ　ｉｓ　ａｃｈｉｅｖｅｄ　ｉｎ　ｔｈｅｓｅ　ａｒｃｈｉｔｅｃｔｕｒｅｓ　ｗｉｔｈ　ａ　ｃａｒｅｆｕｌｌｙｏｒｃｈｅｓｔｒａｔｅｄ　ｕｔｉｌｉｚａｔｉｏｎ　ｏｆ　ｓｐａｔｉａｌｌｙ　ｄｉｓｔｒｉｂｕｔｅｄ　ｈａｒｄｗａｒｅ　ｒｅｓｏｕｒｃｅｓ．Ｐｒｏｂｌｅｍｓ　ｓｕｃｈ　ａｓ　ｉｎｓｔｒｕｃｔｉｏｎ　ｌｏａｄｉｍｂａｌａｎｃｅ　ａｎｄ　ｏｐｅｒａｎｄ　ｆｏｒｗａｒｄｉｎｇ　ｌａｔｅｎｃｙ　ｂｅｔｗｅｅｎ　ｐａｒｔｉｔｉｏｎｓ　ｍａｙ　ｃａｕｓｅ　ｐｅｒｆｏｒｍａｎｃｅ　ｐｅｎａｌｔｉｅｓ，ｓｏ　ａｎｅｆｆｅｃｔｉｖｅ　ｓｐａｔｉａｌ　ｉｎｓｔｒｕｃｔｉｏｎ　ｓｃｈｅｄｕｌｉｎｇ　ｍｅｔｈｏｄ　ｉｓ　ｎｅｅｄｅｄ　ｔｏ　ｄｉｓｔｒｉｂｕｔｅ　ｔｈｅ　ｃｏｍｐｕｔａｔｉｏｎ　ａｍｏｎｇ　ｔｈｅｐａｒｔｉｔｉｏｎｓ　ｏｆ　ｓｐａｔｉａｌ　ａｒｃｈｉｔｅｃｔｕｒｅｓ．Ｗｅ　ｐｒｅｓｅｎｔ　ｔｈｅ　ｄａｔａ－ｆｌｏｗ　ｂｌｏｃｋ（ＤＦＢ）ｂａｓｅｄ　ｓｐａｔｉａｌ　ｉｎｓｔｒｕｃｔｉｏｎｓｃｈｅｄｕｌｉｎｇ　ｍｅｔｈｏｄ．ＤＦＢｓ　ａｒｅ　ｄｙｎａｍｉｃａｌｌｙ　ｃｏｎｓｔｒｕｃｔｅｄ，ｃａｃｈｅｄ　ａｎｄ　ｒｅｕｓｅｄ　ｓｃｈｅｄｕｌｅ　ｐａｔｔｅｒｎｓ　ｆｏｒ　ｏｎｅ　ｏｒｍｏｒｅ　ｓｅｑｕｅｎｔｉａｌｌｙ　ｅｘｅｃｕｔｅｄ　ｉｎｓｔｒｕｃｔｉｏｎ　ｂａｓｉｃ　ｂｌｏｃｋｓ．ＤＦＢ　ｓｃｈｅｄｕｌｉｎｇ　ａｌｇｏｒｉｔｈｍ　ｍｏｄｅｌｓ　ｔｈｅ　ｄａｔａ－ｆｌｏｗｃｏｎｓｔｒａｉｎｔｓ　ｏｆ　ｄｙｎａｍｉｃ　ｉｎｓｔｒｕｃｔｉｏｎ　ｓｔｒｅａｍ　ａｎｄ　ｔｈｅ　ｓｃｈｅｄｕｌｉｎｇ　ｓｐａｃｅ　ｄｅｆｉｎｅｄ　ｂｙ　ｈａｒｄｗａｒｅ　ｒｅｓｏｕｒｃｅｓ，ｔｈｅｎ　ｍａｋｅｓ　ｔｈｅ　ｓｃｈｅｄｕｌｉｎｇ　ｄｅｃｉｓｉｏｎ　ａｃｃｏｒｄｉｎｇ　ｔｏ　ｔｈｅ　ｒｅｌａｔｉｖｅ　ｃｒｉｔｉｃａｌｉｔｙ，ｗｈｉｃｈ　ｉｓ　ｔｈｅ　ｑｕａｎｔｉｔａｔｉｖｅｓｃｈｅｄｕｌｉｎｇ　ｓｌａｃｋ　ｏｆ　ｉｎｓｔｒｕｃｔｉｏｎｓ．Ｗｅ　ｐｒｅｓｅｎｔ　ｔｈｅ　ｆｒａｍｅｗｏｒｋ　ａｎｄ　ａｌｇｏｒｉｔｈｍ　ｒｅｌａｔｅｄ　ｔｏ　ＤＦＢ　ｓｃｈｅｄｕｌｉｎｇ．Ｔｈｒｏｕｇｈ　ｅｘｐｅｒｉｍｅｎｔｉｎｇ　ｗｉｔｈ　ｖａｒｉｏｕｓ　ｍｉｃｒｏａｒｃｈｉｔｅｃｔｕｒｅ　ｐａｒａｍｅｔｅｒｓ　ｃｌｏｓｅｌｙ　ｒｅｌａｔｅｄ　ｔｏ　ｓｃｈｅｄｕｌｉｎｇｍｅｔｈｏｄ　ｓｕｃｈ　ａｓ　ｐａｒｔｉｔｉｏｎ　ｃｏｕｎｔ，ｉｎｔｅｒ－ｐａｒｔｉｔｉｏｎ　ｌａｔｅｎｃｙ　ａｎｄ　ｓｃｈｅｄｕｌｅ　ｗｉｎｄｏｗ　ｃａｐａｃｉｔｙ，ｗｅ　ｐｒｏｖｅ　ｔｈａｔｉｄｅａｌ　ＤＦＢ　ｓｃｈｅｄｕｌｉｎｇ　ｐｅｒｆｏｒｍｓ　ｂｅｔｔｅｒ　ａｎｄ　ｓｔａｂｌｅｒ　ｔｈａｎ　ｒｏｕｎｄ－ｒｏｂｉｎ　ａｎｄ　ｄｅｐｅｎｄｅｎｃｅ－ｂａｓｅｄ　ｓｃｈｅｄｕｌｉｎｇ．Ａｔ　ｌａｓｔ，ｗｅ　ｓｈｏｗ　ｔｈａｔ　ｔｈｅ　ｓｃｈｅｄｕｌｉｎｇ　ｐｅｒｆｏｒｍａｎｃｅ　ｗｉｔｈ　ａ　ＤＦＢ　ｃａｃｈｅ　ｉｍｐｌｅｍｅｎｔａｔｉｏｎ　ｅｘａｍｐｌｅ　ｃｌｏｓｅｓ　ｔｏｉｄｅａｌ　ＤＦＢ　ｓｃｈｅｄｕｌｉｎｇ．Ｋｅｙ　ｗｏｒｄｓ　ｐｒｏｃｅｓｓｏｒ　ｍｉｃｒｏａｒｃｈｉｔｅｃｔｕｒｅ；ｌｏａｄ　ｂａｌａｎｃｉｎｇ；ｉｎｓｔｒｕｃｔｉｏｎ　ｓｃｈｅｄｕｌｉｎｇ；ｄａｔａ－ｆｌｏｗ；ｃｒｉｔｉｃａｌ　ｐａｔｈ摘　要　分簇超标量处理器将硬件资源分区来避免大的单体部件导致的功耗与周期惩罚，动态多核处理器融合多个物理核的硬件资源提供适应程序需求的计算能力，这些结构合理使用空间分布的硬件资源　收稿日期：２０１６－０３－１０；修回日期：２０１６－０６－０７　基金项目：国家重点研发计划项目（２０１６ＹＦＢ０２００５０１）；国家自然科学基金项目（６１３３２００９，６１５２１０９２，６１６７１１９６，６１３２７９０２）；数学工程与先进计算国家重点实验室开放基金项目（２０１６Ａ０４）；北京市科委科技计划专项项目（Ｚ１５０１０１０１００９）Ｔｈｉｓ　ｗｏｒｋ　ｗａｓ　ｓｕｐｐｏｒｔｅｄ　ｂｙ　ｔｈｅ　Ｎａｔｉｏｎａｌ　Ｋｅｙ　Ｒｅｓｅａｒｃｈ　ａｎｄ　Ｄｅｖｅｌｏｐｍｅｎｔ　Ｐｒｏｇｒａｍ　ｏｆ　Ｃｈｉｎａ（２０１６ＹＦＢ０２００５０１），ｔｈｅ　ＮａｔｉｏｎａｌＮａｔｕｒａｌ　Ｓｃｉｅｎｃｅ　Ｆｏｕｎｄａｔｉｏｎ　ｏｆ　Ｃｈｉｎａ（６１３３２００９，６１５２１０９２，６１６７１１９６，６１３２７９０２），ｔｈｅ　Ｏｐｅｎ　Ｐｒｏｇｒａｍ　ｏｆ　ｔｈｅ　Ｓｔａｔｅ　ＫｅｙＬａｂｏｒａｔｏｒｙ　ｏｆ　Ｍａｔｈｅｍａｔｉｃａｌ　Ｅｎｇｉｎｅｅｒｉｎｇ　ａｎｄ　Ａｄｖａｎｃｅｄ　Ｃｏｍｐｕｔｉｎｇ（２０１６Ａ０４），ａｎｄ　Ｂｅｉｊｉｎｇ　Ｍｕｎｉｃｉｐａｌ　Ｓｃｉｅｎｃｅ　ａｎｄ　ＴｅｃｈｎｏｌｏｇｙＣｏｍｍｉｓｓｉｏｎ　Ｐｒｏｇｒａｍ（Ｚ１５０１０１０１００９）．实现高能效的计算．空间分区结构中指令负载不均衡和跨区操作数传递延迟等问题可导致性能惩罚，需要有效的指令调度方法将计算在分区间进行分布．提出了基于数据流块（ｄａｔａ－ｆｌｏｗ　ｂｌｏｃｋ，ＤＦＢ）的空间指令调度方法．ＤＦＢ是动态构建、缓存并重用的一个或数个顺序执行的指令基本块的调度模式．ＤＦＢ调度算法建模动态指令流中的数据流约束和硬件资源定义的调度空间，然后根据指令量化的相对关键性完成调度决策．介绍了ＤＦＢ调度的微结构框架和算法．通过对分区数、分区间延迟和调度窗口容量等与调度方法密切相关的微结构参数的实验，证明了ＤＦＢ调度的性能和稳定性优于负载均衡调度和基于依赖的调度．最后举例证明结合一种数据流块缓存实现的ＤＦＢ调度达到的调度效果接近理想化的ＤＦＢ调度．关键词　处理器微结构；负载均衡；指令调度；数据流；关键路径中图法分类号　ＴＰ３０３超标量处理器发掘指令级并行性（ｉｎｓｔｒｕｃｔｉｏｎｌｅｖｅｌ　ｐａｒａｌｌｅｌｉｓｍ，ＩＬＰ）的能力随着发射宽度和调度窗口的增大而提升，然而发射队列和操作数传递网络等关键部件的复杂度随着发射宽度和调度窗口的增大呈平方增长的趋势［１］．分簇超标量处理器［２］将硬件资源分区来避开大的单体部件带来的功耗与周期惩罚．如图１所示，分簇超标量处理器负责完成指令执行的流水线后端划分为多个区，各分区有独立的发射队列、物理寄存器文件和功能单元，跨分区传递操作数需要额外的周期，我们称之为分区间延迟（ｉｎｔｅｒ－ｐａｒｔｉｔｉｏｎ　ｌａｔｅｎｃｙ，ＩＰＬ）．Ｆｉｇ．１　Ｃｌｕｓｔｅｒｅｄ　ｓｕｐｅｒｓｃａｌａｒ　ｐｒｏｃｅｓｓｏｒ　ｍｉｃｒｏａｒｃｈｉｔｅｃｔｕｒｅ图１　分簇超标量处理器微结构处理器单核的性能和频率提升受限于结构复杂度和功耗墙［３］等问题，为了提升计算能效，善于发掘线程级并行性（ｔｈｒｅａｄ　ｌｅｖｅｌ　ｐａｒａｌｌｅｌｉｓｍ，ＴＬＰ）的多核处理器逐渐成为主流［４］．但处理器的单线程处理能力仍然重要，Ｈｉｌｌ与Ｍａｒｔｙ［５］指出，依据阿姆达法则，随着并行部分的加速，串行部分逐渐成为继续降低程序运行时间的瓶颈．动态多核处理器（ｄｙｎａｍｉｃｍｕｌｔｉ－ｃｏｒｅ，ＤＭＣ）［５］融合数个物理核的资源来提供适应需求的计算能力．如图２所示，含８个物理核的ＤＭＣ处理器可以提供相当于２个或４个物理核计算能力的虚拟核．物理核有独立的硬件资源，虚拟核内跨越物理核边界传递操作数也存在ＩＰＬ．超标量处理器采用同时多线程技术（ｓｉｍｕｌｔａｎｅｏｕｓｍｕｌｔｉｔｈｒｅａｄｉｎｇ，ＳＭＴ）［６］可以发掘ＴＬＰ．ＳＭＴ技术在Ｆｉｇ．２　Ｄｙｎａｍｉｃ　ｍｕｌｔｉ－ｃｏｒｅ　ｐｒｏｃｅｓｓｏｒ　ｍｉｃｒｏａｒｃｈｉｔｅｃｔｕｒｅ图２　动态多核处理器微结构单核中发掘ＴＬＰ，ＤＭＣ技术在多核中发掘ＩＬＰ．殊途同归，它们都是通过合理使用在空间分布的硬件资源实现高能效计算．分区结构能以较低功耗与周期开销提供可扩展的计算能力，但负载不均衡和ＩＰＬ可能导致性能惩罚，分区结构需要有效的指令调度方法分布指令到各分区．负载均衡倾向于将指令分布到不同分区，而减少ＩＰＬ惩罚则倾向于将指令根据依赖关系分布到同一分区，存在冲突的策略需要根据指令的关键性进行权衡决策，这就是空间指令调度问题．为解决空间指令调度问题，我们提出了基于数据流块（ｄａｔａ－ｆｌｏｗ　ｂｌｏｃｋ，ＤＦＢ）的空间指令调度方法，简称ＤＦＢ调度．ＤＦＢ是动态构建、缓存并重用的一个或数个顺序执行的指令基本块的调度模式．ＤＦＢ调度算法用数据流约束模型描述动态指令序列中的依赖关系，用调度空间模型描述硬件资源约束，量化分析每条指令的调度裕量，根据指令间的相对关键性完成调度决策，生成周期跨度尽量小的调度模式，ＤＦＢ调度缓存重用这种调度模式．我们介绍了ＤＦＢ调度的微结构框架和算法．通过对分区数、ＩＰＬ和调度窗口容量等与调度方法密切相关的微结构参数的实验，我们证明了ＤＦＢ调度的性能和稳定性优于负载均衡调度和基于指令绝对关键性的依赖调度．最后举例证明结合一种数据流块缓存实现的ＤＦＢ调度达到的调度效果接近理想化的ＤＦＢ调度．１５７刘炳涛等：基于数据流块的空间指令调度方法本文贡献主要存在于３方面：１）我们构造了描述指令依赖关系的数据流约束模型并提出了基于量化指标的指令相对关键性的概念；２）我们构造了描述分区结构资源限制的调度空间模型并分析了空间指令调度问题；３）我们提出了ＤＦＢ调度并进行了评估．１　相关工作Ｐａｌａｃｈａｒｌａ等人［１］研究了发射队列的复杂度与时钟周期的关系，指出随着发射宽度和调度窗口增大，唤醒和选择逻辑成为关键路径．该文提出了多体发射队列，利用分区结构解决超标量处理器可扩展性问题．指令预调度［７－９］从时间维度调度指令，提升发射队列效率．根据生产者指令执行延迟，指令在预调度窗口内重新排列，然后逐行进入发射队列，这样减少了指令在发射队列内的等待周期数．ＷＩＢ［１０］和Ｃｙｃｌｏｎｅ［１１］将阻塞指令从发射队列中暂时取出，也属于时间指令调度．较多研究［１２－１５］关注分簇超标量处理器中指令空间调度问题．已有方法首先判断指令是否是关键路径指令，然后做出调度决策，研究重点在于指令关键性的判定．Ｆｉｅｌｄｓ等人［１６］通过指令依赖链的长度做出指令关键性预测．Ｓａｌｖｅｒｄａ等人［１７］通过指令的历史执行信息做出关键性预测．本文提出的ＤＦＢ调度量化指令的调度裕量并参照硬件资源约束做出调度决策．动态多核处理器［１８－２２］通过重构虚拟核的硬件资源来适应计算需求．Ｃｏｒｅ　Ｆｕｓｉｏｎ［１８］融合片上多核处理器（ｃｈｉｐ　ｍｕｌｔｉ－ｃｏｒｅ　ｐｒｏｃｅｓｓｏｒ，ＣＭＰ）中多个物理核提供发射宽度可变的虚拟核．ＴＦｌｅｘ［１９］采用ＥＤＧＥ指令集，借助编译器进行指令调度．ＤＣＭ（ｄｙｎａｍｉｃｃｏｒｅ　ｍｏｒｐｈｉｎｇ）［２０］可以根据应用的阶段性特征，提供合适的后端完成计算．Ｖｏｌｔｒｏｎ［２１］实现宽发射的ＶＬＩＷ虚拟核和能进行细粒度通信的多ＶＬＩＷ核双模式计算．ＷｉＤＧＥＴ［２２］根据需求分配合适数量的功能单元来实现与功耗成比例的计算．部分动态多核结构借助编译器完成静态指令调度，部分动态多核结构采用基于依赖的动态指令调度．除了动态多核处理器外，其他类型的空间结构［２３－２６］多借助编译器完成指令调度．ＤＦＢ调度缓存、优化并重用指令调度策略．ＤＩＦ［２７］结构将调度完成的指令组缓存．再次遇到时，指令组由ＶＬＩＷ后端加速执行．Ｆｉｌｌ　ｕｎｉｔ［２８］将执行的指令压缩并缓存，提高发射带宽．基于ＴｒａｃｅＣａｃｈｅ［２９］，处理器可以对缓存的指令进行动态优化以提升其执行性能［３０］．ｒｅＰＬａｙ［３１］提出了支持动态优化的框架．２　空间指令调度问题描述与建模分簇超标量处理器与动态多核处理器中负责执行指令的流水线后端都可抽象为分区结构．硬件资源由单体实现变为分区实现带来的变化主要有３点：１）单个分区分得的功能单元减少；２）跨分区传递操作数有额外的延迟；３）单个分区的发射队列变小．分区结构的指令调度可以看作优化问题，尝试减弱或消除上述３要素导致的性能惩罚，使分区实现接近单体实现的执行效率．Ｆｉｇ．３　Ｓｃｈｅｄｕｌｉｎｇ　ｓｐａｃｅ　ｍｏｄｅｌ　ｆｏｒ　ｓｐａｔｉａｌ　ａｒｃｈｉｔｅｃｔｕｒｅ图３　分区结构的调度空间模型单个分区的指令发射带宽、功能单元组成和发射队列容量等限制指令调度，我们用调度块（ｓｃｈｅｄｕｌｅｂｌｏｃｋ，ＳｃＢ）描述这些资源约束．随着周期的增长，所有分区的ＳｃＢ构成了矩阵形式的调度空间约束模型，矩阵行坐标Ｔ表示指令的预期发射周期，列坐标Ｃ表示指令的分区指派，矩阵的第ｉ行第ｊ列的元素ＳｃＢｉｊ描述了第ｊ个分区在第ｉ个周期的资源约束．空间指令调度为动态指令片段中的指令确定分区指派Ｃ，在不违反调度空间约束模型的情况下，尽量减小指令片段调度模式的周期跨度．图３展示了４分区结构的调度空间约束模型，单个分区每周期可发射２条指令，有２个整型、１个浮点、１个访存和１个分支功能单元．调度空间约束模型的术语定义如表１所示．２５７计算机研究与发展　２０１７，５４（４）Ｔａｂｌｅ　１　Ｔｅｒｍｉｎｏｌｏｇｙ　ｏｆ　Ｓｃｈｅｄｕｌｅ　Ｓｐａｃｅ　Ｃｏｎｓｔｒａｉｎｔｓ　Ｍｏｄｅｌ表１　调度空间约束模型术语Ｔｅｒｍｉｎｏｌｏｇｙ　Ｓｙｍｂｏｌ　ＤｅｆｉｎｉｔｉｏｎＩｓｓｕｅ　Ｗｉｄｔｈ　Ｃｏｎｓｔｒａｉｎｔ　Ｅ　Ｅ（ＳｃＢｉｊ）ｄｅｓｃｒｉｂｅｓ　ｔｈｅ　ａｖａｉｌａｂｌｅ　ｉｓｓｕｅ　ｓｌｏｔｓ　ｉｎ　ＳｃＢｉｊ．Ｆｕｎｃｔｉｏｎ　Ｕｎｉｔｓ　Ｃｏｎｓｔｒａｉｎｔ　Ｆ　Ｆｃｏｎｓｔｒａｉｎｓ　ｉｎｓｔｒｕｃｔｉｏｎ　ｍｉｘ　ａｃｃｏｒｄｉｎｇ　ｔｏ　ｔｈｅ　ｃｏｍｂｉｎａｔｉｏｎ　ｏｆ　ｆｕｎｃｔｉｏｎｓ　ｕｎｉｔｓ．Ｉｓｓｕｅ　Ｑｕｅｕｅ　Ｃａｐａｃｉｔｙ　Ｃｏｎｓｔｒａｉｎｔ　ＩＱ＿Ｌｏａｄ　ＩＱ＿Ｌｏａｄｄｅｓｃｒｉｂｅｓ　ｔｈｅ　ｉｎｓｔｒｕｃｔｉｏｎ　ｌｏａｄ　ｏｆ　ｉｎｓｔｒｕｃｔｉｏｎ　ｑｕｅｕｅ．Ｐａｒｔｉｔｉｏｎ　Ａｓｓｉｇｎｍｅｎｔ　Ｃ　Ｃ（Ｉ）ｒｅｃｏｒｄｓ　ｔｈｅ　ａｓｓｉｇｎｅｄ　ｐａｒｔｉｔｉｏｎ　ｏｆ　ｉｎｓｔｒｕｃｔｉｏｎ　Ｉ．Ｉｎｓｔｒｕｃｔｉｏｎ　Ｅｘｅｃｕｔｉｏｎ　Ｌａｔｅｎｃｙ　Ｌａｔ　Ｌａｔ（Ｉ）ｉｓ　ｔｈｅ　ｏｐｔｉｍｉｓｔｉｃ　ｅｓｔｉｍａｔｅ　ｏｆ　ｅｘｅｃｕｔｉｏｎ　ｌａｔｅｎｃｙ　ｏｆ　ｉｎｓｔｒｕｃｔｉｏｎ　Ｉ．Ｉｎｓｔｒｕｃｔｉｏｎ　Ｓｔｅｅｒｉｎｇ　Ｔｉｍｅ　ＳｔｅｅｒＴ　ＳｔｅｅｒＴ（Ｉ）ｒｅｃｏｒｄｓ　ｗｈｅｎ　ｉｎｓｔｒｕｃｔｉｏｎ　Ｉｅｎｔｅｒｓ　ｉｓｓｕｅ　ｑｕｅｕｅ．Ｉｎｓｔｒｕｃｔｉｏｎ　Ｉｓｓｕｉｎｇ　Ｔｉｍｅ　ＩｓｓＴ　ＩｓｓＴ（Ｉ）ｒｅｃｏｒｄｓ　ｗｈｅｎ　ｉｎｓｔｒｕｃｔｉｏｎ　Ｉｉｓ　ｉｓｓｕｅｄ　ｔｏ　ｆｕｎｃｔｉｏｎ　ｕｎｉｔ．Ｉｎｓｔｒｕｃｔｉｏｎ　Ｅｘｅｃｕｔｅｄ　Ｔｉｍｅ　ＥｘｅｄＴ　ＥｘｅｄＴ（Ｉ）ｒｅｃｏｒｄｓ　ｗｈｅｎ　ｔｈｅ　ｄｅｓｔｉｎａｔｉｏｎ　ｒｅｇｉｓｔｅｒ　ｏｆ　ｉｎｓｔｒｕｃｔｉｏｎ　Ｉｉｓ　ａｖａｉｌａｂｌｅ．指令Ｉ调度到ＳｃＢｉｊ意味着ＩｓｓＴ（Ｉ）＝ｉ，Ｃ（Ｉ）＝ｊ．指令执行完成周期等于发射周期加上指令的执行延迟ＥｘｅｄＴ（Ｉ）＝ＩｓｓＴ（Ｉ）＋Ｌａｔ（Ｉ）．举例说明在调度空间约束模型下如何完成指令调度．如图３所示，Ｉ１依赖Ｉ０，假设Ｉ１调度到ＳｃＢｉｊ，则需要满足４项约束：Ｅ（ＳｃＢｉｊ）＞０，（１）Ｆ（ＳｃＢｉｊ）［ｔｙｐｅ（Ｉ１）］＞０，（２）ＩＱ＿Ｌｏａｄ（ＳｃＢｉｊ）＜ＩＱ＿Ｓｉｚｅ，（３）ＩｓｓＴ（Ｉ１）≥ＥｘｅｄＴ（Ｉ０）＋ＩＰＬ，Ｃ（Ｉ１）≠Ｃ（Ｉ０）；ＥｘｅｄＴ（Ｉ０），Ｃ（Ｉ１）＝Ｃ（Ｉ０）｛．（４）其中，ｔｙｐｅ（Ｉ）表示取执行指令Ｉ的功能单元类型，ＩＱ＿Ｓｉｚｅ是单个分区的发射队列容量，ＩＰＬ为分区间延迟．式（１）～（３）为资源约束，式（４）为生产者指令对消费者指令的调度约束．ＩＰＬ设定为１周期，假设Ｉ０调度到ＳｃＢ００，且Ｌａｔ（Ｉ０）＝３，则Ｉ１在Ｉ０的约束下的调度备选ＳｃＢ如图３所示．如何完成调度使指令序列在调度空间约束模型的Ｔ方向上分布尽量窄，即指令调度问题．指令空间调度通过改变指令的Ｃ（Ｉ）来权衡负载均衡与ＩＰＬ．已有调度方法考察指令位于关键路径的可能性，然后依照其关键性预测做负载均衡和依赖调度２选１的即时决策，我们称这种定性的决策标准为指令的绝对关键性．我们认为依据绝对关键性进行调度存在不足，原因有２个：１）实时关键性难以准确预测，指令位于不同执行路径时，其关键性存在差异；２）调度决策会反馈影响指令关键性，根据依赖进行调度会加重负载的不均衡，根据负载进行调度会使得路径的延迟增长，非关键路径可转化为关键路径．ＤＦＢ调度根据指令上下文分析其调度裕量，不违反调度空间约束模型生成合理的调度模式并缓存复用．关注指令调度需求与资源约束的互动，通过对比竞争资源的多个指令的调度裕量做出调度决策，我们称这种定量的决策标准为指令的相对关键性．第３节介绍定量描述程序调度需求的数据流约束模型．３　数据流约束模型“操作数准备好，指令开始执行．”是数据流计算的基本思想，也为指令调度提供依据．我们在数据流概念的基础上做出扩展，定义指令的数据流约束为与指令有依赖关系的生产者与消费者指令对指令调度附加的周期约束．数据流约束有２个特点：１）量化约束关系，计算指令的调度裕量；２）参考指令的消费者依赖关系，即反向数据流依赖．传统指令调度方法逐条完成指令调度，无法参考反向数据流依赖关系，ＤＦＢ调度缓存并重用指令调度模式，能够参考指令的消费者对其附加的数据流约束．数据流约束模型的术语的定义如表２所示．数据流约束的计算举例如图４所示．动态指令序列可表示为无环的有向数据流图，如图４中①所示，边表示指令间的依赖关系，边的权值表示估计的指令执行延迟Ｌａｔ（Ｉ），虚线框表示指令是Ｔｅｒｍｉｎａｌ．数据流约束的计算有３步：１）按指令序遍历所有指令，计算得到指令的调度上限ｓｃｈｅｄ＿ｕｂ．如图４中②所示，Ｉ０，Ｉ１等没有生产者指令约束的指令ｓｃｈｅｄ＿ｕｂ为周期０，ＥｘｅｄＴ（Ｉ０）＝１且ＥｘｅｄＴ（Ｉ１）＝３，则ｓｃｈｅｄ＿ｕｂ（Ｉ２）＝３．２）设置Ｔｅｒｍｉｎａｌ的ｓｃｈｅｄ＿ｌｂ为其ｓｃｈｅｄ＿ｕｂ，如图４中③所示，然后逐个遍历Ｄ－Ｔｒｅｅ追踪反向数据流依赖关系，更新ｌｂ＿ｍａｔ，如图４中④⑤所示．３）ｌｂ＿ｍａｔ中指令约束最紧值即为指令的ｓｃｈｅｄ＿ｌｂ，（ｓｃｈｅｄ＿ｕｂ，ｓｃｈｅｄ＿ｌｂ）定义指令的调度区间，差值为调度裕量，如图４中⑥所示．３５７刘炳涛等：基于数据流块的空间指令调度方法Ｔａｂｌｅ　２　Ｔｅｒｍｉｎｏｌｏｇｙ　ｏｆ　Ｄａｔａ－Ｆｌｏｗ　Ｃｏｎｓｔｒａｉｎｔｓ　Ｍｏｄｅｌ表２　数据流约束模型术语Ｔｅｒｍｉｎｏｌｏｇｙ　Ｓｙｍｂｏｌ　ＤｅｆｉｎｉｔｉｏｎＴｅｒｍｉｎａｌ　ｔｅｒｍ　Ｉｎｓｔｒｕｃｔｉｏｎｓ　ｗｈｉｃｈ　ｈａｖｅ　ｎｏ　ｃｏｎｓｕｍｅｒ　ｉｎ　ＤＦＢ．Ｄｅｐｅｎｄｅｎｃｅ　Ｔｒｅｅ　Ｄ－Ｔｒｅｅ　Ｔｈｅ　ｔｒｅｅ　ｓｔｒｕｃｔｕｒｅ　ｗｉｔｈ　ａ　ｔｅｒｍｉｎａｌ　ａｓ　ｉｔｓ　ｒｏｏｔ，ｏｂｔａｉｎｅｄ　ｂｙ　ｂａｃｋ　ｔｒａｃｉｎｇ　ｔｈｅ　ｄｅｐｅｎｃｅｎｃｅ．ＳｃｈｅｄｕｌｅＵｐｐｅｒｂｏｕｎｄｓｃｈｅｄ＿ｕｂｓｃｈｅｄ＿ｕｂ（Ｉ）ｄｅｓｃｒｉｂｅｓ　ｗｈｅｎ　ｉｎｓｔｒｕｃｔｉｏｎ　Ｉｃａｎ　ｂｅ　ｗａｋｅｎ　ｕｐ，ｗｈｉｃｈ　ｉｓ　ｄｅｔｅｒｍｉｎｅｄ　ｂｙ　ｉｔｓ　ｏｐｅｒａｎｄｐｒｏｄｕｃｅｒｓ．ＳｃｈｅｄｕｌｅＬｏｗｅｒｂｏｕｎｄｓｃｈｅｄ＿ｌｂｓｃｈｅｄ＿ｌｂ（Ｉ）ｄｅｓｃｒｉｂｅｓ　ｗｈｅｎ　ｉｎｓｔｒｕｃｔｉｏｎ　Ｉｓｈｏｕｌｄ　ｂｅ　ｉｓｓｕｅｄ，ｗｈｉｃｈ　ｉｓ　ｄｅｔｅｒｍｉｎｅｄ　ｂｙ　ｉｔｓ　ｏｐｅｒａｎｄｃｏｎｓｕｍｅｒｓ．Ｌｏｗｅｒｂｏｕｎｄ　Ｍａｔｒｉｘ　ｌｂ＿ｍａｔ　ｌｂ＿ｍａｔ　ｒｅｃｏｒｄｓ　ｔｈｅ　ｓｃｈｅｄ＿ｌｂ　ｃｏｎｓｔｒａｉｎｔｓ　ｔｏ　ｉｎｓｔｒｕｃｔｉｏｎｓ　ｂｙ　ｄｉｆｆｅｒｅｎｔ　Ｄ－Ｔｒｅｅ　．Ｆｉｇ．４　Ｄａｔａ－ｆｌｏｗ　ｃｏｎｓｔｒａｉｎｔｓ　ｃｏｍｐｕｔａｔｉｏｎ图４　数据流约束的计算数据流约束描述了程序的细粒度计算需求，调度上下限差值为指令的调度裕量：１）调度裕量量化表示了指令的相对关键性强弱，调度裕量越大其相对关键性越弱，当多条指令竞争调度资源时，优先满足相对关键性强的指令；２）调度裕量是考虑了调度策略影响的动态指标，当指令跨分区传递操作数时，ＩＰＬ消耗指令的调度裕量，其相对关键性得到提升．调度裕量表示的相对关键性是与上下文相关的、量化的、动态的指令关键性指标．４　基于数据流块的空间指令调度的框架ＤＦＢ是动态构建、缓存并重用的调度模式．扩展支持ＤＦＢ调度的处理器微结构框图如图５所示．在传统分区结构的基础上，添加了ＤＦＢ构建、缓存和重用的逻辑．ＤＦＢ调度的实现基于集成数据流缓存的处理器前端设计［３２］，该设计解耦合指令转换与分支预测，ＤＦＢ　Ｃａｃｈｅ利用程序的计算局部性覆盖大部分的动态指令流，从而降低ＤＦＢ构建的执行频率，减少ＤＦＢ　Ｔｒａｉｎｅｒ的功耗开销．ＤＦＢ　Ｔｒａｉｎｅｒ可以被芯片上多个物理核复用，降低其平均面积开销．Ｆｉｇ．５　Ｍｉｃｒｏａｒｃｈｉｔｅｃｔｕｒｅ　ａｕｇｍｅｎｔｅｄ　ｗｉｔｈ　ＤＦＢ　ｓｃｈｅｄｕｌｉｎｇ图５　扩展支持ＤＦＢ调度后的微结构分支预测器给出取指地址来查询ＤＦＢ　Ｃａｃｈｅ：１）命中，ＤＦＢ　Ｓｃｈｅｄｕｌｅｒ取出缓存的ＤＦＢ，指导指令的空间调度；２）未命中，ＤＦＢ　Ｔｒａｉｎｅｒ采样指令，并执行ＤＦＢ调度算法，将调度模式存入ＤＦＢ　Ｃａｃｈｅ．在程序的计算局部性支持下，经过一段时间的训练，ＤＦＢ　Ｃａｃｈｅ可以覆盖大部分的动态指令．４５７计算机研究与发展　２０１７，５４（４）ＤＦＢ内指令依赖的表示采用前向数据流指针［３２］，操作数由生产者指令主动传递给消费者指令，ＤＦＢＴｒａｉｎｅｒ在ＤＦＢ内插入额外的ｃｏｐｙ指令完成操作数的跨分区传递．指令不需要跨分区广播操作数或访问物理寄存器文件．主分区维护ＲＯＢ（ｒｅｏｒｄｅｒｂｕｆｆｅｒ）信息，每个ＤＦＢ占用ＲＯＢ的１个空位，当ＤＦＢ的最后１条指令达到提交阶段时，整个ＤＦＢ一起提交．物理寄存器和ＲＯＢ的实现不会限制结构的可扩展性．５　ＤＦＢ空间调度算法ＤＦＢ　Ｔｒａｉｎｅｒ使用ＤＦＢ调度算法，输入动态指令序列，参照数据流约束模型和调度空间约束模型完成指令调度，输出指令序列的调度模式．ＤＦＢ调度算法的目标是在不违反资源限制的前提下，尽量满足程序的计算需求，生成时间跨度尽量小的调度模式．在数据流约束表示的指令相对关键性的指导下，ＤＦＢ调度算法对每条指令做依赖调度和负载均衡调度的权衡，为其指派分区．当指令的数据流约束无法满足时，放宽约束所在Ｄ－Ｔｒｅｅ上指令的ｓｃｈｅｄ＿ｌｂ，继续尝试调度当前指令，直到所有指令调度完成．Ｆｉｇ．６　Ｄｅｐｅｎｄｅｎｃｅ　ｂａｓｅｄ　ｓｃｈｅｄｕｌｉｎｇ　ｃｏｎｓｔｒａｉｎｔｓ图６　基于依赖的调度约束５．１　基于依赖的调度调度依指令序逐条进行，当某指令开始调度时，其生产者指令已经调度完成，对其调度上限构成约束．图６展示指令Ｉ２开始调度的周期，其依赖的指令Ｉ０调度在ＳｃＢ００，Ｉ１调度在ＳｃＢ１２．假设Ｌａｔ（Ｉ０）＝３，Ｌａｔ（Ｉ１）＝１，ＩＰＬ＝１，则Ｉ０与Ｉ１附加的调度上限约束分别如图６中虚线和点划线所示．基于依赖的调度要求ＩｓｓＴ（Ｉ２）同时满足２个约束，灰色ＳｃＢ为备选位置．考虑Ｉ２的相对关键性．当Ｉ２的调度下限大于周期３时，可以将Ｉ２调度到分区０以外，此时Ｉ０附加的调度约束如图７中虚线所示．将Ｉ２调度到分区０之外，让出了分区０的执行机会或者使负载更均衡．Ｆｉｇ．７　Ｓｃｈｅｄｕｌｉｎｇ　ａｃｃｏｒｄｉｎｇ　ｔｏ　ｒｅｌａｔｉｖｅ　ｃｒｉｔｉｃａｌｉｔｙ图７　依据相对关键性进行调度Ｆｉｇ．８　Ｌｏｏｓｅｎ　ｄａｔａ－ｆｌｏｗ　ｃｏｎｓｔｒａｉｎｔｓ　ｗｈｅｎ　ｎｅｅｄｅｄ图８　适时放松数据流约束根据依赖关系和相对关键性确定了备选ＳｃＢ后，按照ＩｓｓＴ从小到大的顺序考察ＳｃＢ，若找到不违反资源限制约束的且ＩｓｓＴ满足ｓｃｈｅｄ＿ｌｂ要求的ＳｃＢ开始下条指令的调度；否则，放松数据流约束，继续尝试调度当前指令．如图８所示，Ｉ１调度在了５５７刘炳涛等：基于数据流块的空间指令调度方法ＳｃＢ２２，则ｓｃｈｅｄ＿ｌｂ（Ｉ２）＝３的数据流约束无法满足．追踪约束来源的Ｄ－Ｔｒｅｅ，将对应的Ｔｅｒｍｉｎａｌ的ｓｃｈｅｄ＿ｌｂ增１，更新ｌｂ＿ｍａｔ，计算ｓｃｈｅｄ＿ｌｂ约束，重新尝试调度Ｉ２，重复该过程直到调度成功．５．２　基于负载均衡的调度ＤＦＢ空间调度算法使用调度空间约束模型对功能单元计算能力建模，而采用计数排序的方法应对发射队列负载均衡的问题，优先考虑指令数少的分区，对于指令数相等的分区，优先调度到最久没有被使用的分区．根据分区负载确定调度优先级的电路示意图如图９所示：Ｆｉｇ．９　Ｐｒｉｏｒｉｔｙ　ｕｐｄａｔｉｎｇ　ｃｉｒｃｕｉｔ　ｆｏｒ　ｌｏａｄ　ｂａｌａｎｃｉｎｇ图９　负载均衡优先级更新电路电路主要维护２组寄存器，ＣＳＩＺＥ寄存器组存储各分区已经指派的指令数量，ＯＲＤＥＲ寄存器组按负载均衡优先级输出调度分区编号．ＤＦＢ开始构建时ＣＳＩＺＥ寄存器清０，每调度１条指令，ＣＳＩＺＥ寄存器和ＯＲＤＥＲ寄存器依次变化，更新优先级：１）指令调度的分区号Ｃ控制对应的ＣＳＩＺＥ寄存器加１；２）更新ＯＲＤＥＲ寄存器，ＣＳＩＺＥ越大的分区优先级越低，ＣＳＩＺＥ相等的分区，维持优先级顺序．５．３　算法伪代码与分析ＤＦＢ调度算法依指令序逐条调度指令．调度单条指令分为３步：１）根据依赖关系和数据流约束表示的相对关键性确定备选ＳｃＢ；２）按照ＩｓｓＴ递增的顺序在备选的ＳｃＢ中尝试调度指令，相同ＩｓｓＴ的ＳｃＢ依负载均衡优先级调度，若成功则完成当前指令调度；３）放松当前指令ｓｃｈｅｄ＿ｌｂ所在Ｄ－Ｔｒｅｅ的约束，并返回步骤１继续尝试进行调度．ＤＦＢ的所有指令调度完成时算法结束．伪代码中，ｎ为指令数，ｎＣ为分区数，ＩＰＬ为跨分区操作数传递延迟．ｉｎｓｔ是输入指令序列，ＳｃＢ是调度空间模型矩阵，ｓｃｈｅｄ＿ｃｏｎ记录指令的关键消费者；输出是分区指派Ｃ和预期发射周期ＩｓｓＴ．算法如下：算法１．ＤＦＢ空间指令调度．输入：ｉｎｓｔ［］，ＳｃＢ［］［］，ｓｃｈｅｄ＿ｕｂ［］，ｓｃｈｅｄ＿ｌｂ［］，ｓｃｈｅｄ＿ｃｏｎ［］；输出：Ｃ［０：ｎ－１］，ＩｓｓＴ［０：ｎ－１］．伪代码：函数ＳＣＨＥＤ＿ＭＡＩＮ（）／＊初始化负载均衡优先级电路＊／①ｆｏｒ　ａｌｌ：ＯＲＤＥＲ［ｉ］＝（ｒｒ＿ｔｏｋｅｎ＋ｉ）％ｎＣ；②ｆｏｒ　ａｌｌ：ＣＳＩＺＥ［ｉ］＝０；③ｒｒ＿ｔｏｋｅｎ＝（ｒｒ＿ｔｏｋｅｎ＋Ｐ）％ｎＣ；／＊按指令序依次调度＊／④ｆｏｒ　ｅａｃｈ　ｉ　ｉｎ［０：ｎ－１］⑤　ｗｈｉｌｅ（ＳＣＨＥＤ＿ＩＮＳＴ（ｉ）≠ｔｒｕｅ）／＊调度失败则放松数据流约束，直到调度成功＊／／＊ｔｅｒｍ为指令约束所在Ｄ－Ｔｒｅｅ的根＊／⑥ ｓｃｈｅｄ＿ｌｂ［ｔｅｒｍ］＋＋；⑦ ｒｅｃａｌｃ＿ｌｂ（）；⑧　ｅｎｄ　ｗｈｉｌｅ／＊更新负载均衡优先级＊／⑨　ｆｏｒ　ｅａｃｈ　ｊｉｎ［０：ｎＣ－１］⑩ ｖｅｃ．ａｄｄ（ＣＳＩＺＥ［ＯＲＤＥＲ［ｊ］］４｜ｊ２｜ＯＲＤＥＲ［ｊ］）；瑏瑡　ｅｎｄ　ｆｏｒ瑏瑢　ｖｅｃ．ｓｏｒｔ（‘＜’）；瑏瑣　ｆｏｒ　ｅａｃｈ　ｊｉｎ［０：ｎＣ－１］瑏瑤ＯＲＤＥＲ［ｊ］＝ｖｅｃ［ｊ］％ｎＣ；瑏瑥　ｅｎｄ　ｆｏｒ瑏瑦ｅｎｄ　ｆｏｒ函数ＳＣＨＥＤ＿ＩＮＳＴ（ｉｄｘ）瑏瑧ｉｆ（ｉｎｓｔ［ｉｄｘ］ｓ　ｓｒｃ１ｉｓ　ｖａｌｉｄ）：／＊操作数１有依赖＊／瑏瑨　ＥｘｅｄＴ［ｓｒｃ１］＝ＩｓｓＴ［ｓｒｃ１］＋Ｌａｔ［ｓｒｃ１］；瑏瑩　ｉｆ（ｓｃｈｅｄ＿ｃｏｎ［ｓｒｃ１］≠ｉｄｘ　＆＆（ＳｃＢ［ＥｘｅｄＴ［ｓｒｃ１］］［Ｃ［ｓｒｃ１］］ｉｓｎｅａｒｌｙ　ｆｕｌｌ‖ｓｃｈｅｄ＿ｌｂ［ｉｄｘ］＞ＥｘｅｄＴ［ｓｒｃ１］））ｙｉｅｌｄ＝ｔｒｕｅ；瑐瑠　ｅｎｄ　ｉｆ瑐瑡　ｆｏｒ　ｅａｃｈ　ｉ　ｉｎ［０：ｎＣ－１］瑐瑢ｉｆ（ｉ＝＝Ｃ［ｓｒｃ１］）瑐瑣ｉｆ（ｙｉｅｌｄ）Ｙ１［ｉ］＝ｍａｘＩＮＴ；／＊最大整数＊／瑐瑤ｅｌｓｅ　Ｙ１［ｉ］＝ＥｘｅｄＴ［ｓｒｃ１］；瑐瑥ｅｎｄ　ｉｆ瑐瑦ｅｌｓｅ　Ｙ１［ｉ］＝ＥｘｅｄＴ［ｓｒｃ１］＋ＩＰＬ；６５７计算机研究与发展　２０１７，５４（４）瑐瑧ｅｎｄ　ｉｆ瑐瑨　ｅｎｄ　ｆｏｒ瑐瑩ｅｎｄ　ｉｆ瑑瑠ｉｆ（ｉｎｓｔ［ｉｄｘ］ｓ　ｓｒｃ２ｉｓ　ｖａｌｉｄ）／＊操作数２有依赖＊／瑑瑡Ｙ［：］＝ｍａｘ（Ｙ１［：］，Ｙ２［：］）；瑑瑢ｍｉｎＹ＝ｍｉｎ（Ｙ［：］）；瑑瑣ｅｎｄ　ｉｆ瑑瑤ｉｆ（ｍｉｎＹ＞ｓｃｈｅｄ＿ｌｂ［ｉｄｘ］）ｒｅｔｕｒｎ　ｆａｌｓｅ；瑑瑥ｅｎｄ　ｆｏｒ瑑瑦ｆｏｒ　ｅａｃｈ　ｉ　ｉｎ（ｍｉｎＹ：ｓｃｈｅｄ＿ｌｂ［ｉｄｘ］）瑑瑧　ｆｏｒ　ｅａｃｈ　ｊｉｎ［０：ｎＣ－１］瑑瑨ｉｆ（Ｙ［ＯＲＤＥＲ［ｊ］］≤ｉ）瑑瑩ｉｆ（ＳｃＢ［ｉ］［ＯＲＤＥＲ［ｊ］］ｓａｔｉｓｆｉｅｓｉｎｓｔ［ｉｄｘ］）瑒瑠Ｃ［ｉｄｘ］＝ＯＲＤＥＲ［ｊ］；瑒瑡ＩｓｓＴ［ｉｄｘ］＝ｉ；瑒瑢ＣＳＩＺＥ［ＯＲＤＥＲ［ｊ］］＋＋；瑒瑣ｒｅｔｕｒｎ　ｔｒｕｅ；瑒瑤ｅｎｄ　ｉｆ瑒瑥ｅｎｄ　ｉｆ瑒瑦　ｅｎｄ　ｆｏｒ瑒瑧ｅｎｄ　ｆｏｒ瑒瑨ｒｅｔｕｒｎ　ｆａｌｓｅ．时间复杂度简要分析如下：函数ＳＣＨＥＤ＿ＩＮＳＴ调度单条指令，Ｙ１和Ｙ２分别表示２条生产者指令对当前指令的调度上限约束，Ｙ由Ｙ１和Ｙ２共同确定，Ｙ的最小值ｍｉｎＹ表示当前指令最早的ＩｓｓＴ，行瑏瑧～瑑瑤计算的时间复杂度为Ｏ（１）．Ｙ与ｓｃｈｅｄ＿ｌｂ确定了ＩｓｓＴ的取指范围，各分区最顶部的ＳｃＢ作为调度目标，算法在硬件实现时可以维护各分区各功能单元的发射机会向量，其与调度范围求交集后，顶部的ＳｃＢ即是各分区的候选，对最多ｎＣ个备选的ＳｃＢ，按照小的ＩｓｓＴ第１优先，ＯＲＤＥＲ寄存器第２优先的顺序确定调度到的ＳｃＢ，行瑑瑦～瑒瑨计算的时间复杂度为Ｏ（１）．所以，ＳＣＨＥＤ＿ＩＮＳＴ的时间复杂度为Ｏ（１）．ＳＣＨＥＤ＿ＭＡＩＮ负责指令序列的调度．行⑨～瑏瑥更新负载均衡优先级电路，其时间复杂度为Ｏ（ｎ）．行④～⑤确定２层循环，行⑤～⑦为最内层循环体，每进行１次约束放松，至少有１条指令的ｓｃｈｅｄ＿ｌｂ增１．任何１条指令的ｓｃｈｅｄ＿ｌｂ不会超过ｎ×（ｍａｘ（Ｌａｔ）＋ＩＰＬ），行⑥～⑦进行约束放松为Ｏ（ｎ２）次，行⑤调用ＳＣＨＥＤ＿ＩＮＳＴ的次数等于约束放松的次数加ｎ．因此算法总的时间复杂度为Ｏ（ｎ２）．６　实验评估６．１　实验设置我们为ＥＳＥＳＣ模拟器［３３］添加了ＤＦＢ调度后运行ＳＰＥＣＩＮＴ　ＣＰＵ２００６测试程序集，使用ｒｅｆ输入数据．我们略过初始的１亿条指令后，模拟１亿条指令的连续执行．因为ＤＦＢ　Ｃａｃｈｅ依赖程序的计算局部性，关闭模拟器的采样执行模式使模拟的动态指令流的计算局部性尽量接近程序实际执行情况．支持乱序执行的流水线的指令执行性能受到多个结构参数的影响，取指带宽、指令窗口容量、调度窗口容量、功能单元配置等都会影响程序的执行．为了评估指令空间调度方法，使指令执行性能体现调度方法的差异，我们对结构参数进行了差异化的设置，重点关注３个与指令空间调度方法密切相关的结构参数：分区数、ＩＰＬ和调度窗口容量．部分结构参数配置如表３所示．ＲＯＢ、寄存器文件等后端部件使用多端口ＲＡＭ实现，可扩展性强于调度器，它们的设置根据调度窗口容量和功能单元配置合理设定，尽量减少对性能的影响．Ｔａｂｌｅ　３　Ｐｒｏｃｅｓｓｏｒ　Ｍｏｄｅｌ　Ｃｏｎｆｉｇｕｒａｔｉｏｎ表３　处理器模型配置Ｐａｒａｍｅｔｅｒ　ＳｅｔｕｐＢＰｒｅｄＨｙｂｒｉｄ　ｌｏｃａｌ／ｇｌｏｂａｌ　ｐｒｅｄｉｃｔｏｒ，１１ｂｉｔ　ｈｉｓｔｏｒｙｒｅｇｉｓｔｅｒ，２ｂｉｔ　ｓａｔｕｒａｔｅ　ｃｏｕｎｔｅｒ，１６Ｋ－ｅｎｔｒｙ　ＰＨＴｆｏｒ　ｇｌｏｂａｌ／ｌｏｃａｌ／ｃｈｏｉｃｅ　ｅａｃｈＩｓｓｕｅ　Ｗｉｄｔｈ　８ｉｎｓｔｒｕｃｔｉｏｎｓ　ｐｅｒ　ｃｙｃｌｅＦＵ　８ｕｎｉｖｅｒｓａｌＦＵ　ＬａｔｅｎｃｙＩＮＴ：ｍｕｌ　５ｃｙｃｌｅｓ，ｄｉｖ　８ｃｙｃｌｅｓ，ｏｔｈｅｒｓ　１ｃｙｃｌｅ，ＦＰ：ｍｕｌ　７ｃｙｃｌｅｓ，ｄｉｖ　２８ｃｙｃｌｅｓ，ｏｔｈｅｒｓ　４ｃｙｃｌｅｓＬ１ＤＣａｃｈｅ　６４ＫＢ，４－ｗａｙ，３２Ｂｌｉｎｅ，２－ｃｙｃｌｅ　ｈｉｔ　ｌａｔｅｎｃｙＬ２Ｃａｃｈｅ　Ｕｎｌｉｍｉｔｅｄ，２０－ｃｙｃｌｅ　ｌａｔｅｎｃｙＳｃｈｅｄｕｌｅｒ　Ｓｉｚｅ　６４／１２８／２５６ｅｎｔｒｉｅｓＩＰＬ　１／２／３ｃｙｃｌｅＰａｒｔｉｔｉｏｎ　Ｃｏｕｎｔ　１／２／４／８Ｓｃｈｅｄｕｌｅ　Ｍｅｔｈｏｄ　ＲＲ／ＤＥＰ／ＤＦＢ已有的指令调度方法对指令关键性的判定存在差异，但调度策略可以归为负载均衡和依赖调度２类．我们设置２个参照的调度方法：ＲＲ调度轮转分配指令到各分区，维持负载均衡；ＤＥＰ调度基于生产者依赖关系调度指令，没有依赖时按照ＬＲＵ（ｌｅａｓｔ　ｒｅｃｅｎｔｌｙ　ｕｓｅｄ）策略选择分区；ＤＦＢ调度即本文提出的依据指令的相对关键性构建调度模式并缓存重用的调度方法．７５７刘炳涛等：基于数据流块的空间指令调度方法６．２　ＤＦＢ调度算法的评估与分析算法评估基于理想ＤＦＢ调度，假设所有动态指令都被ＤＦＢ　Ｃａｃｈｅ覆盖．对分区数量、ＩＰＬ和调度窗口容量３个结构参数，每次变化其中１个，观察不同调度方法的性能差异．调度效果评价有２个指标：１）每指令周期数（ｃｙｃｌｅ　ｐｅｒ　ｉｎｓｔｒｕｃｔｉｏｎ，ＣＰＩ），ＣＰＩ越低调度效果越好，我们以ＣＰＩ最低的配置为基准对ＣＰＩ进行归一化处理，方便比较；２）调度阻塞率（ｓｃｈｅｄｕｌｅ　ｂｌｏｃｋｉｎｇ　ｒａｔｅ，ＳＢＲ），如果调度方法为指令选择的分区发射队列已满，则阻塞流水线，直至调度成功，ＳＢＲ表示阻塞周期数占总周期数的比率，ＳＢＲ越小通常调度效果越好．６．２．１　分区数与调度效果不考虑分区结构在功耗、时序以及可扩展性等方面存在的优势．分区越多，单个分区的资源越少，负载不均衡和ＩＰＬ对性能产生负面影响的可能性越大．我们设置ＩＰＬ为１个周期，总调度窗口容量为１２８条指令．分区数为２，４，８的配置下，各调度方法的测试结果分别如图１０～１２所示．折线表示程序的ＣＰＩ，绘制在主纵轴上；柱状图表示程序的ＳＢＲ，绘制在辅纵轴，用百分比表示．Ｆｉｇ．１０　Ｅｘｐｅｒｉｍｅｎｔａｌ　ｒｅｓｕｌｔ　ｆｏｒ　２ｐａｒｔｉｔｉｏｎｓ图１０　分区数为２的实验结果程序的并行性特征不同导致其对调度方法存在偏好．ｐｅｒｌｂｅｎｃｈ的ＩＬＰ有限，指令依赖较多，偏好ＤＥＰ调度；ｂｚｉｐ２的ＩＬＰ较高，负载均衡压力大，调度窗口易阻塞，偏好ＲＲ调度；ｏｍｎｅｔｐｐ和ｘａｌａｎｃｂｍｋ在分区数较小时偏好ＤＥＰ调度，随着分区数增大逐渐偏好ＲＲ调度．不同程序对调度方法的偏好不同，同一个程序对调度方法的偏好也随分区数改变，所以ＲＲ调度和ＤＥＰ调度之间不存在绝对的性能优劣，适应程序并行性特征的调度方法的调度效果较Ｆｉｇ．１１　Ｅｘｐｅｒｉｍｅｎｔａｌ　ｒｅｓｕｌｔ　ｆｏｒ　４ｐａｒｔｉｔｉｏｎｓ图１１　分区数为４的实验结果Ｆｉｇ．１２　Ｅｘｐｅｒｉｍｅｎｔａｌ　ｒｅｓｕｌｔ　ｆｏｒ　８ｐａｒｔｉｔｉｏｎｓ图１２　分区数为８的实验结果好．ＤＦＢ调度量化程序的数据流约束，参照硬件资源约束生成调度模式并缓存重用，可以ＤＦＢ调度的质量和稳定性优于ＲＲ和ＤＥＰ调度．Ｆｉｇ．１３　Ｐｅｒｆｏｒｍａｎｃｅ　ｔｒｅｎｄ　ｗｉｔｈ　ｉｎｃｒｅａｓｉｎｇ　ｐａｒｔｉｔｉｏｎ　ｃｏｕｎｔ图１３　随着分区数增加性能的变化趋势程序平均性能随分区数变化的趋势如图１３所示．随着分区数增加，ＣＰＩ和ＳＢＲ逐渐上升，负载均８５７计算机研究与发展　２０１７，５４（４）衡和ＩＰＬ对性能影响逐渐增大．ＲＲ调度有最低的ＳＢＲ；ＤＥＰ调度容易导致调度窗口阻塞，ＳＢＲ较高；ＤＦＢ调度维持负载均衡的效果弱于ＲＲ，但其性能强于ＲＲ，说明ＤＦＢ调度对指令关键性把握较好，照顾负载均衡的同时并没有使得关键路径过多受到ＩＰＬ的惩罚．６．２．２　跨区操作数传递延迟与调度效果芯片上的功能单元互相传递操作数需要通信网络．单体实现时，操作数的传递延迟为１个周期，但周期较长．分区实现时，邻近功能单元操作数的传递延迟为１个周期，而距离越远延迟周期数越多，但周期较短．ＩＰＬ定量描述了功能单元间通信延迟不均匀的程度，比如，分簇超标量处理器中调度到同簇的指令可以背靠背执行，延迟为０周期，跨越簇的边界广播操作数，需要１周期．动态多核处理器中虚拟核的物理分区之间传递操作数需要配对的复制或同步指令，需要２或３周期．基于片上网络在更多的核间传递操作数的延迟与核间的曼哈顿距离成比例．我们设置总调度窗口容量为１２８条指令，分区数为８．ＩＰＬ为１，２，３周期时，各调度方法的测试结果分别如图１４～１６所示．Ｆｉｇ．１４　Ｅｘｐｅｒｉｍｅｎｔａｌ　ｒｅｓｕｌｔ　ｆｏｒ　１－ｃｙｃｌｅ　ＩＰＬ图１４　ＩＰＬ为１周期的实验结果ＩＰＬ增加会增大跨分区传递操作数导致的性能惩罚．ＲＲ调度不考虑指令的依赖关系，随ＩＰＬ增加性能下降最明显；ＤＥＰ调度的ＳＢＲ随着ＩＰＬ增加基本没有变化，因为存在依赖关系的指令被分到同一分区的概率较高，性能变化较小．程序的平均性能随ＩＰＬ变化的趋势如图１７所示．ＤＦＢ调度具有最佳调度效果．随着ＩＰＬ增长，调度裕量消耗加快，负载均衡调度的机会减少，调度结果逐渐趋近于ＤＥＰ调度．Ｆｉｇ．１５　Ｅｘｐｅｒｉｍｅｎｔａｌ　ｒｅｓｕｌｔ　ｆｏｒ　２－ｃｙｃｌｅ　ＩＰＬ图１５　ＩＰＬ为２周期的实验结果Ｆｉｇ．１６　Ｅｘｐｅｒｉｍｅｎｔａｌ　ｒｅｓｕｌｔ　ｆｏｒ　３－ｃｙｃｌｅ　ＩＰＬ图１６　ＩＰＬ为３周期的实验结果Ｆｉｇ．１７　Ｐｅｒｆｏｒｍａｎｃｅ　ｔｒｅｎｄ　ｗｉｔｈ　ｉｎｃｒｅａｓｉｎｇ　ＩＰＬ图１７　随着ＩＰＬ增加性能的变化趋势６．２．３　调度窗口容量与调度效果发射队列影响周期长度．小的发射队列容易被阻塞导致性能损失．我们设置分区数为８，ＩＰＬ为１个周期．总调度窗口容量为６４，１２８，２５６条指令时，各调度方法的测试结果见图１８～２０所示．９５７刘炳涛等：基于数据流块的空间指令调度方法。