l可配置硼转换删匣P妻搿o

文章编号：１００２—８６９２（２００８）０６－００２１－－０４Ｐａ－?Ｉｓ＆ａｐｐｌｉｅａ６０ｍ匿－！：刁……一———‘－罩——————————．．＝ｊ—■‘—。

ＡＶＳ自适应环路滤波器硬件设计与实现

杨少博８．李凤亭６

（清华大学ａ．微电子所；ｂ．电子工程系，北京１０００８４）

?实用设计?

【擒要】设计了一种适合于ＡＶＳ的自适应环路滤波器。为解决计算复杂度高的问题，通过ｇ－内缓存管理方式和流水线设计，解决了环路滤波的硬件实现时速度慢的问题，使得效率提高，达到了实时解码的要求。最后采用Ｖｅｒｉｌｏｇ语言进行设计和仿真。

【关键词】ＡＶＳ标准；自适应；现场可编程门阵列；去块效应滤波器

【中图分类号】ＴＮ９１９．８１【文献标识码】Ａ

ＨａｒｄｗａｒｅＤｅｓｉｇｎａｎｄＩｍｐｌｅｍｅｎｔａｔｉｏｎｏｆＳｅｒｆ－ａｄａｐｔｉｖｅＬｏｏｐＦｉｌｔｅｒＢａｓｅｄＯｉｌＡｖｓ

ＹＡＮＧＳｈａｏ－ｂｏ＂．ＵＦｅｎｇ－ｔｉｎｇｂ

池ｌｎｓｔｉｔｔａｅｏｆＭｉｃｒｏｅｌｅｃｔｒｏｎｉｃｓ；ｂ．ＤｅｐａｚｔｍｅｎｔｏｆＥｌｅｃｔｒｏｎｉｃＥｎｇｉｎｅｅｒｉｎｇ，ＴｓｉｎｇｈｕａＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ１０００８４，Ｃｈｉｎａ）

【Ａｂｓｔｒａｃｔ】Ａｎｓｅｌｆ－ａｄａｐｔｅｄｌｏｏｐｆｉｌｔｅｒｂａｓｅｄｏｎＡＶＳｉｓｄｅｓｉｇｎｅｄｉｎｔｈｉｓｐａｐｅｒ．Ｂｙｕｓｉｎｇｔｈｅａｐｐｒｏｐｒｉａｔｅｍａｎａｇｅｍｅｎｔｏｆｂｕｆｆｅｒ－ｏｎｃｈｉｐａｎｄｐｉｐｅｌｉｎｉｎｇｄｅｓｉｇｎ，ｔｈｅｐｒｏｃｅｓｓｉｎｇｓｐｅｅｄａｎｄｅｆｆｉｃｉｅｎｃｙａｒｅｇｒｅａｔｌｙｉｍｐｒｏｖｅｄ，ａｎｄｔｈｕｓｓｏｌｖｅｔｈｅｐｒｏｂｌｅｍｏｆｈｉｓｈｃａｌ－ｃｕｌａｔｉｎｇｃｏｍｐｌｅｘｉｔｙ，ａｎｄｍｅｅｔｔｈｅｒｅｑｕｉｒｅｍｅｎｔｓｏｆｒｅａｌ－ｔｉｍｅｄｅｃｏｄｉｎｇ．Ｆｉｎａｌｌｙ，ｔｈｅｄｅｓｉｇｎｉｓｓｉｍｕｌａｔｅｄｂｙｕｓｉｎｇＶｅｒｉｌｏｇｌａｎｇｕａｇｅ．【Ｋｅｙｗｏｒｄｓ】ＡＶＳｓｔａｎｄａｒｄ；ｓｅｌｆ－ａｄａｐｔｉｖｅ；ＦＰＧＡ；ｄｅｂｌｏｃｋｉｎｇｆｉｌｔｅｒ

１引言

我国数字音视频编解码技术标准ＡＶＳ第二部分Ｉｌｌ主要针对高清晰度数字电视广播和高密度存储媒体应用，采用了与Ｈ．２６４类似的技术框架，包括变换、量化、熵编码、帧内预测、帧间预测、环路滤波等技术模块，与Ｈ．２６４性能相同，但技术简洁。实现复杂度低。由于基于块的ＤＣＴ的非覆盖特性和基于块的量化，在压缩率高的情况下块效应就会明显。为了减小块效应，ＡＶＳ引入了环路滤波器。由于自适应环路滤波器在实现时存在许多条件运算（如滤波强度的计算、边界阈值和跳转等计算）及其对于数据的访问不规则，使得滤波器算法复杂度很高。利用软件实现自适应环路滤波，很难满足视频解码的实时性要求１１－：ｑ。笔者根据ＡＶＳ中环路滤波器的特点，设计了一种基于并行流水技术的硬件结构完成自适应环路滤波处理，满足视频解码的实时性要求。

２环路滤波算法分析

２．１滤波流程

ＡＶＳ环路滤波器放在帧间预测和运动补偿之前，用滤波后的帧为后续帧做预测参考。参考帧性能的提高能够提高预测效果，从而提高编码效率（即提高相同码率下的ＰｓⅣＲ或降低相同胚撇下的码率）；由于滤波去除了虚假的块边界，也使重建图像的主观质量明显提高。

ＡＶＳ视频标准中，变换采用了８ｘ８的整数ＤＣＴ变换，运动估计的最小块尺寸也是８ｘ８，因此块效应可能会出现在每个８ｘ８块的边界上。标准中规定除图像边界及条带的边界之外，宏块的所有边界都应进行滤波。这里的

宏块边界定义为宏块内部各个８ｘ８块之间的边界，以及

当前宏块与相邻宏块之间的上边界和左边界【蚓。

环路滤波以宏块为单位，按照光栅扫描顺序依次处

理。每个宏块对亮度和色度分别进行环路滤波，首先从左

到右对垂直边界滤波，然后从上到下对水平边界滤波。

２．２滤波需要的数据

这里假设片外ＲＡＭ中的图像是按８ｘ８块组织的，

每个存储单元对应块中的一行像素。相应地，片内ＳＲＡＭ

也是６４位宽的，每个存储单元也对应于８ｘ８块中的一行

像素数据。由于ＡＶＳ视频标准中采用的一维滤波算法最

多用到块边界两侧各３个像素数据，为了节省片内

ＳＲＡＭ的面积，对于当前宏块上面的宏块，亮度和色度块

都只存储了下面的３行像素数据。而对于当前宏块左面

的宏块，为了使访存操作比较规整，在片内ＳＲＡＭ中存

储了与当前宏块相邻的４个块，如图ｌ所示。

Ｉ“ｂ¨６４ｂ玑６４咄

｜．——叶＋—’＊叫

Ｌｕ咖ＣｂＣｒ

围１滤波数据存储示意图

当前宏块的上边或者左边的样本值可能在对先前的

宏块进行环路滤波过程中已经被修改，则当前宏块环路

滤波输入这些可能被修改过的样本值，并且当前宏块的

丽两丽历面磊而丽池塑型２１

鞘Ｆ

躺旷

鹎一

鞘旷

四

万方数据

环路滤波可能进一步修改这些样本值；当前宏块垂直边

界滤波过程中被修改的样本值作为水平边界滤波过程的

输入。

２．３滤波运算过程（一维条件滤波）

块Ｐ和块ｑ在水平或垂直边界两侧有６个样本点ｐ２，Ｐ１，ｐ０，ｑＯ，ｑ１以及９２。用尸ｏ，用，Ｑ０和Ｑ１分别表示ｐＯ，Ｐ１，ｑ０和ｑｌ滤波后的样本值。根据既和两个域值ａ，

ｐ（ａ和卢可以根据两个块的量化因子ＱＰ以及图像头中

的ｏｌｐｈａｃ＿ｏ够ａ，ｂｅｔａ＿ｏｆｆｓｅｔ参数计算得到），滤波操作最

多可以影响到边界两边各２个样本值。如果Ｂｓ≠０，｜ｐＯ—

ｑ０１＜ａ，Ｉｐｌ－ｐＯＩ印目．Ｉｑｌ－ｑ０１印，则对边界两边的样本进行

如下滤波：

１）Ｂｓ＝２时，定义ａｐ＝ｌｐ２－ｐＯＩ，ａｑ＝ｌｑ２－ｑＯＩ。对亮度块边界两边的样本ｐＯ，Ｐ１，９０和ｑｌ的滤波过程如下：

ｉｆ（ａｐ＜卢＆＆ＩｐＯ－ｑＯｌ＜（（ａ＞＞２）＋２））｛

ＰＯ＝（ｐｌ＋２ｘｐＯ＋ｑＯ＋２）＞＞２

Ｐｌ＝（２ｘｐｌ＋ｐＯ＋ｑＯ＋２）＞＞２

｝ｅｌｓｅ

ＰＯ＝（２ｘｐｌ＋ＰＯ＋口０＋２）＞＞２

Ｉｆ（ａｑ＜ｆｌ＆＆ｌｐ０－ｑ０１＜（（ａ＞＞２）＋２））｛

ＱＯ＝（ｑ１＋２ｘｑＯ＋ｐＯ＋２）＞＞２

Ｑｌ＝（２ｘｑｌ＋ｑＯ＋ｐＯ＋２）＞＞２

ｌｅｌｓｅ

ＱＯ＝（２ｘｑｌ＋ｑＯ＋ｐＯ＋２）＞＞２

色度块边界两边的Ｐ０和ｑ０采用同样的方法滤波。

２）Ｂｓ＝ｌ时，对ｐ０和ｑＯ滤波的计算过程如下：

首先，令ｄｅｌｔａ＝Ｃｌｉｐ３（－Ｃ，Ｃ，（（（ｑＯ－ｐＯ）ｘ３＋（ｐ１－ｑ１）＋４）＞＞３）），ＰＯ＝Ｃｌｉｐｌ（ｐＯ＋ｄｅｈａ），ＱＯ＝Ｃｌｉｐ１（ｑＯ－ｄｅｌｔａ）；然

后，根据如下过程判断是否需要对Ｐ１和ｑ１进行滤波：（１）如果为色度边界，不对Ｐｌ和ｑ１滤波；

（２）如果为亮度边界，且ｑＰ印，则Ｐ１＝Ｃｌｉｐｌ（ｐｌ＋Ｃｌｉｐ３（－Ｃ，Ｃ，（（（尸０＿Ｐ１）×３＋（ｐ２一Ｑ０）＋４）＞＞３）））；

（３）如果为亮度边界，且凹中，则Ｑ１＝Ｃ却１（ｑ１一Ｃｌｉｐ３（一Ｃ，Ｃ，（（（ｑ１－ＱＯ）ｘ３＋（／：９一ｑ２）＋４）＞＞３）））。

上述过程中，滤波裁减参数Ｃ由两个块的量化参数ＱＰ和图像头中的ｏｌｐｈａｃｏ睇ａ参数确定。

３自适应滤波器的硬件设计

３．１滤波顺序的优化

根据ＡＶＳ标准，在对一个宏块进行滤波的过程中。

对于４：２：０格式，最多需要对１２条块边界进行一维滤波

处理，包括８条亮度块边界、２条Ｃｂ色度边界和２条Ｃｒ色度边界。对于色度分量，垂直和水平块边界各有ｌ条．

而垂直边界上的滤波要先于水平边界上的滤波，所以滤

波顺序是固定的；而对于亮度分量，垂直和水平块边界各２２堕塑墼堂正面磊ｉ磊萄而孬蕊磊丽有４条，可以选择不同的处理顺序［５。－６１。

从尽量简化硬件控制的角度出发，本文提出了基本滤波顺序和改进的滤波顺序。图２所示为基本滤波顺序，即按编号从１到１２，依次处理各边。图３所示为对边界两边的样本进行改进的滤波。

嘏胡胡

图２基本滤波顺序示意图

商胡胡

图３改进的滤波顺序示意图

两种处理顺序的区别在于：在完成１号边界上的滤波后，第０块的数据可能被更新，按照基本滤波顺序，需要首先将其写回片内ＳＲＡＭ，在进行３号边界上的滤波时，还要将第０块数据从ＳＲＡＭ中再次取出；而按照改进的滤波顺序，只需要将其保存在可配置行列转换阵列中，在完成第０块和第ｌ块之间的２号边界的滤波后，再将被第２次更新过的第０块数据写回片内ＳＲＡＭ。在按照改进的滤波顺序处理３号和４号边界时，也按照同样方式组织数据流。这样的组织方式能够提高数据利用率，减少了对存储器的访问次数，加快处理速度。

３．２可配置行列转换阵列的设计

在对水平边界进行垂直滤波时，每次滤波所用到的像素数据在片内ＳＲＡＭ中分别属于不同的存储字。因此，待滤波的像素数据在进入一维滤波器之前以及滤波后写回片内ＳＲＡＭ之前，都需要进行行列转换。另外，如果ＳＲＡＭＯ和ＳＲＡＭｌ都采用单端口ＳＲＡＭ，滤波过程中不能同时进行读写，那么在对垂直边界进行水平滤波时，也必须要对像素数据进行缓存。可配置行列转换阵列可以通过对方向开关的选择，分别提供行列转换或者缓存的功能，其结构如图４所示。

阵列中的每个单元都是８位的寄存器，其值可以向下或者向右传送。当方向开关选择垂直方向时，输入端口是Ｉｎ０和Ｉｎｌ，输出端口是ＯｕｔＯ和Ｏｕｔｌ，数据从上向下流动；当方向开关选择水平方向时，输入端口是Ｉｎ２，输出端口是Ｏｕｔ２，数据从左向右流动。

万方数据

图４转置矩阵示意图

４环路滤波器结构的设计

４．１基于基本滤波顺序

下面给出的滤波器体系结构基于基本滤波顺序，基本处理过程为：首先，把边界两侧的像素数据从片内ＳＲＡＭ读出，缓存在可配置行列转换阵列中；然后，把缓存的数据依次送入一维滤波器中进行滤波，滤波处理韵结果再送回片内ＳＲＡＭ。

下面分别给出了该结构对垂直和水平块边界进行滤波时的数据通路，其中２个片内ＳＲＡＭ都是单端口的。

对垂直边界进行水平滤波时，每个块边界需要１６个时钟周期的处理时间，过程如图５所示。其中，前８个时钟周期用于缓存数据，即将边界两侧的各８行像素数据从ＳＲＡＭ０和ＳＲＡＭｌ中读出，并从Ｉｎ０和Ｉｎｌ沿着向下的方向写入可配置行列转换阵列；后８个时钟周期用于滤波，同时将滤波结果写回ＳＲＡＭ０和ＳＲＡＭｌ。

ＳＲＡＭ０ｌＩＳＲＡＭＩ

１６４ｂｉｔ４ｂｉｔ

Ｉｎ０Ｉｎｌ

ｌ－ｎ２

可配置行列转换阵列

。ｕｔ２ｌ

０ｕｔＯＯｕｔｌ

｝６４ｈｉｔ１６４ｂｉｔ

●●

一维滤波器

１６４“ｉｔｐ“ｉｔ

ＳＲＡＭ０ＳＲＡＭｌ

图５基本滤波结构通路

对水平边界进行垂直滤波时，每个块边界需要３０个时钟周期的处理时间。其中，前１１个时钟周期用于输人像素数据，即将水平边界上下各３行像素数据从ＳＲＡＭ０或ＳＲＡＭｌ中读出，并从Ｉｎ２沿着向右的方向写入可配置行列转换阵列的中部（使水平边界上面的３行像素能从Ｏｕｔ０的最右侧输出，下面的３行像素能从Ｏｕｔｌ的最左边输出），数据通路如图６所示；接着的８个时钟周期用于滤波，同时将滤波结果从Ｉｎ０和Ｉｎｌ写回可配置行列

Ｐａｔ?“＆ａｐｐｌｉｅａｔｊｏ朋舅！：Ｙ

～……………一～…一￡—：———————，—————．．．．：：；■■■＿－＜。一

转换阵列；最后的１１个时钟周期用于输出像素数据，即

从Ｏｕｔ２读出滤波过的像素数据，并写回ＳＲＡＭ０或

ＳＲＡＭｌ。对于亮度块，前后两次滤波时所用的像素数据

不会被存储在同～个片内ＳＲＡＭ中。因此，在输出像素

数据的１１个时钟周期里，可以同时从另一个片内ＳＲＡＭ

中读入下一次滤波所需要的像素数据，为下一次滤波节

省了１１个时钟周期。这样，对于亮度块的４次水平边界

上的垂直滤波，共需要３０＋１９ｘ３＝８７个时钟周期。

ＩｎＯＩｎｌ

螂Ｓ删ＲＡ“矧ｍｌ可配置硼转换删匣Ｐ妻搿ｏ

Ｏｕｔ０：Ｏｕｔｌ

图６数据流向

４．２基于改进的滤波顺序

下面给出的滤波器体系结构是针对改进的滤波顺序

的，其中两个片内ＳＲＡＭ都采用了双端口的ＳＲＡＭ，可同

时对不同的存储单元进行读写。采用了双端口的ＳＲＡＭ

后，对垂直边界进行水平滤波时的数据通路如图７所示，

而对水平边界进行垂直滤波时的数据通路保持不变。

图７基于改进顺序的滤波器结构框图

这种结构提高了对垂直边界滤波时存储在可配置行

列转换阵列中数据的利用率。例如，改进的滤波顺序处理

完１号边界后，数据被写回ＳＲＡＭ０，第０块的数据则缓

存在可配置行列转换阵列中，同时可以从ＳＲＡＭ０中读

出第１块的数据到可配置行列转换阵列中，这样对２号

边界的滤波就可以节省从片内ＳＲＡＭ读取像素数据的

时间。改进之后，４个亮度块垂直边界上的水平滤波可以

减少１６个时钟周期。另外，由于片内ＳＲＡＭ都采用了双

端口ＳＲＡＭ，对于色度块的垂直边界，水平滤波前不需要

将像素数据预先缓存在可配置行列转换阵列中，每条色

度块垂直边界上只需要８个时钟周期。因此，２个色度块

垂直边界上的水平滤波又可以减少１６个时钟周期。这

样，处理一个宏块只需要４２８个时钟周期。

４．３并行处理策略

本设计以宏块作为基本流水单位。要完成一个宏块

丽两丽历面菇而塑鲤燮２３

万方数据

巨翟．萋丝勉．．．…

的去块效应环路滤波，其基本执行过程可以分成：推导滤波参数单元、宏块级滤波单元和数据更新单元。

宏块级的并行设计是指在某一时刻，上述３个功能单元同时工作，第ｎ个宏块的环路滤波、第／／，一１个宏块的参考帧数据存储、第ｎ＋１个宏块的滤波参数推导同时进行，如图８所示。

图８滤波时，｜手示意图

５仿真结果

用ＶｅｒｉｌｏｇＨＤＬ语言完成了自适应滤波器的ＲＴＬ设计。经过对各块数据进行转置、暂存、滤波等操作，同时考虑控制单元对各操作的等待时间，本设计完成一个宏块各边界的滤波需要３１６个时钟（不计入前面各级解码模块未完成数据操作的等待时间和往外输出的总线请求时间）。根据外部存储吞吐量的要求，系统频率为１０８ＭＨｚ。

（上接第２０页）

图像时可以达到高帧率，满足运算速度的要求，而且在处理不同算法时有灵活的适应能力。

５小结

笔者提出了新的基于数据流处理的可重构流媒体处理器架构，并实现了其与ＡＲＭ９平台的协同操作，验证了它在视频图像处理上的优越性，高速并保持对算法适应的灵活度。在保持较小规模的硬件资源条件下，比传统可重构处理器运算速度提升６７％一１００％，处理ＣＩＦ格式的Ｈ．２６４解码速率可以达到１５１ｆ／ｓ，并可实时处理两种不同解码过程。同理，更多的新算法可以被映射到该可重构流媒体处理器架构中。但高速运算的代价是需要在软硬件任务划分与编译处理阶段进行大量的判断与计算，目前仍然有很大的难点。为了能够突出可重构计算的优点，下一步工作重点将是软硬件划分与编译处理，用计算机自动实现代替目前的人工方式。

参考文献

Ｉｌ】１ＳＩＮＧＨ１４．ＬＥＥＭｉｎｇｈａｌｌ，．ＬＵＧｕａｎｇｍｉｎｇ，ｅｔａ１．ＭｏｒｐｈｏＳｙｓ：蛐ｉｎｔｅｇｒａｔｅｄｒｅｃｏｎｆｉｇｎｒａｂｌｅｓｙｓｔｅｍｆｏｒｄａｔａ—－ｐａｒａｌｌｅｌａｎｄｃｏｍｐｕｔａｔｉｏｎ－ｉｎ??ｔｅｎｓｉｖｅａｐｐｌｉｃａｔｉｏｎｓ［Ｊ］．ＩＥＥＥＴｒａｎｓ．Ｃｏｍｐｕｔｅｒｓ．２０００，４９（５）：４６５－４８１．若要求实现高清实时解码，则系统对每个宏块的处理时钟数上限为４４１，本设计在时钟要求方面已能满足要求。

参考文献

…１ＧＢ／Ｔ２００９０．２－２００６，信息技术先进音视频编码第二部分：视频【Ｓ】．２００６．

【２】２ＺＨＡＮＧＫｅ。ＹＵＬｕ．Ａｎａｒｅａ－ｅｆｆｉｃｉｅｎｔＶＬＳＩａｒｃｈｉｔｅｃｔｕｒｅｆｏｒＡＶＳｉｎ?ｔｒａｆｒａｍｅｅｎｃｏｄｅｒ［ＥＢ／ＯＬＩ．【２００８－０３－２５］．ｈｔｔｐＪ／ｓｐｉｅ．ｏｒｇ／ｅｌｅｃｔｒｏｎｉｃ—ｉｍａｇ－ｉｎｇ．ｘｍｌ．

【３】ＩＴＵ－ＴＲｅｃ．Ｈ．２６们Ｓ伽ＥＣ１４Ａ９６－１０ＡＶＣ，ＤｒａｆｔＩＴＵ—ＴＲｅｃｏｍ－ｍｅｎｄａｔｉｉｏｎａｎｄＦｉｎａｌＤｒａｆｔＩｎｔｅｒｎａｔｉｏｎａｌＳｔａｎｄａｒｄｏｆＪｏｉｎｔＶｉｄｅｏＳｐｅｃｉ．ｆｉｅａｔｉｏｎ［Ｓ］．２００３．、

【４】ＣＨＡＮＧＳＣ，ＰＥＮＧＷＨ，ＷＡＮＧＳＨ，ｅｔａ１．Ａｐｌａｆｆｒｏｍｂａｓｅｄｂｕｓ－ｉｌｌｔｅｄｅａｖｅｄａｒｃｈｉｔｅｃｔｕｒｅｆｏｒｄｅ－ｂｌｏｃｋｉｎｇｆｉｌｔｅｒｉｎＨ．２６４１ＭＰＥＧ－－４ＡＶＣ［Ｊ］．ＩＥＥＥＴｒａｎｓ．ＣｕｎｓｕｍｅｒＥｌｅｃｔｒｏｎｉｃｓ，２００５，５１（１）：２４９－２５５．

【５】ＫＡＯＹＣ，ＫＵＯＨＣ，ＬＩＮＹＴ．ｅｔａ１．Ａｈｉｇｎ—ｐｅｒｆｏｒｍａｎｃｅＶＬＳＩａｒｃｈｉｔｅｃｔｕｒｅｆｏｒｉｎｔｒａｐｒｅｄｉｃｔｉｏｎａｎｄｍｏｄｅｄｅｃｉｓｉｏｎｉｎＨ．２６４／ＡＶＣｖｉｄｅｏｅｎｅｏｄｉｎｇ［Ｃ］／／Ｐｒｏｃ．ＡｓｉａＰａｃｉｆｉｃＣｏｎｆｅｒｅｎｃｅｏｎＣｉｒｃｕｉｔｓａｎｄＳｒｓ－ｔｅｎｍ．ｉｓ．１．］：ＩＥＥＥＰｒｅｓｓ．２００６：５６２－５６５．

◇作者简介：

杨少博ｆ１粥４－Ｊ。硕士生．主研视频压缩算法；

李凤事（１９４６一）．副教授．主要研究图像处理、信号处理和ⅥＬｓＩ设计。

责任编辑：任健男收藕日期：２∞ｓ－０４－ｌＯ

【２】２ＲＯＳＥＪ，ＦＲＡＮＣＩＳＲＪ．ＬＥＷＩＳＤ．ｅｔａ１．Ａｒｃｈｉｔｅｃｔｕｒｅｏｆｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙｓ：ｔｈｅｅｆｆｅｃｔｏｆｌｏｇｌｃｂｌｏｃｋｆｕｎｃｔｉｏｎａｌｉｔｙｏｎａｒｅａｅｆｆｉｃｉｅｎｃｙ［１］．ＩＥＥＥＪｏｕｒｎａｌｏｆＳｏｌｉｄ—ＳｔａｔｅＣｉｒｃｕｉｔｓ，１９９０，２５（５）：１２１７－１２２５．

【３】ＢＯＮＤＡＬＡＰＡｌ＇ＩＫ，ＰＲＡＳＡＮＮＡＶＫ．Ｒｅｃｏｎｆｌｇｎｒａｂｌｅｃｏｍｐｕｔｉｎｇ：ａｒｃｈｉｔｅｃｔｕｒｅｓ。ｍｏｄｅｌｓａｎｄａｌｇｏｒｉｔｈｍｓ［ＥＢ／ＯＬ］．［２００８－０１一ｌｏ】．ｈｔｔｐ：／／ｃｉｔｅ?Ｂｅｅｒ．ｉｓｔ．ｐｓｕ．ｅｄｕ／ｂｏｎｄａｌａｐａｔｉ００ｒｅｃｏｎｆｉｇｕｒａｂｌｅ．ｈｔｍｌ．

［４】ＢＥＣＫＥＲＪ，ＴＨＯＭＡＳＡ，ＶＯＲＢＡＣＫＭ，ｅｔａ１．Ａｎｉｎｄｕｓｔｒｉａｌ／ａｃａ—ｄｅｍｉｃｅｏｎｆｉｇｕｒａｂｌｅｓｙｓｔｅｍ－ｏｎ－ｃｈｉｐｐｒｏｊｅｃｔ（ＣＳｏＣ）：ｃｏａｒｓｅ－ｇｒａｉｎＸＰＰ－／Ｌｅｏｎ－ｂａｓｅｄａｒｃｈｉｔｅｃｔｕｒｅｉｎｔｅｇｒａｔｉｏｎ【ｑ／Ｐｒｅｃ．ＤｅｓｉｇｎＡｕｔｏｍａｔｉｏｎａｎｄ

Ｔｅｓｔｉｎ

ＥｕｒｏｐｅＣｏｎｆｅｒｅｎｃｅ

ａｎｄＥｘｈｉｂｉｔｉｏｎ．【Ｓ．１．］：ＩＥＥＥＰｒｅｓｓ，２００３：１１２０－１１２１．

【５】５ＶＯＲＢＡＣＨＭ，ＢＥＣＫＥＲＲ．Ｒｅｃｏｎｆｉｇｕｒａｂ｜ｅｐｒｏｃｅｓｓｏｒａｒｃｂｉｔｅｃｔｕｒｅｓｆｏｒｍｏｂｉｌｅｐｈｏｎｅｓ［Ｃ］／／Ｐｒｏｃ．ＰａｒａｌｌｅｌａｎｄＤｉｓｔｒｉｂｕｔｅｄＰｒｏｃｅｓｓｉｎｇＳｙｍｐｏ－ｓｉａｍ．ｉｓ．】．］：ＩＥＥＥＰｒｅｓｓ，２００３：２２－２６．

◇作者简介：

肖钰（１９８２－）．硕士生。主研可ｔ构处理器结构与可重构算法映射；

刘雷波（１９７５－｝．副教授，主要研究方向为、ｒｌＬｓＩ橐成电路设计方法学研究：

魏少军（１９５８－）．教授。博士生导师．主要研究领域为深亚微米囊成电路设计方法学、面向设计再利用的ＳｏＣ设计方法学和裔层次综合技术。

责任编辑：任■男收稿日期：２００８－０４＿ｌＯ

万方数据