大点数FFT的多DSPs并行处理算法及实现_刘莉

合集下载

ZFFT算法的DSP实现

ZFFT算法的DSP实现徐婷;夏威【期刊名称】《电子质量》【年(卷),期】2011(000)007【摘要】对信号进行频谱分析时,为了提高被测信号的频率分辨率、减少硬件系统的存储空间和计算量,采用基于复解析带通滤波器的ZFFT算法。

该文讨论了ZFFT 算法的原理,通过构造复解析带通滤波器——选抽滤波（一级选抽或二级选抽）——移频——FFT这样一个流程,在TI公司的TMS320DM6437上实现了ZFFT算法,从而对分析频谱进行了细化。

%In order to increase the frequency resolution,minimize the storage space and computations of hardware system,this paper adopted ZFFT algorithm based on complex analytic band-pass filter.Paper discussed the principle of the ZFFT algorithm.By constructing a【总页数】3页(P7-8,29)【作者】徐婷;夏威【作者单位】电子科技大学电子工程学院,四川成都611731;电子科技大学电子工程学院,四川成都611731【正文语种】中文【中图分类】TN911.7【相关文献】1.用DSP实现焊缝图像处理算法中的小波变换算法 [J], 黄军芬;蒋力培;邹勇;殷树言2.ZFFT算法在铁路移频信号分析中的应用及其DSP实现 [J], 武中奇;杨世武3.基于TMS320C64X系列DSPs的有限域乘法逆元算法的设计与实现 [J], 吴亚联;刘念;段斌4.以DSPs实现彩超系统主要算法的性能评价 [J], 刘立峰;李太宝5.大点数FFT的多DSPs并行处理算法及实现 [J], 刘莉;高梅国;周闰;王飞因版权原因，仅展示原文概要，查看原文内容请购买。

DSP技术发展趋势的研究和探讨论文

DSP技术发展趋势的研究和探讨论文DSP技术发展趋势的研究和探讨论文在各领域中，说到论文，大家肯定都不陌生吧，通过论文写作可以培养我们独立思考和创新的能力。

写论文的注意事项有许多，你确定会写吗？以下是小编帮大家整理的DSP技术发展趋势的研究和探讨论文，仅供参考，希望能够帮助到大家。

一、引言数字信号处理（Digital Signal Processing，即DSP），起源于上个世纪80年代，是一门涉及到许多学科并且广泛应用在很多领域的热门学科。

它利用微型计算机、专用处理设备，以数字方式对信号的采集、变换、滤波、估值、增强、压缩、识别处理，得到人们需要的信号形式。

它紧紧围绕着数字信号处理的理论、实现以及应用发展。

二、DSP技术数字信号处理（DSP）的理论基础涉及的范围非常广泛。

比如微积分、概率统计、随机过程、数值分析等数学基础是数字信号处理的基本工具，同时它与网络理论、信号与系统、控制理论、通信原理、故障诊断，传感器技术等密切相关，还有近些年来蓬勃发展的一些学科：人工智能、模式识别、神经网络等，都与数字信号处理密不可分。

正是由于有这些理论发展的前提基础，和广泛的市场需求，DSP 处理的器件也应运而生，在广泛应用在各个领域的同时得到迅速的发展。

世界上第一个单片DSP芯片是1978年AMI公司发布的S2811，在这之后，1979年美国Intel公司发布的商用可编程器件2920是DSP 芯片的一个非常重要的里程碑。

即使这两种芯片内部没有现代DSP芯片的单周期乘法器，但是他们为DSP的蓬勃、迅速发展奠定了很重要的基础。

接着，1980年，日本NEC公司推出了第一个具有乘法器的商用DSP芯片，随后，美国德州仪器公司（TI公司）推出一系列DSPs 产品，广泛地应用在信号处理的各个领域。

三、DSP技术的优点和单片机比较而言，DSPs具有集成度高、CPU快速、存储器容量大，并内置了波特率发生器、FIFO缓冲器，可提供高速、同步串口、标准异步串口。

大整数分解算法及其并行实现

1996年　第5期中山大学学报论丛SUPP LEM EN T TO T HE JOU RN AL OF SUN YATSEN UNIV ERSI TY No.5　1996　大整数分解算法及其并行实现蒋增荣　曾泳泓　成礼智(国防科技大学,长沙410073)摘　要　讨论大整数解的一些算法,并讨论它们的并行实现.可以看出,大多数分解算法非常适合并行计算.叙述了在微机上实现二次筛法和椭圆曲线法的情况.关键词　大整数分解,连分数算法,椭圆曲线法,二次筛法,并行算法近年来,有效地分解大整数已成为一种应用科学,一些新的公钥密码系统和签名系统,例如RSA,它们的安全性是建立在整数分解的难解性上面的.多项式时间算法是指这种算法的运算时间是O((logN )C ),(C 是常数),目前还不知道这样的算法.最近几年来,已经提出七种值得注意的算法(椭圆曲线法—ECM ;类群算法;线性筛法;二次筛法—QS,MPQ S ;剩余列表法;连分数法—CFRA;数域筛法),它们都是近于最快的算法,运算时间是亚指数级的O(exp{c ln N lnlnN }) (c 为常数).70年代初,以连分数分解法为一流算法,1975年分解了一个39位数,F 7=2128+1,引起了轰动.目前对于60位左右的整数很容易就能分解,已经有可能分解大于120位的整数.80年代,Lenstra 和Manasse 应用MPQS 使用分布于世界各地的计算机网络分解了好几个大于100位的整数,最大者有106位.1989年他们宣布利用数域筛法分解了一个122位的C 122=(7149+1)/28101331990年也是数域筛法分解了155位的F 9=2512+1分解过程中使用了300台DEC100工作站和一台CM 巨型机,共用了4个月时间,被评为当年七大科技成果之一.数域筛法利用了C 122和F 9的特殊形式,对于一般的数,特别是对于预先设定的RSA 中待分解的数是否适用还不清楚.1989年,R.P.Brent 宣布,在Fujitsu V P1100向量机上同了不到两小时完全分解了617位整数〔1〕F 11=22048+1=p 6p 6p 21p 22p 56421和22位素因子p 21和p 22是利用ECM 分解得到的,p 564是一个564位的素数.R .P .Brent 利用ECM 在1989年也分解了101位整数C 101=(46747-1)/4661022869=p 37p 65利用M 得到3位的因子是非常困难的收稿日期63EC 7.:199-0-20大多数有效的整数分解算法非常适合并行处理,而且常常可以得到近于线性加速比.本文综合讨论其中的一些算法,并讨论它们的并行实现.1　Pollard rho 算法比试除法快得多的最简单方法是J .M .Pollard 的rho 算法,也称“Monte Carlo”方法.用rho 算法寻求整数N 的因子p 由如下三步组成:第一步是选择一个易于计算的将Z /N Z 映射为自己的映射.这通常用一整系数多项式,例如f (x )=x 2+a (a ≠0,2).　由x i +1=f (x i )　(i=0,1,…),可生成整数序列{x i }(x 0可取1或2,或随机产生的整数);第二步研究{x i }的周期,也就是寻求x j ,使x 2j 和x j 属于模N 的不同剩余类,而属于模p 的同一剩余类,即x 2j x j mod N , x 2j ≡x j mod p;第三步由Euclid 算法计算最大公约数G.C.D (x 2j -x j ,N ).由于p 是不知道的,我们可以不断应用Euclid 算法计算G.C.D (x 2j -x j ,N )　(j=1,2,3,…)来检测x j ,以代替周期的研究,直到求得N 的一个非平凡因子为止.由于求最大公约数的花费远比一个模N 的乘法要大,可以用如下办法来减少计算最大公约数的个数以提高计算效率:计算Q i ≡∏i j=1(x 2j -x j )mod N.取适当的i 值,例如i 是100的倍数时,计算G.C.D (Q i ,N ).Pollard 发现,在随机整数序列{x i }中,一个元素通常循环C p 步,也就是使x 2j ≡x j modp 成立的最小下标值j 的期望值为E (j )=O (p ).其证明与所谓“生日问题”有关,即需要随机选取多少人,他们之中至少有两个生日相同的概率大于1/2?由计算容易得出人数应≥23.那么整数q 应多大,q 个整数中任取两个,它们关于模p 同余的概率大于1/2?容易得出q ≈1.18p .rho 算法寻求N 的一个因子中的运算时间为O (p log 3N ).这种方法的一个不足之处是运算时间还是一个期望值而不中严格意义下的界,其意思是,对于任意正实数λ,总存在常数C,使得在Cλ4N log 3N 次运算后,rho 方法找不出N 的一个因子的概率小于e -λ(p ≤N ).1981年,R.P.Brent 和J .M.Pollard 利用rho 方法完全分解了Fermat 数F 8=2256+1.rho 算法的并行实现不能给出线性加速比,这是因为x i (x i 当作x 0的多项式)的次数是2i ,看来不可能并行处理大量的整数序列{x i }.一个可行的并行处理方法是应用几个不同的整数序列(由不同的f 或不同的初始值产生).如果有P 个处理机,并行处理P 个整数序列,那么在每一个序列中前k 个值关于模p 相异的概率近似于exp(-k 2P /2p ).因此,加速比仅为O (P 1/2),效率仅为O (P -1/2).2　Pollard “p -1”算法Pollard “p -1”算法的基础是Ferma t 定理≡ (<<,为素数)如设是N 的素因子,是的倍数,那么|G D (,N ),也就是G D (,N )给出N 的一个因子(可能是平凡因子)2中山大学学报论丛 1996年a p-11modp 0a p p p k p -1p .C.a k -1.C.a k -1.由于p 是不知道的,上述思想如何用来求N 的因子呢?如果p-1的素因子以某个预先选取的整数G 为界,算法可如下进行:Step 1:作不超过G 的所有素数p i 及其乘幂p l i i P i 的表格: p 1,p 2,…p i ,…, p i ≤G P 1,P 2,…P i ,…, P i ≤GStep 2:在2与N -2之间随机选取一个整数a ,作序列{b i }; b i +1≡b P ii modN ,b 1=a ,(i=1,2,…)Step 3:计算: Q n ≡∏n i=1(b i -1)modN ,(i =1,2,…) Step4:用Euclid 算法计算:　d=G.C.D (Q n ,N )如果d>1,停止,如果d=1,取n +1重复上述步骤直至d>1为止.上述算法中,是以计算a k modN 来代替k 的计算,而前者又是经由　a ←a P i modN 得到的.计算这样一个指数式的工作量是O(logP i )次模N 的乘法,所以总工作量是O (G)次模的N 的乘法,为此总的运算时间是O(Glog 2N ).当p -1的因子均较小的情况下,“p -1”算法是非常有效的.Baillie 就应用此方法求出了Mersenner 本人曾说是素数的Mersenne 数M 257=2257-1的因子p 25=1155685395246619182673033这时p 25-1=233319247672574391191731050151取G ≥1050151就足够了.更为突出的是用“p-1”方法求出了Mersenne 数M 977=2977-1的因子p 32=49858990580788843054012690078841.这时　p 32-1=23513199771231464374941104539711535449取G ≥11535449,如果采取二步法的加速算法,取G ≥1045397,就足够了.“p -1”算法是工作在有限域GF (p )的乘法群上的,当N 固定时,这些群也是固定的,如果这些群的阶都含有大素数的乘幂,那么这个方法就无能为力了.而且“p -1”算法中的循环是固有串行的,这使得并行实现极为困难.最好不过并行处理也只能以一个小因子加速其中的多精度运算.椭圆曲线法(ECM)可以克服“p -1”算法的不足,且易于并行实现.3　连分数算法整数N 分解的现代方法都是解如下的Legndre 的同余式X 2≡Y 2modN ,　X ±Y mod N一旦这样的整数找到,只要计算G .C .D (N ,X ±Y )就能求出N 的因子.寻找平方数X 2和Y 2的所有方法都是生成和分解模N 的平方剩余的某个集合,不同方法的差异仅仅在于计算平方剩余的方法以及将它们分解的过程有所不同.利用N 的连分数可以找到这样两个平方数,其步骤为:设N 是没有小因子的复合数,待分解,y 是某个正实数.S 计算出满足如下条件的所有素数(N )=,　≤y集合FB ={,,…,F }称为分解基;S 计算Q ={Q ,Q ,…,Q N Q }和　={,,…,N Q },使它们满足3第5期蒋增荣等:大整数分解算法及其并行实现tepl :p :/p 1p p 1p 2p tep 2:12A A 1A 2A(-1)i Q i ≡A 2i -1mod N ,　Q i ≤2N (1)Q i 和A i 可以应用N 的连分数产生,即如下递归生成:设P 0=0,Q 0=1,Q 1=N -P 21,A -1=1,A 0=〔N 〕q i =[(N+P i )/Q i ], P i +1=q i Q i -P i ,Q i +1=Q i -1+(P i -P i +1)q i , A i ≡q i A i-1+A i-2modN (2)Step3:将Q 中的每个Q i 在FB 中分解Q i =p a11P a22…p aFF (3) 或者分解式中有一个大素数P ,p <p 2F ,即Q i =p U 11p U 22…p UF F p (4)Step4:由Step3的分解式中构造0,1矩阵T={m i j }R ×F 对于FB 中的每个p i ,T 都有相应的一列,而行数R 可折成两项之和:R =t 1+t 2.这里t 1是Q 中能分解成(4)式的Q i 个数(注意大素数都相等),如果大素数p 出现n 次,那么就算作n -1对.在(3)式的情况,T 的行由如下0,1向量构成(a 1,a 2,…,a F ),　a i ≡a i mod 2在(4)式的情况下,假设(4)式中的Q j 与Q 1=p V 11p V 22…p V F F p 构成一对,那么T 的该行定向量(c 1,c 2,…,c F ), c i ≡U i +V i mod2.这个0,1向量对应对平方剩余Q j Q 1.如果能分解成(3)和(4)式的Q i 足够多,即R=F+D ,那么应用Gaussian 消去法于T,至少可以产生D 个零行;Step5:Step4产生的每一个零行都表示Q i 的一个集合,这些Q i 的乘积的唯一分解式只含有偶次乘幂,从而是一个平方数,于是计算X=(∏i Q i )1/2modN , Y =∏i A i-1modN , X 2≡Y 2mod N Step6:用Euclid 算法计算 d=G.C.D (X ±Y,N )如果d>1,结束;d=1返回Step2计算和分解更多的Q i .记LEVEL=(F+LP )/N Q其中LP 是Q 中分解作(4)式的Q i 的个数.经验表明,当N 是40～50位十进整数时,LEVEL 应近于0.96,当N 是60～70位时,LEVEL 应近于0.98.对于60位的大整数N ,取F =4880,N Q =7.36108,CFRA 将能很好工作.这时大约需要1.441012次除法,一台串行机如果一次除法需10-6s,共需400h.CFRA 的并行实现.设处理机个数为P ,这时关键的一步是Step3,事实上,Stepl 可以应用P 台处理机并行计算P 个Jacobi 符号,一步就能计算出P 个素数p i ,每台处理机只需求出F /P 个素数,而且第j 台处理机(j=0,1,…,P -1)只需要区间[j (2F log2F )/p+1,(j +1)(2Flog2F )/P ]中计算;Step5和Step6只用一台处理机计算;Step4Gaussian 消去法所用的机时与Step 3相比只占很小一部分,是否考虑并行处理并不十分重要.Step 3并行实现有两种方法.第一种是用P 个Q i 放置在P 个处理机中,在每个处理机中用FB 中的素数p i 去除Q i ,从而得到Q i 的分解式直到分解出足够多的Q i 为止;第二种是将FB 中个放置在个处理机中,用一个指令在多个处理机中用各自的素数去除同一个Q 直到Q 的分解式及足够多的Q 为止下面算法的S 应用第二种方法,其目的是找出Q 的素因子;S 用第一种方法,目的是得到Q 的分解式4中山大学学报论丛 1996年P p i P i i i .tep1i p i tep 2i .Set up 将FB 中P 个素数p 置于P 个处理机中;Step1　在每一个处理机中用Step2的公式计算出一对值(Q ,A)并计算REM =Q -[Q /p ]p如果REM=0,就将p 存储在含有(Q,A)的那个处理机的存储单元中,对于数对(Q,A)重复Stepl 直到用完FB 中的所有素数;这一步使得每一个处理机含有一对(Q ,A )以及能整除Q 的一些素数.对于60位整数而言,每个处理机中大约平均有loglogQ 个素数.Step 2　在所有处理机中,以I =1开始,以存储单元中第I 个素数去除Q ,得到Q =P (I )QUO T+REM以QUO T 代替Q 重复这一步骤直至REM ≠0为止.以I+1代替I ,重复这一步.在一个文件中存储这些已经分解了有Q.如果经查询Q 的数量还不够,返回Step1.在有4096个处理机的DAP 计算机上,C .Wunderlich 只用5h 分解了60位大整数.早期流产策略(EAS )是对CFRA 的一个改进,Pomerance 和Wagstff 曾仔细分析过并在串行机上实现,他们的研究表明,EAS 可将CFRA 的效率提高8～10倍.对于40～54位整数,他们提出如下建议:用FB 中前15个素数去除Q i ,其不能分解部分>N /500,就丢弃这个Q i 而转入下一个Q i +1;或者用FB 中前80个素数去除Q i ,不可分解部分>N /2107,仍将Q i 丢弃.考虑到EAS ,CFRA 的运行时间为O (exp 1.5lnN lnlnN ).M.C.Wa nderlich 考虑了EAS 的并行实现,对于60位整数,应用EAS,在DAP 计算机上大约只要1h 就能分解.4　二次筛法与椭圆曲线法二次算法(QS )与连分数算法步骤几乎相同,不同之处仅仅在于用关系式u 2(i)≡w (i )modN(其中u (i )=i+[N ],w (i )=(i+[N ])2-N )代替N 的连分数中关于式(-1)i Q i ≡A 2i-1modN 来求满足X 2≡Y 2modN 的平方数.为了在分解基FB 上顺利分解w (i),预先设置一个筛法,即在筛区间[-M ,M )上满足某个条件的整数i ,计算w (i )并在FB 上分解,这是因为p a |w (i ),那么对于一切k ∈Z,p a |w (i+kp a ).因此一旦解出w (i)≡0mod p a,那么由施行于i 上的一个筛法就能分解w (i).1983年美国SAN DLA 国家实验室在CARY-XMP 计算机用9.5h 分解了71位整数(1071-1)/9. 多个多项式二次筛法(M PQS)改进了QS 的计算效率,运算时间为O(exp{c ln N lnlnN }), c ≈1在我们的论文“多个多项式二次筛法及其微机实现”中详细讨论了M PQS 的每一步,并给出了微机实现.在486微机上作了大量计算,得到如表1的结果:表1　M PQS 的微机计算结果N 的位数多项式个数分解基大小筛区间M 运行时间(s )36722711000048040894622000002760355第5期蒋增荣等:大整数分解算法及其并行实现42007020000010000 QS和MPQ S很适合并行处理,不同的处理机可应用不同的多项式,或者对相同的多项式在不同的区间上进行筛法.只要处理机的台数不大于分解基元素的个数就可以得到线性加速比.[4]中详细叙述了MP QA并行实现的每一步,在FP S T40计算机上,当处理机台数为32时,得到131.8的超线性加速比.椭圆曲线法ECM与“p-1”算法的区别是工作在GF(p)的椭圆曲线E上,E上的点P (以及定义在其上的加法)构成阿贝尔群G,当G的阶g不能被一个大素数或其乘幂整除时,就可求出N的一个真因子.由于有很多群可以应用,总可指望找到这样的群G.域F上的椭圆曲线E是形如y2=x3+a x+b的曲线,当P1(x1,y1),P2(x2,y2)∈E,其和P1+P2=P3(x3,y3)定义作(x3,y3)=(λ2-x1-x2,λ(x1-x3)-y1),其中λ=(3x21+a)/2y1, P1=P2(y1-y2)/(x1-x2), P1≠P2G的单位元素O是“无穷远点”.设N不含2,3,ECM简述如下:Step1:选取整数B,LB,作素数q i和Q i=q l i i的表格:q1,q2,…,q i…, q i≤BQ1,Q2,…,Q i,…, Q i≤LB Step2:在(O,N)中随机选取整数a,x0,y0,计算b≡y20-(x30+a x0)modN　和　d0=(4a3+27b2,N)若d0=1,P←P0(x0,y0),转Step3;若1<d0<N,算法结束,输出因子d0;若d0=N,另选a, x0,y0,重复Step2;Step3:对于Q1,Q2,…,Q i,…,计算　P←Q i PStep4:如果某个P=O,用Euclid算法计算P的分母与N的最大公因数d,d将是N的真因子;否则返回Step1,直到求得N的真因子为止.ECM的运算时间为　O(exp{(1+0(1))ln NlnlnN}).当N有较小因子(大大小于N)时,ECM是最快的一种分解算法.用ECM非常快就能找到10～15位的因子,经过很大努力可以找到20～25位因子,要找30～35位因子,难度很大,到目前为止,总共只找到二个38位因子,一个37位因子,一个36位因子.ECM非常适合并行处理.只要对每台处理机选取一个B和LB以及一条椭圆曲线,分别按上述步骤进行计算,一旦某台处理机得到了N的真因子,算法结束.只要试算的次数大大超过处理机台数,可以得到线性加速比.事实上,如果T1是一台处理机的运算时间,那么一台有P个处理机的运算时间为T p=T1/P+O(T11/2+X)我们在486微机上实现了ECM,并作了大量的试算,得到了如表2的结果: 6中山大学学报论丛 1996年表2　ECM 的试算结果NB LB 条数时间(s)因子1060+12004000721059648480812194+13006000198933945638646771034+12004000587541491383821参考文献1　Br ent R P .Pa rallel Algorithms for Integer Factorisa tion .Number Theor y Cr yptogra phy ,19892　Pomera nce C.The Quadratic Sieve Factoring Algorithm.Adva nces in Cryptology Lecture Notesin Comput.Sc,Springer Verlag,1985,2093　Silver ma n R D.The Multiple Polynomial Quadratic Sieve.Math of Comp,1987,484　Cosna rd M .Philippe J L .The Qua dr atic Sieve Fac toring Algorithm on D istributed MemoryMultipr ocessor s.The fifth D istributed M emor y Com puting Confere nce,19905　Wunder lich M C.Implem enting the Continued Fraction Factoring Algorithm on Par allelMachines .Math of Comp .1985,44:1696　Lenstr a H W .Factoring integers with elliptic curves .Ann .of Math ,1987,126:2The Algorithms for La rge I nteger Fa ctoriza tion andtheir Pa ralle l I mpleme nta tionJ iang Zengrong Zeng Y onghong Cheng Lizhi(National Unive rsity of D efe nse Technology,Cha ngsha 410073)Abstr act Several algorithms for integer factorization is described,and their parallel implementation is discussed .It turns out that some of the algorithms are very well suited to pa rallel implementa tion .Keywor ds large integer factorization,continued fraction factoring algorithm,quadratic sieve algorithm,elliptic curve method,parallel algorithm 7第5期蒋增荣等:大整数分解算法及其并行实现。

FFT并行算法设计与分析

24
• 4 试验分析：
• 5 问题讨论： • （1）该并行算法的效率主要损失在哪些
地方？ • （2）该并行算法还有哪些地方值得改进？
14
6.2 数模转换器
从广义上讲DAC可以看作是一种译码器，它把一组0、1数字信号转换成模拟信号，并以相应的电流或电压的形式输出。
从组成结构上DAC可分为电阻串DAC、电阻解码DAC、恒流源DAC、权电容DAC等几种类型。
从输入数据方式上DAC可分为并行DAC 和串行DAC。
15
6.2.1 DAC主要性能
输出电压为最小分辨电压ΔV。
VoΔVΔ=VVRnEF1/22ni di i0
当输入数字量D=(11…111)2时，n1 2i di 2n 1 ，
输出电压为最大电压Vm。
i0
Vm= (2n-1) ΔV
Vo
Vm 2n 1
n 1 i0
2idi
23
6.2.2 电阻串DAC
树形开关DAC的电路结构简单，工作原理易懂。但数字量每增加1位，电阻数量和开关数量都将在原来的基础上增加1倍，开关的层数也增加1层。设数字量为n位，那么电阻数量就有2n个，开关的数量有2n+1-2个，层数就有n层。当n较大时，比如n=16，开关就有16层，若要选择一个分压值，就需经过16 个电子开关。开关的静态特性和动态特性的不一致，对DAC的转换速度和精度影响很大。
1）主要技术参数 ⑴ 分辨率有三种方式表示分辨率 ① 输入数字量位数n； ② 输出最小变化量ΔI或ΔV； ③ 相对变化量S。
相对变化量是指DAC输出最小变化量与满幅输出Im或
1 2n 1
16
6.2.1 DAC主要性能
⑵ 建立时间

DSProcessor概述

TMS320C28X
Specifications • 32-bit fixed-point DSP core • Up to 400-MIPS operation • 128kWords Flash/ROM • 18kWords RAM • 12-bit ADC • EVA、EVB、SCI、SPI、CAN • McBSP • Three power-down modes • JTAG scan-based emulation • 1.8-volt core • 3.3-volt peripherals
5.0V
3.3V/1.8V
C2000系列 VS. C3x系列的选取
?
23
TI Solutions for Motor Control Applications
High performance
适用的控制对象：
交流感应电机 (ACI),
无刷直流电机(BLDC)
永磁同步电机 (PMSM) 开关磁阻电机 (SR)
2）通信
如调制解调器、自适应均衡、数据加密、数据压缩、回波抵消、多路复用、传真、扩频通信、纠错编码、可视电话等； 3）语音处理如语音编码、语音合成、语音识别、语音增强、说话人辨认、说话人确认、语音邮件、语音存储等； 4）图形/图像
FM
如二维和三维图形处理、图像压缩与传输、图像增强、动画/数字地图、模式识别、机器人视觉等；
• EMA、EMB、SCI、SPI、CAN
• Three power-down modes • Code-compatible control optimized DSPs • JTAG scan-based emulation • 3.3-V and 5-V designs

基于图论的并行计算

基于图论的并行计算在当今信息时代，计算能力的需求日益增长。

为了满足对快速高效计算的需求，研究者们致力于发现更加优化的计算方法。

并行计算是一种能够同时进行多个计算任务的计算方法，被广泛应用于图论问题中。

本文将探讨基于图论的并行计算，并介绍其原理、应用以及未来的发展趋势。

一、并行计算原理并行计算是通过将计算任务分解为多个子任务，并在多个处理器或计算节点上同时执行这些子任务来实现加速的计算方法。

在基于图论的并行计算中，图论技术被用于建模和解决各种实际问题。

典型的图论问题包括最短路径、网络流优化以及图的遍历等。

通过将这些问题转化为图论模型，并应用并行计算方法，我们能够更快速、高效地解决这些问题。

二、并行计算的应用1. 社交网络分析社交网络中包含大量的节点和边，关系错综复杂。

通过构建社交网络的图模型，并应用并行计算技术，我们可以更好地理解社交网络中的信息传播、影响力分析以及社群发现等问题。

2. 路径规划在复杂的道路网络中，通过构建道路网络的图模型，并应用并行计算技术，我们可以快速计算出最短路径，从而实现高效的路径规划。

这在导航系统和物流领域有着广泛的应用。

3. 分布式计算并行计算被广泛应用于大规模数据处理和分布式计算任务中。

通过将计算任务分解为多个子任务，并在多个计算节点上并行执行，我们可以提高计算效率和处理速度。

三、并行计算的发展趋势1. 大规模集群的应用随着计算机技术的不断发展，大规模集群成为并行计算的重要基础设施。

通过建立大规模集群，我们可以利用集群中的多个计算节点来并行执行计算任务，从而提高计算效率。

2. 分布式图处理系统分布式图处理系统应运而生，为并行计算提供了更高效的解决方案。

这些系统通过将图的数据和计算任务进行划分和分配，将计算任务分发到不同的计算节点上并行处理，实现了大规模图计算的高效实现。

3. 基于GPU的并行计算图论问题通常具有高度计算密集性，对计算资源要求较高。

由于图形处理器（GPU）拥有并行计算的特点，因此可以应用在基于图论的并行计算中，提高计算效率。

OFDM调制中高速FFT处理器的设计与实现

ｏｓｙｐｒｒｅｕｎｉｎｕｎｕｐｔｂｐｌｉｇａｎ－ｌｃｇｒｔｍｏｘｄ－ｄｘｍｕｔ－ａｋｕｌｅｆｍｓｓｑｅｔｉｐｔａｄｏｔｕｙａｐｙｎｎｉ・ａｅａｏｈｆｒａｍｉｅ－ａｉｌ－ｎｏｌａｐｌｉｒｉｂ
口ＷＡＧＫｉＥＪｎｈａＬＡＧＸ —ｎＮａ，Ｇｉ —ｕ，ＩＮｉｉａｌ
（ｔｔＫｙＬｂｆｎｅｒｔｅｖｃｅｏｋ，ｉｎＥｅｔｎｃＳｉｃｎＳａｅａ．ｏｔａｄＳｒｉＮｔｒｓＸｌｒｉｃｅｅａｄｅＩｇｅｅｗａｃｏｎ
Ｔｃｎｌｇｎｖｒｔ，ｈａｘＸ ’ｎ７０７，ＣｉａｅｈｏｙＵｉｓｙＳａｎｉｉ１０１ｈｎ）ｏｅｉａ
ＡｂｔａｔＴｅｄｓｎａｄｉｌｍｅｔｔｎｏｉｈｓｅｄＦＴｐｏｅｓｒｆｒＯＦｓｒｃ：ｈｅｉｎｍｐｅｎａｉｆｈｇ —ｐｅＦｒｃｓｏｏＤＭｄｌｔｎｉｉｔｄｃｄｇｏｍｏｕａｉｓｎｒｕｅｏｏ
ｔｒｕｈｃｍｐｒｎｎｎｌｚｇｖｒｔｓｃｎｅｔｎｌＦｒａｇｒｈｈｏｇｏａｉｇａｄａａｙｉａｅｉｏｖｎｉａＦＴｏｉｍ．ＴｅｐｏｏｅＦｒｐｏｅｓｒｓｍｕｔｎ — ｎｉｅｏｌｔｈｒｐｓｄＦＴｒｃｓｏｉｌｅａ
ｃｌｕａｉｎｒｑｉｍｅｔｗｉｎｍｉｎｔｃｍｐｅｉａｉｙｎｉｈｓｅｄｃｃｌｔｎｒｑｉｍｅｔＩａｃｌｔｅｕｒｏｅｎｈｌｍｉｉｚｇｉｏｌｘｔｓｔｆｉｇａｈｇ — ｐｅａｕａｉｅｕｒｅｉｓｙｓｌｏｅｎ．ｔｓｉｂｅｆｒＯＦｕｔｌＤＭｄｌｔｎａｄｅｓｅｉｌｍｅｔｄｗｔＰｉｉｈｓｅｄｃｃｌｔｎｅｓｃｍ－ａｏｍｏｕａｉｎａｙｔｂｍｐｅｎｅｉＦＧＡｗｔｈｇ —ｐｅａｕａｉ，ｌｓｏｏｏｈｈｌｏ

FFT算法DSP实现(DIT基2FFT运算流图)

2．各种FFT算法原理介绍与比较
现有的FFT算法包括针对N=2L点的基2FFT、基4FFT、分裂基FFT以及针对N不等于2L 的混合基FFT。其中每种算法又可以分为时域抽取算法（DIT）和频域抽取算法（DIF）。下面分别介绍它们各自的特点并对它们进行比较，导出各自的使用场合。
2.1 DIT 和 IDF 基 2 FFT 算法
这样就把一个 N 点 DFT 转换为基 2FFT 一级分解框图所示：
N N 个基本碟形运算和 2 个点 DFT 运算，如时域抽取 2 2
-1-

x(2r)
N/2 点 DFT
k WN
X(k)
x(2r+1)
N/2 点 DF
-1
X(k+
N ) 2
图 1 时域抽取基 2FFT 一级分解框图
n = n1r2 + n0 ，即将 x(n)分为 r2 个 r1 点的序列，然后做 r2 个 r1 点的 DFT 得到 X 1 (k0 , n0 ) ；将
n0 k0 后，再做 r1 个 r2 点的 DFT 得到 X 2 (k0 , k1 ) ，最后进行 r2 进制 X (k0 , n0 ) 乘以旋转因子 WN
对框图中每个 N/2 点和 N/4 点 DFT 继续进行同样的分解，直到只有最基本的 2 点 DFT 和 4 点 DFT 为止，就得到了频域抽取分裂基 FFT。由于频域抽取，造成了输出数据的二进制倒序。事实上分裂基的到序算法与基二的是一样的，可以使用同样的程序。分裂基的每个 L 形有两个复数乘法运算，所以 N 点分裂基 FFT 乘法个数是 L 形个数的
FFT 算法的研究与 DSP 实现
王靖琰 1，王靖斌 2
2
中国科学院上海应用物理研究所，上海 (201800) 山东农业大学信息工程与技术学院，泰安 (271018)

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第25卷第10期系统工程与电子技术Systems Engineering and ElectronicsVol 125No 110,2003收稿日期:2002-06-12 修订日期:2002-09-08作者简介:刘莉(1978-),女,硕士研究生,主要研究方向为高速信号适时处理。

文章编号:1001O 506X(2003)10O 1193O 04大点数FFT 的多DSPs 并行处理算法及实现刘莉,高梅国,周闰,王飞(北京理工大学电子工程系,北京100081)摘要:在FFT 变体的基础上,提出一种新的并行算法:先将数据在几片DSPs 上并行地进行前几级蝶型运算,然后将结果汇总到另一片DSPs 进行后几级蝶型运算,以实现大点数的FFT 。

该算法便于流水处理,只有一次简单的数据通讯,而且旋转因子规律简单易于将大点数FFT 拆分成小点数FFT 。

应用该算法在多DSPs 系统上(5片TI 公司的高速DSP 芯片:1片C6202和4片C6701)实现256K 点复数FFT 只需用49ms,说明该算法有并行度高和易于实现的特点。

关键词:多处理器结构;并行算法;信号处理中图分类号:T B114.3 文献标识码:AA lgorithm and Implementation of a Large -Point FFT Under the Master -SlaveParallel Mult-i Processor ArchitectureLIU Li,GAO Me-i guo,ZHOU Run,WANG Fei(De part me nt o f Electronics Engineering,Bei jing Institute o f Technology ,Be ijing 100081,China )A bstract:In this paper,a new parallel al gori th m based on a modified FF T algorithm is presented,with which an N -point FFT for a large N is easy to i mplement u nder themult -i processor archi tecture.In this al gori th m,the fi rst several stages of butterfly merging operations are carried out on the parallel digital si gnal processors (DS Ps)and the outputs are sent to another DSP to perform other butterfl y merging operations,where only one data com municati on is needed.It is easy to implement thi s algorithm on pipeline proces -sors and to divide an N -poi nt FFT for a large N into some short ones because of an easy way to rotate the factors.An i mplemen tation on a mult -i DSP system wi th a DSP of TI C6202and four DSPs of TI C6701shows that it takes onl y 49ms to perform a 256K -point FFT,which indicates that this algorithm is easy to i mplement and has a high parallelis m.Keywords:Mult -i processor architecture;Parallel algorithms;Si gnal processing1 引言近年来,离散傅立叶变换特别是快速傅立叶变换(FFT )在信号处理和其它很多领域有着越来越重要的应用。

随着应用的日益深入和复杂,有时由于资源限制和性能要求,原来经典的FFT 算法已不能满足要求。

例如,在一些特定场合,需要作大点数FFT ,其数据量大大超过了单片处理器的处理能力,因此必须将大点数FFT 拆分成多个小点数FFT ,在多处理器上并行完成。

本文在现有FFT 并行算法的基础上提出了一种新的FFT 并行算法,并在一个多DSPs 处理器上得到实现。

2 多DS Ps 处理器结构现有的FFT 并行算法主要是在分布MIMD 并行多处理器上实现的(其结构如图1所示)。

该系统的每台处理器都有自己可直接访问的内存,或称局部存储器,每台处理器称为系统中的一个节点,节点之间通过互联网络相互通讯。

每台处理器只能直接访问局部存储器,对远端存储器的访问采用消息传递的方式,通过互联网络来完成。

这种分布MIMD 并行处理器结构针对不同的算法有很大的灵活性,但是需要在各台处理器之间都实现通讯,这比下文所提到的实现大点数FFT 的多DSPs 系统的结构要复杂。

而由下面的算法可知,在大点数FFT 的实现过程中,多片并行的DSPs 只需同另外一片DSPs 之间实现通讯,而它们之间并不需要数据的通讯。

针对这种特定的情况,设计了一个多DSPs 处理器,包括1片C6202定点处理器和4片C6701浮点处理器。

4片C6701之间不能相互通讯。

原始数据开始时存放在C6701的片外存储器里,4片C6701并行处理后将结果通过双口存储器(DPRAM)传给C6202。

图2是处理板数据流图。

3 大点数FFT 的并行处理算法现有FFT 并行算法应用较多的主要是按频率抽取的基2-FFT 。

以N =32点FFT 为例,如图3所示,可将输入数据看成一个矩阵A ,A 表示刚开始数据按循环分配给P 台(下面以4台为例)处理器,每一行表示一台处理器上的数据,在进行完log 2(N /P )=三级蝶型运算后(类似8点的FFT ,只是旋转因子不同),再将数据在并行机之间按块进行重新分配(即是将矩阵A 转置,得到矩阵B ),每一台处理器依次存放N /P 2=2行的数据,然后对每行进行4点FFT 。

其中,循环分配方式是指首先将前P 个数据依次分配给P 台处理器;然后再将接下来的P 个数据依次分配给P 台处理器;如此下去,直到数据全部放完为止。

块分配方式是指将输入序列分为P 个长度相等的段,P台处理器依次分得一段数据。

图3 N =32的按频率抽取法FFT 运算流图A =048121620242815913172125292610141822263037111519232731B =012345678910111213141516171819202122232425262728293031此算法在并行处理器上运用,能够使运算并行完成,取得较好的并行效果,但是在大点FFT 的具体实现上有几点困难:(1)在多台处理器之间重新分配数据(即进行矩阵转置)时,需要多台处理器之间都能相互通讯,这会在多DSPs 系统的实现上带来一些困难;(2)数据的通讯不是连续的,也就是需要进行大量小消息的传送,而在处理器之间进行小消息传送的效率远低于对长消息的传送;(3)数据的流程过于复杂,输出是反序,如果要求顺序输出,还必须对所有数据整序,又需要进行数据通讯;(4)在选取旋转因子时规律较复杂,以上面的例子为例,前三级蝶型运算中,所用到的旋转因子分别为(i 表示W i 32)第一台:0、4、8、12、0、8、0,第二台:1、5、9、13、2、10、4,第三台:2、6、10、14、4、12、8,第四台:3、7、11、15、6、14、12,而在后两级蝶型运算中,所用的旋转因子都为0、8。

显然,前几级旋转因子的规律性不强,这在点数加大后,表现得更为明显,会给拆分带来困难。

而采用下面这种结构,在几片DSPs 处理器上并行地完成前几级蝶型运算后,将数据全部传给另一片DSPs 处理器,就可以很好地解决以上问题。

首先,数据传送十分简单,传送的都是长消息,传送效率很高,且易于实现流水处理,让计算和通讯并行;其次,在最后几级蝶型运算后就可以直接进行整序,而不再进行数据通讯。

#1194#系统工程与电子技术2003年在简化旋转因子规律方面,可以采用下面的这种输入是自然顺序而输出是反序的FFT 的流图,它是按时间抽取的基2-FFT 的一种变体。

与普通的按时间抽取的基2-FFT 相比,它保持了各节点所连的支路及其旋转因子不变,只是数据的提取和存放的次序不同而已。

该算法前几级运算只用到了局部的旋转因子,后几级运算用到了所有的旋转因子,而且后几级蝶型运算的旋转因子的规律也较明显(运算流图如图4所示)。

图4 N =32的输入是顺序输出是反序的按时间抽取的基2-FFT 流图在旋转因子的选取上,由图4可以看出,在前两级蝶型运算中只用到了W 032和W 832,即是W 04和W 14,所以前两级蝶型运算就是一般的4点FFT,而在后3级蝶型运算中,每一个三级蝶型运算的旋转因子各有4+2+1=7个:第一台:0、0、8、0、8、4、12;第二台:8、4、12、2、4、6、14;第三台:4、2、4、1、9、5、13;第四台:12、6、14、3、11、7、15。

由上面可以看出,旋转因子的规律是先将所有旋转因子进行位反卷,再将需要的旋转因子分为3部分:(1)1个旋转因子,为在整个旋转因子中顺序一次取1个所得;(2)两个旋转因子,为在整个旋转因子中顺序一次取两个所得;(3)4个旋转因子,为在整个旋转因子中顺序一次取4个所得。

按照上面的方法,就可以将大点数(N 点)FFT 任意拆分成小点数的两级的FFT (N =N 1@N 2,其中N 1=2r 1,N 2=2r 2)。

先作N 2个N 1点的FFT ,再作N 1个旋转因子按下面规律选取的r 2级蝶型运算。

先将所有的旋转因子进行位反卷,再将需要的旋转因子分为r 2部分:(1)1个旋转因子,为在整个旋转因子中顺序一次取1个所得;(2)两个旋转因子,为在整个旋转因子中顺序一次取两个所得,;(r 2)2r 2-1个旋转因子,为在整个旋转因子中顺序一次取2r 2-1所得。

用同样的方法还可以将N 1点的FFT 拆分成更小点数的FFT,这样就可以实现将大点数(N 点)FFT 拆分成任意级FFT (N =2r 1@2r 2@,2r M ),即是拆成r 1级蝶型运算,r 2级蝶型运算,和rM 级蝶型运算。