发信人: champaign (原野), 信区: ECE
标 题: SHARCⅡ:新一代浮点DSP的性能和结构
发信站: 紫 丁 香 (Fri Jan 21 21:18:15 2000), 转信
发信人: fangf (方方), 信区: DSP
标 题: SHARCⅡ:新一代浮点DSP的性能和结构
发信站: 饮水思源站 (Sun Sep 12 00:10:52 1999) , 站内信件
SHARCⅡ:新一代浮点DSP的性能和结构
■北京理工大学 电子工程系 莫力 曾涛
----------------------------------------------------------------------------
----
---- 近两年来,AD公司一直致力于对SHARC进行结构上的改进,以推出第二代SHARC家族
产品。第二代SHARC产品着眼于两方面:一,为现有用户提供两代产品间的代码兼容。二
,提供最高性能的32位DSP结构。今年第二季度AD公司即将要推出其第二代SHARC家族产
品中的第一位成员——ADSP-21160。该产品的最大特点是SIMD(单指令多数据流)模式
的DSP结构。第二代SHARC家族产品都将以该结构为基础。
ADSP-21160结构概述
---- ADSP-21160是专为性能要求极高的多处理应用如医学成像、3D图形加速、雷达电子
和大词汇量语音识别等设计的,代表了目前性能最好的32位DSP芯片。
---- ADSP-21160的基本特点有:
与第一代SHARC保持代码的兼容,使用户缩短开发周期。
最高工作频率达100Mhz,工作速度600 MFLOPs。
两套32-bit IEEE浮/定点运算单元和寄存器文件(SIMD计算模式),并支持40bit的扩展
精度浮点运算。
4M双口片内存储器,通过外部口可访问高至4G片外存储器。
数据总线增加到64根。
DM地址总线和PM地址总线都为32根,因此两个DAG都可访问4M内存。
14条非共享零耗DMA通道。
有两个同步串口和6个100 Mbytes/sec LINK端口。
主处理器接口。
支持多处理器共享总线。
JTAG端口。
---- SIMD计算模式是从第一代SHARC结构上发展而来。它增加了第二套计算单元,并大
大提高了处理器的数据移动能力。运算单元包含乘法器,ALU,移位器和寄存器文件。每
套计算单元称为一个处理元(PE)。在双处理元结构下,一条指令可同时在两个处理元
中执行,每个处理元中的操作数不同,导致获得两个不同结果,从而实现并行处理多数
据流(SIMD模式)。这种双处理元结构可使计算速度加倍,从而大大缩短运行时间。
---- ADSP-21160的典型功率消耗为2W,工作速度为每瓦300 MFLOPs。这使用户可在PCI
卡上使用多个处理器,而不超过PCI卡的功率限制25 W。若使用8个ADSP-21160,一个标
准PCI卡设计可获得4.8MFLOPs的性能,还能余下9W功率供给其它电路。
---- AD公司对ADSP-21160的结构进行了精心的设计。首先对其进行了明确的市场定位。
由于第一代SHARC产品在多处理市场获得成功,故将第二代家族中的第一位成员——ADS
P-21160定位在多处理市场。
性能分析结果
---- ADSP-21160的运行速度极快,在100M主频,SIMD模式下处理器1秒种可进行6亿次数
学计算。为具体分析某些算法取得的性能提高,在SIMD模拟器上运行了许多算法包括FI
R滤波器,IIR滤波器,FFTs,DCTs,先验函数和Virterbi算法。这些算法可分为两类,
多通道执行算法和单通道执行算法。单通道执行算法可进一步分为宏观并行和微观并行
为宏观并行和微观并行
。宏观并行下,由于代码块之间无数据依赖性,长的嵌套指令块可并行执行。微观并行
下,一序列无数据依赖性的对称指令操作可并行执行。多通道执行情况下,两通道的数
据并行处理;单通道执行情况下,一通道的数据在两个PE中并行处理。对于SIMD模式,
在很多情况下,多通道执行算法提供最优化和最容易实现的效率。
---- 有连续指令流且无数据依赖性的算法最适于在SIMD结构运行,许多信号处理算法即
是如此。一个单通道或多通道模式编码的FIR滤波器在SIMD结构运行时可实现100%的性能
增加。IIR滤波器在多通道模式编码时也可实现近100%的性能增加。但在单通道执行时只
能实现20%的性能增加,这是由于循环迭代时有数据依赖性。多通道执行的矩阵相乘算法
在SIMD结构运行时,也可实现近100%的性能增加。单通道执行时效率增加与矩阵的阶数
有关。阶数越大,由SIMD模式得到的性能提高越大。例如,两个2×2矩阵的相乘,在单
通道执行时可得到27%的性能提高,而两个4×4矩阵的相乘可得到41%的性能提高。SIMD
模式对DCT的性能提高无论在多通道执行或单通道执行时都是巨大的。
对FFT和其它算法的结构最优化
---- 基于对某些DSP算法基准测试点的提高进行了结构最优化。一个例子是FFT。SIMD模
式使1024点,复数,基4FFT运行速度增加,无论在多通道执行或单通道执行模式。这也
是提出SIMD结构的原因之一。多通道执行时,性能提高近100%。单通道执行时,SIMD最
优化提供了80%的性能提高。这种最优化是通过同时在两个处理单元运行FFT蝶形运算得
到。
内部存储器总线宽度增加
---- SIMD结构提供的计算能力的提高必须伴随内存总线带宽的提高。许多DSP算法,如
FFT,必须在每个时钟周期访问两个数以提高运算速度。由于SIMD结构提供了近100%的性
能提高,所以总线带宽也要求提供100%的性能提高。因此数据总线宽度提高到64位。这
惨筇峁�100%的性能提高。因此数据总线宽度提高到64位。这
使总线可在一个时钟周期内提供两个32bit数据分别给每个PE。
多种寻址能力
---- 伴随总线宽度的增加,提供了多种寻址模式,其中有一些是为FFT准备的。有一种
寻址模式是在SIMD模式下访问普通字空间,它可在一个时钟周期内将FFT实部数据和虚部
数据分别传给每个PE。单通道执行FFT时,FFT实部数组和虚部数组分别存储在两个块内
。这些数组中数据是交叉存放的,也就是说,实部数组的第一个元素包含第一个通道所
要的第一个数据,第二个元素包含第二个通道所要的第一个数据。另一种寻址模式是广
播寻址模式。在这种模式下,内存读出的一个数据可一次写进两个PE的寄存器文件中。
使用这种模式可高效的访问FFT运算中的旋转因子。
DMA
---- 为支持内存中的数据以交错方式放置,DMA增加了一些特点。DMA在内存和外存之间
移动数据。ADSP-21160的DMA可与核处理器并行运行,不插入额外周期,因而是零耗的。
DMA设计了14条通道,多通道可并行运行。DMA可提供高达700 Mbytes/sec的持续带宽。
为支持交错放置,两个或多个通道可写同一个数组。由于每个DMA通道有各自的指针,计
数器和修正寄存器,故每个DMA通道可写数组的任意位置。这使两个独立的外部数据流能
以交错方式移进或移出内存。对FFT,这意味着使用DMA通道,实部和虚部数组的交错放
置可自动实现。DMA还定义了新的打包模式,以支持新的64位外部/内部总线。此外,为
解决潜在的死锁问题,DMA控制器增加了主/局部总线死锁解决功能。该功能使主(或桥
)逻辑强令局部总线退回,使主机首先完成操作。
处理器比I/O性能
---- 由于ADSP-21160是针对多处理市场设计,所以很重要的一点是在处理器和I/O口的
性能之间寻求一个平衡点。当算法的计算带宽要求多处理器执行时,对I/O口带宽的要求
保訧/O口带宽的要求
将大大增加。用户反馈显示,处理器和I/O口的性能平衡在第一代SHARC的实现是良好的
。因此对第二代SHARC,须保持这种平衡。
---- 为提高I/O口带宽,修改了Link口和外部口。Link口数据总线宽度从4位增加到8位
,时钟频率提高到100Mhz。外部口数据总线宽度提高到64位,可以同步方式运行,频率
最高可达到核处理器的时钟频率。DMA通道从10条增加到14条,这使每一个外部设备可有
专用的DMA通道。由于存储器是双口的,DMA可与核处理器同时访问内存,不会发生冲突
。这使核处理器与I/O口的性能得到同时提高。
--
感情是一个难以驯服的野马
理智却是一个严厉的马夫
※ 来源:.紫 丁 香 bbs.hit.edu.cn.[FROM: 202.118.228.139]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:2.718毫秒