精华公布栏

发信人: champaign (原野), 信区: ECE
标  题: SHARCⅡ：新一代浮点DSP的性能和结构
发信站: 紫丁香 (Fri Jan 21 21:18:15 2000), 转信

发信人: fangf (方方), 信区: DSP
标  题: SHARCⅡ：新一代浮点DSP的性能和结构
发信站: 饮水思源站 (Sun Sep 12 00:10:52 1999) , 站内信件

SHARCⅡ：新一代浮点DSP的性能和结构
■北京理工大学电子工程系莫力曾涛
----------------------------------------------------------------------------
----
---- 近两年来，AD公司一直致力于对SHARC进行结构上的改进，以推出第二代SHARC家族
产品。第二代SHARC产品着眼于两方面：一，为现有用户提供两代产品间的代码兼容。二
，提供最高性能的32位DSP结构。今年第二季度AD公司即将要推出其第二代SHARC家族产
品中的第一位成员——ADSP-21160。该产品的最大特点是SIMD（单指令多数据流）模式
的DSP结构。第二代SHARC家族产品都将以该结构为基础。
ADSP-21160结构概述
---- ADSP-21160是专为性能要求极高的多处理应用如医学成像、3D图形加速、雷达电子
和大词汇量语音识别等设计的，代表了目前性能最好的32位DSP芯片。
---- ADSP-21160的基本特点有：
与第一代SHARC保持代码的兼容，使用户缩短开发周期。
最高工作频率达100Mhz,工作速度600 MFLOPs。
两套32-bit IEEE浮/定点运算单元和寄存器文件（SIMD计算模式），并支持40bit的扩展
精度浮点运算。
4M双口片内存储器，通过外部口可访问高至4G片外存储器。
数据总线增加到64根。
DM地址总线和PM地址总线都为32根，因此两个DAG都可访问4M内存。
14条非共享零耗DMA通道。
有两个同步串口和6个100 Mbytes/sec LINK端口。
主处理器接口。
支持多处理器共享总线。
JTAG端口。
---- SIMD计算模式是从第一代SHARC结构上发展而来。它增加了第二套计算单元，并大
大提高了处理器的数据移动能力。运算单元包含乘法器，ALU，移位器和寄存器文件。每
套计算单元称为一个处理元（PE）。在双处理元结构下，一条指令可同时在两个处理元
中执行，每个处理元中的操作数不同，导致获得两个不同结果，从而实现并行处理多数
据流（SIMD模式）。这种双处理元结构可使计算速度加倍，从而大大缩短运行时间。
---- ADSP-21160的典型功率消耗为2W，工作速度为每瓦300 MFLOPs。这使用户可在PCI
卡上使用多个处理器，而不超过PCI卡的功率限制25 W。若使用8个ADSP-21160，一个标
准PCI卡设计可获得4.8MFLOPs的性能，还能余下9W功率供给其它电路。
---- AD公司对ADSP-21160的结构进行了精心的设计。首先对其进行了明确的市场定位。
由于第一代SHARC产品在多处理市场获得成功，故将第二代家族中的第一位成员——ADS
P-21160定位在多处理市场。
性能分析结果
---- ADSP-21160的运行速度极快，在100M主频，SIMD模式下处理器1秒种可进行6亿次数
学计算。为具体分析某些算法取得的性能提高，在SIMD模拟器上运行了许多算法包括FI
R滤波器，IIR滤波器，FFTs，DCTs，先验函数和Virterbi算法。这些算法可分为两类，
多通道执行算法和单通道执行算法。单通道执行算法可进一步分为宏观并行和微观并行
为宏观并行和微观并行
。宏观并行下，由于代码块之间无数据依赖性，长的嵌套指令块可并行执行。微观并行
下，一序列无数据依赖性的对称指令操作可并行执行。多通道执行情况下，两通道的数
据并行处理；单通道执行情况下，一通道的数据在两个PE中并行处理。对于SIMD模式，
在很多情况下，多通道执行算法提供最优化和最容易实现的效率。
---- 有连续指令流且无数据依赖性的算法最适于在SIMD结构运行，许多信号处理算法即
是如此。一个单通道或多通道模式编码的FIR滤波器在SIMD结构运行时可实现100%的性能
增加。IIR滤波器在多通道模式编码时也可实现近100%的性能增加。但在单通道执行时只
能实现20%的性能增加，这是由于循环迭代时有数据依赖性。多通道执行的矩阵相乘算法
在SIMD结构运行时，也可实现近100%的性能增加。单通道执行时效率增加与矩阵的阶数
有关。阶数越大，由SIMD模式得到的性能提高越大。例如，两个2×2矩阵的相乘，在单
通道执行时可得到27%的性能提高，而两个4×4矩阵的相乘可得到41%的性能提高。SIMD
模式对DCT的性能提高无论在多通道执行或单通道执行时都是巨大的。
对FFT和其它算法的结构最优化
---- 基于对某些DSP算法基准测试点的提高进行了结构最优化。一个例子是FFT。SIMD模
式使1024点，复数，基4FFT运行速度增加，无论在多通道执行或单通道执行模式。这也
是提出SIMD结构的原因之一。多通道执行时，性能提高近100%。单通道执行时，SIMD最
优化提供了80%的性能提高。这种最优化是通过同时在两个处理单元运行FFT蝶形运算得
到。
内部存储器总线宽度增加
---- SIMD结构提供的计算能力的提高必须伴随内存总线带宽的提高。许多DSP算法，如
FFT，必须在每个时钟周期访问两个数以提高运算速度。由于SIMD结构提供了近100%的性
能提高，所以总线带宽也要求提供100%的性能提高。因此数据总线宽度提高到64位。这
惨筇峁�100%的性能提高。因此数据总线宽度提高到64位。这
使总线可在一个时钟周期内提供两个32bit数据分别给每个PE。
多种寻址能力
---- 伴随总线宽度的增加，提供了多种寻址模式，其中有一些是为FFT准备的。有一种
寻址模式是在SIMD模式下访问普通字空间，它可在一个时钟周期内将FFT实部数据和虚部
数据分别传给每个PE。单通道执行FFT时，FFT实部数组和虚部数组分别存储在两个块内
。这些数组中数据是交叉存放的，也就是说，实部数组的第一个元素包含第一个通道所
要的第一个数据，第二个元素包含第二个通道所要的第一个数据。另一种寻址模式是广
播寻址模式。在这种模式下，内存读出的一个数据可一次写进两个PE的寄存器文件中。
使用这种模式可高效的访问FFT运算中的旋转因子。
DMA
---- 为支持内存中的数据以交错方式放置，DMA增加了一些特点。DMA在内存和外存之间
移动数据。ADSP-21160的DMA可与核处理器并行运行，不插入额外周期，因而是零耗的。
DMA设计了14条通道，多通道可并行运行。DMA可提供高达700 Mbytes/sec的持续带宽。
为支持交错放置，两个或多个通道可写同一个数组。由于每个DMA通道有各自的指针，计
数器和修正寄存器，故每个DMA通道可写数组的任意位置。这使两个独立的外部数据流能
以交错方式移进或移出内存。对FFT，这意味着使用DMA通道，实部和虚部数组的交错放
置可自动实现。DMA还定义了新的打包模式，以支持新的64位外部/内部总线。此外，为
解决潜在的死锁问题，DMA控制器增加了主/局部总线死锁解决功能。该功能使主（或桥
）逻辑强令局部总线退回，使主机首先完成操作。
处理器比I/O性能
---- 由于ADSP-21160是针对多处理市场设计，所以很重要的一点是在处理器和I/O口的
性能之间寻求一个平衡点。当算法的计算带宽要求多处理器执行时，对I/O口带宽的要求
保訧/O口带宽的要求
将大大增加。用户反馈显示，处理器和I/O口的性能平衡在第一代SHARC的实现是良好的
。因此对第二代SHARC，须保持这种平衡。
---- 为提高I/O口带宽，修改了Link口和外部口。Link口数据总线宽度从4位增加到8位
，时钟频率提高到100Mhz。外部口数据总线宽度提高到64位，可以同步方式运行，频率
最高可达到核处理器的时钟频率。DMA通道从10条增加到14条，这使每一个外部设备可有
专用的DMA通道。由于存储器是双口的，DMA可与核处理器同时访问内存，不会发生冲突
。这使核处理器与I/O口的性能得到同时提高。

--
    感情是一个难以驯服的野马
    理智却是一个严厉的马夫

※ 来源:．紫丁香 bbs.hit.edu.cn．[FROM: 202.118.228.139]