发信人: arclight (不行了,要戒网了!), 信区: CRC
标  题: 高速实时数字信号处理技术探析(一)
发信站: 紫 丁 香 (Wed Jul 21 09:17:57 1999), 转信




高速实时DSP与并行体系结构


----当前,高速实时数字信号处理(DSP)技术已经取得了飞速的

发展;目前单片DSP芯片的速度已经可以达到每秒16亿次定点运算

(1600MIPs)。高速实时DSP芯片的主要特点就是采用了各种并行

处理技术,包括片内并行和片间并行等。其中,主要的并行DSP芯

片包括美国TI公司的TMS320C8x和TMS320C6x,以及美国AD公司的

ADSP2106x及AD1406x等等。


----(1)TMS320C8x:片内并行,MIMD体系结构


----在每一片TMS320C80内部,有1个浮点RISC类型DSP,称为主处理

器(MP);还有4个定点DSP,称为并行处理器(PP)。每个DSP配有

10K-Bytes片内存储器(RAM),因此片内RAM总容量为50K-Bytes。主

处理器、并行处理器和片内RAM之间通过交叉开关(Crossbar)互连,

并通过1个专用的传输控制器(TC)控制处理器之间及C80与片外器件

之间的互连。在C80内部,还有1个视频控制器(VC),可用于视频接

口、时序的控制;因此这种芯片特别适用于视频信号的处理,故称MVP

芯片。


----从并行处理的角度分析,TMS320C8x是一个紧耦合多指

令多数据流(MIMD)的单片多处理器系统。这一系统的运

行速度等效于每秒20亿次RISC类型的操作。在这个系统

中,一个显著的特点是采用交叉开关(Crossbar)代替了传

统的总线互连。


----在总线互连的系统中,各个DSP之间需要申请总线,并需

要总线仲裁机构分配总线。对于单总线系统,如果某一DSP占

用总线,则其它DSP需等到该DSP释放总线后才可能获得总线的

使用权,这就限制了总线传输数据的速度。而交叉开关结构则

可以在同一时刻将不同的DSP与不同的任一存储器连通,这就大

大提高了数据传输的速率,使多处理器并行处理中数据传输的

瓶颈问题得以减轻。


----(2)TMS320C6x:片内并行,VLIW体系结构:


----TMS320C6x是90年代中后期美国TI公司推出的划时代的超级DSP

芯片;这种芯片是定点、浮点兼容的DSP系列,其中首先推出的是定

点系列TMS320C62x。


----TMS320C62x片内有8个并行的处理单元,分为相同的两组。DSP的

体系结构采用甚长指令字(VLIW)方式,单指令字长为32bits,8个指

令组成一个指令包,总字长为8×32bits=256bits。芯片内部设置了专

门的指令分配模块,可以将每个256bits的指令包同时分配到8个处理单

元,并由8个单元同时运行。这种芯片的最高时钟频率可以达到200MHz,

这是通过片内的锁相环路(PLL)将50MHz的输入时钟4倍频获得的,因

此这种芯片的指令周期为5ns。当芯片内部8个处理单元同时运行时,其

最大处理能力可以达到1600MIPs,即16亿次定点运算/秒。


----从并行处理的角度分析,TMS320C62x的主要特点是采用了VLIW的体

系结构。


----在VLIW处理机中,多个功能单元是并发工作的;所有的功能单元共享

使用公用大型寄存器堆。由功能单元同时执行的各种操作是由VLIW的长指

令来同步的,它把长指令中不同字段的操作码分送给不同的功能单元;

这种代码压缩是由编译器完成的,编译器可以利用精心设计过的启发式方

法或运行时统计方法来预测转移结果。在TMS320C62x中,8个功能单元共享

使用32个32bits通用寄存器堆。为保证代码压缩、分配的效率,TI公司还

推出了世界上第一个汇编语言级编译器;这个编译器的编译效果会大大影

响C62x的运行效率。


----VLIW处理机的另一个特点是指令获取、指令分配、指令执行、数据存

储等阶段需要进行多级流水,而且不同指令执行的流水延迟时间也不相等;

因此各种指令的安排要尽量不破坏指令流水的执行,否则处理机运行的效

率也会大大降低。


--
※ 修改:.arclight 于 Jul 21 09:32:23 修改本文.[FROM: sys03.hit.edu.cn]
※ 来源:.紫 丁 香 bbs.hit.edu.cn.[FROM: sys03.hit.edu.cn]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:4.996毫秒