精华公布栏

发信人: arclight (不行了，要戒网了！), 信区: CRC
标题: 高速实时数字信号处理技术探析(一)
发信站: 紫丁香 (Wed Jul 21 09:17:57 1999), 转信

高速实时DSP与并行体系结构

----当前，高速实时数字信号处理（DSP）技术已经取得了飞速的

发展；目前单片DSP芯片的速度已经可以达到每秒16亿次定点运算

（1600MIPs）。高速实时DSP芯片的主要特点就是采用了各种并行

处理技术，包括片内并行和片间并行等。其中，主要的并行DSP芯

片包括美国TI公司的TMS320C8x和TMS320C6x，以及美国AD公司的

ADSP2106x及AD1406x等等。

----(1)TMS320C8x：片内并行，MIMD体系结构

----在每一片TMS320C80内部，有1个浮点RISC类型DSP，称为主处理

器（MP）；还有4个定点DSP，称为并行处理器（PP）。每个DSP配有

10K-Bytes片内存储器（RAM），因此片内RAM总容量为50K-Bytes。主

处理器、并行处理器和片内RAM之间通过交叉开关（Crossbar）互连，

并通过1个专用的传输控制器（TC）控制处理器之间及C80与片外器件

之间的互连。在C80内部，还有1个视频控制器（VC），可用于视频接

口、时序的控制；因此这种芯片特别适用于视频信号的处理，故称MVP

芯片。

----从并行处理的角度分析，TMS320C8x是一个紧耦合多指

令多数据流（MIMD）的单片多处理器系统。这一系统的运

行速度等效于每秒20亿次RISC类型的操作。在这个系统

中，一个显著的特点是采用交叉开关（Crossbar）代替了传

统的总线互连。

----在总线互连的系统中，各个DSP之间需要申请总线，并需

要总线仲裁机构分配总线。对于单总线系统，如果某一DSP占

用总线，则其它DSP需等到该DSP释放总线后才可能获得总线的

使用权，这就限制了总线传输数据的速度。而交叉开关结构则

可以在同一时刻将不同的DSP与不同的任一存储器连通，这就大

大提高了数据传输的速率，使多处理器并行处理中数据传输的

瓶颈问题得以减轻。

----(2)TMS320C6x：片内并行，VLIW体系结构：

----TMS320C6x是90年代中后期美国TI公司推出的划时代的超级DSP

芯片；这种芯片是定点、浮点兼容的DSP系列，其中首先推出的是定

点系列TMS320C62x。

----TMS320C62x片内有8个并行的处理单元，分为相同的两组。DSP的

体系结构采用甚长指令字（VLIW）方式，单指令字长为32bits，8个指

令组成一个指令包，总字长为8×32bits=256bits。芯片内部设置了专

门的指令分配模块，可以将每个256bits的指令包同时分配到8个处理单

元，并由8个单元同时运行。这种芯片的最高时钟频率可以达到200MHz，

这是通过片内的锁相环路（PLL）将50MHz的输入时钟4倍频获得的，因

此这种芯片的指令周期为5ns。当芯片内部8个处理单元同时运行时，其

最大处理能力可以达到1600MIPs，即16亿次定点运算/秒。

----从并行处理的角度分析，TMS320C62x的主要特点是采用了VLIW的体

系结构。

----在VLIW处理机中，多个功能单元是并发工作的；所有的功能单元共享

使用公用大型寄存器堆。由功能单元同时执行的各种操作是由VLIW的长指

令来同步的，它把长指令中不同字段的操作码分送给不同的功能单元；

这种代码压缩是由编译器完成的，编译器可以利用精心设计过的启发式方

法或运行时统计方法来预测转移结果。在TMS320C62x中，8个功能单元共享

使用32个32bits通用寄存器堆。为保证代码压缩、分配的效率，TI公司还

推出了世界上第一个汇编语言级编译器；这个编译器的编译效果会大大影

响C62x的运行效率。

----VLIW处理机的另一个特点是指令获取、指令分配、指令执行、数据存

储等阶段需要进行多级流水，而且不同指令执行的流水延迟时间也不相等；

因此各种指令的安排要尽量不破坏指令流水的执行，否则处理机运行的效

率也会大大降低。

--
※ 修改:．arclight 于 Jul 21 09:32:23 修改本文．[FROM: sys03.hit.edu.cn]
※ 来源:．紫丁香 bbs.hit.edu.cn．[FROM: sys03.hit.edu.cn]