精华区文章阅读

发信人: dormouse (出征 V 号带飘扬), 信区: Communication
标  题: DSP处理器与通用处理器的比较
发信站: 哈工大紫丁香 (2001年06月20日20:12:51 星期三), 站内信件

考虑一个数字信号处理的实例，比如有限冲击响应滤波器（FIR）。用数学语言来
说，FIR滤波器是做一系列的点积。取一个输入量和一个序数向量，在系数和输入
样本的滑动窗口间作乘法，然后将所有的乘积加起来，形成一个输出样本。

类似的运算在数字信号处理过程中大量地重复发生，使得为此设计的器件必须提供
专门的支持，促成了了DSP器件与通用处理器（GPP）的分流：

1 对密集的乘法运算的支持

GPP不是设计来做密集乘法任务的，即使是一些现代的GPP，也要求多个指令周期来
做一次乘法。而DSP处理器使用专门的硬件来实现单周期乘法。DSP处理器还增加了
累加器寄存器来处理多个乘积的和。累加器寄存器通常比其他寄存器宽，增加称为
结果bits的额外bits来避免溢出。
同时，为了充分体现专门的乘法-累加硬件的好处，几乎所有的DSP的指令集都包含
有显式的MAC指令。

2 存储器结构

传统上，GPP使用冯.诺依曼存储器结构。这种结构中，只有一个存储器空间通过一
组总线（一个地址总线和一个数据总线）连接到处理器核。通常，做一次乘法会发
生4次存储器访问，用掉至少四个指令周期。

大多数DSP采用了哈佛结构，将存储器空间划分成两个，分别存储程序和数据。它
们有两组总线连接到处理器核，允许同时对它们进行访问。这种安排将处理器存贮
器的带宽加倍，更重要的是同时为处理器核提供数据与指令。在这种布局下，DSP
得以实现单周期的MAC指令。

还有一个问题，即现在典型的高性能GPP实际上已包含两个片内高速缓存，一个是
数据，一个是指令，它们直接连接到处理器核，以加快运行时的访问速度。从物理
上说，这种片内的双存储器和总线的结构几乎与哈佛结构的一样了。然而从逻辑上
说，两者还是有重要的区别。

GPP使用控制逻辑来决定哪些数据和指令字存储在片内的高速缓存里，其程序员并
不加以指定（也可能根本不知道）。与此相反，DSP使用多个片内存储器和多组总
线来保证每个指令周期内存储器的多次访问。在使用DSP时，程序员要明确地控制
哪些数据和指令要存储在片内存储器中。程序员在写程序时，必须保证处理器能够
有效地使用其双总线。

此外，DSP处理器几乎都不具备数据高速缓存。这是因为DSP的典型数据是数据流。
也就是说，DSP处理器对每个数据样本做计算后，就丢弃了，几乎不再重复使用。

3 零开销循环

如果了解到DSP算法的一个共同的特点，即大多数的处理时间是花在执行较小的循
环上，也就容易理解，为什么大多数的DSP都有专门的硬件，用于零开销循环。所
谓零开销循环是指处理器在执行循环时，不用花时间去检查循环计数器的值、条件
转移到循环的顶部、将循环计数器减1。

与此相反，GPP的循环使用软件来实现。某些高性能的GPP使用转移预报硬件，几乎
达到与硬件支持的零开销循环同样的效果。

4 定点计算

大多数DSP使用定点计算，而不是使用浮点。虽然DSP的应用必须十分注意数字的精
确，用浮点来做应该容易的多，但是对DSP来说，廉价也是非常重要的。定点机器
比起相应的浮点机器来要便宜（而且更快）。为了不使用浮点机器而又保证数字的
准确，DSP处理器在指令集和硬件方面都支持饱和计算、舍入和移位。

5 专门的寻址方式

DSP处理器往往都支持专门的寻址模式，它们对通常的信号处理操作和算法是很有
用的。例如，模块（循环）寻址（对实现数字滤波器延时线很有用）、位倒序寻址
（对FFT很有用）。这些非常专门的寻址模式在GPP中是不常使用的，只有用软件来
实现。

6 执行时间的预测

大多数的DSP应用（如蜂窝电话和调制解调器）都是严格的实时应用，所有的处理
必须在指定的时间内完成。这就要求程序员准确地确定每个样本需要多少处理时间
，或者，至少要知道，在最坏的情况下，需要多少时间。

如果打算用低成本的GPP去完成实时信号处理的任务，执行时间的预测大概不会成
为什么问题，应为低成本GPP具有相对直接的结构，比较容易预测执行时间。然而
，大多数实时DSP应用所要求的处理能力是低成本GPP所不能提供的。

这时候，DSP对高性能GPP的优势在于，即便是使用了高速缓存的DSP，哪些指令会
放进去也是由程序员（而不是处理器）来决定的，因此很容易判断指令是从高速缓
存还是从存储器中读取。DSP一般不使用动态特性，如转移预测和推理执行等。因
此，由一段给定的代码来预测所要求的执行时间是完全直截了当的。从而使程序员
得以确定芯片的性能限制。

7 定点DSP指令集

定点DSP指令集是按两个目标来设计的：

使处理器能够在每个指令周期内完成多个操作，从而提高每个指令周期的计算效率
。
将存贮DSP程序的存储器空间减到最小（由于存储器对整个系统的成本影响甚大，
该问题在对成本敏感的DSP应用中尤为重要）。
为了实现这些目标，DSP处理器的指令集通常都允许程序员在一个指令内说明若干
个并行的操作。例如，在一条指令包含了MAC操作，即同时的一个或两个数据移动
。在典型的例子里，一条指令就包含了计算FIR滤波器的一节所需要的所有操作。
这种高效率付出的代价是，其指令集既不直观，也不容易使用（与GPP的指令集相
比）。

GPP的程序通常并不在意处理器的指令集是否容易使用，因为他们一般使用象C或
C++等高级语言。而对于DSP的程序员来说，不幸的是主要的DSP应用程序都是用汇
编语言写的（至少部分是汇编语言优化的）。这里有两个理由：首先，大多数广泛
使用的高级语言，例如C，并不适合于描述典型的DSP算法。其次，DSP结构的复杂
性，如多存储器空间、多总线、不规则的指令集、高度专门化的硬件等，使得难于
为其编写高效率的编译器。

即便用编译器将C源代码编译成为DSP的汇编代码，优化的任务仍然很重。典型的
DSP应用都具有大量计算的要求，并有严格的开销限制，使得程序的优化必不可少
（至少是对程序的最关键部分）。因此，考虑选用DSP的一个关键因素是，是否存
在足够的能够较好地适应DSP处理器指令集的程序员。

8 开发工具的要求

因为DSP应用要求高度优化的代码，大多数DSP厂商都提供一些开发工具，以帮助程
序员完成其优化工作。例如，大多数厂商都提供处理器的仿真工具，以准确地仿真
每个指令周期内处理器的活动。无论对于确保实时操作还是代码的优化，这些都是
很有用的工具。

GPP厂商通常并不提供这样的工具，主要是因为GPP程序员通常并不需要详细到这一
层的信息。GPP缺乏精确到指令周期的仿真工具，是DSP应用开发者所面临的的大问
题：由于几乎不可能预测高性能GPP对于给定任务所需要的周期数，从而无法说明
如何去改善代码的性能。

--


    I am dormouse.    我是睡鼠
    too lazy.

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: dormouse.hit.edu.cn]

Communication 版 (精华区)