精华区文章阅读

发信人: dormouse (出征 V 号带飘扬), 信区: Communication
标  题: 高速大吞吐量数字处理的需求推动DSP结构和性能的发展
发信站: 哈工大紫丁香 (2001年06月20日21:25:40 星期三), 站内信件

技术文库
打印版推荐给同仁发送查询

高速大吞吐量数字处理的需求推动DSP结构和性能的发展
上网时间：2001年02月

随着DSP日渐从军事和通讯应用普及到消费类电子应用，(中国)工程师对DSP技术的
关注也与日俱增。例如，今后DSP会被可编程系统级逻辑芯片取代吗？越来越多的
处理器和微控制器开始集成DSP内核又会怎样影响未来DSP市场的发展？本文试图从
技术和市场的角度对这些问题进行探讨。

R.T.“Tets”Maniwa
总编辑
Integrated System Design

贝尔实验室于1979年发明并制造出第一块集成DSP，它采用了目前经典的哈佛结构
(独立的数据和指令总线以及一个乘加单元)。第一块芯片的存储空间非常小，而且
DSP必须完全采用汇编语言进行编程。第一代DSP仅包含数百个逻辑门，采用5 μm
以下工艺制造，但在过去的20年，这一情况发生了巨大变化。现在，最新的DSP正
采用0.13 μm工艺进行设计，并正在成为复杂系统级芯片中的一些关键组件。

从第一代DSP到目前的产品，促使DSP功能发展的其中一个主要推动力是通讯。数字
处理能力的提高促进了DSP在最终用户和网络基础设施领域的应用，其它大批量采
用DSP的应用领域包括：海量存储、视频和多媒体、音频、调制解调器(DSL、线缆
、V.90等)、以及基础设施(如基站和交换中心)。现在，我们还看到汽车控制和保
安等领域也开始采用DSP。所有这些促进DSP应用增长的领域都印证了这一事实，即
大部分信号处理任务已从模拟域转移到数字域。数字实现的主要优点在于可用软件
更改功能的灵活性，而在模拟设计中要进行功能修改是比较困难的。

DSP应用领域不断扩大

随着各种应用的出现，DSP和数字处理器已不再局限于某些特殊应用领域，手机、
通讯卫星和机顶盒均对DSP提出了完全不同的要求和功能。此外，一些消费类电子
产品(如视频游戏机)正将一些功能(如音频处理)作为一种数字处理功能增加到系统
中，这一多样化以及不断增长的将DSP作为一个功能模块集成到系统级芯片中去的
趋势仍在继续增长。今天许多终端产品可通过增加语音响应来改善用户接口。例如
，借助DSP的处理能力，你就有可能让你的PDA在你开车时用语音提醒会议安排，并
当你继续询问“在哪开会”时用语音做出应答。这些功能还可增强开车安全性，因
为它们可用于实现语音操控驾驶，进而将人类双手从方向盘上彻底解放出来。

Forward Concepts公司总裁兼首席分析家Will Strauss指出，随着更多应用转向对
模拟信号进行数字处理，处理器的数量也在不断增加。ASIC或嵌入式DSP的销量已
远远大于可编程标准产品，诸如调制解调器、MPEG解码器及其它特殊功能器件的市
场交易量每年约60亿美元，而可编程器件仅约44亿美元。

大供应商动态

目前市场上主要DSP供应商有四家：德州仪器、摩托罗拉、朗讯科技和模拟器件公
司(ADI)。Starcore开发集团是朗讯和摩托罗拉的合资设计中心，主要致力于采用
RTL格式的通讯处理器开发，并将由两家公司共同生产。尽管这两家公司正在合作
开发处理器内核及其外设，但将在集成芯片市场上相互竞争。

BOPS公司市场和销售副总裁Rick Kepple认为，随着因特网逐渐成为数据和语音的
主要传输通道并带来一股连网热，DSP市场也正在发生着变化。此外，视频、xDSL
、电信基础设施(包括无线、通讯和联网)等应用市场也对DSP的处理能力提出了更
高的要求。为了满足日益增长的性能要求和关键产品的面市压力，DSP内核正在转
向基于平台的设计。DSP内核和控制器内核(如ARM或MIPS内核)的结合已成为一个设
计大趋势，因为它可大幅提高DSP的数据处理能力。当然，设计者还需要在处理器
周围配备一些其它器件(如存储器等)，才能满足DSP特大处理流量的要求。

随着结构和硅工艺的发展，一些最新的DSP设计已达到1GHz时钟，性能超过1
BOPS(每秒十亿次操作)。现今伴随着集成度和性能的持续增长趋势，对更低功耗的
要求也越来越高。过去5年多来，业界一直在研究如何在提高性能的同时降低功耗
，许多处理器供应商已开始为其客户提供高性能和低功耗系列DSP。随着DSP逐渐向
多执行单元和管道结构发展，原先的性能指标MIPS正变得越来越不重要，尽管最新
的性能指标仍包括MIPS/W。用来监测数据处理吞吐量的一个更为有效的计量单位是
MMAC或Mflops (每秒浮点操作次数)，这些指标已证明在不同结构中具有普遍性和
可传递性。

并行结构还不够

为了实现更高的吞吐量，就必须在特定单位时间内处理更多的数据位。Starcore技
术中心结构设计总监Kevin Kloker说，一个明显的趋势是提高DSP结构的并行度。
并行结构的类型包括指令级、数据级和任务级。VLIW技术可使得指令字更宽，这样
每个指令字就可实现更多的功能，它代表了指令级的并行度。超标量结构和超管道
结构也试图在一个指令周期内得到更多的指令。

数据级并行度由更宽的数据字、向量化和数据流结构来表示。由于数据字的宽度更
大，因此每个指令周期指令可处理更多的数据，从而提高了每个时钟周期可处理的
数据位数。任务级或事务级并行度体现在多任务、多线程和多处理器设计中。通过
增加处理单元的数目，这些结构有望提高数据处理吞吐量。不过，也不可盲目增加
并行度，因为增加的并行度会带来新的问题和折衷考虑。例如，DSP必须在串行(控
制)和并行(算术运算)代码之间保持平衡，否则，串行代码太多会增加整体吞吐处
理时间。这一问题通常可通过采用多个DSP内核来解决，但也会同时带来软件开发
和控制复杂度问题。如果接口不正确，这些并行处理单元将很难保持一致的存储器
模型和进行软件调试。

除了更快的字流以外，最新的DSP还将字的宽度提高到64位以满足更高数据速率要
求。更宽的数据和指令字有助于提高寻址空间，并允许对VLIW执行单元进行更好的
打包。增加的数据和指令宽度以及随之而来的数据处理吞吐量提高也要付出一定的
代价。当代码密度和数据宽度与应用相匹配时，它们能起帮助作用；但当数据字宽
度与处理器不相同时，它们反而会带来很多麻烦。24位视频应用就是一个典型例子
，这里一个32位数据字将总有一个字节是空的，或者数据字必须不断地重新打包以
填满字宽度。这两种方法都无助于改善代码密度和数据处理。重新打包增加了代码
开销，而空字节则会导致存储器和功率浪费。

TI DSP产品营销经理Henry Wiechman表示，VLIW技术在编程合适时能提供较高的数
据吞吐量，有些结构则需要一个高性能编译器来将空指令最小化。因此，该公司通
过增加指令来处理额外的功能单元和特殊功能使其DSP对编译器更为友好，TI最新
的c6000具有更多的寄存器文件和64位数据通道宽度。

大量可用的片上高速缓存正变得对系统的总吞吐量越来越重要，因为标准的存储器
总线和接口已无法为系统中每个MAC的千兆字节数据传输率提供支持。系统其余部
分能否与高速处理器相配也正迅速成为一个大问题，带有2个ALU单元的双MAC处理
器每一时钟周期可能需要4个数据字，或每秒需要4千兆多个数据字。

软件工具

工业分析家Jeff Bier指出，根据摩尔定律，DSP的处理能力将随着每一代产品的发
展而不断提高。市场对DSP的要求正在发生变化，复杂软件工具的重要性变得越来
越突出。

VLIW、超标量及其它性能增强特性需要更高级的编译器，过去DSP必须采用汇编语
言进行编程是因为那个时代的编译器很差，原因有二：DSP质量和缺乏对工具的重
视。过去的DSP结构与编译器相容性不好，与当今RISC处理器的简单寄存器文件和
16或32个通用功能可互换寄存器相比，过去的DSP具有一组不可互换的不同地址特
殊寄存器、累加器和指针。这些没有很好组织的寄存器使得编译器的开发非常困难
，过去由于无人在编译器上投资，情况已变得很糟。

但这些情况在过去5年内已发生很大变化，现在所有最新的处理器，如TI C6000、
Starcore和ADI的Tiger Sharc，都设计得更加类似于通用处理器。它们具有更加适
合于高性能编译器的固定结构。结构和软件工具方面的发展趋势正逐步转向更高的
可用性。

Starcore平台营销经理Scott Beach指出，结构革新的增加将导致供应商不断设计
出新的内核。软件开发工具必需消除由于并行度提高而引起的软件复杂性。此外，
设计者将需要拥有很好的范例，并致力于提高系统的整体效率。例如，如果系统有
多个DSP，那么就需要满足任务切换所需的开销。在采用多线程多处理器实现时，
数据同步可能会成为一个问题。

LSI Logic产品经理Steve Williams同意上述观点并补充道，这些工具必须可以混
合使用汇编和C语言。由于现在芯片的尺寸与片上存储器量成正比，因此代码效率
和封装就变得更加重要。此外，编程环境必须方便开发者使用。你肯定不希望汇编
语言编程者必须跟踪将功能分配到并行执行单元的每一个细节，同时，业界已意识
到内核将是下一个市场增长热点。供应商要想成为领导者，必须有标准产品和第三
方软件开发工具支持。

所有的供应商都意识到了软件工具的重要性。通过获得合格的内部结构和指令集，
软件开发的任务变得简单多了。由于DSP设计着重于算法，软件工具须提供与算法
和仿真环境链接的开发接口。高级语言编程和代码块复用能力将可明显加快硬/软
件集成的速度。

TI C5000策略营销经理Mark Mattson强调，TI也在瞄准其它开发领域。他们通过与
第三方供应商合作及扩充内部软件产品来加强软件支持。他们购买了Go DSP以获得
一个高质量的开发环境，他们还开发了一个基于C语言的DSP功能库，以便通过复用
现有的代码块而使DSP的使用变得更加简单。当一些常见的专用功能软件库(如
Viterbi解码器和FFT等)在系统软件中得到验证后，软件开发将变得更为简单。

未来DSP发展

作为软件灵活性的一个替代方案，可编程逻辑供应商也一直在改进他们的硬件。专
用定制逻辑的处理吞吐量通常优于用处理器执行相同的功能，编程后的处理器需要
大量的时钟和指令来完成可编程逻辑器件在几个时钟周期内就可完成的算法。

Quicklogic公司产品营销经理Jon Ewald表示，他们的PLD实现与目前一些分立标准
产品和嵌入式处理器具有同样的处理效率。这一性能部分得益于该器件可以同时处
理多个数据流的能力，当算法已具有多个定义好的常数和已装载到查找表中的参数
时，其硬件并行性能可得到最佳发挥。查找表可以处理这些系数，尤其当保存常数
的存储区可在线重新配置时。

此外，可编程逻辑器件也可有效地处理一些其他的系统要求。它不仅具有非常高速
的信号处理能力，而且可实现与系统其余部分的接口逻辑。当采用最大的可编程逻
辑器件时，整个系统的大部分(包括控制处理器和存储器)可以作为一个完整的信号
处理单元集成在同一块芯片上，从而有可能减小与片外通讯有关的延迟和功耗。如
果逻辑和信号处理功能可集成在单个芯片上，算法的硬件实现就具有比软件编程型
处理器更快的数据处理速率。这种增强的吞吐量会影响信号处理功能的一个重要指
标---每瓦MIP数，从而使可编程逻辑器件成为软件编程型DSP的一个低成本和低功
耗替代方案。

随着DSP向更大和更快方向的发展，除了最初但仍很重要的通讯市场，DSP将应用于
更广泛的领域。新一代产品所提供的数字引擎可使无数的模拟功能实现数字化。

作者简介：

R.T.“Tets”Maniwa拥有加利弗尼亚大学的BSEE学位。

--


    I am dormouse.    我是睡鼠
    too lazy.

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: dormouse.hit.edu.cn]

Communication 版 (精华区)