精华公布栏

发信人: champaign (原野), 信区: ECE
标  题: MPEG音频与AC-3
发信站: 紫丁香 (Sat Jan  8 19:16:44 2000), 转信

发信人: fangf (方方), 信区: DSP
标  题: MPEG音频与AC-3
发信站: 饮水思源站 (Sat Jul 31 22:23:45 1999) , 站内信件

   电子世界
ELECTRONICS WORLD
1999年第1期 No.1 1999

-------------------------------------------------------------------------------

MPEG音频与AC-3

　　刘宪坤

　　MPEG音频和AC-3可以将非常高质量的音频信息记录在直径12cm的CD光盘上，是VCD和
DVD的主要技术之一。从MPEG音频和AC-3开始，出现了各种高效率音频编码技术，这在应
用广泛的音频媒体中兴起了一场大变革。本文以MPEG音频和AC-3为重点，介绍这些音频编
码技术。

高效率音频编码的机制

　　CD以44.1kHz的采样速率、广播机器如DAT用48kHz采样速率进行PCM编码。CD以16bit
／样本的精度进行编码(量化)，因而比特率为每个通道44.1k×16=705．6kbps。如果用最
新的音频编码技术，则可以在保持同等音质的前提下，用64kbps～128kbps速率编码。如
果以44.1k样本／秒来计
算，这就相当于每1个样本(采样值)1.5bit，以这么低的平均信息量能达到接近于CD的高
音质，的确令人惊讶。

　　一般来说，数据压缩有两种方法。一种方法是利用信号的统计性质，完全不丢失信息
的高效率编码法，称为平均信息量编码或熵编码(entropycoding)。第二种方法是利用接
收信号的人的感觉特性，省略不必要的信息，压缩信息量，这种方法称为感觉编码(perc
eptualcoding)。

　　因为熵编码可通过解码完全再现编码前的数据，故应用范围广泛，例如可用于磁盘压
缩、文件压缩等，在保存信息方面，完全不用担心劣化。不过遗憾的是，仅依靠熵编码不
能将音频信号进行大幅度的数据压缩。这是因为在音频信号中会有白噪声信号，这种完全
随机的信号，根据信息
论是决不能用熵编码进行压缩的。因此在音频压缩中，必须同时采用感觉编码。

　　音频信号的感觉编码是利用听觉心理特性。这种特性很早以前就进行过研究，不过可
以说只是由于DSP(数字信号处理器)的进步，才以音频编码的形式开花结果。典型的听觉
心理特性有图1所示的频率特性(左)和时间特性(右)。图1中绝对可闻阈是指寂静时听觉可
听到的最低音量，噪声A
可闻，但噪声C因在绝对可闻阈以下，故听不到。另外，即使在郊外寂静的室内，也有图
中所示的30～40dB的噪声，故如果没有实验用的消声室，绝对可闻阈是无法测量的。

　　如图1左图所示，当有黑线所示的某频率信号存在时，靠近它的本来可以听见的噪声
B就变得听不见了，这种现象叫做频率掩蔽效应。而如右图所示，当某时刻有黑线所示的
信号存在时，位于其后面的比它小一些的本来可听见的噪声E也变得听不见了，这种现象
称为时间掩蔽效应。这些
两种效应合成的结果，就形成了实际的可闻阈。

　　图2为一般音频编码的方框图。首先利用掩蔽效应对输入信号进行时间—频率变换，
然后像图3所示的那样，将原信号①分解成基本波形的叠加②，再变换成对应于频率、时
间方框的系数列③(子带样本)。这些系数可用逆变换完全可以恢复为原来的波形。这种变
换本身完全没有数据压缩
效果，也不引起信号劣化。接着，通过听觉心理模型、比特分配和量化，对图4所示的每
个频率方框进行最佳比特分配。这可以粗略地理解为在PCM线性编码的情况下，在相当于
图4所示的曲线范围内完全用比特填满，而在高效音频编码情况下，则仅在图中的长方形
部分内分配比特。从数学
上讲，矩形上半部相当于熵编码，下半部相当于感觉编码。因此这种编码方式可能达到的
压缩比就相当于矩形部分与曲线图全体的面积比。
MPEG视频一起已成为VCD
、CD-I、多媒体、PC的必备功能。与此同时，MPEG音频在加拿大和欧洲还用于数字音频广
播标准等，获得了很大的成功，现已得到广泛应用。

　　MPEG音频将输入信号分割成32个子带(层Ⅲ是576字节)，根据听觉心理模型适当地进
行比特分配，由此即可用128kbps～384kbps的比特率将立体声Hi－Fi音频信号编码。根据
用途不同还准备了层Ⅰ、层Ⅱ、层Ⅲ三个层(编码模式)，层Ⅱ是最常用的。

　　2MPEG2音频

　　MPEG2音频是在MPEG音频基础上为用于HDTV和高质量数字音频广播而增加了必要功能
的一种方式，与MPEG音频具有很好的互换性。它和MPEG2视频是并行开发的，1994年11月
完成了国际标准(IS)。它对MPEG音频作了以下两点扩展：

　　(1)MC／ML(多通道／多语音)。MPEG2音频增加了5.1通道的多通道功能和可到7通道的
多语音功能。可以重放适合于高品位音频重放的5通道，在立体声L(左)、R(右)的基础上
，增加了C(中)、LS(左环绕)、RS(右环绕)。多语音是独立于5个通道的解说(辅助声音)通
道，最多可达到7个通道
。用MC／ML编码的数据，即使使用不具有MC／ML功能的MPEG音频解码器也可以作为2通道
立体声重放。这叫做后向兼容性，是MPEG2音频的最大特征。

　　(2)LSF(低采样频率)。MPEG2音频比MPEG音频增加了24kHz、22.05kHz、16kHz的采样
频率，由此即可提高用低比特率时的压缩率。

　　3AC-3

　　作为电影院用的杜比环绕声方式的数字版开发的杜比AC-3方式，现在十分引人注目，
因为它不仅用于ATV(高级TV)标准，还用于将有大发展的DVD标准。

　　AC-3系统的方框图如图5所示。图中滤波器库采用MDCT(改进离散余弦变换)，用这种
变换将时间样本变换成频率成分，对各成分分配适当比特后再进行编码，最后经多路复用
得到编码比特流。

　　解码过程和编码相反，输入的编码比特流经去复用后分成两路：一路经频谱包络解码
送至内部比特分配，另一路送逆量化器，在这里与内部比特分配方框送来的信号一起进行
逆量化，再经滤波器库处理后输出。

　　要说明的是，这里的编解码是指数据压缩和解压缩，真正的AC-3解码器要将输入的一
路解压缩后的串行比特流变换成5.1通道模拟信号，还要有复杂得多的专门系统解码器。
图6即为美国ZORAN公司开发的AC-3解码芯片ZR-38500的简单输入输出电路。

　　因为AC-3是和MPEG音频不同的方式，故不能实现对MPEG音频的后向兼容。不过其它功
能大体相同，例如就同步来说，因为含有MPEG系统的时间标记(timestamp)，故可与MPEG
视频同步。而在压缩性能方面，难以直接比较，因为压缩性取决于编码器的能力和输入信
号，但同MPEG音频层Ⅱ
相比，可望减少百分之几以上的比特率。

MPEG音频的结构

　　下面介绍MPEG音频压缩编解码方式的结构。其它音频编码方式的结构与之基本相同。

　　1编码器和解码器的构成
　　MPEG音频编码器和解码器的方框图如图7、图8所示。

　　2帧结构

　　最常用的层Ⅱ的帧结构图示于图9。每1帧的样本数为1152，每帧的比特数是不变的，
故为固定长度帧结构。其中音频信号的信息输入的音频数据部分可以做成可变长度的，在
到达帧长度的间隙部分的辅助信息可以插入音频信号以外的任意数据。

　　在图10所示的可变比特变化范围内，比特分配是对各个子带指定1个样本分配多少比
特。边界用头(Head)指定，在边界以上的子带中，比特分配和样本，左右通道是共同的(
联合立体声编码)。子带限度是分配的比特不为0的最大的子带。

　　比例因子(scalefactor)和比例因子选择信息(ScalefactorSelectionInformation:S
CFSI)指定每个子带的振幅最大值。根据比例因子选择信息，每个子带可以改变1～3个比
例因子数。如图11所示。

　　如图12所示，按照比特分配指定的每个样本的比特数，将子带样本进行PCM编码。分
配=0的部分的样本不编码，故可省略。

　　在层Ⅱ中，把连续的3个样本作为一组进行编码，一部分用这种分组编码的方法。在
分组编码以及不是分组编码的场合，用量化精度q量化的3个样本a、b、c的编码格式示于
图13。

--
    感情是一个难以驯服的野马
    理智却是一个严厉的马夫

※ 来源:．紫丁香 bbs.hit.edu.cn．[FROM: 202.118.228.139]