精华公布栏

发信人: champaign (原野), 信区: ECE
标  题: 16 kb/s 7kHz宽带语音编码器的研究
发信站: 紫丁香 (Sat Jan  8 19:26:50 2000), 转信

发信人: fangf (方方), 信区: DSP
标  题: 16 kb/s 7kHz宽带语音编码器的研究
发信站: 饮水思源站 (Sat Jul 17 10:49:59 1999) , 站内信件

title>csjt9808
16 kb/s 7kHz宽带语音编码器的研究
赵滨，陈健
(上海交通大学电子工程系)
　　近年来，低码率语音编解码技术取得了巨大的发展，在很低码率时能获得良
好的重建语音质量.国际电讯联盟已制定出一系列语音编解码标准［1］，如ITU－
G.723，ITU－G.729等，但这些算法都是针对话带语音(0.3～3.4 kHz)而制定的.
正在发展的电话会议、会议电视、免提电话、广播评论等新型通讯业务都采用喇
叭放音，原来的近3 kHz带宽语音就明显显示出信噪比低和听觉质量欠佳的缺点.
解决这一问题的有效方法之一是增加原始语音的带宽.将低频端降至50 Hz，而高
频端扩展至7.5kHz，通常称之为宽带语音.宽带语音的质量近似于AM广播(0.05～
7.0 kHz).频带的扩展，使宽带语音在通讯的透明度，包括语音质量、真实感、
话者识别度等方面均有很大的改善.新增的低频(50～300 Hz)提高了话音的自然度
和临场感，高频部分(3.4～7.5 kHz)增加了发声的可懂度和磨擦音辨析度.除上述
应用外，宽带语音还将作为一种主要媒体运用于ISDN的多用户/多信道通讯领域.
　　1986年CCITT通过了以子带ADPCM技术为编码基础64 kb/s宽带语音压缩编码的
G.722标准［2］.随着音视频压缩编码技术的进展，尤其是活动图象编码的发展，
384 kb/s即可提供满意的会议电视质量，因此G.722标准显得码率太高，线路利用
率不经济，有必要研究新的高效率的压缩编码算法，将码率从64 kb/s降至24 kb/s、
16 kb/s甚至更低.ITU也正组织力量，开展低码率宽带声音编码器的研究.作者参
考了低码率语音编码中的"分析合成(AbS)"方法，结合宽带语音的特点，合理调
整高低频之间的量化噪声分布和码流分配.实现了16 kb/s的宽带语音编码器.下面
首先分析宽带语音编码技术的特殊问题和解决方案，然后详细介绍16 kb/s宽带语
音的编码方案及其改进措施，最后对实验数据进行分析和讨论.
１　宽带语音编码的技术特点
　　宽带语音无论从发声物理模型和频谱特征上都与窄带话音有许多相似之处.例
如：信号间相关性强，能量集中于低频，存在明显的基音周期，易于提取各种语音
参数等.如果运用分析合成(AbS)的声码器方法来替代原来的波形编码，就能有效地
压缩信源冗余度，降低码率.但由于语音带宽增加了近1倍，在具体实现上要注意以
下的特殊问题.
１.１　感知加权滤波器的设计
　　通过对宽带语音频谱统计分析，发现带宽的增加，使语音谱包络的动态范围也
大大扩展了，而新增频段(3.4～6.0 kHz)大部分处于谱包络的谷底，容易受量化噪
声的影响，同时通过人耳的静态掩蔽曲线可以看出人在听觉上对新增高频区域比较
敏感，这对宽带语音高频量化编码不利.合理地调节高低频段间的量化噪声分布和
码流分配，从而使两个频段还原语音获得整体上的平衡，是比较关键的问题.为了
获得最佳的主观听觉效果，在语音编码中往往加入感知加权滤波器W(z).此时z变换
域的重建语音信噪比可表达为
　　　　　　SNR(z)=｜S(z)｜2/［Δ/｜W(z)｜2］　　　　　　(1)
将z=ejω代入式(1)可以得到信噪比的频域表达式：
　　　　　　SNR(ejω)=｜S(ejω)｜2/［Δ/｜W(ejω)｜2］　　(2)
式中：W(z)=A(z/γ1)/A(z/γ2),0＜γ2＜γ1≤1；A(z)为语音的共振峰模型函数；
S(z)为语音频谱；Δ为量化噪声，具有类高斯白噪声的频谱特性.因此式(1)中量化
噪声谱Δ／｜W(ejω)｜2 与语音谱｜S(ejω)｜2有相似的功率谱结构，能利用人
耳的掩蔽效应，达到理想的感知效果.另外W(z)还存在频谱倾斜现象，特别是当W(z)
直接用于宽带语音编码时，  倾斜会增大低频段和语音共振峰之间的量化噪声，引
起严重的低频失真.如果仅通过改变γ2、γ1的值来调整谱倾斜现象，会影响噪声
谱的共振峰结构，从而降低感知加权效果.因此，语音的量化噪声在高、低频之间
的平衡分配和语音总体上的最佳感知加权效果存在着矛盾，不可能由单个W(z)滤波
器来解决.文献［3］中提出一种组合的加权滤波器：W′(z)=W(z)×P(z).其中：
W(z)与式(1)中的W(z)相同；控制量化噪声的共振峰结构P(z)=1/［1+∑2i=1pi
(b/z)i］,单独调节谱倾斜度.实验测定，在系统中用W′(z)替代W(z)能将高频段和
低频段语音在共振峰处的量化噪声降低5 dB，并取得理想的谱倾斜.
１.２　全频带/子带编码策略的选择
　　宽带语音的编码除了量化噪声分配之外，还有计算复杂度的问题.带宽的扩展
使取样率也随之增加，这会造成码本空间和匹配工作量的急剧上升，现有的解决方
案是采用子带AbS编码［4］或改进码本结构和搜索法的全频带AbS算法［5，6］来
降低运算复杂度.相比之下，子带AbS编码从重建语音质量方面优于全频带编码，但
其算法复杂度同窄带语音压缩算法相比增加了近1倍，这为宽带语音的实时处理带
来一定的困难.利用全频带编码在算法复杂度上的优势，在窄带TCX算法基础上加以
改进，可以实现16 kb/s宽带语音压缩编码.
２　宽带语音的TCX算法及其改进方案
　　TCX算法全称是变换域码激励编码，最早作为ITU制定8 kb/s、低延迟、窄带语
音编解码预选草案提出的［7］.该算法综合运用了频域和时域的各种语音分析合成
技术，其中时域技术包括了线性预测(LPC分析)和长时预测(LTP分析)来获得残差
V(n)，与CELP不同之处在于它并没有在时域对V(n)进行码本匹配，而是通过一个合
成滤波器来产生目标信号，再将目标信号变换至频域直接进行量化编码，因此避免
了AbS算法中繁复的码本匹配运算工作，大大降低了算法复杂度.频域技术包括谱预
测、动态比特分配等技术，因此对目标信号进行频域量化时，能利用语音信号帧间
相关性，压缩码流.在具体实现过程中，发现如果直接将窄带TCX算法移植至宽带语
音编码会出现以下一些问题：
　　(1) 因为编码预测增益不高而造成的整体量化噪声过大.由于宽带语音的目标信
号实际上是除去了基音相关性后的加权语音，因此基音预测增益的高低直接决定了
该算法的压缩效率.在TCX编码原理图中［7］，宽带语音先通过了LPC滤波器(口鼻共
振腔模型)后才进行基音滤波(声带模型)，两者在发声过程中会互相影响，而人的发
声激励源(声带产生的信号)并不是严格的周期性脉冲，在发辅音或者在有声/无声的
过度段，前置的LPC滤波器将降低基音预测增益.这时对语音压缩极为不利，表现在
目标信号动态范围过大，8 bit的波形码本和5 bit的增益码本不能有效量化.
　　(2) 目标信号能量多在低频部分集中，高频能量远小于低频，因此以MSE(最小
均方误差)为匹配标准的矢量量化过程会导致严重的高频失真.为此，提出两点改进
方案：①将系统合成滤波器移至基音预测之前，以便提高基音预测增益；②将48维
的频域矢量分为高频和低频两个24维的矢量，原来13 bit量化的频域码本也扩充至
23 bit：高频增益系数 4 bit、波形码本5 bit、低频增益系数5 bit、波形码本
9 bit.
　　在TCX算法中，高频失真现象是通过前置滤波器F(z)=1-μz-1来缓解的(μ=0.5).
这是个高通滤波器，主要有两个目的：①作为相邻输入的差分运算，它能抑制输入
语音的动态范围，便于以后的分析和运算.②增强了语音高频部分的能量，一方面便
于更准确地进行高阶LPC分析(宽带语音采用16阶LPC滤波器)，另一方面也减小量化编
码过程中高频失真.改进后的宽带语音TCX编解码方案如图1所示.整个TCX编码算法可
分成三部分：
　　(1) 线性预测和基音预测.输入的一帧语音(24 ms)经高频增强后将通过一个由
LPC分析参数所构成的短时逆向滤波器A(z)，以除去声音信号的共振峰结构，产生误
差信号r(n).LPC分析采用加窗的自相关法.窗口函数大多选择不对称窗，窗口长度一
般为几个分析帧的长度.最近一帧语音一般赋以较大的权重，即保证本帧LPC参数分析
的准确性，又考虑到以前语音的影响，使帧间LPC有足够的平滑.本帧误差r(n)经过系
统合成滤波器l/A(z/γ)后产生感知加权语音Sw(n).
　　(2) 目标信号的产生.经感知加权后的语音通过基音滤波器B(z)产生目标信号
X(n)，然后将X(n)通过DFT变换值至频域直接量化.目标信号实际上就是除去基音相关
性的加权语音.因此，它们的频谱结构都具备了与原始声音相似的共振峰结构，先后
两帧声音信号间有极强的相关性，这有利于频域量化和压缩编码.
　　(3) 频域量化.频域量化分为幅度量化和相位量化两部分.为了利用信号冗余度，
在幅度量化中对相邻帧语音进行谱预测.
　　　　　　Xma(k)=bXm-1a(k)+R(k)　　　　　　　　　　　　　(3)
式中：Xma(k)为第m帧信号频谱幅度；Xm-1a(k)为上帧的信号频谱幅度；R(k)为预测
误差，通过矢量量化.在增益系数码本中选择b使误差Ep最小：
　　　　　　Ep=∑K-1k=0［Xma(k)-bXm-1a(k)］2　　　　　　　　(4)
完成幅度量化之后需要对相位进行量化.整个相位量化过程进行动态比特分配，根据
频谱的能量分布状况来分配每一个相位量化的比特数.现设B为总的用于目标量化的
比特数；Ba为用于幅度量化的比特数；相位量化的BΦ=B-Ba.rk表示对于k位置信号
的相位量化比特数；Xa是经量化后的信号频谱幅度，则动态比特分配过程为：①初
始化所有rk值为0，k=0～K-1；②求最大Xa的位置k；③rk=rk+1,Xa(k)=Xa(k)/2;
④回到②，重复BΦ次.经过上述的比特分配过程，相位量化的码流被合理地派到能
量最大的区域，这也符合人的听觉特性.由于比特分配是由信号幅度谱决定，因此无
需传输辅助信息.比特分配信息如表1所示.
３　实验结果和分析
　　本实验用C仿真分别实现了宽带语音的TCX算法及其改进方案，并在其他编码条
件都相同的情况下比较了两者之间性能优劣.实验证明，改进后的TCX算法提高基音
预测增益4～5 dB，由于用了两个频域码本，不但使高频量化信噪比提高1～2 dB，
而且低频重建也有很大改善，整体语音的分段信噪比也有明显的提高，见表2.表中
基音增益指基音预测模块的输入输出能量差；谱预测增益表示经频谱预测前后的频
域信号能量差.高频和低频的分段信噪比是通过子带滤波器将原始语音和还原语音各
均分成两个4 kHz带宽子带，对每个子带分别求分段信噪比.
　　两种TCX算法压缩至16 kb/s后的重建语音频谱如图2所示.可以看出，改进TCX算
法的重建语音频谱更接近原始语音，特别是在语音的低频重建方面有较大的改善，
这也是为什么后者的重建语音主观听觉质量上明显优越于前者的主要原因.
　　鉴于TCX算法中量化噪声和频谱失真主要是由频域量化部分引入的，为此，本文
还分析了幅度量化和相位量化对于频谱失真的影响程度.在TCX算法的相位量化中，
虽然采用了动态比特分配原则，但受到码率限制，平均每个相位只能分配1 bit左右，相
位量化不充分.实验中考虑幅度量化不变的情况下提高每个相位的量化比特数，例
如：1.5 bit(20 kb/s)、2.0 bit(24 kb/s)、2.5 bit(28 kb/s)、3.0 bit(32 kb/s)，
并比较不同码率条件下的信噪比和MOS分，发现相位量化比特数从1 bit/sample上升
至2 bit/sample时，无论在客观信噪比还是在主观评价的MOS分方面都有明显提高.
而当码率从24 kb/s上增加至32 kb/s时却没有明显改善，如图3和4所示.对此可解释为：
平均1 bit/sample来量化相位是不够的.因此，在16 kb/s条件下相位的量化噪
声将起主导作用，在动态比分配的条件下，平均2 bit/sample可以被认为是相位充
分量化的临界状态.此后虽然有更多的比特数来量化相位，此时幅度量化噪声将起主
要作用，所以语音质量不会有较大改变.
４　结论
　　本文从理论上对宽带语音编码系统进行了分析，并讨论了解决宽带语音编解码
的TCX算法及其改进方案，实验证明改进后的TCX算法所产生的重建语音质量有明显
的改善.同时还分析了频域量化对整个编解码系统噪声的影响，认为2 bit/sample来
量化相位是比较恰当的，这样能保证TCX算法拥有足够的比特数来量化目标信号，实
验结果也证明了在24 kb/s的码率条件下，能充分发挥该算法优越性，获得较理想的
编码效果.在C语言仿真基础上，对TCX算法的DSP实现方案的运算量做了估算，前期
LPC分析约用2.5 ×106指令/s，基音分析将占(5～6)×106指令/s，最后频域量化可
在1 ×106指令/s之内完成，这样总计运算量不超过10 ×106指令/s.因此，本文提
出的这种宽带语音TCX算法对于语音实时处理的要求并不高，非常有利于低成本的
DSP芯片实现.
　　参考文献
1　Wong W T K,Mack R M,Cheethan B M G,et al.Low rate speech coding for
　　telecommunication.BT Technol J,1996,14(1):28～43
2　Maitre Xavier.7 kHz audio coding within 64 kb/s.IEEE Journal on
　　Selected Areas in Communications,1988,6(2):283～291
3　Ordentlich E,Shoham Y.Low delay celp coding of wideband speech at 32
　　kb/s.ICASSP 1991,9～12
4　Roy Guylain Kabal Peter.Wideband celp coding at 16 kb/s.ICASSP, 1991.
　　17～20
5　Laflamme C,Adoul JP,Su H Y,et al.On reducing computational complexity
　　of codebook search in CELP coder through the use of algebric codes.
　　ICASSP, 1990.177～180
6　Laflamme C,Adoul JP,Salami R,et al.16 kb/s wideband speech coding
　　technique based on algebraic CELP.ICASSP, 1991.13～16
7　Lefebvre R,Salami R,Laflamme C,et al.8 kb/s coding of speech with 6 ms
　　frame length.ICASSP, 1993.612～615
返回摘要
返回目次
摘自《上海交大学报》

--
    感情是一个难以驯服的野马
    理智却是一个严厉的马夫

※ 来源:．紫丁香 bbs.hit.edu.cn．[FROM: 202.118.228.139]