发信人: champaign (原野), 信区: ECE
标 题: 时域噪声整形
发信站: 紫 丁 香 (Sat Jan 8 19:09:45 2000), 转信
发信人: fangf (方方), 信区: DSP
标 题: 时域噪声整形
发信站: 饮水思源站 (Sun Jul 25 23:16:08 1999) , 站内信件
时域噪声整形
徐盛 包益平 陈健
(上海交通大学)
摘要:利用人耳感知模型的音频编码器在对暂态信号进行直接频域编码时,常常会出现
引入的量化噪声在时域中扩散开来且无法被掩蔽,即通常所说的预回音。本文着重介绍
时域噪声整形技术的原理,并通过计算机仿真,取得较好效果。
关键词:TNS;音频编码;
近年来,音频编码技术迅速发展,并且出现了以MUSICAM和Dolby AC-3为代表的利用人耳
感知模型的音频编码器(简称感知编码器)。感知编码器对频域信号直接量化编码,在
处理暂态信号时存在一定困难,主要表现在时域上的掩蔽阈值与量化噪声不匹配。本文
将讨论时域的掩蔽效应,然后分析已有的几种处理预回音方法的优缺点,最后介绍时域
噪声整形(Temporal Noise Shaping,简称TNS)技术,并对其实现进一步研究且给出了
计算机仿真结果。
一、预回声的产生
众所周知,声音信号的掩蔽效应分为三种:后向掩蔽、同时掩蔽和前向掩蔽。后向掩蔽
是指,在掩蔽信号开始前,人耳对测试信号的听觉门限已有所提高,即一个声音影响乐
在时间上先于它的声音听觉能力,这是因为人耳对声音的感觉不是瞬态的,而是一段时
间内对声音的积累。同时掩蔽是指,在掩蔽信号持续的时间内它会对其他声音发生掩蔽
效应。前向掩蔽是指,一个声音已经结束,但是它对另一个声音还存在着影响。图1为时
域掩蔽特性示意图。从图中可看到后向掩蔽的时间很短,大约10ms,随时间的逆向前移
,后向掩蔽效应迅速减小。由于人耳收集声强的时间大约为200ms,所以前向掩蔽一般在
100-200ms之间。
图1 时域掩蔽特性示意图
现行的感知编码器编码过程大致如下:首先,将信号通过滤波器组和变换由时域转换到
频域,通过声学心理模型对频域信号进行分析,得到掩蔽阈值;然后,根据掩蔽阈值和
码率的要求对频谱系数进行量化,力求使引入的量化噪声低于掩蔽阈值,即使人耳无法
觉察量化噪声;最后,将量化后的参数和边信息合成码流。上述方法充分利用了同时掩
蔽效应,使量化噪声在频域上被信号掩蔽,对单声道声音在64Kb/s时仍能获得良好效果
。
虽然上述感知编码器较好地利用了同时掩蔽,但对前向掩蔽和后向掩蔽考虑得不够。当
信号在某一分析时窗内包含短暂的强音(暂态信号)时,如响板、三角铁等乐器,其量
化噪声在时域扩散显得尤为突出。图2为原始信号和未经预回音处理的重建信号的比较,
虚线为重建信号,实线为原始信号。在重建信号中,强音前面出现了明显的噪声,即产
生了预回音。通过对人耳声学系统的分析,仅当明显的噪声部分出现在信号前2ms范围内
能被掩蔽,否则将被视为预回音。为避免预回音,必须减小该段信号的时域分辨率使量
化噪声扩散范围相应减小,或者采用其他的方法使量化噪声与时域掩蔽更加吻合。
图2 预回音示意图
二、几种预回音处理方法的比较
为防止预回音的出现已经进行了大量的研究工作,其中以下面三种方法较为突出。
1.预回音控制和比特池
这种方法是由MPEG提出的,已在MPEG的音频编码中大量使用。预回音控制是指对首次包
含暂态信号的信号段提高编码精度,以达到减小时域误差扩散的目的,当然由此会引起
所用比特数明显增加,故无法适用于每帧恒定码率的编码器。为进一步改进编码器性能
,MPEG还引入了比特池的概念。比特池用于存储平时编码节省的比特,当某一帧比特需
求量大于平均比特数时,可使用比特池中的余量,以保证比特数突发峰值的满足,从而
实现了比特的动态分配。当然,当暂态信号出现得较为频繁时,为保证声音质量,比特
池的最大值往往要设置得非常大,与编解码器的实际要求不符。
2.分析时窗自适应切换
分析时窗自适应切换在感知编码器中使用广泛,为保持滤波器的分析时窗与信号相适应
,对平稳信号使用长时窗,而对暂态信号使用短时窗。因为要求高精度编码的信号(一
般为暂态信号)往往在时域上限制在很短的时段内,所以短时窗的使用减小了比特数突
发峰值出现的可能性。但使用窗切换也存在着缺点,因为不同的时窗要求声学心理模型
同时对长短窗分别计算,以保证时窗切换时数据的一致性,大大地加大了运算量,而且
对不同时窗数据的量化也在一定程度上提高了量化模块的复杂度。
在实际实现中,为保证长短窗的平滑过渡和正确重叠重建,引入了开始块和结束块。由
于块的判决需要一定的延迟,故而在实时编码时加大了端到端的延迟,也提出了更大的
缓存要求。此外,虽然长短时窗本身具有良好的时/频特性,但开始块和结束块却不具备
这样的特性,从而降低了编码效率。
在一些资料中,除了长短时窗外,还引入了中时窗。因为暂态信号出现时,将长窗变为
数个短窗,而整个范围内还存在一定长度的准平稳信号,所以对该段准平稳信号使用中
时窗能提高编码效率。但如何选择合理的中时窗的使用判据却较为复杂。
3.增益控制
预回音也可通过在频域变换前进行动态地增益控制,使得信号中的"突发峰值"幅度减弱
,从而避免了暂态冲击的发生。时域上的动态增益控制也可认为是分析时窗的动态变化
。为适应不同信号的要求,增益控制最好能独立地对某一特定频带范围内的信号进行处
理,其原因主要有两个:
a.暂态信号的瞬时性往往表现在某一频段内,而非整个频带。
b.为避免与临界频带不符,应尽量不对低频段进行增益控制。
当然,具有频率独立性的增益控制往往以增加编码器复杂度为代价。
三、时域噪声整形
对于信号通常有可进行时域和频域(或其等效形式)两种量化编码,但针对某一特定信
号哪一种编码方式是最佳的呢,以下我们以较为直观的方式来分析一下。如表1所示,当
输入信号具有平坦的时域包络,不妨设其为一正弦波,其频域表示即为单频谱线,此时
的最佳编码方式为频域直接编码,或采用时域预测编码;反之,当输入不具备上述特征
,为一暂态冲击脉冲,其频谱却非常"平坦",这种情况下时域直接编码或频域预测编码
为最佳编码。时域噪声整形技术也正是基于上述结论而演变出来的,对于暂态信号其特
点更接近于第二种输入,所以采用频域预测编码,不仅可获得很高的编码效率,而且还
可获得较小的时域误差扩散。
表1 输入信号与最佳编码
输入信号 最佳编码
时域 频域 直接编码 预测编码
频域直接编码
时域预测编码
时域直接编码
频域预测编码
预测结构一般可分为两种--开环和闭环,如何选择对TNS的实现关系重大,因为它将影响
到噪声在时域上的分布特性。闭环预测为期获得较大的增益,引入的量化噪声具有平稳
的功率谱密度函数,反映在时域误差均匀扩散,无法满足时域掩蔽的要求。而开环预测
的量化噪声基本保持与原信号相近的时域包络,基本可被后向掩蔽效应所"掩盖"。鉴于
后者能满足较好的时域掩蔽特性,所以通常采用开环预测结构实现TNS。
虽然TNS技术对于暂态信号的编码有着较大的独立性,但它与其他方法也有着一定的联系
。在对暂态信号使用TNS相当于对分析时窗进行自适应切换,使得分析时窗更好地与信号
相匹配,提高了编码效率。此外,它与增益控制有着明显的等效性,前者是频域上的卷
积,而后者是时域上的相乘,但TNS无需非常复杂的增益检测过程。
四、数据分析与结论
感知编码器中TNS的具体实现可按如下步骤:
1.根据声学心理模型中感知熵的计算结果作为TNS开关的判据。当感知熵超过阈值PE_sw
itch,则进行下面处理;否则不采用TNS。
2.为避免低频畸变,TNS最好在1.5KHz以上范围进行,预测算法采用Durbin算法。
3.判断TNS是否提供足够大的编码增益,若编码增益超过阈值Gain_switch时,进行TNS;
否则普通编码。
4.计算出部分相关系数,截取主要的几阶。
5.根据剩余的部分相关系数计算LPC滤波器系数,信号滤波后对残差进行编码,并且发送
TNS开关和部分相关系数。
解码时,根据部分相关系数,计算出滤波器系数,对残差反滤波恢复出原始信号。
从上述结果可知,对暂态信号的编码效果较之其他方法明显改善。由于TNS的引入,减少
了单帧比特数的"突发峰值"的出现,帧与帧之间的比特数变化平缓。另外,TNS的使用可
减少(甚至代替)短时窗的使用,大大减轻了运算负荷量,降低了编码器复杂度。鉴于
TNS良好的性能和其使用的灵活性,在最新的MPEG-4音频编码标准MPEG AAC中首次将TNS
作为可选技术项。
参考资料:
1.MPEG-2 Advanced Audio Coding ,ISO/IEC JTC1/SC29/WG11 N1650 , April 1997
2.语音信号数字处理,杨行峻 迟惠生,电子工业出版社
3.MPEG运动图象压缩编码标准(ISO/IEC 11172),杨品 钟玉琢 蔡莲红,机械工业出版
社
--
感情是一个难以驯服的野马
理智却是一个严厉的马夫
※ 来源:.紫 丁 香 bbs.hit.edu.cn.[FROM: 202.118.228.139]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:4.461毫秒