精华公布栏

发信人: champaign (原野), 信区: ECE
标  题: 时域噪声整形
发信站: 紫丁香 (Sat Jan  8 19:09:45 2000), 转信

发信人: fangf (方方), 信区: DSP
标  题: 时域噪声整形
发信站: 饮水思源站 (Sun Jul 25 23:16:08 1999) , 站内信件

时域噪声整形
徐盛包益平陈健
（上海交通大学）
摘要：利用人耳感知模型的音频编码器在对暂态信号进行直接频域编码时，常常会出现
引入的量化噪声在时域中扩散开来且无法被掩蔽，即通常所说的预回音。本文着重介绍
时域噪声整形技术的原理，并通过计算机仿真，取得较好效果。
关键词：TNS；音频编码；
近年来，音频编码技术迅速发展，并且出现了以MUSICAM和Dolby AC-3为代表的利用人耳
感知模型的音频编码器（简称感知编码器）。感知编码器对频域信号直接量化编码，在
处理暂态信号时存在一定困难，主要表现在时域上的掩蔽阈值与量化噪声不匹配。本文
将讨论时域的掩蔽效应，然后分析已有的几种处理预回音方法的优缺点，最后介绍时域
噪声整形（Temporal Noise Shaping，简称TNS）技术，并对其实现进一步研究且给出了
计算机仿真结果。
一、预回声的产生
众所周知，声音信号的掩蔽效应分为三种：后向掩蔽、同时掩蔽和前向掩蔽。后向掩蔽
是指，在掩蔽信号开始前，人耳对测试信号的听觉门限已有所提高，即一个声音影响乐
在时间上先于它的声音听觉能力，这是因为人耳对声音的感觉不是瞬态的，而是一段时
间内对声音的积累。同时掩蔽是指，在掩蔽信号持续的时间内它会对其他声音发生掩蔽
效应。前向掩蔽是指，一个声音已经结束，但是它对另一个声音还存在着影响。图1为时
域掩蔽特性示意图。从图中可看到后向掩蔽的时间很短，大约10ms，随时间的逆向前移
，后向掩蔽效应迅速减小。由于人耳收集声强的时间大约为200ms，所以前向掩蔽一般在
100-200ms之间。
图1 时域掩蔽特性示意图
现行的感知编码器编码过程大致如下：首先，将信号通过滤波器组和变换由时域转换到
频域，通过声学心理模型对频域信号进行分析，得到掩蔽阈值；然后，根据掩蔽阈值和
码率的要求对频谱系数进行量化，力求使引入的量化噪声低于掩蔽阈值，即使人耳无法
觉察量化噪声；最后，将量化后的参数和边信息合成码流。上述方法充分利用了同时掩
蔽效应，使量化噪声在频域上被信号掩蔽，对单声道声音在64Kb/s时仍能获得良好效果
。
虽然上述感知编码器较好地利用了同时掩蔽，但对前向掩蔽和后向掩蔽考虑得不够。当
信号在某一分析时窗内包含短暂的强音（暂态信号）时，如响板、三角铁等乐器，其量
化噪声在时域扩散显得尤为突出。图2为原始信号和未经预回音处理的重建信号的比较，
虚线为重建信号，实线为原始信号。在重建信号中，强音前面出现了明显的噪声，即产
生了预回音。通过对人耳声学系统的分析，仅当明显的噪声部分出现在信号前2ms范围内
能被掩蔽，否则将被视为预回音。为避免预回音，必须减小该段信号的时域分辨率使量
化噪声扩散范围相应减小，或者采用其他的方法使量化噪声与时域掩蔽更加吻合。
图2 预回音示意图
二、几种预回音处理方法的比较
为防止预回音的出现已经进行了大量的研究工作，其中以下面三种方法较为突出。
1.预回音控制和比特池
这种方法是由MPEG提出的，已在MPEG的音频编码中大量使用。预回音控制是指对首次包
含暂态信号的信号段提高编码精度，以达到减小时域误差扩散的目的，当然由此会引起
所用比特数明显增加，故无法适用于每帧恒定码率的编码器。为进一步改进编码器性能
，MPEG还引入了比特池的概念。比特池用于存储平时编码节省的比特，当某一帧比特需
求量大于平均比特数时，可使用比特池中的余量，以保证比特数突发峰值的满足，从而
实现了比特的动态分配。当然，当暂态信号出现得较为频繁时，为保证声音质量，比特
池的最大值往往要设置得非常大，与编解码器的实际要求不符。
2.分析时窗自适应切换
分析时窗自适应切换在感知编码器中使用广泛，为保持滤波器的分析时窗与信号相适应
，对平稳信号使用长时窗，而对暂态信号使用短时窗。因为要求高精度编码的信号（一
般为暂态信号）往往在时域上限制在很短的时段内，所以短时窗的使用减小了比特数突
发峰值出现的可能性。但使用窗切换也存在着缺点，因为不同的时窗要求声学心理模型
同时对长短窗分别计算，以保证时窗切换时数据的一致性，大大地加大了运算量，而且
对不同时窗数据的量化也在一定程度上提高了量化模块的复杂度。
在实际实现中，为保证长短窗的平滑过渡和正确重叠重建，引入了开始块和结束块。由
于块的判决需要一定的延迟，故而在实时编码时加大了端到端的延迟，也提出了更大的
缓存要求。此外，虽然长短时窗本身具有良好的时/频特性，但开始块和结束块却不具备
这样的特性，从而降低了编码效率。
在一些资料中，除了长短时窗外，还引入了中时窗。因为暂态信号出现时，将长窗变为
数个短窗，而整个范围内还存在一定长度的准平稳信号，所以对该段准平稳信号使用中
时窗能提高编码效率。但如何选择合理的中时窗的使用判据却较为复杂。
3.增益控制
预回音也可通过在频域变换前进行动态地增益控制，使得信号中的"突发峰值"幅度减弱
，从而避免了暂态冲击的发生。时域上的动态增益控制也可认为是分析时窗的动态变化
。为适应不同信号的要求，增益控制最好能独立地对某一特定频带范围内的信号进行处
理，其原因主要有两个：
a.暂态信号的瞬时性往往表现在某一频段内，而非整个频带。
b.为避免与临界频带不符，应尽量不对低频段进行增益控制。
当然，具有频率独立性的增益控制往往以增加编码器复杂度为代价。
三、时域噪声整形
对于信号通常有可进行时域和频域（或其等效形式）两种量化编码，但针对某一特定信
号哪一种编码方式是最佳的呢，以下我们以较为直观的方式来分析一下。如表1所示，当
输入信号具有平坦的时域包络，不妨设其为一正弦波，其频域表示即为单频谱线，此时
的最佳编码方式为频域直接编码，或采用时域预测编码；反之，当输入不具备上述特征
，为一暂态冲击脉冲，其频谱却非常"平坦"，这种情况下时域直接编码或频域预测编码
为最佳编码。时域噪声整形技术也正是基于上述结论而演变出来的，对于暂态信号其特
点更接近于第二种输入，所以采用频域预测编码，不仅可获得很高的编码效率，而且还
可获得较小的时域误差扩散。
表1 输入信号与最佳编码
输入信号最佳编码
时域频域直接编码预测编码
频域直接编码
时域预测编码
时域直接编码
频域预测编码
预测结构一般可分为两种--开环和闭环，如何选择对TNS的实现关系重大，因为它将影响
到噪声在时域上的分布特性。闭环预测为期获得较大的增益，引入的量化噪声具有平稳
的功率谱密度函数，反映在时域误差均匀扩散，无法满足时域掩蔽的要求。而开环预测
的量化噪声基本保持与原信号相近的时域包络，基本可被后向掩蔽效应所"掩盖"。鉴于
后者能满足较好的时域掩蔽特性，所以通常采用开环预测结构实现TNS。
虽然TNS技术对于暂态信号的编码有着较大的独立性，但它与其他方法也有着一定的联系
。在对暂态信号使用TNS相当于对分析时窗进行自适应切换，使得分析时窗更好地与信号
相匹配，提高了编码效率。此外，它与增益控制有着明显的等效性，前者是频域上的卷
积，而后者是时域上的相乘，但TNS无需非常复杂的增益检测过程。
四、数据分析与结论
感知编码器中TNS的具体实现可按如下步骤：
1.根据声学心理模型中感知熵的计算结果作为TNS开关的判据。当感知熵超过阈值PE_sw
itch，则进行下面处理；否则不采用TNS。
2.为避免低频畸变，TNS最好在1.5KHz以上范围进行，预测算法采用Durbin算法。
3.判断TNS是否提供足够大的编码增益，若编码增益超过阈值Gain_switch时，进行TNS；
否则普通编码。
4.计算出部分相关系数，截取主要的几阶。
5.根据剩余的部分相关系数计算LPC滤波器系数，信号滤波后对残差进行编码，并且发送
TNS开关和部分相关系数。
解码时，根据部分相关系数，计算出滤波器系数，对残差反滤波恢复出原始信号。
从上述结果可知，对暂态信号的编码效果较之其他方法明显改善。由于TNS的引入，减少
了单帧比特数的"突发峰值"的出现，帧与帧之间的比特数变化平缓。另外，TNS的使用可
减少（甚至代替）短时窗的使用，大大减轻了运算负荷量，降低了编码器复杂度。鉴于
TNS良好的性能和其使用的灵活性，在最新的MPEG-4音频编码标准MPEG AAC中首次将TNS
作为可选技术项。
参考资料：
1.MPEG-2 Advanced Audio Coding ,ISO/IEC JTC1/SC29/WG11 N1650 , April 1997
2.语音信号数字处理，杨行峻迟惠生，电子工业出版社
3.MPEG运动图象压缩编码标准（ISO/IEC 11172），杨品钟玉琢蔡莲红，机械工业出版
社

--
    感情是一个难以驯服的野马
    理智却是一个严厉的马夫

※ 来源:．紫丁香 bbs.hit.edu.cn．[FROM: 202.118.228.139]