精华区文章阅读

发信人: AA (积极的人生、美好的人生), 信区: Algorithm
标  题: 语音合成技术及国内外发展现状(zz)
发信站: 哈工大紫丁香 (2002年05月23日20:00:35 星期四), 站内信件

一语音合成技术简介

-----语音识别和语音合成技术是实现人机语音通信，建立一个有听和讲能力的口
语系统所必需的两项关键技术。使电脑具有类似于人一样的说话和听懂人说话的
能力，是90年代信息产业的重要竞争市场。和语言识别相比，语言合成的技术相
对说来要成熟一些，是该领域中近期最有希望产生突破并形成产业化的一项技术
。

-----语言合成或者让计算机说话包含着二个方面的可能性:一是机器能再生一个
预先存入的语音信号，就象普通的录音机一样，不同之处只是采用了数字存储技
术。简单地将预先存入的单音或词组拼接起来也能作到“机器开口”，但是“一
字一蹦”，机器味十足，人们很难接受。然而如果预先存入足够的语音单元，在
合成时采用恰当的技术手段挑选出所需的语音单元拼接起来，也有可能生成高自
然度的语句，这就是波形拼接的语音合成方法。为了节省存储容量，在存入机器
之前还可以对语音信号先进行数据压缩。另一种可能是采用数字信号处理的方法
，将人类发声过程看作是一个模拟声门状态的源，去激励一个表征声道谐振特性
的时变数字滤波器，这个源可能是周期脉冲序列，它代表浊音情况下的声带振动
，或者是随机噪声序列，代表不出声的清音. 调整滤波器的参数等效于改变口腔
及声道形状，达到控制发不同音的目的，而调整激励源脉冲序列的周期或强度，
将改变合成语音的音调、重音等. 因此，只要正确控制激励源和滤波器参数（一
般每隔10～30ms送一组），这个模型就能灵活地合成出各种语句来，因此又称作
为参数合成的方法。根据时变滤波器的结构形式不同，又有LPC合成和共振峰合成
器等之分。

-----按照人类言语功能的不同层次，语言合成也可分成三个层次，它们是：（1
）从文字到语音的合成（Text-To-Speech）；（2）从概念到语音的合成（Conce
pt-To-Speech）；（3）从意向到语音的合成（Intention-To-Speech）。这三个
层次反映了人类大脑中形成说话内容的不同过程，涉及人类大脑的高级神经活动
。不难想象，即使是按规则的文字到语音合成（文语合成）也已经是相当困难的
任务。为了合成出高质量的语言，除了依赖于各种规则，包括语义学规则、词汇
规则、语音学规则外，还必须对文字的内容有很好的理解，这将涉及自然语言理
解的问题。从这一点讲，文语转换系统实际上也可看作一个人工智能系统。图1显
示了一个完整的文语转换系统示意图。文语转换过程是先将文字序列转换成音韵
序列，再由语音合成器生成语音波形。其中第一步涉及语言学处理，例如分词、
字音转换等，以及一整套有效的韵律控制规则；第二步需要先进的语音合成技术
，能按要求实时合成出高质量的语音流。因此一般说来，文语合成系统都需要一
套复杂的文字序列到音素序列的转换程序，也就是说，文语转换系统不仅要应用
数字信号处理技术，而且必须有大量的语言学知识的支持。当然其中语音合成终
究还是最基本的部分，它相当于“人工嘴巴”，任何语言合成系统包括文语转换
系统，都离不开语音合成器。

图 1 文语转换系统示意图

二国内外语音合成技术发展现状

-----综观语言合成技术的研究已有二百多年的历史，但是真正有实用意义的近代
语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的，主要
是让计算机能够产生高清晰度、高自然度的连续语音。近几十年来国际和国内的
研究主要集中在按规则文语转换，即将书面语言转换成口头语言。在语音合成技
术的发展中，早期的研究主要是采用参数合成方法。值得提及的是Holmes的并联
共振峰合成器（1973）和Klatt的串/并联共振峰合成器（1980），只要精心调整
参数，这两个合成器都能合成出非常自然的语音。而最具代表性的文语转换系统
数美国DEC 公司的DECtalk（1987），该系统采用Klatt的串/并联共振峰合成器，
可以通过标准的接口和计算机连网或单独接到电话网上提供各种语音信息服务，
它的发音清晰，并可产生七种不同音色的声音，供用户选择。但是经过多年的研
究与实践表明，由于准确提取共振峰参数比较困难，虽然利用共振峰合成器可以
得到许多逼真的合成语音，但是整体合成语音的音质难以达到文语转换系统的实
用要求。自八十年代末期至今，语言合成技术又有了新的进展，特别是基音同步
叠加（PSOLA）方法的提出（1990），使基于时域波形拼接方法合成的语音的音色
和自然度大大提高。九十年代初，基于PSOLA技术的法语、德语、英语、日语等语
种的文语转换系统都已经研制成功。这些系统的自然度比以前基于LPC方法或共振
峰合成器的文语合成系统的自然度要高，并且基于PSOLA方法的合成器结构简单易
于实时实现，有很大的商用前景。最近几年，一种新的基于数据库的语音合成方
法正引起人们的注意。在这个方法中，合成语句的语音单元是从一个预先录下的
庞大的语音数据库中挑选出来的，不难想象只要语音数据库足够大，包括了各种
可能语境下的语音单元，理论上讲有可能拼接出任何语句。由于合成的语音基元
都是来自自然的原始发音，合成语句的清晰度和自然度都将会非常高。

-----国内的汉语语音合成研究起步较晚些，但从八十年代初就基本上与国际上研
究同步发展。大致也经历了共振峰合成、LPC合成至应用PSOLA技术的过程。在国
家863计划，国家自然科学基金委，国家攻关计划，中国科学院有关项目等支持下
，汉语文语转换系统研究近年来取得了令人举目的进展，其中不乏成功的例子：
如中国科学院声学所的KX-PSOLA（1993）, 联想佳音（1995）；清华大学的TH_S
PEECH(1993)；中国科技大学的KDTALK（1995）等系统。这些系统基本上都是采用
基于PSOLA方法的时域波形拼接技术，其合成汉语普通话的可懂度、清晰度达到了
很高的水平。然而同国外其它语种的文语转换系统一样，这些系统合成的句子及
篇章语音机器味较浓，其自然度还不能达到用户可广泛接受的程度，从而制约了
这项技术的大规模进入市场。

-----1998年中国科技大学在国家863 计划和国家自然科学基金委支持下，研制成
功KD-863汉语文语转换系统。和采用国内外流行的PSOLA技术的系统相比，在输出
语音的音质和自然度上有了突破性的提高。KD-863采用了一种全新的基于语音数
据库的语音合成方法，该技术的基本思想是将实际语流中汉语音节千变万化的音
变进行听感上的量化归并，设计出多样本的汉语语音基元库，这个库蕴涵了汉语
韵律变化信息，合成时只要通过对基元库样本的选取便可实现韵律控制。同时语
音基元库中的样本是直接从自然语音中截取，避免了采用信号处理技术获取音变
单元对音质的损害，因而合成语音具有接近自然语音的音质。KD-863文语转换系
统一经推出，就因其合成语音的高清晰度与高自然度引起了社会各方的重视。先
后应用于为深圳华为技术公司设计的“114自动电话报号系统”，和为国家工商总
局设计的“工商企业语音（传真）查询系统”。使得汉语语音合成技术走出实验
室，向市场应用迈出了重要的一步。KD-863系统参加了在1998年4月国家科委组织
的全国汉语语音合成系统的性能评测，其输出语音的自然度居同类系统之首，是
唯一达到用户可以接受程度的系统。KD-863还在日本，新加坡，香港的有关研究
所和大学进行过演示，均得到了有关方面专家的认同。最近中国科技大学又推出
了KD-2000汉语文语转换系统，不仅在语音合成技术方面有进一步的发展，特别是
在文本预处理中围绕层次化结构思想，运用大量的统计和规则的方法，较好地解
决了三个大的处理环节：特殊符号处理，分词处理和拼接处理，使得汉语文语转
换系统的整体性能有很大提高。以KD-2000文语转换为核心的“畅言2000”智能汉
语平台软件已开始进入市场。

三语音合成发展方向

1. 提高合成语音的自然度

-----提高合成语音的自然度仍然是高性能文语转换的当务之急。就汉语语音合成
来说，目前在单字和词组一级上，合成语音的可懂度和自然度已基本解决，但是
到句子乃至篇章一级时其自然度问题就比较大。

-----基于语音数据库的语音合成方法有望进一步提高语音合成的自然度。因为
这是一种采用自然语音波形直接拼接的方法，进行拼接的语音单元是从一个预先
录下的自然语音数据库中挑选出来的，因此有可能最大限度地保留语音的自然度
。但由此产生了一系列新的需要研究的问题，包括：如何确定语音合成的基元，
根据什么准则去挑选合适的基元；韵律参数定量化问题，对数据库进行定标问题
；以及如何将统计的方法和规则方法相结合使机器能自动发现和找出所需的语音
单元，保证最高的合成语句自然度等等。

-----无论用哪种合成方法，韵律规则的总结，特别是连续语音的韵律规则总结，
尽可能将定性的规则描述定量化，对自然度始终有最重要的影响。还有前端文本
处理, 对合成语音的自然度也具有举足轻重的影响, 完整全面的解决, 需要自然
语言理解的突破。

2 丰富合成语音的表现力

-----目前国内外大多数语音合成研究是针对文语转换系统，且只能解决以某种朗
读风格将书面语言转换成口语输出，缺乏不同年龄、性别特征及语气、语速的表
现，更不用说赋予个人的感情色彩。随着信息社会的需求发展，对人机交互提出
了更高的要求，人机口语对话系统的研究也提到了日程上。即语音合成研究已开
始从文字到语音的转换阶段向概念到语音的转换阶段发展。这不仅对语音合成技
术提出了更高的要求，而且涉及到计算机语言生成，涉及人类大脑的高级神经活
动。但就语音合成来说，仍是一个要丰富合成语音的表现力问题。相对来说采用
波形拼接方法来增强合成语音表现力比较困难，尽管也可以通过增加音库容量和
音库个数来达到改变合成语音的特性，但毕竟它对韵律的控制能力非常有限。更
为有效的办法是采用参数合成法，分析参数特征，通过对相关参数的调整来实现
对年龄、性别特征的改变，进一步实现语气、语调的变化，由于这种改变是连续
的，对象特征可以千千万万，显得更有生命力。近年来提出的基于LMA（对数振幅
近似）技术的语音合成器，Hybrid Harmonic/Stochastic 模型 , Sinusoidal 模
型等已被证实是一些新颖的能合成出高质量语音的参数合成方法，为此应继续深
入这方面的研究，以期在参数合成技术上取得突破。

3 降低语音合成技术的复杂度

-----语音合成技术正在走向市场。为了适应社会的需求，扩大文语合成的应用场
合，除了解决好上面两个问题，提高合成语音的质量和增强语音合成的表现力以
外，在其他实用化方面也有要加以改进的地方。就目前汉语文语转换系统而言，
减小音库容量就是一个重要课题。目前高质量的汉语文语转换系统一般需要几兆
字节到几十兆，甚至几百兆字节的存储容量，这在以PC机或工作站为硬件平台的
应用中是没有问题的，而对于象HPC, PDA及无线通信手机，商务通等资源有限的
设备上就没法承受。解决的方法可以是通过语音压缩编码的方法来压缩音库所需
的容量，或者采用更小的合成基元，例如用声母、韵母或双音素、半音节，以及
减少合成语音所需的音节基元数等等。然而又不能增加算法的复杂度，因为运算
量及系统开销同样会直接影响汉语语音合成的应用。既要提高语音合成的质量，
又要降低语音合成的复杂度，这始终是一个矛盾的两个方面。

4 多语种文语合成

-----语言是人们交流的工具，不同民族有自己不同的语言，不同语言之间的交流
在今天开放的信息社会和网络时代显得十分重要，多语种的文语合成有着独特的
应用价值。例如在自动电话翻译，有声的电子邮件等中都提出多语种的合成，即
使是对汉语合成也有多方言文语转换的需求。理想的多语种合成系统最好是各种
语言共用一种合成算法或语音合成器，但是现有的语音合成系统大多是针对某一
种语言或若干种语言开发出来的，所采用的算法及规则都是和某种语言密切相关
的，因此很难推广到其他的语种。例如汉语就和西方语言有很大的差异，国内的
系统都是做汉语文语转换，它的一套韵律控制规则完全不适合于英语，而且主要
是合成汉语普通话，即使推广到广东话和上海话都有相当的难度。可见要真正解
决多语种的文语合成，从文本处理到语音合成都必须有新的思路。美国贝尔实验
室在多语种文语转换方面作了大量的工作，其中包括汉语普通话合成，值得注意
。

四结语

-----计算机要真正能够象人一样的说话，和人类自由地进行交谈，这仍然是需假
以时日，还有大量的研究工作要去做；今天的文语转换系统只能机械地朗读文章
，与生动活泼、感情丰富多彩的人类语言相比差距是如此之大；但是毋庸置疑，
语音合成技术确实已经可以走出实验室了，其潜在的巨大市场已露出曙光。


--
                人世间的事谁也无法掌握
                  该执著的  永不怨悔
                  改舍去的  不在牵挂
                  改珍惜的  好好把握

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: NLPCenter.hit.edu.cn]

Algorithm 版 (精华区)