Algorithm 版 (精华区)

发信人: ssos (存在与虚无), 信区: Algorithm
标  题: 机器翻译研究的现状和发展趋势
发信站: 哈工大紫丁香 (2001年06月08日21:15:57 星期五), 站内信件


机器翻译研究的现状和发展趋势
常宝宝  张伟
【摘要】本文详细地论述了机器翻译研究的现状和发展趋势。综述了机器翻译目前存在
的困难。详细地介绍了九十年代以来提出的一些新的方法以及国际研究动态。指出以“
混合”为特点是机器翻译研究的新趋势。
关键词: 机器翻译  计算语言学
    机器翻译研究的意义是不言而喻的,它有着重大的社会、经济价值。在当今世界,
随着信息的急剧增加,国际交流的日趋频繁,尤其是国际互联网络的逐渐普及,机器翻
译的潜在需求越来越大。
机器翻译研究同时又是一项艰巨的研究课题。自1954年美国乔治顿大学进行第一次试验
以来,机器翻译已经发展了五十余年,经历了几起几落的曲折历程。人们对它的评价毁
誉兼有。但不容忽视的是,经过机器翻译工作者的执着研究和反复探索,机器翻译无论
从理论技术还是从实际应用方面都取得了长足的进步。
一、传统的机器翻译方法
       传统机器翻译从总体模式上可以分为三类:直接翻译法(Direct Translation)、
中间语言法(Inetrlingual approach)以及转换法(Transfer approach)。
       直接翻译从源语言的表层句子出发,将单词或固定词组直接置换成目标语言的对
应成分。这种方法对翻译过程的认识过于简单化,基本上属于一种过时的方法。
       中间语言法把源语言经过分析转换成一种对所有语言都适合的一种句法―语义表
示,从这种表示可以生成任何一种目标语言。在设计多种语言互译的机器翻译系统时,
这种方法在理论上是非常经济的。
       转换方法采用两种内部表达并按三个阶段进行翻译,第一个阶段把源语言转换成
源语言的内部表达,第二阶段把源语言的内部表达转换成目标语言的内部表达,第三阶
段再根据目标语言的内部表达生成目标语言。当今许多实用的系统都采用了这样的总体
结构。
       从本质上讲,机器翻译系统的不同之处主要是各个系统对翻译所需要的分析(或
理解)深度有不同的意见。直接翻译法认为不需要深层次的源语言分析,在源语言句法结
构未知的前提下就可以翻译,转换法认为,要进行翻译,源语言的句法结构就应该提前
得到,而中间语言法则认为需要更为彻底的源语言分析。实际上,即使采用同一种总体
模式的不同实际系统,对分析深度的处理也是有所不同的。
二、困难和对策
       机器翻译的困难主要是语言的歧义消解问题,歧义现象是自然语言的显著特点。
语言单位无论从小到大都存在歧义,并且在语法、语义、语用每个层面上都有表现。这
些问题决定了目前机器翻译的译文质量必然是不能令人满意的,因此,要想获得高质量
的译文,必须采取其它的对策,下面是目前一些机器翻译系统采用的主要策略。
(1)在限定的领域内进行翻译
       这种方法一般也称为‘子语言’法(sublanguage)。这种方法不追求系统能在所
有领域获得高质量译文,而只希望在翻译某一狭窄的专业领域的文本时获得高质量的译
文。实际上,当今许多机器翻译系统属于这一类型,这类系统的词典和规则无需覆盖本
领域之外的语言现象。
(2)利用受限语言作为输入
       这种方法一般称为‘受控语言’法(controlled-language)或‘受限语言’法(c
onstrained-language,restricted language),这种方法通过在词汇、句法结构方面对
自然语言加以限制,以力图避免机译系统难以处理的语言现象,这种方法要求,交付系
统翻译的文本必须遵从受控语言的规定,因而,翻译不满足受控语言规定的文本,事先
要经过熟悉受控语言知识的人员改写。卡耐基-梅隆大学的基于知识的机器翻译系统KA
NT 定义的KANT受控英语(简称KCE)也是这种方法的一个实例。KCE引入三方面的限制因素
:限制词汇,用以减少词汇歧义、词汇复杂性;限制句子类型,用以限制源语言分析阶
段的分析复杂性;使用标准通用置标语言SGML。
(3)人机交互式机器翻译
       这种方法是以牺牲全自动的要求而获取较高质量的译文。实际上所有的机器翻译
系统都需要人工干预,不过,大部分系统的人工干预仅限于译前编辑、译后编辑,尤其
是译后编辑。更为深入的人机交互式翻译研究追求的目标是允许用户在翻译的任何一个
阶段都可以参与。这类研究可以根据人机交互发生的阶段分为:
       (a)交互式分析,用户帮助系统得出正确的源语言结构,尤其是复杂句子,对多
义词进行排歧等。
       (b)交互式转换,用户参与选择与源语言结构等价的目标语言结构,排除不适当
的转换。
       (c)交互式生成,用户协助产生流畅译文,用户在省略、指代、主题化方面对生
成提供指导,交互式生成应该包含译后编辑。
       实际上,很多系统并不单纯允许一种类型的交互,而是同时使用多种交互类型。
交互式系统也称为人助机译(Human Assisted Machine Translation简称HAMT)系统。
       子语言、受控语言以及交互式翻译虽然提高了译文质量,但其带来的限制条件在
许多应用场合并不满足,有时也并不必要。在许多情况下,译文并不是用于出版,例如
,一个科技人员只是想浏览一下自己领域的外文文献,只是想选择自己感兴趣的文章,
这时译文内容只要从总体上能够把握即可。许多应用场合对翻译效率要求很高,大量文
献要在短时间内完成,这些情况下只好接受低质量的译文。
三、基于经验的方法
1、基于统计的机器翻译
       1949年,Weaver就提出了基于统计的机器翻译方法,由于Chomsky等人的批判,
这种方法很快就被放弃了。现在,计算机从速度、容量方面都有了大幅度的提高,另外
,统计方法在语音自动识别、词典编纂领域的成功应用表明这一方法在语言自动处理领
域还是很有效的。将统计方法用于机器翻译的研究最为突出的是IBM Watson Research 
Center的Brown等人的工作。
       统计方法认为翻译问题也是一个噪音信道问题,如下图
                            S           噪音信道            T
可以认为,一种语言S(信道意义上的输入,翻译意义上的目标语言)由于经过了一个噪音
信道而发生了扭曲畸变,从而在信道的另一端呈现为另外一种语言T(信道意义上的输出
,翻译意义上的源语言),翻译问题实际上就是如何根据观察到的T,恢复最为可能的S的
问题。
    用Pr(S|T)表示T译成S的概率,那么翻译问题就成为:在观察到T的前提下,寻找一
个S,使得Pr(S|T)取最大值的问题,即
利用贝叶斯公式,有
因Pr(T)和S无关,故有
其中Pr(S)称为语言S的语言模型,Pr(T|S)称为S到T的翻译模型。在基于统计的翻译系统
中要解决三个问题,一是如何计算语言模型Pr(S);二是如何计算翻译模型Pr(T|S);三是
如何在所有可能的S中有效的搜索使Pr(S)Pr(T|S)最大的S。由 ,得到
    在只考虑n-1个历史的前提下简化得到的模型称为n元模型(n-gram model),一般情
况下取n=2或n=3分别得到二元模型(bigram model)和三元模型(trigram model)。尽管从
语言学角度来讲,n元模型过于简单化了,但是从语音识别等领域的使用情况来看,它还
是有效的。
       同样,对于翻译模型也需要一个可行的简化模型。由 ,考虑到S和T 中单词的对
齐关系,会发现它们之间既可能是一一对应关系,也可能是多对一、一对多关系,甚至
是零对一、一对零关系,正如Brown等在他们的文章中所举的如下例子用以说明英语句子
和法语句子中单词一级的对齐关系的复杂性。
The proposal will not now be implemented
Les(1) propositions(2) ne(4) seront(3) pas(4) mises(7) en(7) application(7) 
maintenant(5)
       (法语单词后的数字表示与其对应的英语单词在英语句中的序号)
       Brown等对翻译模型做出如下的简化
   其中, 表示S中单词 翻译时对应T中 个单词的概率,Brown等形象地称其为繁殖概率
(fertility probability)。拿法语到英语的情况看,英语中not在法语中常用ne...pa
s来表示,即该词的繁殖率f=2,繁殖概率为Pr(2|not)。模型要求针对任一单词s估计参数
Pr(0|s),Pr(1|s)...Pr(k|s)(k为一个假设的上限)。
       称为翻译概率(translation probability),表示单词 译成单词 的概率,如英
语单词dog译为法语单词chien的概率可写为Pr(chien|dog)。 称为变形概率(distortio
n probability),用以描述翻译过程中造成的单词位置上的变化,Brown等假定 仅依赖
于T的长度l,S中单词的位置j,T中单词的位置i。
       在分别得出两个简化模型后,接下来的工作就是利用实际语料进行参数估计,对
于语言模型而言(以二元模型为例),需要利用S语言的语料估计概率 ,一般采用相对频
率法(Relative Frequency)进行估计,统计实际语料中单词 相邻出现的次数除以单词 
出现的次数,即
其中f(*)代表*在实际语料中的出现频率。
       翻译模型中三类参数的估计,需要使用S、T两种语言的语料,同时需要已经对齐
的语料,Brown等的做法是首先使用他们提出的基于长度的句子对齐算法,对Hansards语
料进行对齐,从中选取117000对句子用EM(Expectation Maximize)算法训练翻译模型,
估计了大约一千七百多万参数建立起翻译模型。
       有了上述模型之后,翻译过程即为一个解码(decode)过程,对所有可能的S计算
Pr(S)Pr(T|S),找出其取值最大的 作为T的译文。
2、基于实例的机器翻译
       基于实例的机器翻译(Example-Based Machine Translation,简写为EBMT)方法
的基本思想是由日本长尾真提出的。长尾真探讨了外语初学者的基本模式,发现初学外
语的人总是记住最基本的英语句子和对应的日语句子,而后做替换练习。因此,参照这
个学习过程,提出了基于实例的机器翻译思想:(1)人类不通过做深层语言学分析翻译句
子。(2)人类的翻译过程:首先正确分解输入句子,分解成短语碎片(也许是格框架单元
),接着,把这些短语碎片译成其它语言短语,最后把这些短语构成一个长句。每个短语
碎片采用类比的原则进行翻译。
       这一方法的基本原理归纳起来非常简单,系统的主要知识源是双语对照的实例库
。每当输入一个源语言句子S时,系统利用S和实例库中的源语例句或片段进行比较,找
出其中和S最为相似的句子S’,并模拟S’的译语T’构成S的译语T。
       基于实例的翻译方法主要有三个关键问题需要加以解决:(1)双语对齐问题,如
上文所述,要大规模扩充实例库,必须解决双语对齐问题。(2)一个有效的实例匹配检索
机制,这个问题又关涉到三个方面,首先必须确定检索在哪一种级别上进行,是句子一
级(sentence-level),还是亚句子(sub-sentence)一级;其次要建立一套相似度准则(s
imilarity metric),相似度准则主要用来确定两个句子或短语碎片是否相似。目前关于
相似度准则研究的多数方法可以视为一种基于单词的方法(word-base approach),这种
方法逐一比较两个句子(或亚句子)中各个相应单词的相似度,然后加以组合,形成句子
(或亚句子)的相似度,最为常见的是使用“语义距离(semantic distance)”的概念,语
义距离的计算一般以树型的义类词典(thesaurus)为基础,通过计算“最为具体的共同抽
象(the Most Specific Common Abstraction或MSCA)而获得。北大计算语言所也探讨了
利用词语语法特性及句子的短语结构定义相似度的方法(参考文献[16]),还在探讨将
句子的表层句法结构信息与语义信息相结合来计算汉语句子的相似度的方法(参考文献
[17])。
四、基于经验的方法和基于规则的方法相结合
       总的来讲,目前机器翻译的方法主要有两类,即上文所说的基于经验的方法和基
于规则的方法。基于经验的方法主要包括基于统计的方法和基于实例的方法。传统的基
于规则的方法(RBMT),也有人称传统的方法为基于符号的方法、基于语言学的方法和基
于人工智能的方法等等。
       纵观机器翻译的整个发展历程,可以看出,机器翻译的主流方法一直是基于规则
的方法。50年代统计方法虽然曾一度盛行,但很快被放弃了。九十年代统计方法重新复
苏,引起了广泛关注,然而统计方法也并非无懈可击。其实两种方法在一定程度上的优
缺点是互补的,如下表:
特点
 基于符号的方法
 统计方法(不含EBMT)
健壮性(robustness)
 不好
 较好
覆盖范围(coverage)
 不好
 较好
质量、流畅性(quality/fluency)
 较好
 不好
表示(representation)深度
 很深
 较浅
如果两种方法能有效的结合起来,则一定能改善机器翻译的性能。实际上,目前许多系
统在自己的立场上都有所松动,都开始采用了一些其它方法改善自己的系统,如Nirenb
urg提出了多引擎(Multi- engine)的概念并在PANGLOSS系统中予以具体实施。PANGLOSS
 Mark III和其它任何翻译系统的不同之处是该系统有三个翻译引擎:一个基于知识的机
器翻译(KBMT)引擎,该系统的一个主要引擎;一个基于实例的机器翻译(EBMT)引擎;一
个词汇转换(lexical transfer)引擎;总体结构如下图所示。
                                       User
                                              Translator’s Workstation
                        Knowledge-Based MT
                         Example-Based MT                 Chart manager
                         Lexical Transfer MT
每个引擎都试图翻译整个或部分输入源语,由系统综合评价各引擎的输出,最后系统输
出总体最好结果。这样显然有利于排除具体方法的不足。从以上情况可以看出,今后的
机器翻译研究从方法上将会呈现出一种混合趋势。
参考文献
[1] 俞士汶,朱学锋,《计算语言学教学参考资料》,北京大学计算语言学研究所, 19
93
[2] 俞士汶,朱学锋,《计算语言学文集》,北京大学计算语言学研究所, 1996
[3] 黄昌宁,夏莹,《语言信息处理专论》,清华大学出版社, 1996
[4] 冯志伟,《自然语言机器翻译新论》,语文出版社, 1995
[5] 姚天顺,《自然语言理解》,清华大学出版社, 1995
[6] 刘开瑛,郭炳炎,《自然语言处理》,科学出版社, 1991
[7] 王惠临,机器翻译进展,1994年3月29日,计算机世界报,专家述评
[8] S.Nirenburg et al, Machine Translation: a Knowledge Based Approach, Morg
an Kaufmann Publisher, 1992
[9] W.J.Hutchins, Machine Translation: past, present, future, London: Academ
ic Press, 1986
[10] M.T.Rosetta, Compositional Translation, Kluwer Academic Publisher, 1994

[11] Distributed Language Translation, Volume 4: New Direction in Machine Tr
anslation, 1988
[12] S.Sato,M.Nagao, Towards memory-based translation, COLING’90
[13] M.Nagao, A framework of a mechanical translation between Japanese and E
nglish by analogy principle, In: A.Elithorn et al eds. Artificial and Human 
Intelligence, NATO Publication
[14] K.W.Church, R.L.Mecer, Introduction to the special issue on computation
al linguistics using large copora, Computational liguistics, V19, No.1, 1993

[15] M.Kay et al, Text-Translation Alignment, Computational Liguistics, V19,
 No.1, 1993
[16] 周莉娜,面向基于实例汉英机器翻译的知识获取及实现,北京大学博士论文,199
7
[17] 穗志方,汉语单句相似度研究中的骨架分析法及其应用,北京大学博士论文,199
8
(此文发表于《术语标准化与信息技术》,1998年第2期,P32—35)

--

   
<<社会契约论>>是一本好书,应当多读几遍
风味的肘子味道不错,我还想再吃它      

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.230.220]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:3.908毫秒