Algorithm 版 (精华区)
发信人: AA (积极的人生、美好的人生), 信区: Algorithm
标 题: 人机互动的多策略机器翻译系统IHSMTS的设计与实现(zz
发信站: 哈工大紫丁香 (2002年05月23日10:31:22 星期四), 站内信件
一种人机互动的多策略机器翻译系统IHSMTS的设计与实现原理
摘要 现有单一策略的机器翻译系统很难有效地解决机器翻译所面临的所有问题。本
文
,提出一种基于人机交互互动的多策略机器翻译系统设计方法,该方法把基于多知识一
体化描述的规则推理、基于经验记忆的类比启发式搜索推理和基于统计知识的概率方法
及适当程度的人机交互有机地结合起来,利用现有基于规则的智能机器翻译系统自动产
生具有各种特征知识的特征事例模式库,从而既可以通过与以往翻译实例的类比启发式
搜索有效地利用以往系统成功的句子分析经验解决相似句子的分析,同时对特征事例模
式库中没有相似实例的句子,又可以利用原有基于规则的方法和统计概率方法进行翻译
转换处理,并在系统本身的知识不足以解决所遇到的多义区分问题时适时由人介入,从
而可以大大提高系统的翻译速度和翻译准确率,增强系统的实用性。
一、引言
机器翻译研究已有近五十年的历史。国内外许多专家、学者对其进行了大量深入的研究
,提出了许多创新思想,建造了若干实际的系统。到目前为止, 这些系统的大多数是基
于规则转换的,虽然也有人提出过采用语料库方法、基于实例的机器翻译方法。但由于
自然语言本身的复杂性和巨大的工作量,使得难以有完全采用这些方法的实用机器翻译
系统问世。另一方面,由于自然语言分析的固有难度,现有基于单一分析策略的机器翻
译系统很难彻底地解决其所涉及的难题。极有必要在机器翻译系统中集成多种策略解决
所面临的各种难题。
本文,我们在已有基于规则的智能机器翻译系统的基础上,提出一种基于人机互动的多
策略机器翻译系统设计方法,该方法有机地把基于规则和基于类比推理的方法结合起来
,通过设计一个实例库,利用现有的规则分析处理系统,自动对其成功翻译过的句子构
造具有特定特征的特征事例模式库,从而既可以通过类比方法有效地利用系统以往成功
的句子分析经验来解决相似句子的分析,又可以利用原有的规则分析方法对系统未处理
过的句子进行翻译转换处理,提高系统的翻译速度和翻译准确率。
二、IHSMTS系统设计
1.设计思想
现有的机器翻译方法大致可分为基于规则(KBMT)、基于语料统计(SBMT)和基于例子(CBM
T)这三种。第一种方法具有表示简洁、规则的通用性强等特点。目前大多数实用的机器
翻译系统采用第一种方法。但由于语言现象过于庞杂,存在许多特殊的语言现象,现有
的文法理论和语言规则无法有效地表达所有这些语言现象,从而严重影响了这些系统对
开放语料的适应性。并且,当规则库扩展到一定规模后,规则知识的进一步完善和维护
非常困难;第二种方法以对真实语料的标记、统计为基础,根据对大规模真实语料中各
种语言现象的统计结果作为翻译处理依据,但由于缺乏对语言内部的深入理解,系统的
翻译正确率受到极大的限制;基于例子的机器翻译方法是基于语言实例的完全匹配,实
用系统的例子库将非常庞大,例子的适应性不强。
针对现有机器翻译方法中的特点和所存在的问题,在IHSMTS系统的设计中,有机地结合
了多种分析策略,从而能够有效利用现有基于规则机器翻译系统的翻译经验和结果,建
立具有相当语言现象覆盖面的经验模式库,对当前翻译对象进行语言模式的转换,并根
据类比匹配策略对模式库进行搜索匹配,建立根据模式间相似度的多策略解构造方法。
另一方面,由于机器翻译的客观难度,完全依靠机器翻译的译文水平很难满足许多方面
的应用需求。因此,如何在机器翻译系统中适当地介入人机互动,一方面可以用极少的
人工介入减少机器翻译的一些固有难题;另一方面使系统可以通过人机交互的反馈学习
,对系统进行改进完善。
2.功能结构设计
根据上述设计思路,我们所设计的IHSMTS系统的功能模块结构如下图示:
其中,“词法分析与预处理”对原文输入进行词法分析,调用系统的短语规则库对原文
进行预处理,输出原文句子结构成分构成的特征模式;CBAM(特征事例模式库类比检索
)根据当前语句的结构特征,在特征事例模式库中进行类比匹配。如果存在完全匹配或
近似匹配的特征模式,则进行类比解模式构造,否则基于规则知识进行分析转换;CBAM
T(类比解模式构造)对完全匹配直接获取模式库中相应的解模式,对近似匹配则按照模
式库中相应的解模式进行类比转换,构造当前句子的解模式;FCBS(特征事例模式库)
中存放系统各种类型自然语言句子的结构特征模式库和相应的解模式;RBMT(基于规则
的翻译转换)利用系统规则库对句子进行分析转换,以得到相应的解模式;RBS(规则库
)存放系统所有规则;“译文生成及输出”根据解模式转换生成目标译文。
规则库、翻译转换模块和译文生成模块在作者的其它文章[7~12]中已有介绍,本文主要
讨论系统结构图中的其它部分。
三、特征事例模式库
3.1 基于复杂逻辑运算的特征事例模式库表示
为了自然、直观地表示自然语言现象及其之间的逻辑关系,我们提出了一种基于复杂逻
辑运算的特征结构模式表示方式,以有效地表达各种复杂的语言特征属性。每个模式由
二部分组成:事例模式和解模式。
1. 事例模式的表示
为了充分利用各种语言知识,事例模式中包括了有关句子成分的语法、词法和语义等各
种特征知识。同时,为了与现有的智能机器翻译系统相适应,其表示形式设计为:
M1 M2 ...... Mn
其中,Mi可以是一个源语言词串或是一个形为 “<SynCate>(<FD>)”的特征结构表示。
<SynCate>标识成分的语法类别,如名词(NP)、动词(VP)等;<FD>是该成分的词法、语义
、归约长度等具有复杂逻辑运算的特征描述,其具体表示形式的描述请参看文献[10]。
2. 解模式的表示
解模式采用分析树的结构模式表示,树中每个节点的表示形式设计为:
struct { <SynCate>;
<FD>;
<TranModel>;
<SynNodes>;
}
其中,<SynCate>和<FD>分别表示解模式中该节点的语法类别及其结构成分的词法、语义
等特征描述;<TranModel>表示该节点归约对应的译文翻译转换模式,其表示形式参看文
献[12];<SynNodes>是归约成该节点的结构成分在分析树中对应的节点。
3.2 特征事例模式库的建立和维护
1.基于支撑集的事例模式库构造
特征事例模式库中模式的来源有三种:
1) 基于句型支撑集的静态生成
为了加快事例模式库的建立,提高特征事例模式库的代表性,使事例模式库具有一定的
语言现象覆盖面,我们提出了一种基于支撑集的构造方法:首先通过对典型语言现象的
分析归纳,建立一个覆盖面广的源语言句子支撑集。然后利用现有的智能机器翻译系统
对该支撑集进行翻译处理,在正确翻译结果的基础上自动构造一个先验模式库。
根据语言现象统计信息,收集整理了一个包括五千个典型语言现象的基本句型集,并预
产生了相应的初期事例模式库。
2) 系统运行时的动态生成
为增强模式库对语言现象的适应性和系统的实用性,系统允许在运行过程中,不断把成
功翻译处理的新模式加入到事例模式库。
如果无法在模式库中找到与当前语句相匹配的事例模式时,系统基于规则分析和统计知
识对该语句进行分析转换。经人工确认转换正确后,获取该句子的事例特征模式和相应
的解模式,并动态地添加到事例模式库中。
3) 用户自定义
此外,系统还提供一种交互式的用户界面,让用户可以自行添加合适的事例模式。
2. 特征事例库的维护
系统允许用户对事例模式库中的模式进行修改,也可以删除库中冗余或错误的模式,以
不断提高模式库的质量和代表性。
系统根据质量太差的译文,经过人工分析判断确定错误原因:是类比推理的能力太差,
还是匹配事例模式中解模式的质量不高,或者是现有模式库中缺乏足够相似的模式所致
。系统将根据这些情况分别对推理算法,解模式,特征相似度定义和阈值的设定等相关
知识进行修改和完善。
四、基于特征权值的特征模式类比检索
为提高类比检索的效果,需要综合利用各种语言特征知识,以准确计算模式间的相似度
,保障最终获取解模式的高质量。
1.特征加权
结构成分中每个特征在翻译处理时所起的作用是不相同的,有的可能是该结构成分的主
要特征(关键特征),有的可能相对次要。为了体现它们对类比匹配的不同影响,同时
体现相同特征在不同条件下,对翻译处理的不同,我们根据每个特征在不同语境中的重
要程度设置相应的权值。
特征权值的具体设置依赖于我们在规则分析翻译系统对实际语料的处理经验。分析处理
系统规则库的完善是一个逐步细化和调整的过程,具体规则细化、泛化和修改实际是为
了体现某一(些)特征所起作用的变化。特征模式类比检索的主要任务是对相似模式的
区分,所以这种针对具体环境的特征权值定义具有更大的鉴别能力和区分度。
2.特征距离
类比匹配不可能是完全的相等匹配,为了比较两个结构成分之间的相似度,我们设置了
特征间的距离值,用于在类比匹配时比较两个结构成分间的相似度。特征间的距离值根
据特征类型的不同,确定如下特征相似的计算原则:
其它特征:D(f1, f2) = [0,1]。
特征距离的计算参数可以在系统运行中根据相关信息的统计结果进行调整。
3. 类比匹配算法
设当前处理的源语言句子SourceSent为:w1w2w3......wn(wi可以是一个源语言单词或
者标点符号),模式库中当前匹配的模式M为:
M1 M2 ...... Ms
则它们的类比匹配算法用类C语言描述为:
Match(M, SourceSent) {
j=1; k=1; val = 1;
` while(j≤s) {
if(Mj is a word) {
if(Mj==wk) {
j++; k++;
continue;
} else return(0);
} else {
if(Mj+1 is a word) {
if((not exist a "l")( l>k & wl==Mj+1)) retur
n(0)
;
else {
val = val*Match1(wk wk+1 ... wl-1, Mj);
if(val==0) return(0);
k=l+1; j+=2; continue;
}
` } else if(exist a string map to Mj with length of p1
) {
val = val*Match1(wk wk+1 ... wk+p1-1, Mj);
if(val==0) return(0);
k+=p1; j++; continue;
} else {
return(0);
}
}
}
return(val);
}
Match1(w1 w2 ... wt, Mj) {
RuleReduce(w1 w2 ... wt, Mr);
return(AllFMatch(Mj, Mr));
}
AllFMatch(Mj, Mr)是二个特征结构的类比匹配函数,用于计算两个特征结构成分之间的
相似度。假设Mj = SynA(a1, a2,..., an), Mr = SynB(b1, b2, ..., bm),其计算公式
为:
SynMatch(SynA, SynB) * ∏(P(ai) * FAMatch (ai, bk))
其中,SynMatch(SynA, SynB)指两个结构成分的语法特征的匹配度,定义为:
P(ai)是特征标识符ai的特征加权值;FAMatch(ai,bk)是特征类比匹配函数,用于类比比
较两个特征值之间的相似度,定义为:
D(ai, bk)表示特征标识符aj,bk所表示的二个特征之间的距离值,其取值区间为[0,1]。
如果两个结构模式的类比匹配的相似度为1,则表示这两个结构模式是完全匹配;如果为
0,则表示这两个结构模式是不匹配;否则表示它们之间是近似匹配,并且其类比相似度
为由上述公式计算出的某一特定值。
4. 类比匹配度的阈值设置与控制策略
为了提高系统的翻译求解速度,尽快排除不可能的候选模式,系统将设置类比匹配的相
似阈值。如果不存在相似度大于阈值的模式匹配,则调用基于规则的分析转换模块对当
前句子进行分析转换,重新构造解模式;否则获取最佳匹配之后,转到CBAMT模块进行翻
译处理。该阈值将随系统的不断完善而逐步调整,最终达到一个合理的值。
类比检索允许事例模式与当前模式存在差异,而这种差异可能作用于所有特征,检索条
件和结果都不明确,理论上需要将当前语句模式与库中所有模式相比较。为加快检索速
度,系统将基于各种启发式信息,有效利用固定特征和重要特征的不同要求,进行多重
过滤处理,尽快排除不可能的事例模式。
五、多策略类比解模式构造模块
针对类比匹配检索的不同结果,我们提出一种多策略类比解构造算法,对相同的、相似
的及未处理过的模式进行不同处理策略,既加快相同的和相似输入模式的翻译处理速度
,又可以实现对新模式的翻译处理。
1.完全复制解模式
若模式库中存在于当前语句完全相同的模式时,只需直接从事例模式库中获取相应模式
的解模式,然后通过译文生成模块便可得到该句子的译文。
例如:假设模式库中有一个如下的模式:
R(HU) is a AP(1) NP(1,HU).--> { S, (), (!R 是一个 !AP !NP。), () }
其中,R,AP,NP分别代表语法类代词、形容词和名词的标识符;HU表示人类的特征;1
表示相应结构成分的归约长度为1。{ S, (), (!R 是一个 !AP !NP 。), () }是该模式
的解模式,则与该模式为完全匹配的语句“He is a good teacher.”的译文生成模式为
" !R 是一个 !AP !NP。",最终译文为:“他是一个好的老师。”
2. 基于类比推理的近似解构造
如果模式库中存在多个超过阈值的相似模式,系统根据匹配确定最佳近似模式,再依据
其解模式进行类比推理,构造当前语句的解模式。
类比推理充分利用事例语句的翻译知识(解模式),根据当前事例特征模式与事例模式
的相似程度和差异情况,对事例模式的解模式进行相应的修改,构造当前语句的解模式
。其构造算法的主要处理包括:
(1)确定事例模式中发生变化的特征属性:CF1,CF2,... CFn。
(2)确定事例翻译解模式对应的相应成分:TF1,TF2,... TFn。
(3)确定当前语句模式对应的变化属性:CS1,CS2,... CSn。因为变化的复杂性,CS
i。可能为空,也可能由多个成分组成。
(4)根据事例库中的语料,统计出所有CSi在解模式中对应的成分:CTi。
(5)利用相应的CTi替换解模式中的TFi,则可获得当前语句的解模式。
系统再基于解模式就能简单地构造新的译文。
3.基于规则分析和统计知识的解生成
若模式库中不存在与当前输入模式相同或相近的输入,系统基于规则分析,结合相应的
语言统计知识,对当前输入语句进行翻译处理,并提供相应的处理机制,便于新模式的
翻译经验和知识入库。
4.基于人机互动的知识获取
在系统多策略的翻译处理过程中,当系统自身的知识不足以有效排除当前的歧义问题时
,人工交互被自动激活,系统将完整记录当时的环境信息和决策结果。这些知识某些将
直接用于以后相同或相似条件下的决策依据,某些作为反馈信息由语言专家几种进行相
应的现象分析和规律总结。人工交互主要在以下几种场合被引入:
(1)在词汇分析和短语识别处理中,若当前语句的特征模式构造有歧义时,引入人工判
断;
(2)系统在类比检索时,存在多个匹配度很高的特征事例模式时,系统引入人工判断,
决定类比推理适用的模式;
(3)系统在处理新模式时,在分析、规约形成语法树时,若存在多种可能的结果,系统
提供可视化的界面,由人工确定正确的归约路径。
(4)系统发现类比推理的翻译质量太差时,系统提供相应的原语句特征模式,匹配事例
的特征模式和解模式,推理结果的解模式等相关情况,系统根据分析处理的步骤判断错
误发生的根源,以决定系统需要完善的地方。
用户可以通过相应的开关设置,以禁止具体交互手段的运用。
六、结束语
本文提出了一种基于多策略的交互式人机互动的机器翻译系统实现方法,该方法能有机
结合多种机器翻译实现方法的优势,充分利用各种语言知识,可以大大提高系统的翻译
速度和译文质量。随着事例模式库的扩充以及对事例特征属性刻画的更加深入,人工介
入和全新翻译的机会将越来越小,系统的翻译处理性能将会越来越高。
当然,该方法的实现还有一些有待解决的实际问题,如事例特征库的不断丰富与完善,
模式相关度的合理定义以及类比推理的效果等。作者诚挚希望本文的研究工作能给相关
的研究提供参考借鉴作用。
参考文献
[1] Ralf D. Brown, Example-Based Machine Translation in the Pangloss System,
Coling'96, 1996.
[2] Brown P.F. et al. A Statistical Approach to Machine Translation, Computa
tional Linguistics, 1990(16).
[3] Daniel Jones, Anlogical Natural Language Processing, UCL Press, 1996.
[4] Ralf D. Brown, Automated Dictionary Extraction for "Knowledge-Free" Exam
le-Based Translation, URL: http://www.cs.cmu.edu/afs/cs.cmu.edu/user/ralf/pu
b/www/papers/tmi97.ps.
[5] Ralph Grishman, Knowledge Acquisition for Japan-English Machine Translat
ion, URL: http://www.cs.tufts.edu/~jacob/isgw/Grishman.html.
[6] Jaime G. Carbonell, Derevational Analogy: A Theory of Reconstructive Pro
blem Solving and Expertise Acquisition, CMU.
[7] 陈肇雄、高庆狮,“智能化英汉机译系统IMT/EC”,《中国科学A辑》, 1989年2月
。
[8] 黄河燕、陈肇雄,“智能机器翻译研究”,《中国计算机智能接口与智能应用前沿
研究》,吴泉源、高文主编,1993.
[9] Chen Zhaoxiong, "IMT-KB: A knowledge base system for machine translation
", Proceedings of the International Conference for CPCOL, Toronto, 1988.
[10] Huang Heyan and Chen Zhaoxiong, A Hierarchical Adjustable Taxonomy-Base
d Consistent Unification Algorithm in Rule-Based Intelligent System, KCOLC?9
6, PP54-62.
[11] 黄河燕,陈肇雄,机器翻译译文生成算法,Inter. Conf. on Chinese Computing
1994, Singapore, 40-46.
[12] Huang Heyan, Chen Zhaoxiong, Forward and Feedback Context-sensitive Pro
cessing, Inter. Conf. on Computer Processing of Oriental Language(ICCPOL'97)
.
--
人世间的事谁也无法掌握
该执著的 永不怨悔
改舍去的 不在牵挂
改珍惜的 好好把握
※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: NLPCenter.hit.edu.cn]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:206.546毫秒