Algorithm 版 (精华区)
发信人: AA (积极的人生、美好的人生), 信区: Algorithm
标 题: 面向机器翻译的全文检索系统(zz)
发信站: 哈工大紫丁香 (2002年05月23日10:30:24 星期四), 站内信件
面向机器翻译的全文检索系统
摘 要:本文介绍了面向机器翻译的全文检索系统的设计和实现,该系统在实现倒排档存
储结构和布尔逻辑检索、位置检索、检索相关性排序等普通全文检索系统功能的基础上
,提供面向机器翻译的多层次检索和跨语言检索功能。针对机器翻译中篇章、段落模糊
检索的难题,本文提出了缩检、精检的方法,并通过对文档的特征分析以及选择适当的
检索表达式模型,解决了面向机器翻译检索中相关性判别的问题,在句子相似度的计算
中运用了动态规划的思想。
关键词:机器翻译、全文检索、段落检索、篇章检索
一、 引言
随着人们对语言学认识的深入和计算机技术的发展,机器翻译技术得到迅速发展,涌现
出了一批实用化的机器翻译系统,特别是INTERNET 的发展使得网络机器翻译系统应云而
生。鉴于机器翻译是一个涉及语言学、计算数学、计算机技术、认知科学等多个领域综
合性的交叉科学,由于语言本身固有的复杂性和受目前人工智能发展水平的限制,机器
翻译译文质量仍然与客观需要有一定的差距,往往需要人工进行译后编辑,且翻译速度
因需用词典、规则做大量的语法、语义分析而与用户的需求也存在差距,因而提高机器
翻译译文正确率的工作是极其艰巨的。
因有重复翻译的需求,尤其是Internet网上的网页有很大的继承性,因此,我们提出存
储以前经过人工编辑或质量高的翻译结果,利用现有的翻译经验,不断提高机器翻译的
速度和质量的思想。作者根据一般全文检索系统的设计原理和规则,针对机器翻译系统
的特点,设计并实现了面向机器翻译的全文检索系统。该全文检索系统不仅具有改进的
全文检索功能,而且提供面向机器翻译的多层次检索和跨语言检索功能。
二、功能和总体结构
本系统同时提供面向用户和面向机器翻译的信息检索功能。面向用户的检索提供普通全
文检索系统的基本功能,使用户能充分利用已收集的双语信息,支持跨语言检索。面向
机器翻译的检索辅助机器翻译系统进行翻译,如果用户对机器翻译系统已翻译过的相似
文档(或段落)提出翻译需求,系统可以直接调用已存储在双语信息库中的译文信息,从
而提高翻译系统处理速度;此外,由于存储在信息库中的译文均已经过不同程度的译后
编辑,因此,提供给用户的翻译结果就更准确。
该系统设计和实现基于以下主要原则:(1) 继承普通全文检索系统的功能;在其基础上
,提供相关反馈的机制,增加机器翻译系统使用的检索功能;(2) 模型具有开放性,支
持多语种的扩充;(3) 系统易于维护,保持中英文索引结构的一致性;(4) 满足网络环
境下翻译、查询处理实时性高、信息量大的要求。
系统在倒排档的基础上,采用符合用户查询习惯的布尔检索模式,为用户检索和机器翻
译的检索提供快速和准确的检索结果。系统结构如下图所示:
各模块功能:
* 信息文档的预处理模块
信息预处理对不同来源的非纯文本文档进行格式过滤,系统同时保存其原文档及相应的
纯文本文档,使用户能够检索到以不同格式存在的文本信息。
* 索引模块
索引模块对文档库中的文档进行分析,建立各种索引信息为检索提供基础和保证。主要
内容包括:创建记录文档特征信息的倒排档;建立双语文档及其内部段落之间的对照关
系;进行文本分析,提取文档外部特征等。
* 面向用户的检索模块
根据用户的查询要求,读取文档信息的特征记录,查到用户所需信息。主要内容包括:
检索表达式的处理、检索处理、检索扩展处理、相关性排序、相关反馈等。
面向用户的检索同时也是面向机器翻译检索的基础。系统首先对输入的检索表达式进行
分析并查错,然后分别按单个可检词进行检索,经过对检索表达式中可检词的组合运算
,最后得到检索结果并排序输出。
* 机器翻译检索模块
针对机器翻译系统对篇章、段落的查询需求,根据系统模糊度的要求,在双语信息库中
检索出相同的篇章段落及其译文,或者给出双语库中未存该查找对象的结论。这是本系
统的核心模块。
三、 面向机器翻译的检索
篇章、段落精确匹配的概率较少,也容易实现。而如何根据机器翻译的需求,快速、准
确查找“相似”的篇章、段落是整个检索的重点和关键问题。本文采用逐步求精的方法
实现。对于篇章检索,首先按外部特征进行匹配,如存在,则对匹配结果直接进行精检
。若不存在,提取其主题词(集合)组配成检索表达式进行缩检。然后在缩减结果中进
行支持模糊匹配的精检,最终获取检索结果。对于段落检索,直接按缩检、精检的方式
进行处理。
3.1 缩检
缩检是指首先抽取代表要检索篇章、段落特征的主题词(集合),然后,根据这些主题
词组成的检索式在倒排档中查找相关篇章、段落,迅速缩小精检范围的处理过程。
3.1.1 主题词提取
由于网络信息检索具有较高的实时性要求,且此处的主题词提取是为了构造检索式,加
快检索速度,所以,对主题词的抽取不可能进行详尽的语法语义分析,也不适于用逆文
献词频法,所以本系统采用下述基于统计的方法实现。确定主题词时系统优先考虑以下
标引词:1)在标题或副标题句中出现的关键词,以及各级层次标题。对层次高的标题赋
予较大权值。层次标题由面向机器翻译的层次检索系统提取。2)文摘、关键词等特定位
置的关键词。3)段首、段尾中出现的关键词。4)相同条件下,词频较高且长度较长的标
引词权值大。
主题词加权函数的计算公式为:
其中,Pw为累计位置权重;Freg为该词的词频;Len为词长,Lmin是词长下限;c为一常
数,对于中文词,长词的专指性较高, c可取大些,对于英文词,差距不如中文明显,
c可小些。
Pw的初值定义为0。对于上述情况中关键词的每一次出现:1) 标题中,Pw = (;层次标
题中Pw = Pw + 10 * I(I为层次);2) Pw = Pw + 5;3) Pw = Pw + 1;关键词在其它句
中出现一次时,Pw = Pw + 1/句中总词数。
3.1.2 相关性检索
由于本全文检索系统支持检索词在同一段落中的查询,因此段落检索式的构造相对简单
,在提取出的主题词之间加上同段位置运算符即可,然后用此检索式在倒排档中查找相
关段落。
篇章的检索是一种相关性判别,目前,在相关性判断方面取得较好成绩的系统多采用向
量空间模型,如Salton领导下的SMART实验系统,但这种检索模型还没能在实用系统中运
用。有的系统采用的办法是,把所有提取出的主题词用或运算连接,在倒排档中检索以
缩小一定的范围,再在此范围内对所有文档生成空间向量以确定与查询文档的相关程度
。不过,本人认为这种方法效率不高,响应时间太长,不适合我们系统实时的要求。
本系统的篇章检索表达式采用加权检索提问式,避免布尔检索模型不能表达特征词的重
要程度的弊端,又易于在已选模型上实现。其方法是通过在检索式中提供主题词的权值
,根据检索文档与查询的相关程度是否超过阀值来确定该文档是否符合检索条件。
度量相似性公式:
其中,采用TF*IDF律指定文档关键词权重。M是数据库中的文档总数,Nt是包含词t的文
档数,fdt为词出现频率。是文档的长度,通过计算标引词的数量得到。
3.2 精检
精检是指在缩检得到的候选文档集合中进一步匹配并得到最终检索结果的过程。
系统优先进行重要特征的比较,以尽早排除不可能匹配的文档,缩小后期处理的范围。
需要检索的篇章,先分解成段落,并分别按段落精检方法进行检索。段落精检允许一定
的模糊性。当两个段落的结构特征基本匹配后,进一步划分句子,通过对句子进行相似
度的计算,最后判断段落是否匹配。系统运用了动态规划的方法计算句子的相似度。
把待翻译句子中的单词列为I-J平面的I轴上,实例句子中的单词列为J轴上,其中,格点
(i,j)的值为词i与词j间的相似度。两条语句间的相似度是一条原点到(I,J)的路径,语
句相似度的值为路径上所经过格点的匹配度之和。那么,句子间的相似度计算就转化为
在I-J平面中寻找一条最佳路径,使两语句的相似度最大。
为追求速度和准确性,目前的相似性查询不做同义词扩展等操作,状态k结点处的词间相
似度D(ik,jk)可简单定义为:如i,j相同,为1,否则为0。状态转移方程为:(ik,jk)
=uk(ik-1,jk-1)。
并且相似语句匹配的路径具有一定的限制条件:(1)单调性限制,要求路径必须是从起点
向右或向上延伸的。(2) 全局路径限制,倾斜路径优于竖直或水平路径。 (3)局部路径
限制,(ik,jk)的后序结点只计算(ik+1,jk)、( ik,jk+1)、(ik+1,jk+1) 三种情形,并
不会出现直角。
原点到(I,J)全路径的相似度S为:
动态规划的阶段最优递推公式为:
语句间的相似度定义为:
其中,n为待翻译句子中的词数。取相似度最大的语句作为检索结果,若不存在相似度大
于阀值的语句,返回查询失败标志。
这样我们就可以根据各个句子的相关度定义段落的相关度,从而检索出所需段落,甚至
篇章。
3.3 缩捡中相关性性能分析
首先通过例子介绍加权检索的原理。
例如:查询自然语言处理中的网络机器翻译方面的文献,用加权检索法提问式如下:
自然语言处理(1)机器翻译(3)网络(2)
如文献中同时包含三个词,则此文献的权值为1 + 3 + 2 = 6;如文献中包含自然语言处
理、机器翻译,则此文献的权值为1 + 3 = 4...以此类推。如设定下限阀值为4 的话,
同时包含三个词,或同时包含两个词(除自然语言处理、网络的组合外)都为命中的情况
。
下面我们与向量空间模型做个对比。
在向量空间模型中,将文献和提问都表示成向量。假设文献集合共有m个不同的标引词t
1,t2, …,tm,则集合中的每篇文献都可以用这m个标引词中的若干个予以表示。任一文
献可表示为标引词向量空间中的一个向量:
D = (T11, T12, ......, T1m)
同样地,一个提问Q也可以表示为标引词向量空间中的一个向量:
Q = (T21,T22,......, T2m)
其中: T1k和T2k分别表示文献向量或查询向量中的第k个分量;
向量空间模型假定给定向量中所包含的每个词相互独立,即是把词向量看作一组正交向
量并且是标引词空间的一组正交基向量。传统的向量空间模型将T1k和T2k取值为0或1(
现在大多在[0,1]区间取值),此时,文献与提问的匹配处理过程转化为向量空间中文
献向量和提问向量的相似度计算问题。
最简单的计算方法是点积函数法,它把文献向量与提问向量的相似度定义为:
该方法的实质就是计算文献与提问之间所共有的标引词数量。其表达能力与传统加权检
索模型一致。
这种简单的方式存在几个缺点:首先,它没有考虑可检词在文档中匹配的次数,这样不
能很好地表达文献与此检索词的关联程度。其次,公式中未考虑标引词的多寡,如某标
引词只在一个文档中出现,至少应比在许多文档中都出现的标引词更为重要。第三,因
为长文档包含许多标引词,它们更易包含更多的查询词,因而易满足相似度匹配。
前两个问题可用词的权值代替词频来解决,词权值由TF*IDF 法确定。即。
第三个问题,我们运用内积变化的公式来度量相似性:
, Wdt、|Dd|的确定如3.1.2所述。
尽管目前对于第三个问题解决较好是向量空间模型的余弦公式,但由于其需对文档中的
每个词都要先计算W以确定,比较复杂,占用空间大,且不适应动态增长库的要求,因而
我们选取了更为简洁的方法。经过上述改进达到与向量空间模型类似的相关性判定结果
。
四、 结束语
本文提出并实现了改进的全文检索系统,它是网络双语信息处理系统中的一个子系统。
作者对面向机器翻译的篇章、段落的检索和双语对照库的组织进行了比较深入的研究和
探索,提出了适用于机器翻译篇章、段落检索的全文检索方法,并实现了系统中的关键
功能。但是,本系统目前尚缺乏在大规模实际运行的环境中检验,这在机器翻译领域中
还只是尝试,有许多工作需进一步拓展。
尤其对于篇章的检索,主题词的提取及相关性判别都是较难的,其准确性与速度是矛盾
的,只能进行折中考虑,其效果目前不很理想。
我们下一步的工作有细化语句相似度的计算,完善系统中各类词典, 研究高效的匹配算
法和压缩与解压缩的技术,提供近似翻译,扩充新语种,增加自然语言检索接口,增加
多媒体检索功能。
我们相信通过不断的改进,本系统对提高机器翻译的速度和质量会有帮助,并为基于大
规模语料库的翻译方法创造条件。
参考文献
1. 陈肇雄,机器翻译研究进展,电子工业出版社,1992
2. 李书涛,决策支持系统原理与技术,北京理工大学出版社,96
3. Ian H.Witten,海量数据管理,科学出版社,1996
4. 陈力为,袁琪,计算语义学进展与应用,清华大学出版社,1995
5. 马向红,一种改进的加权检索和程序设计初探,现代图书情报技术,96,3
6. 王永成,顾晓明,王丽霞,中文文献主题的自动标引,情报学报,98,17(3)
7. 许建潮,胡明,时密林,文书类档案的主题标引研究,情报学报,98,17(4)
8. 吴岩等,中文自动文摘原理与方法探索,中文信息学报,12(2)
--
人世间的事谁也无法掌握
该执著的 永不怨悔
改舍去的 不在牵挂
改珍惜的 好好把握
※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: NLPCenter.hit.edu.cn]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:5.201毫秒