Algorithm 版 (精华区)

发信人: ssos (存在与虚无), 信区: Algorithm
标  题: 论机器切分歧义
发信站: 哈工大紫丁香 (2001年06月30日19:38:29 星期六), 站内信件

论机器切分歧义
我讨厌用“歧义”这个词,不如用“多义”。“歧”有点儿“错误”的意思,例如,“
聪明猪步入歧途”。
一个自然语言语句在没有语境限制的时候很容易产生“歧义”:
例句:A boy saw a girl with a telescope. ——————————(1)
我们常讨论自然语言的计算机处理中的“歧义”现象,象上面的例句,对于人
来说都是有“歧义”的,何况对于机器。
有些语句对于人是没有“歧义”的,但对于机器是有“歧义”的:
例句:原子 结合 成 分子 时,…… ——————————(2)
所以,谈到“歧义”,必须指明是针对谁而言的。我们把对人而言的“歧义”称为“硬
歧义”;把对人而言不构成“歧义”但对机器而言构成“歧义”的“歧义”称为“软歧
义”。自然语言的计算机处理对“硬歧义”的分析依赖于语言学和逻辑学的发展,仍是
件长期艰苦的工作;对“软歧义”的分析则是当前紧要的任务——机器消除切分歧义依
赖于对语句的“理解”,现有的分析方法都没能做到这一点。
“硬歧义”的原因复杂,句法和语义交织在一起,不容易分类(不能单纯从结构上分析
)。下面的例句与例句(1)结构相同,但无歧义:
例句:A boy saw a girl with a microscope. ——————————(3)
例句(3)无歧义的原因是 microscope 的语义限制了结构分析。
例句:她是去年生的孩子。 ——————————(4)
例句:他是去年生的孩子。 ——————————(5)
例句(4)有歧义,例句(5)无歧义。原因类似。
“软歧义”的分析需要机器对语句有一定的“理解”,所谓“理解”就是什么样的词可
以组合在一起构成大的语义单元,并且语义的扩张是沿着不相容测度最小的路径进行的
(局部不相容测度最小并不能保证全局不相容测度最小,深度优先算法可以再结合着其
他算法,如启发式搜索等改进消歧的效果)。“软歧义”之所以对于人不构成“歧义”
,原因就是人不断地利用“世界知识”消解“歧义”,这个过程甚至可以是并行的。自
然语言语句的语言信息(句法和语义)的表示,是消解“软歧义”最为至关重要的。现
有的句法分析树和特征结构等方法的表达能力都很有限,期待计算语言学家在这方面能
有所突破。
有人认为自然语言理解(对机器而言)的过程就是“歧义”消解的过程,我认为这二者
没有孰先孰后的明显的界定,而应是一个相互辅助的关系。“硬歧义”和“软歧义”只
是对机器歧义的一个划分,明确了当前急需解决的是“软歧义”的分析。从研究的难度
上看,“软歧义”相对“简单”一些。
 
我在XRCE做汉语句子切分的时候遇到了歧义消解的问题。人对“歧义”的理解大致就是
语言学家所讨论的,机器则不然了:什么是机器切分歧义呢?
首先,我们可以将构词法写进FST (Finite State Transducer),机器自动扩充词典(为
了区别起见,称原词典为静态词典,扩充后的词典为动态词典)。然后,对任意汉语的
句子,利用FMM和BMM可以得到两个结果:
R(FMM)={x_1,x_2,...,x_n}
R(BMM)={y_1,y_2,...,y_m}
其中x_i和y_j都是词。由于一个句子中重复出现的词不会太多,所以大可放心地使用这
个定义。R(FMM)与R(BMM)都会随着词典规模的变化而变化。得到下面的表:
  静态词典
 动态词典
FMM
 R(FMM)
 R'(FMM)
BMM
 R(BMM)
 R'(BMM)
这四个集合两两做相对差(FST善于此道),得到的集合的并集将诱导出(机器)切分歧
义串,然后利用经过人工校对好了的切分语料算每个歧义串的可能切分的条件概率,取
其中最大者为机器切分之结果。
这个方法对“组合歧义”的确无能为力。但组合歧义在实际语料中比例很小。倒是有一
种形式化的方法可以发现“组合歧义”,但复杂性远远高于上次提到的方法。另外一个
笨法子:如果“组合歧义”不是很多,可以事先做一个“组合歧义表”,切分时将句中
可能的组合歧义串标注出来;然后再用规则或统计的方法解决。
譬如,“他将来北京”
“将来”是一个可能组合歧义串,如果切分结果是:
他/r 将来/t 北京/n
这个结果导致的词性标注串 rtn,远没有结果
他/r 将/d 来/v 北京/n
导致的词性标注串rdvn“合理”。所谓的“合理”可以通过规则描述或从实际语料中算
得。
对于机器而言,"组合歧义表"就是它对"组合歧义"的知识表示,除此之外,对机器而言没
有其他“组合歧义”了。我们希望机器在语言理解上越来越接近人,所以赋予机器的知
识表示越来越复杂。一旦这个知识表示给定了,机器就只能在一个限定的框架里“活动
”了。个体人的智能可以很不相同,依赖于他(或她)的知识表示结构等等因素,但智能的
基本共性还是存在的。人的翻译结果虽然从字符串的层面上讲是不同的,将对比条件减
弱至语义层面就很接近了。机器翻译首先得尊重人翻译这一智能活动的共性。
组合歧义对于人来说可以是有限的,也可能是潜无穷的。无论怎样,都不影响机器的NL
P。模型都是在不断地接近或模拟现实,拿机器跟人比实在是委屈了机器----它就象个不
懂事的孩子,而我们要求它理解“大人们”的语言。

--

   
<<社会契约论>>是一本好书,应当多读几遍
风味的肘子味道不错,我还想再吃它      

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.230.220]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:3.586毫秒