精华区文章阅读

发信人: ssos (存在与虚无), 信区: Algorithm
标  题: 计算语义学简介
发信站: 哈工大紫丁香 (2001年06月30日19:31:37 星期六), 站内信件

计算语义学简介
自然语言语义的形式化问题很困难，原因是目前数学和逻辑学都没能为之提供一个令人
信服的工具。首先，自然语言的句法与语义的界定是一件不可能的事：与人工语言不同
，自然语言的句法和语义纠缠在一起，几乎在所有的层面上，二者都是不可分割的。其
次，为描述自然语言而构造的句法和语义无歧义的形式语言的描述能力值得怀疑。
计算语言学中逐渐兴起的一个分支---计算语义学，试图给出自然语言语义的形式刻划。
计算语义学的主要研究工具有：
lambda-演算
特征逻辑(Feature Logic)
动态模态逻辑(Dynamic Modal Logic, DML)
类型论(Type Theory)
篇章表述理论(Discourse Representation Theory, DRT)
语言信息的动态理论(Dynamics of Natural Language)
博弈论语义学(Game-theoretical Semantics)
半群理论
范畴理论
应该说，context大到一定程度的时候，f(text,context)就可以对应到一个唯一的
语义值。至于context的模大到什么程度可以得到唯一的语义值，需要对context进行动
态约束。
我想到一个问题----text的语义值只用到其context中部分的语义信息（即并不是所有的
context的语义信息都对确定text的语义值有用），那么，如何提取context的“对text
有用”的语义信息呢？
这是语义形式化问题的关键所在。
现在还不是奢谈“自然语言不需要过多的形式化”的时候，因为目前国内的计算语言学
研究还处于缺少形式化方法的状态。当然，我的意思决不是数学或逻辑就一定能够解决
自然语言中的诸多问题，像数学或逻辑本身的某些问题一样，自然语言中的某些东西或
许是超乎人的认识范围和能力之外的，更别说形式化它了。
举个例子，“尺规三等分任意角”现在我们知道是一个不可能的问题，可在Galois理论
创立之前它不知耗尽了多少“天才”的一生。再例如，计算机科学如果没有Turing的可
计算理论不知会成个什么样子。
所以在计算语言学目前的情形下，更要强调自然语言的形式化，搞清楚自然语言中哪些
是“可计算的”、哪些是“不可计算的”很重要---免得做一些无用功。
另外，计算语言学中“李宏志式的理论”用“形式化的照妖镜”即刻可辩真伪----这也
算形式化的另一个好处吧。
想想几何学的历史，开始的时候人们不也是从丈量土地和建造房屋等实际需要中总结经
验才诞生了这门学科的吗？换个角度看，所谓自然语言的形式化，无非是用数学或逻辑
的工具构建模型：
这个模型对人（或对机器）是可操作的
这个模型可部分地解释自然语言中的现象或预测推导出某些结论
我们可以根本不关心人操作语言的心理过程，而只关心所构建的模型是否满足以上两条
。例如，国外一直很热门的机器语言学习就是基于一个形式化的模型（概率统计的也好
，规则的也好，二者杂和的也好）研究机器学习自然语言的规律和能力---形式化的初始
模型是人给定的，机器从输入语料中按照一定的算法继续“总结经验”，得出“改进的
形式模型”。
毕竟计算语言学不是在模仿上帝造人，人们可以批评一个形式化的模型的智能性不高，
但不能放弃形式化的道路去搞“李宏志式的理论”。另外，“李宏志式的理论”猖獗的
原因主要不是出于语言学的问题难于形式化（这样说太便宜那些沽名钓誉的人了），而
是不健全的科研体制和缺乏科学精神的缘故（不是“天灾”而是“人祸”）。
“推理”也很重要，“推理”和“消歧”之间应该有交集。另外，自然语言的形式化工
具也必不可少。一个好的工具在提供正确表达的同时也提供了良好的“计算模式”。

--


<<社会契约论>>是一本好书,应当多读几遍
风味的肘子味道不错,我还想再吃它

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.230.220]

Algorithm 版 (精华区)