Algorithm 版 (精华区)
发信人: ssos (存在与虚无), 信区: Algorithm
标 题: 20世纪汉语语义知识工程研究述要
发信站: 哈工大紫丁香 (2001年06月30日19:51:47 星期六), 站内信件
20世纪汉语语义知识工程研究述要
北京大学 詹卫东
本文对20世纪(主要是80年代以来)汉语语义知识工程方面的研究作一个整体回顾。
在对已经建成和正在构建之中的汉语语义知识库进行宏观概述的基础上,尝试以汉语语
义知识在中文信息处理中所能发挥的效用以及如何发挥效用为基本视角,来审视和评价
这些语义知识工程的理论背景和语义知识表述模式,进而对今后汉语语义知识库的建设
开发作一些展望,希望能对相关研究工作有参考价值。
一 概 述
国内的汉语语义知识工程建设主要受到两方面的影响,一是国外语义学理论研究的
影响,一是中文信息处理发展的影响。前者大致体现在汉语语义知识的表达方式上。后
者则表现在已建成的汉语语义知识库的规模(量)与具体知识内容(质)上。需要说明
的是,具体的汉语语义知识工程项目一般都在借鉴国外语义学理论的基础上,根据中文
信息处理以及汉语语义知识表示的实际需要,进行适应性调整。此外,也有研究人员提
出新的描写汉语语义知识的理论模式(如HNC理论)。
以下我们列举若干从20世纪80年代以来完成的或正在进行中的比较大的汉语语义知识工
程项目。通过下面这个表,可以大致反映这一个时期汉语语义研究的整体面貌。
表1:20世纪80年代以来主要的语义知识工程项目简表
项目
时间
研究单位(人员)
规模及范围
理论基础与语义知识表述框架
应用
xhdc_CD
90-93
人大,清华等
1000多动词,
3000多义项
格理论;
格(必有+可选)+ 格位
人、机两用
905-sem
90-95
北语,河南财经学院等
4万多实词,
近5万义项
语义场,语义网络,格理论
信息处理通用
How-Net
88-98
董振东 等
5万多实词,
6万多概念
语义分类 + 语义属性(属性值)+语义关系
信息处理通用
ST_CD
-95
中软公司
万词级,实词
语义分类+语义关系
机器翻译
TE_CD
96-97
北大,科学院计算所
近5万词,实词
语义分类+配价关系
机器翻译
HNC
88-98-
科学院声学所
建设中
HNC理论
信息处理通用
说明: 1. 上表项目栏是语义知识工程的代码,这些语义知识工程的具体名称如下:
xhdc_CD :现代汉语述语动词机器词典
905-sem :国家“八五”中文信息处理应用平台工程(905语义工程)
How-Net :知网(董振东先生创立的一个汉英双语知识词典)
ST_CD :Sino-Trans机器翻译系统中的汉语语义词典
TE_CD :TransEasy汉英机器翻译系统中内嵌的汉语配价词典
HNC :概念层次网络理论(Hierarchical Network of Concept)
2. 上表中给出的时间只是大致的时间段。
其中HNC主要是指理论模式的创立时间。至于具体的语义知识库建设,目前仍在进行中。
3. 3. 上表中六个语义知识工程研究项目可以分为四组(以空行隔开)。
第一组是80年代以来国内研究人员开始借鉴国外语义学理论并根据汉语的描写需
要加以扩充后,进行小规模初步试验的结果;
第二组和第三组都是在借鉴国外理论基础上,同时也紧密联系中文信息处理的实践经
验,进行大规模语义知识库建设的产物,区别在于第二组出于通用的考虑,希望建成的
语义知识库可以成为基础平台为信息处理的各个应用提供支持;而第三组的语义知识库
则主要是在一个实际应用系统的框架下开发完成的,跟汉外机器翻译的需求结合得更紧
密。
第四组是国内研究人员在借鉴国外语义学以及语言学理论基础上希望走出一条汉语自
动分析的新路所做的努力。
二 展 望
基于上述对语义知识的性质以及对语义知识库建设的认识,我们认为今后的语义知识工
程研究工作相应地应该在4个方面有如下立场或取向:
1. 应“句法为主,语义为辅”,在句法知识库的基础上构建语义知识库。
2. 应加强动态的语义规则知识的研究和总结。实际上规则研究的结果也可以反过
来促进语义范畴的进一步细化精化。
3. 应根据应用需求,尽可能准确定位语义知识描写的水平,从而形成跟具体应用
紧密配合的,合理的语义知识描述框架。
4. 随着自然语言处理技术的发展,应努力探索以自动方式构建语义知识库。
补充:
北大计算语言所从2000年开始,启动“中文概念辞书”项目,有关该项目的详细介绍,
请看:http://icl.pku.edu.cn/introduction/ccd.htm
--
<<社会契约论>>是一本好书,应当多读几遍
风味的肘子味道不错,我还想再吃它
※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.230.220]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:5.884毫秒