Algorithm 版 (精华区)
发信人: AA (积极的人生、美好的人生), 信区: Algorithm
标 题: 现代汉语机器可检索语义词典的构建(zz)
发信站: 哈工大紫丁香 (2002年05月23日10:25:22 星期四), 站内信件
现代汉语机器可检索语义词典的构建(
摘要:近年来,随着自然语言处理研究的深入,中文信息处理各领域均提出了对语
义信息的需求。利用语义词典来获取语义信息是一种较直接的方法,已获得了研究者的
广泛关注。通过对多部机读资源的综合、结构化及义类标注,字义、词义和词性等词汇
信息可以被自动或半自动地抽取出来,并用于现代汉语机器可检索语义词典的建造。作
为一种处理大规模中文文本的基础信息资源,这部机用词典可用于句法分析、智能信息
检索、自动文摘、汉字OCR后处理等中文信息处理的许多领域。
在本文中,我们将对现代汉语机用语义词典分级收词的思想[1,2],现代汉语机用语义词
典的结构及其功能做逐一的介绍。
关键词:自然语言处理 汉语词典 语义词典
1. 引言
近年来,随着中文信息处理各领域的研究的深入,均提出了对语义(词义、句义、篇章
义)的迫切要求。在情报检索领域,大多数全文信息检索系统需要对词义做义项标注,
以提高查全率和查准率。概念信息检索(又称基于知识的检索)及智能信息检索更是以
语义分析作为前提。在文献自动标引的研究中,语义分析法也是一种使用范围较广和效
果较好的方法。另外,在机器翻译、自动文摘、语料库加工以及自动校对等领域中均不
可缺少语义研究。
目前在外语的研究中,已有一些手工建造的大规模知识库,如WordNet, CyC, ACQUILEX
, COMLEX等。以WordNet为例,它综合了通常使用的几种资源的特点,包含单词各个义项
的释义;定义了表示不同词汇概念的同义词集,并把它们按概念组织成层次结构;它还根
据若干个语义联系进行了单词之间的链接,从而提供了极为丰富的词汇资源。[3]但在汉
语的研究中,却没有类似的资源可以利用。《现代汉语词典》[4](以下简称《现汉》)
和《同义词词林》[5](以下简称《词林》)作为两部常用的资源,各自都存在着一些不
足:《现汉》中缺少词汇的义类信息而《词林》中缺少词语的释义信息,这使它们的应
用受到了一定的限制。
近年来,我们利用《现汉》中的释义信息和《词林》中的义类信息,进行了构建现代汉
语机用语义词典的方法研究[1,2,7-12],并用分级收词的思想建造现代汉语机用语义词
典。
2. 现代汉语机用语义词典分级收词的思想
2.1 三部常用汉语词典简介
目前,常为计算语言学界参考的三部词典为:《现汉》、《现代汉语通用词典》[6](以
下简称《现通》)和《词林》。其中,《现汉》是词典,其编写目的是推广普通话,促
进汉语规范化并在汉语教学方面起到它应有的作用。在收词方面,除收入一般词汇之外
,也收入了一些常见的方言词语,以及某些习见的专门术语。《现通》是一部字典,它
根据字的义项进行编排,所收词语均作为例证按义项分系于各个字头之下,少数不能或
不易分析字义的复音词则单独简释词义,收词以现代汉语为主,酌收少量常见古汉语词
和方言词。《词林》是为创作和翻译工作者提供的一本从词义查词的工具书。它按照“
以词义为主,兼顾词类,并充分注意题材的集中”这一原则,并参考其它分类体系,将
语义分为大、中、小三个层次。《词林》收词以现代汉语语词为主,同时也收入了一些
常见的古汉语词及方言词;此外,还包含部分词素、词组、成语、俗语等。
2.2 《现汉》、《现通》及《词林》的收词分析
根据词语被三部词典收录的不同情况,我们将词汇划分为不同的词集,如下图所示:(
其中XH表示《现汉》,XT表示《现通》,CL表示《词林》。)
如右图所示,Ai(i=1,2,..,7)分别表示XH, XT, CL两两相交形成的不同的集合,从上图
可以看出,它们分别表示:
A1=XH(XT(CL A2=XH(CL-A1
A3=XH(XT-A1 A4=XT(CL-A1
A5=XT-XH-CL A6=CL-XH-XT
A7=XH-XT-CL
其中,各词集包含的词条个数见下表1:(四舍五入到百位)
表1:各词集词数统计表
词集
A1
A2
A3
A4
A5
A6
A7
词条数
25,500
8,700
7,800
4,800
10,800
13,500
9,800
其中,A1中的词语同时被三部词典所收录,为一些较常使用且语言学家认识较一致
的词语。而A5、A6、A7中的词语都是只被一部词典所收录,是一些较为“偏僻”的词语
。A2、A3、A4中的词语为两部词典的交集词,其所收词的类型介于两者之间,根据其所
属的词集又有不同的情况。例如,A3中的词语为同时被《现汉》和《现通》收录,而不
被《词林》收录的词,大致可分为以下情况:一、无同义现象的专用词,[gwh1]如 咖啡
碱、多糖、分贝等。二、无同义现象的通用词或在现有体系下不易归类的词,如:反坐
、拔罐子、开斋等。三、有同义现象,且可以归类的词,如:度日、冀望、居积,它们
相应的释义过日子、希望、积累都被《词林》收录。
基于以上分析,我们初步提出机用语义词典分级收词的思想。对于A1中的词,由于它具
有《词林》 中的义类信息,同时还具有《现汉》、《现通》的释义、义项信息,所以全
部被收入语义词典。另外,对于A2、 A3 、A4中的词将根据分类分析的结果,依据一定
的原则将其中一部分词收入语义词典。其中,对A2、A4中的词语分别做《现汉》、《现
通》与《词林》间的意义对齐。而对A3中收入语义词典的词,需标注《词林》中的义类
代码。对于A5、A6、A7中的词语,依据一定的原则只将其中的一小部分词语收入语义词
典。
3. 现代汉语语义词典结构
根据现代汉语词典分级收词的思想,我们首先建造了现代汉语机用基础语义词典。由于
《现汉》是一部词典,其编排也相应地以词为单位进行;而《现通》是一部字典,其编
排则是以字为单位进行。以下例子说明了与“霭”有关的词条分别在《现汉》与《现通
》中的出现形式:
“霭”在《现汉》中示例
从上例我们可以看出:《现汉》中的每一条目都是以词为中心,其它的各项内容都与词
相对应。所以,“霭”“ 烟霭”“雾霭”“暮霭”被收录为不同的4项;而在《现通》
中,各项条目以字为中心,“暮霭”“雾霭”“烟霭”中的“霭”有相同的意义,都是
指“云气,气象上指轻雾”,所以被收录为1项。
我们正在编纂的机用语义词典是以词为单位的,所以我们采用《现汉》中词条的语义模
式为基准。目前已建成的基础语义词典收录了A1中的词语25,500余条。其中每一词条都
包括《现汉》中提供的全部信息。此外,单义词还包含有义类代码。下面,将对该机用
词典的基本结构做一简要介绍。
该机用词典由两个库构成:词条属性库(库1)及释义代码库(库2)。
词条属性库的结构如下:
<词条>::= <No.> <词形> <同形代码说明> <拼音> <语言风格说明>
<“儿”化音说明> <词性> <同形异义说明>
其中,<No.>为标识不同词条的唯一号码,<同形代码说明>标明同形同音但意义不同的词
语的不同义项,<语言风格说明>标明该词是否只用于方言、书面语或口语,<‘儿’化音
说明>标明该词在口语中是否带尾音“儿”或“的”。<词性>标明词语的词性,目前只包
括在《现汉》中有明确标注的。<同形异义说明>标明该词形是否还有其它发音或意义。
释义代码库的结构如下:
<记录>::= <No.><释义><举例><代码>
其中, <No.>为与词条属性库相对应的词条代码,两个库之间依靠<No.>将同一词条的属性
和释义进行关联。库中的每一条记录只包含一条释义及相应代码(如果有的话)。例如
,“障碍”在《现汉》中有两条释义:(挡住道路,使不能顺利通过;阻碍 (阻挡前进的
东西。在库2中,我们用两条记录来存储这两条不同的释义;又如,词“破败”只有一条
释义“残破”,但该项释义对应两个义类代码:Ih130202与 Eb070501,我们也采用两条
记录来存储它。
下面,我们以“艾”这一词为例,说明该机用语义词典的结构。
“艾”在库1中的记录形式为:
字段名
No.
词形
同形代码说明
拼音
语言风格说明
“儿”化音说明
词性
同形异义说明
000540
艾
1
ài
另见yì
000550
艾
2
ài
<书>
另见yì
000560
艾
3
ài
<书>
另见yì
462450
艾
yì
<书>
另见ài
“艾”在库2中的记录形式为:
字段名
No.
释义
举例
义类代码
000540
多年生草本植物,叶子有香气,可入药,供灸法上用,内服可做止血剂,点着后能驱蚊
蝇。也叫艾蒿或蕲艾。
Bh08
000540
姓。
000550
停止;方兴未~。
Ig02
000560
美好;漂亮。
Eb30
462450
怨恨。
Gb10
在上述两表之中,列举了“艾”在《现汉》中的所有属性和义项。在《现汉》中,“艾
”这一词发音为“ài”时,有3个同形同音但不同义的条目,在库1的“同形代码说明
”域中用“1”,“2”,“3”分别注明。另外,这四个条目在口语中均无“儿”化发音
,且在《现汉》中均没有注明词性,所以“‘儿’音说明”域与“词性”域均为空。库
2中的前两条记录的“No.”相同,都是“000540”,表明这两条释义都是与库1中“No.
”为“000540”的同一条目相对应。库2中释义为“姓”的记录没有义类代码,这是由于
《词林》中不包含相应义类。此外,库2中还有其它的一些记录没有义类代码,这是由于
现有的义类体系收词不全,而对为收词的归类定位问题还没有得到很好的解决。
4.基于现代汉语语义词典的检索软件
为了对上述机用词典内容进行查询和检索,基于词典的查询检索系统主要有以下功能:
词条查询功能:输入某一词条,可输出它在库1中的各条属性及在库2中的释义,举例及
义类代码。
拼音查询功能:输入某一拼音,可输出发音与之相同的所有汉字。
字组词查询功能:输入某一字,可输出由该字组成的所有词语。
同义词查询功能:输入某一词,可输出与该词义类相同的所有词语;或输入某一义类代
码,可输出属于该类的所有词语。
5结束语
我们的这部机用语义词典较好地综合了几部机读资源,收录了词语的若干属性、全
部释义及部分词语的义类代码,可用于句法分析、智能信息检索、自动文摘、汉字OCR后
处理等中文信息处理的许多领域。但是,这部机用词典也还存在不足之处:首先,它的
收词不够全面;其次,也是最重要的一点,该词典中的许多词语缺少义类代码,这将使
其应用受到一定的局限。
我们下一步的工作主要针对上述两个问题。首先,根据我们上文提出的机用语义词典分
级收词的思想,按照一定的标准扩大收词的范围,逐步把A2、A3、A4中的词语及A5、A6
、A7中的部分词语收入我们的机用语义词典;其次,我们仍要继续研究《现汉》与《词
林》的意义对齐算法,同时还要和语言学家合作,对《词林》的分类体系进行一定的调
整和扩充。
参考文献:
[1] 张永奎, 齐新战: 几种常用汉语词典收词的统计分析, 《语言工程》,1997.8,清华
大学出版社, 82-87
[2] 翟高寿, 张永奎, 杨尔弘: 利用基于语义信息的名词识别方法来建造现代汉语名词
机器词典,《计算语言学进展与应用》, 清华大学出版社, JSCL'95, 195-200,1995.11
[3] Nancy Ide and Jean Veronis: Introduction to the Special Issue on Word Se
nse Disambiguation:The State of the Art.1998 Association for computation Lin
guistics, 1-40
[4] 中国社科院语言所:现代汉语词典,商务印书馆,1985年
[5] 梅家驹等:同义词词林,上海辞书出版社,1989年10月
[6] 傅兴岭主编:现代汉语通用字典,上海辞书出版社,1983年
[7] 翟高寿,张永奎,杨尔弘: 基于词典的汉语名词语义信息的自动分析与获取, 《语言
工程》,1997.8,清华大学出版社,170-175
[8] 张永奎, 张国清: 基于义类同现概率的汉语语义排歧方法, 计算机研究与发展, 19
99年第6期,(待发表)
[9] 张永奎,齐新战,基于义类组合信息的义类排歧方法研究,情报学报,1996增刊.1
-6
[10] 杨尔弘,黄昌宁,张津,利用机读资源建造机用词典,ICCC`94国际会议论文集
[11] 张永奎, 张国清: 一种从词典释义文本中抽取词汇义类信息的算法, 《'98人工智
能进展》,1998.10,西安交通大学出版,490-491
[12] Zhai Gaoshou,Zhang Yongkui,Yang Erhong: Derivation of MCNWRD from Mod
ern Chinese Machine Dictionary, Proceedings of the 1997 IEEE International C
onference on Intelligent Processing System,1997.10,18
--
人世间的事谁也无法掌握
该执著的 永不怨悔
改舍去的 不在牵挂
改珍惜的 好好把握
※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: NLPCenter.hit.edu.cn]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:2.820毫秒