Algorithm 版 (精华区)
发信人: AA (积极的人生、美好的人生), 信区: Algorithm
标 题: 适用于信息检索和提取的汉语词典(zz)
发信站: 哈工大紫丁香 (2002年05月23日10:27:42 星期四), 站内信件
北京大学计算语言学研究所 孙宾
一、引言
词是构成和分析语言的基本单位,因为词是最小的、能独立活动的、有意义
的语言成分。计算机的所有语言知识都是由机器词典(给出词的各项信息)、句
法规则库(以词类的各种组合方式来描述词的聚合现象)以及有关词和句子的语
义、语境、语用知识库来提供的。语言信息处理系统只要涉及句法、语义(如检索
、翻译、文摘、校对等应用),就需要以词为基本单位,不可缺少词的详细信息。
因此,词典在信息处理中起着基础知识库的重要作用。
汉语的信息处理也是以词典为基础的。汉语的自动词切分是基于词典词条的
字符串匹配,汉语的语法、语义分析需要查询大量的有关词的各类属性。一部高
质量的机器词典是任何一个汉语信息处理系统成功的必备条件之一。而实践经验
也表明,词汇知识的缺乏是真实文本处理的瓶颈。
系统对词典的要求大概可分为两大方面,一方面是词的语法属性,另一方面
是词的语义特征。尽管这两方面特征在实际的词典编撰中很难截然分开,但事实
上现有的信息处理用词典一般都据此而分为语法词典和语义词典两大类。语法词
典主要用来进行词语切分和语法分析;语义词典一般用于标明词的语义类或语义
属性。一些较为完备的语法词典中往往包含了一些有用的语义信息,而语义词典
中分类体制和语义属性的确定也都参考了词性等语法属性。另外必须提到的是,
根据不同的信息处理要求及不同的系统实现方式,几乎每一个实用的信息处理系
统都建立了自己的专用词典,其中许多方向(如:信息检索、信息提取、智能汉
字输入法等)还需要建立较好的未定义词发现系统并动态地对词典进行更新。
二、常用汉语词典
当前,被计算语言学界经常参考的书本形式的词典主要有《现代汉语词典》
,《现代汉语通用字典》,《同义词词林》,《实用汉语用法词典》等。这些词
典主要是供人使用的,其中有的还有计算机可读的电子版本。下面对这些词典逐
一介绍。
《现代汉语词典》
其编写目的是为了推广普通话,促进汉语规范化并在汉语教学方面起到应有
的作用。在收词方面,除了一般通用的汉语语汇外,也收入了一些常见的方言词
语,以及某些习见的专门术语。修订的版本收词6万余条,具有较宽的覆盖面,
基本上反映了中等文化程度以上的汉语使用者日常所用词汇的概貌。
《同义词词林》
这是一部义类词典,是为创作和翻译工作者提供的一部从词义查找词的工具
书。它按照“以词义为主,兼顾词类,并且充分注意题材的集中”这样的原则,
并参考其它语义分类体系,将语义分为大、中、小三个层次,建立了汉语的一种
语义分类体系其代码表示。全书共收录词语54000余条,词的分类采用层次化结
构,共有12大类,94中类,1428小类。小类中以同义原则划分为词群,共计3925
个词群,使所有收入其中的词均处于一个确定的最小分类中。其机读版本形式为
: 〈词条〉::=〈词形〉〈义类编码〉。
《实用汉语用法词典》
这是一部包含有6000余条词的词典。该词典对约4800余条词给出了同义词和
反义词,包括固定语中的同义词及其反义词,共分为2000多个同义词组。该词典
没有严格区分同义词和近义词。其机读版本形式为:
〈词条〉::=〈拼音〉〈词形〉〈词性〉〈同义词组〉〈反义词组〉。
《现代汉语通用字典》
这是一部字典。它根据字的义项对词进行编排,所收词语均作为例证按义项
分布于各个字头之下,少数不能或不易分析字义的复音词则单独简释词义。收词
以现代汉语为主,酌收少量现代书面语中常见的古汉语词和方言词。
《现代汉语同义词词典》
这是一部根据一定的理论原则和方法来审定汉语词群的同义关系而编纂的词
典,其主要特点是;1)以现代汉语普通话为收词原则;2)严格区分同义词和近
义词;3)同义词具有相同词性;4)给出了同义词的辨析。现代汉语中常见的同
义词组,这部词典都收进来了,大体上反映了现代汉语词汇中同义关系的面貌。
这部辞典未收入专门学科和专门行业中的同义词,未收入同义的固定语。共收入
4600余个词,分为1640组同义词。机读版的格式为:
1)词目音序索引,其结构:〈词条〉::=〈拼音〉〈词形〉〈页码〉;
2)在每组同义词中,给出该词的词性和释义,其结构为:
〈词条〉::=〈词形〉〈词性〉〈释义文本〉。
除了上述词典外,国内出版的其它一些通用词典对开发、完善相关的汉语信
息处理专用词典也有一定的参考价值,主要有:1986年出版的《汉语大词典
》,收词37万条,其中以人文科学的词语条目居多;1990年三环出版社出
版的《语言大典》,收词在25万条以上,其中包含大量的科技类名词术语并附
有相应的英文对照,这部词典对建立科技类专用信息词典应有重要的参考价值。
三、机器词典
直接面向信息处理用的词典与面向人的词典所包含的信息的形式是不同的,
它需要考虑到如何组织成为计算机可用资源的问题。目前机器词典的建造方式一
般可分为以下三种:(a)在机器辅助下,主要依靠人工来生成,投入大量的人力
来描述词条信息,可靠性高,耗资大;(b)从现有词典的印刷版本出发来生成机
读词典(Machine Readable Dictionary),然后抽取各种词汇知识建立机器可用词
典(Machine Tractable Dictionary);(c)通过对大规模真实文本(即语料库)
的分析获取有关的词汇信息来构造机器词典,即统计词汇获取。
这些机器词典按其用场可分为两大类:一、通用词典,可用于(或移植到)
多种汉语信息处理的领域或系统中;二、专用词典,应用于某个具体的应用领域
或某个具体的系统中。按其信息类型,又可分为语法词典和语义词典。下面对一
些主要词典作概要介绍。
(1)通用汉语信息处理用词典的情况
《现代汉语语法信息词典》
这是由北京大学计算语言学研究所历时十多年而开发的一部汉语词汇的语法
词典,它以其语法分类体系统一,信息含量丰富而在这一领域占有着最重要的地
位。该词典根据严格的收词标准,已收词语51600万余条,对现代报刊上的一般文
章的覆盖率在99%以上。由于该词典在开发过程中主要是面向一般的信息处理
应用,包含有极其丰富的语法语义信息,所以在一般的应用中往往使用的是该词
典的信息的一个子集。词典的设计目标是为汉语的计算机分析提供一个有关汉语
词汇信息的综合性知识库,即在一定的汉语词汇分类体系指导下详细描述每一个
具体词的各种词法、句法属性,信息的描述方法是较粗的分类和详细的属性。实
践表明,它能够为当前的各种汉语信息处理应用提供一个最基本的、真正体现了
现代汉语用词面貌的坚实的基础平台。自从1996年5月发表其规格说明书以来,本
词典的使用许可权已被国内外十多家单位购买,并且已在各自的应用系统中发挥
起极其重要的作用。
该词典在1998年底已完成进一步的扩充,收词已达到7万余条。在此基础上
还将利用语料库语言学的方法对词典的条目加入概率信息,以进一步提高其可用
性。由于开发该类词典周期长,工程量巨大,目前国内其它单位外还没有与之类
似的研究成果。
《现代汉语通用词—基本集》
这是由国家语委语用所研制的一个反映汉语用词总体情况的词表。其目的是
提供一个各行各业都通用的现代汉语词汇集,其应用范围是全方位、全民性的。
它采用了各种主要的词频统计方法,运用新的抽样语料进行了覆盖检验,兼顾频
率因素和分布因素,提出了“通用度”的计算公式。它最终确定的总词量为6201
0,并根据词语的通用率进一步分为四个级别:一级通用词5191条,二级通用词8
792条,三级通用词29484条,四级通用词18543条。
《现代汉语语义词典》
它是由北京大学计算语言学研究所与中国科学院计算技术研究所二室合作开
发的国家863项目“汉英机器翻译系统”中的一个部分。目前规模达到5万词左右
,逐词进行语义分类并描述其配价信息。词典的重点放在对汉语的实词类(名词
、动词和形容词)进行语义分类和语义属性描述。它使用的语义理论为配价理论
,运用复杂特征集的形式描述各个词的语义配价知识,还逐一给出了每个词的语
义搭配约束信息。词典使用了一个自己定义的语义分类体系,这个体系的目标是
为语法分析任务服务,即是为了解决语法知识不能或难以解决的问题,并力求信
息简单实用,这是本词典的一大特色。语义体系的最高层分为3类:事物、运动、
性状(对应相应的名词、动词和形容词),各类之下逐步细分。在给出每个词的
语义类之后,再给出每个词的语义属性。属性包括:配价数;配价项,包括主体
、客体和邻体。词典使用关系数据库技术(FoxPro系统)实现,共有3个数据库文件
(名词、动词和形容词各占一个)。
本词典与《现代汉语语法信息词典》有着密切的联系,其词条全部来自《现
代汉语语法信息词典》,并且通过关系数据库的连接运算,二者可以合并在一起
。同《现代汉语语法信息词典》一样,本词典也是一部通用性的词典,可以用于
汉语信息处理的各个应用领域。
《信息处理用汉语语义词典》
这是国家“八五”重点科研项目“中文信息处理应用平台工程”(90年5月开
始实施)的一个子课题。由清华大学、北京语言文化大学(前北京语言学院)研
制。根据在1998年1期《语言文字应用》上的文章介绍,目前该词典的规模是432
30个词语,约50000个义项,其中运动类词语4215个,义项5000个。
《现代汉语述语动词机器词典》
由清华大学计算机系和中国人民大学语文所联合研制,供从事自然语言理解
和语言学研究的学者和科技工作者使用,其收词和义项规模都比较小,描写性强
。它对现代汉语常用的2300个动词、共3000多个义项进行了详细的描述,其基础
是中国人民大学语言文字研究所用人工方法对2千多个动词的多个义项进行了研究
和描写并编著成的《动词大词典》。词典将动词分为6大类,即他动词、自动词
、外动词、内动词、系属动词、领属动词,使用了22个格关系,18个语类(词类
和词组类)。
(2) (2) 领域相关的专用机器词典
几乎每一个实际应用的汉语信息处理系统都有其专用的机器词典。任何一部
通用词典都难以完全满足某个具体领域中的实际应用的需要。根据实际系统设计
的需求对原有的词典资源加以改造利用并建立新的专用词典是开发信息系统的常
见的重要方法之一。
专用词典的建立主要可分为两大方面,一方面是在语料库中自动提取系统专
用词表,另一方面是根据系统的需要对原有词典的语法、语义分类体系以及语义
属性设置重新进行调整。
在自动建造系统专用词表方面,北大计算语言所研制的“多维度统计抽词模
型”在这一领域已经取得了阶段性的研究成果,并在对中国古代唐宋诗词的自动
抽词实验中取得了良好的应用效果。这是一种可通用的统计词汇获取方法。
对原有语法、语义词典进行调整以更好地适应系统的要求至今仍需要投入大
量的人工。相对而言,对基于属性的语义词典加入系统所需的属性比修改基于分
类的语义词典的分类体系要简单的多。从这个角度来讲,用于支持信息检索和提
取的语义词典应优先考虑选用基于属性的语义词典。
总之,专用机器词典的内容和形式是由具体领域和具体应用对语言知识的特
殊需求而决定的。
下面,我们通过说明一个的汉语处理系统中的词典来具体考察专用机器的设
计和结构。这个词典是北大计算语言所一个汉语文本分析系统所使用的机器词典
(有关该系统的基本信息请参考“报告1”)。
系统对汉语句子进行切分、词类标注、专名辨别和标记、短语浅层分析和捆
绑、重要成分的过滤与提取等操作。它需要综合运用汉语词汇的词、词类、构词
规则、与相邻字段的各个级别上的搭配关系等知识,还需要短语的结构、词语浅
层合并(捆绑)等规则,因此其词典必然会具有比较复杂的结构。在这里,我们
仅仅从其词切分的过程来考察它所需要的知识内容。
系统使用一种高效、高准确率的综合性歧义切分处理方法。为了实现上述技
术,我们对系统的词典结构作如下设计:
词条: 兼类数cn 兼类表t1-t2-t3…
AmbiType AmbiOffset
AmbiFireInof
{ LHS: LeftWords; LeftCates; LeftSenses;
RHS: RightWords; RightCates; RightSenses;
}
AmbiHideInfo
{ LHS: LeftWords; LeftCates; LeftSenses;
RHS: RightWords; RightCates; RightSenses;
}
词类t1: 义类数sn1 义类码表s11-s12…
义类s11:
……
义类s12:
……
词类t2: 义类数sn2 义类码表s21-s22…
……
……
以上是词典文件中词条的基本形式。当词典被载入内存时,系统对这些信息作了
处理,把它们表示成为更紧凑的形式。系统的内存词典采用了首字索引的结构,
词条及其主要属性全部载入内存。使用两次二分查找法搜索词条,其复杂度为:
log(首字总数)+log(相同首字词条数平均值),
实际约为12+4=16(次)。这也是目前最快的查找词典速度之一。相比而言,普通
的减字MM和增字MM方法的复杂度分别为12+12.3=24.3(次)和12+10.6=22.6(次)
。
四、 四、信息检索和提取及其面临的问题
信息检索是指找出包含了指定的一类特征(关键词、检索表达式)的文档、
段落或句群供用户阅读的过程。而信息提取则是从一段文本中抽取指定的一类信
息(事件、事实)并将其填入一个数据库中供用户查询使用的过程,即信息提取
不仅找出文档、段落或句群,而且进一步给出用户感兴趣的事件、事实、消息、
数据,或者说它在信息检索之后进行文本的分析和整理。因而用户就不必再阅读
所找到的文档、段落或句群以获得所需的信息。高层次的信息检索和提取技术同
样要依赖于词汇知识的大量使用。
在信息时代,每天都会产生出大量的、具有反复利用价值的信息(对人有用的
数据)。而在这些数据中,不能直接转化成关系表字段的数据形式而被传统的关系
型数据库管理系统进行处理的文本、图像、音频、视频、复合文档等信息占了大
部分(近80%)。由于它们不能被主流数据库系统有效地处理,因而大大降低了这
些数据的实际价值。同时,即使对于那些能够被传统的关系型数据库管理系统有效
处理的结构化信息而言,传统的标引检索也存在着加工速度慢、不一致和不全面等
诸多缺陷,已经远远不能满足今天信息快速增长的需要。
在需求的驱动下,信息检索的手段也处在不断演化之中。传统方法使用书名
、作者名来分类和检索;随后发展了主题词检索,它是以主题词表为基础,从文
献的内容中提取一些反映文献主题的关键性的词构成主题词表(这些词就代表了
整个一篇文献的内容),文献以主题词表中的词的组合来表示和标引,用户的检
索要求也是以主题词表中的词构成某种表达式(如布尔表达式)。这种系统的查
准率和查全率相互制约,往往不理想,并且对标引者的要求很高,主题词表难以
反映文献变动的情况。全文检索的出现则克服了传统技术的缺陷,导致了信息检索
领域的一场革命。
全文检索就是以文本数据为主要处理对象,提供根据资料内容而不是外在特征
来实现的先进查询手段。全文检索系统将各种有用文献的内容全部存入计算机,
使之成为计算机可以读写的文本文件形式,构成全文数据库。全文检索系统可对
文献的各种大小级别的知识单元进行搜索、检查、选取、组合、排序,即在一定
层次上进行语言处理。文献可被其中的一个词、一个词组、或一个句子激活,即
出现在文献中的每一个语言单位都可以作为检索入口。比起标引检索来,全文检索
提供了全新的、强大的检索功能,可以直接根据文献资料的内容进行检索,支持多
角度、多侧面地综合利用信息资源;全文检索技术是发现信息、分析和过滤信息、
信息代理、信息安全控制等应用的主要技术基础。以全文检索为核心技术的搜索
引擎已经成为网络时代的主流技术之一。
在西方,全文检索技术在80年代以前主要用于大型的联机文献信息查询系统
,90年代以后,随着Internet/Intranet的迅猛发展,全文检索技术愈来愈成为信
息系统中不可缺少的关键功能和必要手段。然而,中文全文检索无法在西文产品的
已有结构上实现,中文全文检索技术的研究、开发及其应用都要遵循汉语信息处理
的一些基本要求。
一般地,对中文全文检索软件主要有以下几个方面的要求: 实现中文全文检
索功能,能够高效地处理中文文本资料,支持中文字符标准(国标GB代码集GB-23
12/80或大字符集GB-13000);对文本中的任何词或词组都能进行检索,并且可以
用布尔逻辑(与、或、非等)、位置和距离运算进行组合检索;在支持全文检索的
同时,能进行特征字段检索;能处理特定需求的结构文献;有一定的控制机制,保证
较高的查全率和查准率;支持Client/Server,适合于以网络为中心的计算模式,
和Internet技术紧密结合,具有Internet Web-Gateway功能,在全文数据库服务器
和WWW服务器之间建立起桥梁,使其可应用于Internet/Intrant中的各个方面;支
持多媒体的能力,可以接受并处理、存储、显示图文一体化的信息资料,实现文
字、图片的统一管理、存储、检索和输出;具有独立于操作系统的用户管理机制
,提供单独的用户管理、计费管理和权限管理;适应流行的各种软、硬件平台;
提供性能分析工具,使用户可对系统的检索速度、检索准确率和全面性、数据库
的空间膨胀率等进行统计和分析,等。
评价检索系统主要用检索效用(Effectiveness)和检索效率(Efficiency),前
者通常用查全率和查准率来衡量,后者通常用检索时间和费用衡量。关键的指标
主要有三个方面:全面、准确和速度。由于全文检索的检索词汇不受控,系统往
往需要使用各种手段来提高查全率。实际情况表明,一个中文全文检索系统的技
术水平主要取决于其汉语处理能力。
目前,具有代表性的中文全文检索技术主要有按字检索与按词检索。所谓按字
检索,是将每个汉字当作一个单位来处理,即在扫描文本时,凡是碰到第8(最高)
位为"1"的机器码,便连同其后的第二个字节(无论第8位是"0"还是"1")一起当作一
个双字节的汉字给予编址定位。按字处理技术避开了汉语词切分和词义分析这一
困难,仅仅是在第8位为“1”时按双字节词处理,因此这种处理技术不仅对汉字,只
要是采用双字节编码的各种东方文字,均可进行全文检索。按字处理技术采用按单
个汉字建立位置索引的方法,虽然具有实现方法简单、查全率高的优点,但是按
照单个汉字进行索引的缺陷也是十分明显的:首先是随着数据库容量的增加,标
引量急剧上升,时空耗费太多;其次按字检索速度慢,检索效率低,检索时间的
开销大。只有通过对检索词语进行后控处理才能达到提高检索效率的目的。
按词检索则是以汉字的词而不是字为基本单位建库和检索。采用按词检索技
术的中文全文检索系统一般都嵌有自动分词子系统,并附以多种词典,从内部实现
按词建库和按词检索。
简单的按词检索是基于字串匹配的全文信息检索,它不需要主题词,而是以
文献中出现的任何词或词的组合表示该文献的内容,系统不进行检索词的语法、
语义分析。它对标引者要求不高,其查全率比较高,但查准率取决于用户的查询
条件(检索表达式);高级的按词检索是基于概念的全文信息检索(在语言处理
程度上可称之为高级信息检索),它是在基于词的检索基础上对被检索文本进行
语法、语义分析,并对概念之间的关系进行推理。
在当前的全文检索系统中,大部分都采用了按词检索技术、倒排索引、Cache
技术和查询优化技术等机制,它们可以显著提高系统的响应速度和查询的准确性。
采用这种技术的全文检索系统,其速度早已有"海量数据秒级查询"的说法。
如同所有的检索软件一样,信息的查全率与查准率永远是一对矛盾的统一体。
按词检索技术在提高检索准确性的同时,也牺牲部分查全率,只是这种损失相对于
其优点而言,是很值得的。在这一点上,以按字检索技术实现的中文全文检索系统
,在系统检索的全面性方面则具有一定优势。因此,对于查全率与查准率的考虑,应
该是相对的,而不能绝对化。要根据信息服务系统的性质、面向的对象以及信息的
特点进行综合考虑。还可考虑按字检索和按词检索的互补因素。就目前全文检索
市场而言,按词检索技术占有较大优势。
五、信息检索和提取对机器词典的要求
影响当前检索系统查全率和查准率的直接原因可归结如下:(1)在检索文档
上没有标注任何有关词汇意义的信息;(2)没有一个良好的知识库作为支撑,特
别是词汇知识不足。通常,为全文检索系统建立后控词表是提高信息检索查全率
的一种重要手段,后控词表为检索系统提供了一定的词汇知识,词表的规模及词
汇知识的描述从根本上决定了检索效果的好坏。因此,决定当前检索系统质量的
主要因素是其所用的词典的质量。
人们已达成的一个共识是,中文全文检索应该采用词切分和词标引。理论上
,信息检索是以概念为基本单位,信息检索是以概念为基本单位的语言处理系统
。而词是表达概念的基本单位,因而也是检索的最小单位。但是一个概念却可以
由许多不同的词或词组来表示。比如同一概念可以有许多不同的名称,实名和指
称、指代、缩写、简称等有等价关系;一个名词性概念有代用、相关、从属等关
系,动词性概念有方式、工具、程度、时间和原因等谓词框架。对于这些情况,
必须认真搞清楚词之间的同义、近义、反义、从属、隐含、关联等关系,这也就
是用概念及其语义关系的集合来组成一个概念语义词典(简称概念词典),信息
检索实际上是以概念词典来搜索和检查全文数据库的。这个过程需要使用知识库
和推理机制来确认和提取概念,并且确认其间各种关系的有无。
解决这个问题的基础条件是需要一个用于信息检索和提取的基于词典的知识
库。系统使用这个知识库,就可以事先对文献进行语义概念(义项)标注,这样
,其检索效用会极大地提高。而概念(义项)标注要求对现代汉语词语进行语义
分类(义类),使表达同一个概念的词都出现在同一个义项代表的词群中,即每
个词语都按其义项确定了类别。汉语的义类体系一直是一个被重点研究的课题。
适用于计算机语言处理的义类体系应该具有分类界限明确、可操作性强、严格避
免交叉分类现象的出现等特点。
实践表明,现代汉语信息处理的关键问题在于对于名词和动词两类词的语法
、语义研究的深入。二者在汉语语法、语义方面占有无可替代的支配地位,而且
二者在汉语词汇量中占有压倒优势的份额。全文信息检索的语言分析也是以动词
和名词作为重点。因此,用于信息检索和提取的基于词典的知识库的主要内容应
该是有关动词和名词的全面的信息。
下面我们给出一种我们设计的信息提取方法,并通过这种方法的实现机制来
说明词典知识库的作用及其内容与制作。
在一些文摘系统中应用了一种理解生成法来产生文摘,它使用一定的语言处
理技术,从文本中提取语义信息,并以一定的中间形式进行表示,然后将这种表
示作为自然语言生成器的输入,产生文摘。其实现技术的核心是一组概要脚本,
每一个概要脚本含有一系列的预期事件。概要脚本实际上是对某一特定事件类型
所有可能发生的各种活动的详细顺序列表。该方法最先在FRUMP系统中被使用,该
系统成功地给出了来自众多领域的新闻的文摘。
我们可以把这种方法应用到信息提取技术中,形成信息选择生成法,它用一
个文本选择分析器来选取与感兴趣的信息有关的文本部分并对其进行详尽的语义
分析,填充信息框架;然后,根据信息框架的填充结果,信息生成器在信息模板
的基础上生成用户所需要的信息输出形式。这里,选择分析器的设计是实现该模
型的关键。
选择分析器的作用是专门去分析、查找某一类特定含义(概念)的信息,而
对其它的概念不进行处理,以尽可能地避免复杂的句法分析和语义分析。分析器
判断哪些句子是与信息框架的填充有关的,哪些句子是不需要进行分析的。分析
器第一遍扫描过滤出所有可能含有与信息框架提取有关的句子。第二遍扫描进一
步过滤出值得分析的短语,将分析得到的信息填入到信息框架的相应的格槽中。
实现选择分析器的关键在于如何从原文中提取信息来填充信息框架。可行的
方法是通过设计一部综合信息词典来解决此问题。这是一部对词语进行全方位(
语法、语义、语用)描写的词典,它将多种语言知识有机地组成一体,用统一的
语法进行描述,应用了自然语言知识表示和知识应用的各种方法。综合信息词典
的内容可分为三部分:概念词典,概念联用规则库,效用规则库。
概念词典是词典的静态部分,它实际上是由语义分类而构成的语义关系集合
,用来分析概念间的组合关系。概念联用规则库是词典的动态部分,它基于框架
的动态语义关系来分析概念间的组合关系。效用规则库与具体的应用有关,把词
和具体应用的任务联系在一起,使词具有其语用意义,句子中如果出现了对应效
用规则的特征短语或关键词就意味着这句话含有重要信息,可以填充信息框架的
某一个格槽。词汇的概念联用规则和效用规则是选择分析器算法的基础,每个词
的效用规则是根据它与信息框架的填充关系编写的,以便能够利用词或短语的效
用规则来选择合适的句子进行分析,并将分析的结果填入信息框架中。综合词典
一方面可以用于句子分析器的语义分析,另一方面它为选择分析器提供了依据。
因此,综合词典的质量是系统成功的主要因素。
另外,值得补充的是,国内在信息检索系统用户智能接口方面已经开始比较
完整地采用汉语信息处理的高层研究成果。例如中国科学院软件技术研究所最近
开发了带汉-英机器翻译功能的信息检索系统接口,用户可以输入中文查询语句,
系统调用汉-英翻译功能将其翻译成英文后即可对相关的英文资料进行检索。
附:第二稿补充或改动的内容
1、《现代汉语语法信息词典》和《现代汉语语义词典》;
2、北大计算语言所“汉语文本分析系统”机器词典的具体设计。
参考文献
à 中国社科院语言所词典编辑室,现代汉语词典(修订本),商务印书社,1996。
à 梅家驹 等,同义词词林,上海辞书出版社,1983。
à 傅兴岭 主编,现代汉语通用字典,汉语教学与研究出版社,1987。
à 刘叔新 主编,现代汉语同义词词典,天津人民出版社,1993。
à 张彦辉,中文全文检索软件的选择,计算机世界报,第五十期:软件与编程版,1997
年。
à 陈力为,袁琦 主编,语言工程,清华大学出版社,1997。
à 陈力为,袁琦 主编,计算语言学进展与应用,清华大学出版社,1995。
à 陈力为 主编,计算语言学研究与应用,北京语言学院出版社,1993。
à 吴立德 等,大规模汉语文本处理,复旦大学出版社,1997。
à 王惠,朱学锋,《现代汉语语法信息词典》的收词原则,中国计算机报,第2
1期,1994。
à 俞士汶,朱学锋,自然语言处理与语言知识库,收于《计算机时代的汉语汉字
研究》,罗振
声 等主编,清华大学出版社,1996。
à 俞士汶 等,《现代汉语语法信息词典》规格说明书,中文信息学报,第10卷
第2期,1996。
à 陈力为,袁琦 主编,中文信息处理应用平台工程,电子工业出版社,1995。
à 俞士汶 等,现代汉语语法信息词典详解,清华大学出版社,1998。
--
人世间的事谁也无法掌握
该执著的 永不怨悔
改舍去的 不在牵挂
改珍惜的 好好把握
※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: NLPCenter.hit.edu.cn]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:205.285毫秒