Algorithm 版 (精华区)

发信人: ssos (存在与虚无), 信区: Algorithm
标  题: 自然语言处理与语言知识库*
发信站: 哈工大紫丁香 (2001年06月08日21:12:58 星期五), 站内信件

自然语言处理与语言知识库*
朱学锋  俞士汶
【摘要】    本文论述了自然语言处理系统中语言知识库的重要性,简要介绍了作者与
北大的同事们历时10年所开发的《现代汉语语法信息词典》,较详细地介绍了其中的动
词库所包含的属性信息。作者相信该词典是中文信息处理系统所需要的最重要的语言知
识库之一,希望读者在浏览了本文之后,能对这部电子语法词典的内容、规模与质量有
个大致的了解,并产生利用这部电子词典的兴趣。最后还介绍了关于开发更大规模的语
言知识库的设想。
关键词:自然语言处理、语言知识库、语法信息
一.  自然语言处理系统中的语言知识库
语言文字是人类社会信息的主要载体。随着全社会信息化进程的迅速发展,语言文字的
计算机处理的重要性与紧迫性日益显现出来。自然语言处理系统正在得到迅速发展。自
然语言处理系统包括自然语言人机接口、机器翻译、文献检索、自动文摘、自动校对、
语音识别与合成、字符识别等等。观察系统所处理的信息,大致上可分为两类。一类是
模式信息,如声音和图像,它们是语音识别和文字识别的前期处理对象。另一类是符号
信息,如代表书面语言的文本,它们是代码化了的,或者更确切地说,计算机只将其每
个字的一个或多个字节的编码作为一个整体对象进行处理。利用键盘进行人机会话,对
存储于计算机系统内的文本进行检索、校对、翻译、作摘要,乃至让计算机“理解”人
类的语言,所有这些工作,计算机所处理的对象都是符号信息。通常所说的“自然语言
处理”就是指其处理对象为符号信息。本文也是在这个意义上使用“自然语言处理”这
个术语。
机器翻译系统是典型的、其应用价值也是最明显的自然语言处理系统。现在的机器翻译
系统除了一般的计算机系统都有的硬件和软件(自然语言的语句分析与语句生成程序)外
, 还需有一个特别的组成部分, 即语言知识库, 包括静态的词典、语法规则库等, 也包
括动态的上下文相关信息。而且, 在机器翻译系统中, 语言技术(既包括存储于计算机系
统内的语言知识库也包括语言知识的归纳、表示与运用)是居于核心地位的技术。同硬件
、软件相比较, 目前语言技术发展尚不够成熟, 成为机器翻译开发过程中必须攻克的难
关。不难理解, 词典与语法规则库中需要注入大量的语言知识, 上下文相关信息的提取
当然也要依靠语言知识的运用。更重要的, 是要在适当的语法理论指导下, 找出一种合
理的形式系统。这种形式系统不仅可以用来表达不同层次的语言知识, 而且需要保证自
然语言句子的表层线性序列与内部结构的表示之间以及不同语言的内部表示之间具有可
计算性, 也就是彼此之间能通过一系列规则或过程进行转换。可以说,语言技术特别是
语言知识库的质量已成为自然语言处理系统成败的关键。
自然语言处理系统可以直接利用的机器词典中的语言知识包含了词法、句法、语义和语
用等各个层面的信息。自然语言处理技术的发展对语义和语用信息提出了越来越多的需
求。不过,词法和句法信息总是最基本的,也是研究得比较成熟的。汉语的形态不发达
,适用于汉语机器分析的形式系统也不够成熟,这种客观现实则要求从事中文信息处理
的学者从机器处理的需要出发,更深入地考察汉语的语言事实,更系统地总结汉语语法
知识,并且以既便于语言学家表述又便于机器使用的形式把这些知识表达出来。笔者及
其同事们正是从这种理念出发,研制了一部《现代汉语语法信息词典》。
二.《现代汉语语法信息词典》简介
北京大学计算语言学研究所积10年之努力,研制了一部《现代汉语语法信息词典》[1]。
该词典是为计算机实现汉语句子的自动分析与自动生成开发的机器词典,它可以在自然
语言处理的各个领域得到应用。《现代汉语语法信息词典》已于1995年11月30日通过了
电子工业部组织的技术鉴定。鉴定意见认为,《现代汉语语法信息词典》对真实文本的
覆盖率高,所采用的词类体系反映了汉语语法研究的最新成果,实践证明这个分类体系
是可操作的,对语法属性的描写非常深入、非常丰富,具有较高的权威性、可靠性,该
词典的规模、深度与质量在我国语言工程实践中是前所未有的,达到了国内外领先水平

2.1 词语的收录原则
对于任何一部词典,收录多少词语以及收录什么样的词语、不收录什么样的词语,都是
颇费斟酌的问题。因为这个问题直接关系到词典的使用价值。作为一部面向中文信息处
理的通用性语法词典,《现代汉语语法信息词典》与供人使用的语文词典及应用于具体
处理系统的机器词典相比较,在收词范围和词语选取上都有很大的不同[2]。除了一般人
在编词典时都要遵循的稳定性、针对性、能产性、实用性等原则外,该词典还特别采用
了语法和义项相结合的原则。
(1) 同字同音的不同词:如“花钱”的“花”作为动词收入,而“鲜花”的“花”则作
为名词收入:又如“抄稿子”的“抄”与“抄近道”的“抄”作为两个不同的动词收入

(2) 多义词:“他在编辑一套丛书”中的“编辑”作为动词收入,而“他是一位编辑”
中的“编辑”作为名词收入:又如“保管行李”中的“保管”与“我保管她能通过考试
”中的“保管”虽然都是动词。但它们的语法功能不同,前者只能带体词性宾语,后者
却能带小句宾语,该词典将它们作为两个不同的词语收入。但是并非对于所有的多义词
都根据其义项拆分为不同的词语,如副词“都”有“总括、甚至、已经”多个义项,不
过对应于这些不同的义项,“都”的语法功能并没有什么差别,因此该词典只收入一个
“都”。
(3) 单义词(或是多义词的同一个义项):处于不同位置上的某个词,其语义没有区别,
但其语法功能却相差甚远,根据该词典遵循的词语分类体系及归类原则,需要划归不同
的类,这时也要将它拆成不同的词收入,如“可以自动控制机器的运转”中的“自动”
与“自动步枪”中的“自动”分别属于副词和区别词,因为同一个词不能兼有副词与区
别词的功能。需要注意的是,我们遵循的语法理论承认词的多功能性,因而又不能一概
将具有不同语法功能的词都拆分开。这个问题涉及“词语兼类”的理论与处理策略,相
当复杂,这里就不再深入讨论了。
当然,实际收录词语时是将语法—义项原则同其他原则综合在一起考虑的。目前,该词典
只收录由1—4个字组成的词语51,696个,5个字以上词语另行建库。
2.2 词语的分类体系与词语归类
为了进行语法研究与信息处理, 需要把语法功能 (或者说语法性质) 相同的或者相近的
词归成一类。这里包含两项工作。一项是要针对汉语词语的全集, 按照某种标准, 建立
一个分类体系。在朱德熙先生的语法理论的指导下, 北大计算语言学研究所与中文系合
作, 经过几年的研究, 提出了一个适用于语言信息处理的现代汉语词语分类体系[3][4]
。多项语言工程的实践检验了这个词语分类体系的科学性与可操作性。这个词语分类体
系在中文信息处理学界已产生较大的影响。另一项工作是决定该全集中的每一个词语究
竟属于哪一个词类, 即“归类”, 不过人们习惯上也在“归类”的意义上使用“分类”
这个术语。
按照北大的现代汉语词语分类体系, 现代汉语的词分为以下18个基本词类:名词(n), 时
间词(t), 处所词(s), 方位词(f), 数词(m), 量词(q), 区别词(b), 代词(r), 动词(v)
, 形容词(a), 状态词(z), 副词(d), 介词(p), 连词(c), 助词(u), 语气词(y), 拟声词
(o), 叹词(e)。
上面括号中的拉丁字母是各个词类的代码。
这些基本词类可以合并为较大的词类。名词、时间词、处所词、方位词、数词、量词统
称为体词。动词、形容词、状态词统称为谓词。有一部分代词属于体词, 另一部分代词
属于谓词。体词、谓词、区别词和副词又合称为实词。介词、连词、助词、语气词合称
为虚词。实词与虚词是汉语的两大词类。此外还有拟声词与叹词.
这里避开了“词”的定义。对于计算机系统来说,  可以认为作为词典的登录项(entry)
的语言单位是“词”。其中大部分肯定是语言学家认同的词。北大的七五科研成果《现
代汉语词语语法信息库》中所收的词,大部分都经朱德熙先生、陆俭明先生审查过,符
合朱先生对词所下的定义及其说明。既然说,词典中登录的大部分是“词”,这也就是
暗示了其中还有一部分不能看作“词”。从计算机处理实际文本的需要出发。从提高计
算机处理效率的角度考虑,词典中确实包含了以下7类语言成分:
    前接成分(h): 阿,老,超
    后接成分(k): 儿, 子, 性, 员, 器
    语素字  (g): 柿, 衣, 失, 遥, 郝
    非语素字(x): 鹌, 枇, 蚣
    成语    (i) : 胸有成竹, 八拜之交
    习用语  (l) : 总而言之, 由此可见
    简称略语(j) : 三好, 全总
前4类是比“词”更小的单位,不成词。这些成分的数量是有限的,应当尽可能都收入词
典。后3类是比“词”更大的单位, 词典中只能收一部分使用频率高的。从实用出发,将
该词典中登录的各种语言成分笼统地叫做“词语”。
现在已完成了词典中5万多词语的归类工作,即决定了每个词语的词性(part of speech
)。实际上这是难度与工作量都很大的一项工作。
2.3 词语的属性描述
分类法刻划事物虽然简洁、清晰、信息密度大,但由于属于同一类的各个词语的语法属
性仍有很多差别,该词典又按类详细描述每个词语的语法属性,这正是该词典的重心所
在。例如“鱼”和“牛”同属名词,且都有适用的个体量词,但具体的个体量词却不同
,“鱼”可用个体量词“尾”,不用“头”;“牛”可用个体量词“头”,不用“尾”
。另外,“鱼”通常还可以与度量词“斤,克”搭配,“牛”就不行。显然,如果不如
此细致地描述各个词语的语法属性,在英汉机器翻译系统中,要想生成地道的汉语是不
可能的。因此该词典更重视通过属性描述来刻划每一个词语的语法信息,对每一类词的
语法属性进行了相当充分的发掘。例如,对于名词,除了确定每个词的子类外,还详细描
述每个名词可以搭配的各类量词以及其他属性。动词的属性项目将在第3节中介绍。其他
词类的属性项目在“《现代汉语语法信息词典》规格说明书”中都有详细的记载。
2.4 汉语语法信息词典的结构和规模
该词典采用关系数据库文件格式描述词语及其语法属性的二维关系[1]。词典中共有32个
数据库文件。其中包含全部词语的总库1个,各类词库23个。各类词的特有属性填在各类
词的库中。所有词的共同属性则容纳在总库中,总库中的属性包括词语、全拼音、词类
、虚实、体谓等13个属性字段。名词库设27个属性字段,动词库设46个属性字段,如此
等等。另外,动词库下又计设立6个分库,代词库下又设立2个分库,分别描述其某个子
类的更深入的语法属性。所有的库都可以进行连结(JOIN),连接条件可以用“词语、词
类、同形”这些字段来表达。这样,这32个库文件构成有上下位继承关系的“树”,子
结点继承父结点的全部信息,或者说,将父结点与子结点连结起来就可以得到词语的更
全面的信息。
    如果将每个库所包含的词语数同该库的属性字段数的乘积算作该库的信息量,则现
在的总库、各类词库及下属分库的包含信息的情况如下所示。
库   名
 记录数
 属性字段数
 信息量
 存储量(字节数)
总  库
 51,696
 13
 672,048
 3,774,322
名  词
 27,409
 29
 794,861
 6,908,416
时间词
 305
 15
 4,575
 38,912
处所词
 100
 14
 1,400
 13,312
方位词
 123
 19
 2,337
 17,920
数  词
 108
 24
 2,592
 18,432
量  词
 256
 23
 5,888
 43,520
区别词
 498
 12
 5,976
 59,392
库   名
 记录数
 属性字段数
 信息量
 存储量(字节数)
代  词
 141
 17
 2,397
 19,456
  人称代词分库
 41
 7
 287
 2,897
  指示疑问分库
 100
 15
 1,500
 10,211
动  词
 10,397
 46
 478,262
 2,237,440
  体词宾语分库
 5,837
 27
 157,599
 894,056
  谓词宾语分库
 1,020
 8
 8,160
 65,667
  双宾式分库
 263
 12
 3,156
 19,451
  动结式分库
 3,469
 10
 34,690
 375,103
  动趋式分库
 3,612
 32
 115,584
 405,699
  离合词分库
 1,894
 8
 15,152
 121,603
形容词
 2,369
 31
 73,439
 390,144
状态词
 396
 18
 7,128
 53,867
副  词
 1,050
 20
 21,000
 177,664
介  词
 105
 18
 1,890
 16,896
连  词
 190
 14
 2,660
 32,256
助  词
 28
 11
 308
 4,608
语气词
 35
 12
 420
 5,632
前接成分
 11
 8
 88
 2,048
后接成分
 36
 8
 288
 1,064
成  语
 4,438
 14
 62,132
 542,208
简称略语
 219
 14
 3,066
 27,361
习用语
 2,352
 14
 32,928
 287,587
语  素
 1,041
 7
 7,287
 98,304
标点符号
 58
 16
 928
 15,833
合计,51696个词语的总信息量为2,520,026 。这些信息所需存储空间为16,681,281字节

三.  动词属性库的详细介绍
在自然语言处理系统分析句子时,动词的重要性是人所共知的。因此,在开发《现代汉
语语法信息词典》时动词最受重视。在动词库中共确定了46项属性。这些属性大致可归
纳为 7类。
第1类是关于动词本身特性的,指示该动词是不是系词、助动词、趋向动词等。像“是”
是系词,“会”是助动词,“来”是趋向动词。
第2类是关于动词形态变化的,如有没有VV、ABAB、AABB、V一V、V了V 等形态。像“走
”可以重叠为“走走”,“考虑”可以重叠为“考虑考虑”,但不能说“考考虑虑”,
“比划”就可以变化为“比比划划”。另外,像“揉”有“揉一揉”、“揉了揉”的形
态变化。
第3类描述该动词有无名词特性,指示该动词能否直接修饰名词,能否直接受名词修饰、
能否作动词“有”的宾语等。如“管理”能直接受名词修饰:“经济管理”;“教育”
可以直接修饰名词:“教育方法”;“安排”可以作“有”的宾语:“有安排”。
第4类反映该动词同一些虚词的关系,指示它前面能不能受“不,没,很”修饰,后面能
不能带“着,了,过”。尽管大多数动词可以受“不,没”修饰,但表示“担保”意义
的“保管”就不受“不”修饰,动词“加以”也不能受“没”修饰。同样,尽管多数动
词不受“很”修饰,但像“爱,想念,希望”等表示心理活动的一类动词就可以受“很
”修饰。又如动词“轰炸”这个动词后面不能接助词“着”。
第5类描述动词在句中的功能,即该动词在句子中能否单独作主语、谓语、宾语、状语和
补语,其中能否单独作谓语是一项很重要的属性。像“加以,认为”这些动词就不能单
独作谓语。
第6类刻划动词与后继成分的关系,即该动词能否后接表示结果的补语,能否后接趋向动
词,能否后接时量成分,能否后接动量成分,能否带宾语。如果能带宾语,则进一步细
分能带什么样的宾语:体词性的,谓词性的,能否带双宾语等等。
第7类包含其它零散的属性,如该动词的主语是否必须是“复数主语”,像“搏斗、商量
、讨论”之类的动词的主语一定是“他们”或“我同他”这样的复数形式。
为了更深入地描述动词的语法属性,也为了减少词典的冗余,除了动词库本身外,还下
设了6个分库。如对于可以带谓词性宾语的动词,设一个谓词宾语分库,细致地描述该谓
词性宾语能否由动词或形容词或状态词或小句承担。显然,这些信息对汉语句子分析和
生成都是很有用的。离合词是汉语句子分析的难点之一。像“今天下午洗了一个很舒服
的热水澡”,计算机程序要判定“洗”和“澡”应组成一个词,可真不容易。为了给分
析程序提供线索,词典中对离合词也建了一个分库。在该分库中,指出每一个离合词是
述宾型的还是述补型的,如果是述宾型的,再进一步指出其宾语前能否有定语以及宾语
能否提到动词的前面;如果是述补型的,也进一步提示补语前能否插入“不,得”等成
分。
四.  向综合型语言知识库的发展
在《现代汉语语法信息词典》现有成果的基础上,笔者打算在以下几个方向进行扩充,
以期建成更大规模的综合型语言知识库。
(1) 按“字、词、短语”的方向由“词”向“字”和“短语”两个方向扩展。面向汉语
理解和机器翻译的《汉语短语信息库》的研究工作已经开始,预期短语库的建成可以对
汉外机器翻译系统大有补益。拟建的字库(字被区分为语素字和非语素字)将对文本中未
定义词的辨识提供线索,可以提高机器的智能水平。字库、词库和短语库会被集成到一
个统一的语言知识库中。
(2) 按“词法、句法、语义、语用”的方向发展。现有的《现代汉语语法信息词典》包
含了丰富的词法和句法信息,也包含一些语义信息,所以命名为“语法信息词典”,而
不叫“句法词典”。但是目前所含的语义信息毕竟很少,也没有语用信息。语义、语用
信息的提取与表示都是很有意义同时也是很困难的研究课题。
(3) 词典与语料库的结合。现在词典中的语法知识主要来源于语言学家,当然在开发过
程中也尽可能地利用了可以利用的语料库。目前经过深加工的语料库还是很少的,从未
经加工的语料库中获取深层的语言学知识还是一个正在探索的课题。因此,北大计算语
言学研究所正在进行语料库多级标注的研究[5]。一定规模的经过多级标注的语料库与词
典相结合,将构成强大的语言知识库。
(4) 语言知识库与语言信息处理应用系统相结合。利用语言知识库开发应用系统,这是
建设语言知识库的目的所在。因此应该尽早地利用已有的成果,在利用过程中更容易发
现已有知识库的不足,才能更有针对性的提出新的研究课题。
(5) 由单一的汉语知识库向多语种知识库发展。北大计算语言所在多年的语言工程实践
中,已积累了大量的多语言对照的数据库。其中包括机器翻译译文质量自动评测系统中
[6]的10,000多句英汉对照的题库以及颇具规模的汉英题库和日汉题库;多个机器翻译模
型系统中的英汉、汉英、日汉词典也已有大小不等的规模,多的词条数以万计。少的也
有几千条。这为建立以汉语为中心的多语种的语言知识库打下了基础。
在开发综合型语言知识库的同时,北大计算语言学研究所将特别重视兼通计算机科学与
语言科学的人才,特别是年轻的博士生、硕士生的培养与成长将为开发综合型语言知识
库不断注入新的活力。
在过去的10年中,我们得到多方面的帮助,谨向给予过支持的前辈、专家和朋友表示衷
心的感谢。本文的写作得到清华大学中文系罗振声教授的鼓励。今后,我们希望能与更
多的朋友合作,为中文信息处理的发展作一点有益的工作。
参考文献
[1]
 俞士汶、朱学锋、郭锐,现代汉语语法电子词典的概要与设计,第三届中文信息处理国
际会议论文集   (ICCIP’92),PP186~191。
[2]
 王惠、朱学锋,现代汉语语法电子词典的收词原则,《中国计算机报》,1994年5月31
日,第79版至第83版。
[3]
 俞士汶,信息处理用现代汉语词语分类体系介绍,计算语言学教学参考资料(北大计算
语言所1993年7月编),PP35~57,其摘要“关于现代汉语词语的语法功能分类”刊载于《
中国计算机报》,1994年5月31日,第73版至第75版。
[4]
 朱学锋、王惠、张芸芸,现代汉语语法电子词典中量词与名词的子类划分,《中国计算
机报》,1994年5月31日,第79版。
[5]
 周强、俞士汶,一个人机互助的汉语语料库多级加工处理系统CCMP,刊载于陈力为、袁
琦主编《计算语言学进展与应用》pp50~55,清华大学出版社,1995年,北京。
[6]
 YU Shiwen & LUO Airong,Automatic Evaluation System MTE and the Improvement
 of Its Test Suite,accepted by ICCC’96,June,1996,Singapore.
本文收录于罗振声、袁毓林主编《计算机时代的汉语汉字研究》,清华大学出版社,19
96年,页码待定

--

   
<<社会契约论>>是一本好书,应当多读几遍
风味的肘子味道不错,我还想再吃它      

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.230.220]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:4.477毫秒