ITnews 版 (精华区)

发信人: petrel (紫燕*自在飞花轻似梦*燕燕于飞), 信区: ITnews
标  题: 自然语言处理新天地(之三[2])    
发信站: 哈工大紫丁香 (Tue Sep 16 22:39:23 2003)

自然语言处理新天地(之三[2])    PercyLee(收藏) 
  
关键字     自然语言处理,HNC理论 
  


3、语言概念空间的概念基元符号体系(第一组“M i”)

   各种数学空间的研究,形成了空间基元的重要思想。一个空间如果找到了一组完备的基
元,那么这个空间的特性就可以精确表达了。把基元的思想明确引入语言研究的是美国的
山克先生(R.C.Schank),由于这位先生过于“离经叛道”,在中国语言学界没有什么名
气,不过在拙著的参考文献中却予以特殊优待,选了他的5部著作。

    山克先生对“转移”这个概念作了“刺猬”式的深入研究,认为它是语言概念空间的
概念基元之一。但是,语言概念空间到底有多少个与“转移”相当的概念基元?山克先生
却采取“狐狸”方式了。

HNC对语言概念空间的概念基元集合继续进行了“刺猬”式研究,把“转移”的“同胞胎姐
妹”都找出来了,他们是:作用、过程、转移、效应、关系和状态。转移只是6“姐妹”的
一员。她们一起构成语言概念空间的核心空间,命名为主体基元概念,也叫作用效应链。


关于作用效应链,拙著中有一段话,由于常被引用,已经变成了一段“套话”,这里就不
来重复了。

“套话”的中心意思是:作用效应链的6个环节是任何事物的6个基本侧面。如果一个事物
的这6个侧面都得到了充分描写,那么这一事物的面貌和特征就足够清晰了。所谓一个事物
的知识表示,归根结底就是对这6个侧面的表述,所谓对一个事物的理解,就是要把握这6
个侧面的信息和知识。语句既然是对事物的表达,那作用效应链当然也就是语句表达的核
心内容。因此,作用效应链既是核心概念基元分类的总纲,又是语句分类的总纲。这一点
下一节还要提到。

作用效应链只是语言概念空间中概念基元的一类,那么,这样的“类”总共有多少?许多
先行者探索过这个至关重要的问题,大多数探索者自觉不自觉地走上了仿效生物分类学的
思路。然而语言不是生物,远比宏观生物学复杂,仅用归纳、分析和综合的方法是不够的
,还需要融合演绎及假设检验的方法。大脑中客观存在的语言概念空间,目前认知科学和
脑科学可提供的知识虽然日益丰富,但离开揭示大脑奥秘这一宏伟目标,还只是万里长征
迈出了第一步。比较现实的探索思路不妨多依靠一点演绎和假设检验的方式。

依据这一思路,HNC假定:语言概念空间首先可划分为具体和抽象两大子空间(或两大区域
)。具体概念是指那些可以直接与具体物相对应的概念,如“山、湖、河、海、植物、动
物、人物”“国家、城市”“工厂、商店”等等。抽象概念是指那些不能直接与具体事物
相对应,或只能与一类具体事物的属性与表现相对应的概念,这是两个子类,统称抽象概
念。前者如“作用、过程、效果、关系、状态”等等,后者如“概念、思考、情感、意识
、道德、提倡、惩办、贪污、数量、质量、名词、前缀”等等。

 

3.1 抽象语言概念空间的4项假设和4类子空间

抽象概念的第一子类即作用效应链,如上面所阐释的,它构成语言概念空间的核心空间,
这是关于语言概念空间构成的第一项假设。此类概念有一个鲜明的特点,就是语言哲学的
“能指”与“所指” 概念在这里并不完全适用,因为它既“无所不能”,又“无所不指”


抽象概念的第二子类有点“缥渺多变”的意味,但是人类活动,包括心理活动和思维活动
,显然是其中的“一大块”,理所当然地是语言表述的主要对象和内容。据此可以作出第
二项假设,人类活动是直接围绕上述核心空间的外层概念空间,命名为复合基元概念空间
,简称复合基元概念。

有了主体基元概念空间和复合基元概念空间,那个“缥渺多变”的抽象语言概念空间已经
不那么“缥渺”了。我们把这两类概念空间合称基元概念空间,简称基元概念。此空间的
基本特征是:有一个内容明朗的核心和一个同样内容明朗的庞大外层。

基元概念空间虽然巨大,但究竟不能包含全部抽象概念,还有什么大块头的抽象概念集合
?几千年来哲学和自然科学共同探讨的一些基本对象可以构成抽象概念空间的另一个子空
间,并命名为基本概念空间,实际上这就是关于语言概念空间构成的第三项假设。

有了基元概念空间和基本概念空间以后,那个“缥渺”的抽象语言概念空间已经相当具体
化了。现在应该考虑一下完备性的问题,想一想存在什么明显的漏洞。漏洞是明摆着的,
那就是语言概念空间与自然语言空间相互转换或映射所产生的需要。这个需要可以说就是
转换所需要的“工具”,那就是狭义形态及广义形态里所包含的抽象概念,包括汉语里特
别丰富的所谓虚词。HNC把这一类概念命名为语言逻辑概念,这是关于语言概念空间构成的
第四项假设。

有了基于4项假设的4个抽象概念子空间,语言概念空间的抽象“区域”就完备了么?对数
学家所关心的这一首要问题,就需要采取引言中所说的“超然”态度了。现在,问题的关
键不是完备性的数学证明,而是4项假设的检验。但在检验之前,需要对4类子空间的数学
结构给出具体的设计。

 

3.2抽象语言概念空间的数字符号设计

抽象语言概念空间的符号设计实质上就是前面所说的“自然语言符号体系的再符号化”,
这里的设计对象是语言概念空间的概念基元,与之对应的自然语言符号主要是词汇。因此
这一设计也可以看作是对自然语言词汇符号的再设计。但其实施过程是先在自然语言空间
归纳,而后在语言概念空间演绎,不同于WordNet或“知网”的仅在自然语言空间归纳。


概念基元的数学结构这个术语似乎有点神秘,但实际上只是一层薄薄的窗户纸。“数学结
构”者,一串数字符号而已。但是,相对于自然语言符号而言,这个数字串必须进行下列
3点改进:第一,要求概念基元数字串的每一位数字都具有确定和唯一的意义,而自然语言
(特别是拼音语言)的音节串或字母串,其单个音节或字母一般是没有确定意义的,串的
整体才有确定意义,且绝大多数不具有唯一性。第二,要求概念基元数字串从起点开始在
任何一点截断,都具有相应的整体意义,而自然语言的词语一般不具有这一特性。第三,
要求对概念基元的三项基本特征,即概念局部联想脉络的三项基本内容——层次性、内部
关联性、外部关联性,通过数字串的适当排序分别予以明确表示,而自然语言符号不可能
拥有这一表达手段。

基于这三项要求,概念基元的数字串就必须设计成

               y|(m|t|)|

的一般形式,其中符号“|”表示它前面的变量可重复。这里数字串y|表示概念的层次性,
简称高层;数字串m|表示概念的内部关联性,简称中层;数字串t|表示概念的外部关联性
,也叫做网络性,简称底层。符号(m|t|)|表示(m|t|)作为一个整体又可重复。其中的m|或
t|可以是空集,这意味着m|与t|的顺序可以交换,即高层之后可直接进入底层,底层之后
又可出现中层,但高层总是在最前面。

y|(m|t|)|表示方式的具体实现可以有两种选择,一种是对中层和底层符号分别加上标记符
,另一种是不加标记符,仅约定高层数字串的位数,并对中层和底层给以不同的数字。HN
C符号体系选择后一种表示方式。下面先给出一些典型示例,然后对符号的整体设计作进一
步说明。为了便利不熟悉HNC的读者,对中层和底层符号分别加上了相当于标记符的符号(
 )和[ ],以与高层符号相区别。

                HNC概念节点示例表

高层表示   

        0          作用

        00         “免除”和“约束”之外的所有作用

        01         对作用的承受 

        02         生命体对作用的反应

        03         对作用的免除 

        04         约束,使对象“有所不为”的作用

        1          过程

        10         过程的基本特征和基本类型

        11         过程的序

        12         过程的因果源流 

        13         过程的趋向与转化 

        14         新陈代谢与生死

        2          转移

        20         转移的基本特征

        21         接收

        22         物转移

        23         信息转移

        24         交换、替代与变换

        5          状态

        54         结构

        54-        体结构

        54-0       面结构

        54-00      线结构

        54-000     点结构

 

            7          心理活动及精神状态

71         心理活动

            711        态度

7115       人际交往中的态度

高中底层表示

        00[8]       物理作用 

        00[9]       化学作用

        00[a]       生物作用

        10[b]       生命过程

        10[b](c5n)  (n=1幼,n=2少,n=3青,n=4中,n=5老)

        11(e5n)     (n=1开始,n=2结束,n=3持续)

        22b         物自身转移

        23[9]       信息定向信息

        23[9](1)     问

        23[9](1)[9]  质问

        23[9](2)     答

        23[9](2)[9]  抵赖

        23[9](ea4)   依托于一定关系的定向信息(建议)

        23[9](ea5)   自上而下(指示,命令,批准)

        23[9](ea6)   自下而上(汇报,请示,呈报)

        23[9](ea7)   无上下级关系、强期待应答(要求)

        23[98]      陈述

        23[99]      善意有益的定向信息(规劝,批评,警告)

        23[9a]      恶意有害的定向信息(指责,诽谤,恐吓,欺骗)

        23[9b]      对恶意有害定向信息的回应(辩解,驳斥)

        7115[9]     交往姿态

        7115[9](e41) 不卑不亢 

        7115[9](e42) 卑(谄媚)

        7115[9](e43) 亢(傲慢)

 

这些示例体现了y|(m|t|)| 结构式的全部特征,数字采用16进制。

概念的层次性通过“7-71-711-7115”概念序列不难得到一个比较清晰的印象。层次性包括
语义学的上下位概念,上下位关系的表示通常采用奎廉语义网络,那是语言空间的表达方
式。读者不妨与这里的概念空间表达方式比较一下,并作出自己的判断。

概念的内部关联性包括对偶、对比、包含三个方面,相应的中层符号分别是

      对偶   emn ;n   n=0-3 ;4-7

      对比   cmn ;dmn

      包含   - ;-0 ;-00 

对偶性概念是对语义学的反义词概念的扩展,对比性概念是对近义词概念的定量化。从上
面的示例可以看到,对偶性概念是一个需要深入探讨的概念,不是伟大哲学“刺猬”黑格
尔先生发明的“对立统一”可以全部概括的,这次研讨会上另有专文讨论。

概念的外部关联性十分复杂,体现外部关联性的底层符号用数字符号8-b表示。但实际上,
每一个底层符号都可以用一组高中层符号的组合来表达,这就是说,底层符号实质上是高
中层符号的再符号化或简化。这个再符号化过程也许涉及“知觉、再认、回忆”和记忆的
核心奥秘,姑妄言之,不敢深谈。从实用观点来说,底层符号的设置可简化概念关联性的
计算,这是HNC当前仍在努力设计底层符号的依据或动力。“但是,底层设计是一个复杂的
系统工程,我们寄希望于与语言学家及同行们的合作。”拙著中的这一段求援的呼吁,依
然有效。

 

3.3语言概念空间的子空间设计

语言概念空间子空间的设计实际上就是概念类别的划分或设计。这个问题在本节的前言和
3.1节里已经作了要点说明。这里补充下列两点:一是语言概念空间的整体描述及概念基元
的完整符号表示;二是语言概念空间设计中演绎过程的主要体现。

3.3.1语言概念空间的整体描述及概念基元的完整符号表示

“百闻不如一见”,一张虚拟的彩色图片当然是语言概念空间整体面貌的最佳展示。可惜
老夫不会这一技术,只好沿用老一套,如下表所示。

                          语言概念空间


 



               抽象概念空间                      具体概念空间

  


     主   复   基   语   基   综   语    物      p    w    基

     体   合   本   言   本   合   法    性      类   类   本

     基   基   概   逻   逻   概   概    概      概   概   物

     元   元   念   辑   辑   念   念    念      念   念   概

     概   概        概   概                                念

     念   念        念   念

                j   l   jl    s  f,h,q   x     p,pe, w,pw, jw

     2   3-4    2    2   2     3        挂靠   挂靠  挂靠   2

     6    8     9   12   2     4                            7

此表的要点如下:

第一点,语言概念空间可划分为抽象概念空间和具体概念空间,抽象概念空间分7个子空间
,具体概念空间分3个子空间,两者之间存在一个过渡或两可的物性概念子空间。表中字母
行标出了各子空间的标记符,也叫概念类型符号,主体和复合基元概念曾以希腊字母φ为
共用类型符号,已弃而不用。语法概念设置了3个符号,但目前带有数字符号串的只有f。
p类和w类概念都只列举了两种类型,不全。表中第一行数字代表相应概念的高层位数,复
合基元概念中仅“心理反应与精神状态”为4位,其它都是3位。“挂靠”的意思是,本身
不带有数字符号串,依靠与抽象概念符号的连接取得相应意义,如w54-为结构体,w54-0为
面结构体,pw22b为交通运输工具,p10bc55为老年人。表中第二行数字代表相应子空间根
节点的数目。

第二点,抽象概念中除语法概念外,都具有五元组特性,其中基元概念的五元组尤为完备
,五元组及其各种组合称为概念类别。概念基元的完整表示式是:

      [类型符号]+[类别符号]+[数字串]           (HNC1)

表示式HNC1所表示的符号命名为HNC映射符号,通过HNC1及其组合,可以表达语言词汇的语
义。这样,语义的表达就从自然语言空间转换到了语言概念空间,实现了“符号任意性”
到“符号关联性”的转换,为计算机把握语义提供了可计算的符号基础。

五元组的意义在《HNC理论》中有详细阐释,它与词性的关系这次研讨会上也另有专文。这
里只想说一点,那就是汉语词性问题的争论,如果放到语言概念空间来考察,也许更容易
理清思路。黎锦熙先生关于汉语“词无定类,类无定词”的论点,高名凯先生在词类问题
上独树一帜的论点,现在看来,如果范定在基元概念空间,那么,应该说黎、高两位先生
的论点是无可非议的,但不能推广到全部语言概念空间。形态的狭义与广义之说,是论其
“然”而未论其“所以然”。抽象概念本来就有五元组特性,汉语由于单音节特性和相应
方块字的限制,只好对五元组特性采取置之不理的对策,因而出现词性兼类现象,方言里
的丰富形态并不能改变汉语的这一根本特性,为什么不能对此达成共识?

第三点,上列语言概念空间的类型可以看作是语义场的类型,每一类型内部的每一个根节
点所张开的语言概念集合就是一个具体的“语义场”。场是有类型的,不同类型的场有不
同的特点,要分别研究。物理学的统一场论,爱因斯坦先生为之奋斗了几十年都毫无结果
,语言学的“统一场论”谈何容易。但分别研究各种具体的语义场是可行的,HNC概念基元
符号体系为开展这项研究,提供了一个与单纯自然语言空间有所不同的思考空间。

第四点,HNC概念基元符号体系的每一个高、中层节点就是一个义素,每一个底层节点可以
看作是一个复合义素,义素集合的完备性问题曾令人生畏,随着HNC概念基元符号体系的建
立,义素的完备性问题虽然并没有得到证明,但已经可以采取“超然”态度了。语义学著
作中常说:“语义场分析和义素分析提出了一些而不是全部语义分析维,只能用于有限的
语义空间,用于全部词语还远远不能胜任。”现在,这个说法需要修改了。

 

3.3.2 语言概念空间设计过程中的演绎

语言概念空间各子空间根节点的确定,主要是一个归纳过程。这一归纳过程是对词语中蕴
涵的共性与个性向上逐级层次化的过程,直至到达最高层次为止。这一逐级层次化的“加
工”过程当然不是一件轻松的事。但幸运的是:数量仅1200多个常用汉字为这一“加工”
过程提供了无与伦比的便利条件。这些语义充分基元化的汉字,在现代汉语中形成了数以
万计的后向连接和前向连接的双字词(两者构成“正交”矢量),蕴涵在这些双字词中的
概念联想信息,其条理之分明,脉络之清晰,堪称语言信息资源之“奇观”。从这一“奇
观”中归纳出“作用、过程、转移、效应、关系、状态”这6项主体基元概念的最大共性,
其实并不是一件太难的事。所以,拙著《HNC理论》里说:“在这里作者不能不对创立汉字
的祖辈表示敬意。可以设想,如果菲尔墨和山克先生粗通汉语,概念层次网络理论也许在
20年前就出现了。”

在取得各子空间的根节点之后,各个根节点的高层设计就得主要依靠演绎了。以根节点“
作用”为例,与作用最密切的概念是作用的承受,因为,如果没有承受方,作用就是“空
”的、无意义的“作用”,就不必进行语言描述了。这就是说,作用必然伴随着承受,“
作用的承受”必须是“作用”根节点之下的一个支节点。承受方在承受作用之后,必然产
生某种效应,如果承受方是生命体,则把这种效应特殊定名为“反应”。生命体对作用没
有反应是不可思议的,因此“生命体对作用的反应”也必须是“作用”的一个支节点。再
从作用本身来看,有两种特殊形式的作用必须予以特殊考虑,一是取消或免除某种作用的
作用,二是产生某种约束的作用。为什么要特殊考虑?因为表达这两种作用的语句具有不
同于一般作用表述的特殊语句知识,那就是在作用对象(相当于语法的宾语或语义的受事
)的内容方面具有特殊性,也就是下一节要说明的句类知识。这样,“作用”这个根节点
就需要“HNC概念节点示例表”中所给出的5个支节点,也称二级节点。

所谓高层节点设计的演绎过程,就是上述两方面的考虑:一是根概念派生出来的概念,类
似于俗话所说的亲生子女。二是根概念本身的一些特殊侧面,表达这些侧面的语句蕴涵着
一些特殊的语句知识。这两条主线具有一般性,或者说,假定它们是所有根节点的概念联
想主线,那么,沿着这两条主线的思考过程就是演绎、而不是归纳了。

过程与转移的高层设计也鲜明地表现了上述演绎过程。“过程的序”“过程的因果源流”
“过程的趋向与转化”都是“过程”的亲生子女,而“新陈代谢与生死”是“过程”的一
个特殊侧面。同样,“接收”是“转移”的亲生子女,而“物转移”“信息转移”“交换
、替代与变换”是“转移”的特殊侧面。这里有两个有趣的现象值得注意,一是“过程”
有3个亲生子女,而“转移”只有独生子“接收”;二是10定义为“过程的基本特征和基本
类型”,而20定义为“转移的基本特征”。第一个现象是由于“转移”是从“过程”分离
出来的独立根概念,与“效应”是从“作用”分离出来的独立根概念类似。这样,“过程
”的亲生子女就具有过继给“转移”的特性(“法律“依据),不必在“转移”里重复设
置了。这好比美国是从英国独立出来的国家,英美两国的文化具有很多共性,许多文化领
域的研究就可以利用这一共性(语言哲学最为明显)了。第二个现象来于“转移”的不同
基本类型具有不同的句类知识,而“过程”的不同基本类型不具有这一特性。这样的解释
当然只是“道其然”而未“道其所以然”,若究其所以然,则由于“转移”所依托的空间
比“过程”所依托的时间复杂,此其一;“转移”与“关系”强关联,而“过程”与“关系”弱关联,此其二。

每一个根概念的高层设计都有其个性问题,这里就不一一说明了。最后需要强调的一点是
:反应人类活动的复合基元概念的高层设计是归纳与演绎并重,这个子空间是语境的具体
化。以往关于语境的研究主要采用“狐狸”方式,HNC则改用“刺猬”方式,试图给出一个
计算机可以把握的形式化语境模式。当然,复合基元概念子空间只是一个符号基础,形式
化语境模式的完善,还有待于句群、段落和篇章理论模式的配套,这里同样存在“狐狸”
与“刺猬”的深层合作问题。也许可以这样说,“狐狸”与“刺猬”的“联姻”之日,就
是计算机可自动生成语境之时,中国语言学能否在这一关键领域走在世界前面?应该说是
很有希望的!

                                                                              
   (未完)


 


--

                    ·  一沙一世界,一花一天堂  *





※ 来源:.哈工大紫丁香 bbs.hit.edu.cn [FROM: 202.118.239.116]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:217.587毫秒