Algorithm 版 (精华区)
发信人: ssos (存在与虚无), 信区: Algorithm
标 题: 文本信息挖掘的应用及方法
发信站: 哈工大紫丁香 (2001年06月14日16:02:13 星期四), 站内信件
IBM中国研究中心 王振强
引言
人类自从进入信息时代以来,随着信息量呈几何数的增长,特别是
国际互联网络的日益普及,信息朝着更加集中、更加分布的两个极端
快速发展,即集团或组织会凭借巨额资本和丰富资源,聚起大量的信息
甚至包含知识,从提供信息服务中赚取巨额利润。另一方面,先进的通
信行为模式,使每个人都有可能既是信息接受者又是信息发布者,当每
个人都成为信息的发布者时,信息的总量将变成一片汪洋。人类在社
会渐进过程中,就像一叶扁舟漂浮于信息的海洋。水,可载舟,也可覆
舟。善于驾驭则达、恶则亡。
信息挖掘是一种工具,它能够使人们免陷于信息之洋。它可以从
大量的冗余信息中迅速发现对您有用的信息,是信息科学的一个重要
分支。
本文着重讨论文本信息挖掘技术的基本构成及其应用。
两种挖掘
从应用角度划分,挖掘的研究可分成两个方向:
一个是数据挖掘(Data Mining)。它主要的需求领域包括:大型超
市、股市、银行等。比较典型的问题,如:可口可乐与薯片放在同一架
子上比分别放置能否提高销售数量。可以想见,一个大型超市拥有成
千上万种商品,而相似的问题也有很多,因此所设定的数学模型也不可
能是单一的,它会依据不同的应用和问题而变化。通常,它处理数值型
数据,其原型构架在关系型数据库上,故有时该领域的研究也被看作是
关系型数据库的一个智能拓展。
另一个方向是文本挖掘(Text Mining)。与前者不同,它主要处理
字符型数据。其早期研究的分支是信息检索(Information Retrival)
。它的应用领域较前者更为广泛,比较典型的有:媒体工业、图书馆、
情报机关和政府。比较典型的问题求解是发现两个主体(可能是人或
事)之间是否关联,是什么样的关联。特别地,在信息网络化时代,单个
的人利用传统的手段几乎不可能处理或阅读整个信息库。同时鉴于信
息库中存在着大量无用和冗余的信息,往往使用户所寻找的信息量与
信息总量相比非常小,因此如何"去粗取精、由表及里"并迅速、准确
以及适量地提供用户所需信息,同时在一定程度上揭示信息与信息之
间的关联是文本挖掘的主要任务。
本文主要论述文本信息挖掘。
概念及基本构成
一、与检索的区别
挖掘和传统的信息检索(包括基于关键字检索和全文检索)有哪些
重要的区别和联系呢
1.传统的信息检索较适合于数据类型同构的信息库。但是对于异
构数据组成的信息库, 例如多媒体等则不擅长。
2.传统的信息检索需要用户将要寻找的事件以关键字的形式较准
确地描述出来,作为查询提交给系统。但往往这与人们通常的思维行
为模式背道而驰,再有用户经常并不真地知道要找什么信息。
3.由于字义本身与其概念的延伸不在同一级上,造成利用传统信
息检索所寻找的信息可能仅仅是字面本身的信息,但往往人们想要的
是这个信息的概念及相关的成分,而不仅仅是字面所表达的信息。
4.数据的再现(Information Representation)是信息挖掘的一个
重要组成部分。系统应有能力动态和实时在线地(On the fly)表现信
息的相关属性。使用户通过这样一个机制,发现信息的变化和异常。
5.传统信息检索可以被当作挖掘的底层工具,换言之,传统信息检
索关注"字"的处理而信息挖掘则关心"字"的本原(Ontology)。
6.传统信息检索尽管引入布尔运算,作为逻辑算子使用户能够较
准确地表达查询。但其结果往往导致或丢失一些信息或产生大量冗余
信息。
7.传统信息检索通常是用户从信息库中去找他想要的。而信息挖
掘是看信息库中到底存在些什么。
二、对信息的认识及信息挖掘的几个基本功能
信息的分类:信息的分类是信息处理中重要的组成部分之一。其
实,它是人们对信息最自然而然的处理。事实上,信息的本原由信息的
多重属性所构成。一个系统对信息的属性认识越全面,越有可能揭示
信息较为本质的东西。分类与属性有着一定的关系。一般来说,分类
是人们主观创造的产物,是对属性有序聚类的一种认识,这种认识的多
寡决定了分类的优劣。
信息通常所具有的时间属性:尽管有时信息表面上并无时间属性,
但在文本前后,甚至在物理距离较远的地方,它可能与某个时间信息有
着或紧或松的耦合关系。当你试图观察信息与信息之间的关联时,你
可能发现时间属性可能成为信息与信息之间关联的纽带。
同样,信息库中的概念与地理属性可能存在松或紧的某种关联。
通过对信息地理属性的抽取,用户可以从地理信息的角度看信息与信
息之间的关联。例如:在信息库中查询"经济发达"这个概念时,发现提
及"西北地区"文章的频度要大于我们所预设的期望值,从而得知国家
经济发展战略的地区性转移。
信息的聚类:它的思想与分类有点类似。从应用的角度讲,信息聚
类包含两种功效。首先是源于客观世界中某些信息不容易分类。在某
些情况下,聚类用于动态产生分类。其次,聚类大约算成一种"不自然"
的分类,这一特性使之成为数据导航技术中重要功能之一。它可以将
不同分类包含不同层次子分类的数据集合,根据用户的需要快速聚集
起来。常用于"粗放"型过滤冗余信息。
信息的导航:如果我们把用户从信息库中取得信息的过程看成是
一个不断的动态流,那么信息导航则应是动态流的有效轨迹。随着通
讯环境不断的改善,人们所收受的信息迅速膨胀,结果是在人与信息之
间产生一堵盲障。人们越来越难于找到自己所需的信息。这种变化类
似于过去你买一件衬衫只能从两种里选,但现在却要你从600种中作出
抉择。而信息与衬衫不同之处在于,衬衫不合适仍可凑合着穿;而信息
的不合适则可能是这个信息根本就不是你的需要甚至可能造成误导。
信息导航的原则是提供给用户简明、多视角的方法。
信息的表现:这不仅仅是信息的可视化。由于信息挖掘关心信息
的"方方面面",信息表现要求配合信息挖掘从多角度表现信息的本质
和特点。数据的可视化则为数据挖掘的结果提供表现功能。
文本信息库中的题目,通常是非常重要的。在Internet领域中,若
干厂商提供目录及查询服务,像:Yahoo!、Ly-cos、Web Crawler、Big
Yellow等。用户可以通过分类的目录表结合全文查询工具找到相关
的一系列站点。在挖掘中,题目也是非常重要的元数据(Metadata)。
几个语言相关的处理:
从文本信息库中,自动提取人名信息、组织名或公司名信息、产
品或某种物质的名称信息以及某些成形的概念信息。
信息挖掘从文本信息库中抽取地理相关信息,并透过一个管理器
连接一个可视化地图和一个地理信息库。
信息挖掘从文本信息库中抽取某些特殊的和异化的信息。
信息挖掘判断一种名称的多种表示。例如:"中华人民共和国电子
工业部"和"电子部"是指一个单位。
三、信息挖掘的体系结构
图1
上图是一个信息挖掘的整体结构。
应用
文本信息挖掘的试验原型实现在RS-6000工作站上,样本数据来源
于《计算机世界》,支持Motif/X-Windows图形显示。该程序曾在第63
届国际图书馆联合大会上展示。原型程序在提供文本信息挖掘的同时
,也提供了高性能信息检索程序。让用户能有多种手段访问信息库。
在国际上,IBM文本挖掘技术和解决方案赢得了许多工业领域大客户的
青睐,包括银行电子邮件自动分拣、专业信息顾问咨询、报业集团、
国际电视传播以及电子图书馆等。
应当说,信息挖掘的研究和开发以及应用还刚刚起步,目前的用户
大多数还使用传统的信息检索,信息挖掘的应用与技术需要迅速成熟
起来,以支持一个快速的、新兴的Internet信息服务市场。
信息挖掘还涉及对多媒体数据的处理。例如,当你要检索某个人
时,却忘记了它的姓名等,你可以通过输入此人的相貌特征等去查询。
这种技术称为基于图像内容查询(QBIC)。
中文信息挖掘的应用还不多,但对它的需求是存在的,这是因为现
代的中国越来越重视信息基础设施的建设。一旦信息在那儿,人与信
息之间"通道"的问题将显现出来。另外,由于带宽和其它非技术因素,
像与Internet相关的立法等方面的问题,为企业服务的内部网(Intran
et)会先于Internet而到来。从前大企业所建立的客户/服务器网络
的信息管理和服务系统, 将面临一定程度的改造。其优点是整个企业
的信息管理与服务的开销下降、资源外包变得较为容易(客户/服务器
时代,资源外包的成功率并没有人们想象的那么高),更重要的是由于
应用需求所带来的高度复杂的多技术集成会"更"隐向幕后,客户/服务
器时代的复杂、多风格、完全面向不同应用的客户程序将被代之为"
又笨又傻又简陋"且单一风格的客户程序。这种变化将一定程度消除
人与计算机之间的隔阂。它将成为人与网上信息之间的工具,就像BP
。随之,服务端所能提供的功能就变得十分重要。信息挖掘将作为一
个重要的服务功能,为大组织、大企业的用户和决策者提供一种崭新
的信息查询手段。企业计算环境仍是信息挖掘技术应用的最佳试验场
。
今后工作
无疑,今后这方面的研究与开发工作将在Internet环境下进行。I
nternet所带来的影响是,它改变了人们基本的信息通讯行为模式,这
包含两层涵义:一是传媒工业将改造目前的体系结构,加速"数据化"的
进程,以适应新的信息通讯行为模式,"一切的一切都是数字化的,一切
的一切都是连在网上的";二是信息的组织与管理要求适应新的环境,
信息的基本构架也由客户/服务器方式转移到客户/网络方式,信息挖
掘在Internet中应该是什么样?
在信息库中概念关键字之间的关系及关系传递的规律值得深入研
究。这将涉及信息汇聚(Information Gathering)和信息理解(Inform
ation Understanding)的研究。
文本信息文摘,包括:题目和有代表性关键字的抽取、计算和表达
,及通过选择重要的句子自动产生文本信息摘要。
根据用户需求提供两个不同信息集的比较。
抽取概念之间的关系。这个技术有一部分与语言无关。
通过关键字的权重来为文本评级。
信息过滤。根据用户需要可用于滤进、滤出相应信息。
容许以用户自有的信息检索,查询信息库。
支持自然语言查询。
基于内容搜索。
信息智能代理,主要为分布式异构信息网络环境中的信息查询服
务。例如当用户查询"森林"时,在信息库中的"森林"可能是文章中文
字、一段关于森林的录像、一幅照片或是一首" 森林之歌"。信息智
能代理使用户可以不必知道所要检索的信息是什么样介质的信息。
--
<<社会契约论>>是一本好书,应当多读几遍
风味的肘子味道不错,我还想再吃它
※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.230.220]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:3.487毫秒