Algorithm 版 (精华区)

发信人: ssos (存在与虚无·戒酒戒网), 信区: Algorithm
标  题: 孟小峰先生谈面向Internet的数据挖掘技术
发信站: 哈工大紫丁香 (2001年10月29日18:25:29 星期一), 站内信件

                             数据挖掘走向Internet
               ——孟小峰先生谈面向Internet的数据挖掘技术
                     记者: 於丹  FROM: 微电脑世界历史期刊
           (http://www.pcworld.com.cn/2000/back_issues/2014/1436.asp
---- 问:随着企业信息化建设的不断深入,企业积累的数据量也越来越庞大。如何从这些
数据中发现其内在的规律,更加充分地利用数据,数据挖掘技术起到了至关重要的作用。
然而究竟什么是数据挖掘技术,很多人还知之不详。您能否首先为我们介绍一下它的概念
及由来呢?
---- 答:近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万个数据
库被用于商业管理、政府办公、科学研究和工程开发等等领域,这一势头仍将持续发展下去
。于是,一个新的挑战被提了出来。在这所谓的信息爆炸的时代,信息过量几乎成为人人需
要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息
利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和
战略发展服务,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对“人们被数据淹
没,同时却仍然感到知识饥饿”的挑战,数据挖掘(Data Mining)技术应运而生,并得以蓬勃
发展,越来越显示出其强大的生命力。
---- 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其
中的、人们事先不知道的但又是潜在有用的信息和知识的过程。还有很多和这一术语相近
似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持
等。
---- 数据挖掘的前身即知识发现(Knowledge Discovery),它源自于人工智能的机器学
习领域,其实质的内涵是在一个已知状态的数据集(Data Set)上,通过设定一定的学习
算法,从数据集中获取所谓的知识。坦白地说,人工智能领域中的知识发现技术已经发展
到了一个很成熟的阶段,但是由于缺乏应用的土壤,它的路越走越窄。而与此同时,数据
库技术也已经发展到一定的阶段,并得到了广泛的应用,各个企业都已经积累了无数的数
据资源,迫切需要有一种技术能够帮助他们从数据中发掘出其内在的规律,数据挖掘技术
正好能满足这一需求,它实质上就是知识发现技术在数据库领域中的应用。
---- 知识发现技术的相关研究为数据挖掘技术提供了坚实的理论基础,而且在数据挖掘领
域的研究中,也以有人工智能、统计学科背景的人居多,而有数据库技术背景的人参与却
很少。因此从某方面来说,数据挖掘技术仍然没有发展到实用的阶段。有人工智能背景的
人研究的出发点通常是试图去构造一些精致的算法,却很少考虑到实际的应用。现在数据
挖掘的算法多达成百上千种,产品的使用难度也很大,如果用户不是一个人工智能专家或
统计专家,都很难让它发挥效用。在这一方面亟待进一步将技术实用化。
---- 问:谈到数据挖掘,常常是和数据仓库、OLAP等等联系在一起,但人们对它们通常存
在着一些概念上的混淆,请问它们之间存在着怎样的相互关系呢?
 ---- 答:很多人在这方面都确实存在着概念上的混淆。数据仓库也是近年来逐渐兴起的
一个概念。随着企业信息化建设的不断深入,企业的数据积累越来越大,企业信息系统本
身的构成也越来越复杂,例如原有的系统中可能会采用面向对象数据库,也可能会采用关
系数据库,而关系数据库也可能采用的是不同厂家的产品,由此就出现了一个庞大而异构
的数据资源。数据仓库就是要将这些数据资源集成起来,以满足决策支持的需求。
---- 数据仓库的实质就是一个数据库,但是它存储的数据与普通数据库中的数据不太一样
,它存储的是从数据库里面经过加工整理后的数据。例如对于商场应用来说,原有数据库
中存储的是每一笔交易的数据,而数据仓库则要根据过往的历史记录进行提炼整理,存放
的可能是某种产品某月在某地区的特定销量等记录。
---- 数据仓库将异构的数据集成起来,经过加工整理变成一个可用的数据资源,而数据挖
掘和OLAP(OnLine Analysis Process,联机分析处理)则是在数据仓库上进行操作,它们
都是基于数据仓库的分析工具。数据挖掘和OLAP最本质的区别在于,数据挖掘是一种挖掘
性的分析工具,它主要是利用各种分析方法主动地去挖掘大量数据中蕴含的规律,而OLAP
则是一种求证性的分析工具,即已有一个假设,通过OLAP来得到验证。OLAP所采用的验证
方法多是基于数据立方体法,即通过对数据立方体的切片、切块、旋转、钻取等操作来实
现对数据立方体快速的多维存取。所谓多维存取,是从不同的角度根据数据仓库中的不同
主题来得出不同的结论。数据挖掘和OLAP这两种分析工具本身是相辅相成的,因为OLAP可
以帮助人们提出假设,也可以验证数据挖掘预测出的结果;数据挖掘能够挖掘出一个结论
,但这个结论正确不正确,可以用OLAP去验证。
---- 从图1中我们可以清楚地了解到,传统的数据环境基本上是数据操作型的,传统的信
息系统只负责数据的增、删及修改操作,而在数据库的基础上可实现的工作就是OLTP(On
Line Transaction Process,联机事务处理)。现在由于数据积累的不断增多,人们需要
分析型的数据环境,于是就出现了由数据库导出的数据仓库,以此为基础则可以实现OLAP
和数据挖掘,这里我们可以形象地用“深挖洞、广积粮”来概括企业信息化建设的这种局
面。
---- 问:在Internet浪潮的冲击下,人们面临着数据爆炸的挑战,如何从浩如烟海的数据中
找到内在的规律,数据挖掘技术显然能为我们提供极大的帮助。那么,面向Internet的数
据挖掘技术进展程度如何呢?
---- 答:面向Internet的数据挖掘可以说是一个比较前瞻性的问题,有人称之为Interne
t Mining或者是Web Mining,也取得了一些令人感兴趣的结果,例如最近有不少产品用来
筛选Internet上的新闻,保护用户不受无聊电子邮件的干扰和商业推销,受到极大的欢迎。
但目前在学术界仍然对这一问题没有什么特定的结论。面向Internet的数据挖掘比面向单
个数据仓库的数据挖掘要复杂得多。因为传统数据库中的数据是结构化的,而Internet上
的数据其最大特点是半结构化的,这就决定了面向Internet的数据挖掘将是一个颇具挑战
性的课题。所谓半结构化是相对于结构化和非结构化而言的。例如传统数据库中的数据结
构性很强,我们称之为完全结构化的数据,而同时还存在一些诸如一本书、一张图片等完
全无结构的数据。但是Internet上存在的数据既不是完全结构化的也不是完全非结构化的
,因为它的页面也具有一定的描述层次的,存在一定的结构,所以我们将它称为半结构化
的数据。
---- 从数据库研究的角度出发,Web上网站的信息也可以看作是一个数据库,一个更大的
、复杂性更高的数据库。Web上的每一个站点就是一个数据源,每一个数据源都是异构的,
因为每一站点跟每一站点的信息和组织形式都不一样,这就构成了一个巨大的、异构的数
据库环境。如果想要利用这些数据进行数据挖掘,首先必须要研究站点之间异构数据的集
成问题。因为只有将这些站点上的数据都集成起来,提供给用户一个统一的视图或视角,
才有可能从巨大的数据资源中获取所需的东西。其次,还要解决Internet上的数据查询问
题。因为如果所需的数据都不能很有效地得到,对这些数据进行分析、处理就更是无从谈
起。这些基础性的问题都亟待解决。
---- 众所周知,传统的数据库都有一定的数据模型,可以根据这个模型来具体地描述特定
的数据,同时可以很好地定义和解释相关的查询语言。而Internet上的数据特点很复杂,
没有这样特定的模型来描述。每一个站点上的数据都是由站点开发人员自行设计放置的,
而且数据本身具有自描述性和动态可变性等一系列复杂特性,其结构也不可琢磨。在这种
情况下如何来解决异构数据的集成和数据查询问题呢?这就迫切需要有一个模型来清晰地
描述Internet上的数据。针对Internet上的数据半结构化的特点,寻找一个半结构化的数
据模型则成为了解决上述问题的关键所在。此外,除了要定义这样一个半结构化数据模型
外,还需要一项技术能够自动地从现有数据中将这个模型抽取出来,这就是所谓的模型抽
取技术。因为半结构化数据模型和半结构化数据模型抽取技术是面向Internet的数据挖掘
技术实施的前提,因此堪称是当今数据库研究领域的最大热点。
---- 问:您刚才谈到面向Internet的数据挖掘技术的实现首先要解决半结构化数据模型和
半结构化数据模型的抽取问题。那么请问这一方面的研究进展如何?
---- 答:半结构化数据模型的研究对数据库界来说是一个全新的领域,早在1995年,斯坦
福大学已经开始了相关方面的研究。但当时研究的重点还没有真正面对Web,而主要研究的
是异构数据环境,因为在异构环境中的数据已经存在这种半结构化的特征。后来随着Inte
rnet的发展,Web上的数据半结构化特征日渐明显,这一问题也就扩展到Web领域,最终提
出了针对Web数据的模型问题。相关的研究工作在1997~1998年间取得了一些结果,提出了
诸如Web SQL等大约一二十种的查询语言。基于Web上的内容查询主要有两个含义,一是页
面内容的查询,二是页面与页面之间链接的查询,而像页面之间链接的这种关系我们则称
之为路径表达。由于当时的Web都是基于HTML(HyperText Markup Language,超文本标记
语言)实现的,而HTML在路径表达的实现上难度很大。因为HTML实际上只提供了如何在浏
览器中显示信息的方式,而没有反映数据本身所包含的语义,所以要想真正做到准确、高
效地查询数据,十分困难。
---- 所幸的是,近年来新涌现了一个标记语言叫XML(eXtensive Markup Language,可扩
展标记语言),它最大的特点在于其Tag是具有语义的,是由用户定义的,能够反映一定的
数据的含义。XML的出现给做数据库研究的人带来了很大的惊喜。从某种意义上说,XML就
是一种半结构化的数据模型,虽然这个说法还不是很确切,但是XML可供操作的基础要比H
TML好得多。图2是HTML和XML的文档比较,我们不难看出,XML的文档描述的语义非常清楚
,而且我们很容易就可以将之和关系数据库中的属性一一对应起来,能够支持实施十分精
确的查询。而HTML文档只是按显示方式进行描述的。由此可见,XML将为在Web上的数据查
询和模式抽取提供了一个重要的契机,以此为基础,基于Web的数据挖掘的实现距离我们也
不会太遥远。目前已经有很多关于XML数据存储、XML数据的查询和XML的系统实现与应用模
式等方面的研究工作纷纷开展起来,以XML家族为基础的新一代的WWW环境是直接面对Web数
据的,不仅可以很好地兼容原有的Web应用,而且可以更优地实现WWW这一分布计算环境下
的信息共享与交换。因此,它已成为Web信息发展的可喜的趋势。

--

   
<<社会契约论>>是一本好书,应当多读几遍
风味的肘子味道不错,我还想再吃它      

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.230.220]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:2.411毫秒