精华区文章阅读

发信人: ssos (存在与虚无·戒酒戒网), 信区: Algorithm
标  题: 孟小峰先生谈面向Internet的数据挖掘技术
发信站: 哈工大紫丁香 (2001年10月29日18:25:29 星期一), 站内信件

                             数据挖掘走向Internet
               ——孟小峰先生谈面向Internet的数据挖掘技术
                     记者: 於丹  FROM: 微电脑世界历史期刊
           (http://www.pcworld.com.cn/2000/back_issues/2014/1436.asp
---- 问：随着企业信息化建设的不断深入，企业积累的数据量也越来越庞大。如何从这些
数据中发现其内在的规律，更加充分地利用数据，数据挖掘技术起到了至关重要的作用。
然而究竟什么是数据挖掘技术，很多人还知之不详。您能否首先为我们介绍一下它的概念
及由来呢？
---- 答：近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万个数据
库被用于商业管理、政府办公、科学研究和工程开发等等领域,这一势头仍将持续发展下去
。于是,一个新的挑战被提了出来。在这所谓的信息爆炸的时代,信息过量几乎成为人人需
要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息
利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和
战略发展服务，否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对“人们被数据淹
没,同时却仍然感到知识饥饿”的挑战,数据挖掘(Data Mining)技术应运而生,并得以蓬勃
发展,越来越显示出其强大的生命力。
---- 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其
中的、人们事先不知道的但又是潜在有用的信息和知识的过程。还有很多和这一术语相近
似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持
等。
---- 数据挖掘的前身即知识发现（Knowledge Discovery），它源自于人工智能的机器学
习领域，其实质的内涵是在一个已知状态的数据集（Data Set）上，通过设定一定的学习
算法，从数据集中获取所谓的知识。坦白地说，人工智能领域中的知识发现技术已经发展
到了一个很成熟的阶段，但是由于缺乏应用的土壤，它的路越走越窄。而与此同时，数据
库技术也已经发展到一定的阶段，并得到了广泛的应用，各个企业都已经积累了无数的数
据资源，迫切需要有一种技术能够帮助他们从数据中发掘出其内在的规律，数据挖掘技术
正好能满足这一需求，它实质上就是知识发现技术在数据库领域中的应用。
---- 知识发现技术的相关研究为数据挖掘技术提供了坚实的理论基础，而且在数据挖掘领
域的研究中，也以有人工智能、统计学科背景的人居多，而有数据库技术背景的人参与却
很少。因此从某方面来说，数据挖掘技术仍然没有发展到实用的阶段。有人工智能背景的
人研究的出发点通常是试图去构造一些精致的算法，却很少考虑到实际的应用。现在数据
挖掘的算法多达成百上千种，产品的使用难度也很大，如果用户不是一个人工智能专家或
统计专家，都很难让它发挥效用。在这一方面亟待进一步将技术实用化。
---- 问：谈到数据挖掘，常常是和数据仓库、OLAP等等联系在一起，但人们对它们通常存
在着一些概念上的混淆，请问它们之间存在着怎样的相互关系呢？
---- 答：很多人在这方面都确实存在着概念上的混淆。数据仓库也是近年来逐渐兴起的
一个概念。随着企业信息化建设的不断深入，企业的数据积累越来越大，企业信息系统本
身的构成也越来越复杂，例如原有的系统中可能会采用面向对象数据库，也可能会采用关
系数据库，而关系数据库也可能采用的是不同厂家的产品，由此就出现了一个庞大而异构
的数据资源。数据仓库就是要将这些数据资源集成起来，以满足决策支持的需求。
---- 数据仓库的实质就是一个数据库，但是它存储的数据与普通数据库中的数据不太一样
，它存储的是从数据库里面经过加工整理后的数据。例如对于商场应用来说，原有数据库
中存储的是每一笔交易的数据，而数据仓库则要根据过往的历史记录进行提炼整理，存放
的可能是某种产品某月在某地区的特定销量等记录。
---- 数据仓库将异构的数据集成起来，经过加工整理变成一个可用的数据资源，而数据挖
掘和OLAP（OnLine Analysis Process，联机分析处理）则是在数据仓库上进行操作，它们
都是基于数据仓库的分析工具。数据挖掘和OLAP最本质的区别在于，数据挖掘是一种挖掘
性的分析工具，它主要是利用各种分析方法主动地去挖掘大量数据中蕴含的规律，而OLAP
则是一种求证性的分析工具，即已有一个假设，通过OLAP来得到验证。OLAP所采用的验证
方法多是基于数据立方体法，即通过对数据立方体的切片、切块、旋转、钻取等操作来实
现对数据立方体快速的多维存取。所谓多维存取，是从不同的角度根据数据仓库中的不同
主题来得出不同的结论。数据挖掘和OLAP这两种分析工具本身是相辅相成的，因为OLAP可
以帮助人们提出假设，也可以验证数据挖掘预测出的结果；数据挖掘能够挖掘出一个结论
，但这个结论正确不正确，可以用OLAP去验证。
---- 从图1中我们可以清楚地了解到，传统的数据环境基本上是数据操作型的，传统的信
息系统只负责数据的增、删及修改操作，而在数据库的基础上可实现的工作就是OLTP（On
Line Transaction Process，联机事务处理）。现在由于数据积累的不断增多，人们需要
分析型的数据环境，于是就出现了由数据库导出的数据仓库，以此为基础则可以实现OLAP
和数据挖掘，这里我们可以形象地用“深挖洞、广积粮”来概括企业信息化建设的这种局
面。
---- 问：在Internet浪潮的冲击下,人们面临着数据爆炸的挑战,如何从浩如烟海的数据中
找到内在的规律，数据挖掘技术显然能为我们提供极大的帮助。那么，面向Internet的数
据挖掘技术进展程度如何呢？
---- 答：面向Internet的数据挖掘可以说是一个比较前瞻性的问题，有人称之为Interne
t Mining或者是Web Mining，也取得了一些令人感兴趣的结果，例如最近有不少产品用来
筛选Internet上的新闻,保护用户不受无聊电子邮件的干扰和商业推销,受到极大的欢迎。
但目前在学术界仍然对这一问题没有什么特定的结论。面向Internet的数据挖掘比面向单
个数据仓库的数据挖掘要复杂得多。因为传统数据库中的数据是结构化的，而Internet上
的数据其最大特点是半结构化的，这就决定了面向Internet的数据挖掘将是一个颇具挑战
性的课题。所谓半结构化是相对于结构化和非结构化而言的。例如传统数据库中的数据结
构性很强，我们称之为完全结构化的数据，而同时还存在一些诸如一本书、一张图片等完
全无结构的数据。但是Internet上存在的数据既不是完全结构化的也不是完全非结构化的
，因为它的页面也具有一定的描述层次的，存在一定的结构，所以我们将它称为半结构化
的数据。
---- 从数据库研究的角度出发，Web上网站的信息也可以看作是一个数据库，一个更大的
、复杂性更高的数据库。Web上的每一个站点就是一个数据源，每一个数据源都是异构的，
因为每一站点跟每一站点的信息和组织形式都不一样，这就构成了一个巨大的、异构的数
据库环境。如果想要利用这些数据进行数据挖掘，首先必须要研究站点之间异构数据的集
成问题。因为只有将这些站点上的数据都集成起来，提供给用户一个统一的视图或视角，
才有可能从巨大的数据资源中获取所需的东西。其次，还要解决Internet上的数据查询问
题。因为如果所需的数据都不能很有效地得到，对这些数据进行分析、处理就更是无从谈
起。这些基础性的问题都亟待解决。
---- 众所周知，传统的数据库都有一定的数据模型，可以根据这个模型来具体地描述特定
的数据，同时可以很好地定义和解释相关的查询语言。而Internet上的数据特点很复杂，
没有这样特定的模型来描述。每一个站点上的数据都是由站点开发人员自行设计放置的，
而且数据本身具有自描述性和动态可变性等一系列复杂特性，其结构也不可琢磨。在这种
情况下如何来解决异构数据的集成和数据查询问题呢？这就迫切需要有一个模型来清晰地
描述Internet上的数据。针对Internet上的数据半结构化的特点，寻找一个半结构化的数
据模型则成为了解决上述问题的关键所在。此外，除了要定义这样一个半结构化数据模型
外，还需要一项技术能够自动地从现有数据中将这个模型抽取出来，这就是所谓的模型抽
取技术。因为半结构化数据模型和半结构化数据模型抽取技术是面向Internet的数据挖掘
技术实施的前提，因此堪称是当今数据库研究领域的最大热点。
---- 问：您刚才谈到面向Internet的数据挖掘技术的实现首先要解决半结构化数据模型和
半结构化数据模型的抽取问题。那么请问这一方面的研究进展如何？
---- 答：半结构化数据模型的研究对数据库界来说是一个全新的领域，早在1995年，斯坦
福大学已经开始了相关方面的研究。但当时研究的重点还没有真正面对Web，而主要研究的
是异构数据环境，因为在异构环境中的数据已经存在这种半结构化的特征。后来随着Inte
rnet的发展，Web上的数据半结构化特征日渐明显，这一问题也就扩展到Web领域，最终提
出了针对Web数据的模型问题。相关的研究工作在1997～1998年间取得了一些结果，提出了
诸如Web SQL等大约一二十种的查询语言。基于Web上的内容查询主要有两个含义，一是页
面内容的查询，二是页面与页面之间链接的查询，而像页面之间链接的这种关系我们则称
之为路径表达。由于当时的Web都是基于HTML（HyperText Markup Language，超文本标记
语言）实现的，而HTML在路径表达的实现上难度很大。因为HTML实际上只提供了如何在浏
览器中显示信息的方式，而没有反映数据本身所包含的语义，所以要想真正做到准确、高
效地查询数据，十分困难。
---- 所幸的是，近年来新涌现了一个标记语言叫XML（eXtensive Markup Language，可扩
展标记语言），它最大的特点在于其Tag是具有语义的，是由用户定义的，能够反映一定的
数据的含义。XML的出现给做数据库研究的人带来了很大的惊喜。从某种意义上说，XML就
是一种半结构化的数据模型，虽然这个说法还不是很确切，但是XML可供操作的基础要比H
TML好得多。图2是HTML和XML的文档比较，我们不难看出，XML的文档描述的语义非常清楚
，而且我们很容易就可以将之和关系数据库中的属性一一对应起来，能够支持实施十分精
确的查询。而HTML文档只是按显示方式进行描述的。由此可见，XML将为在Web上的数据查
询和模式抽取提供了一个重要的契机，以此为基础，基于Web的数据挖掘的实现距离我们也
不会太遥远。目前已经有很多关于XML数据存储、XML数据的查询和XML的系统实现与应用模
式等方面的研究工作纷纷开展起来，以XML家族为基础的新一代的WWW环境是直接面对Web数
据的，不仅可以很好地兼容原有的Web应用，而且可以更优地实现WWW这一分布计算环境下
的信息共享与交换。因此，它已成为Web信息发展的可喜的趋势。

--


<<社会契约论>>是一本好书,应当多读几遍
风味的肘子味道不错,我还想再吃它

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.230.220]

Algorithm 版 (精华区)