Database 版 (精华区)
发信人: rhine (没有昵称), 信区: Database
标 题: KDD的定义和处理阶段
发信站: 哈工大紫丁香 (2000年08月13日10:31:11 星期天), 站内信件
----从1989年到现在,KDD的定义随着人们研究的不断深入也在不断完善,目前比
较公
认的定义是Fayyad等给出的:KDD是从数据集中识别出有效的、新颖的、潜在有用
的以及
最终可理解模式的高级处理过程。
----从定义中可以看出,KDD是一个高级的处理过程,它从数据集中识别出以模式
来表示
的知识。高级的处理过程是指一个多步骤的处理过程,多步骤之间相互影响、反复
调整
,形成一种螺旋式上升过程。KDD包括以下步骤:
1.数据准备
KDD的处理对象是大量的数据,这些数据一般存储在数据库系统中,是长期积累的
结果。
但往往不适合直接在这些数据上面进行知识挖掘,需要做数据准备工作,一般包括
数据
的选择(选择相关的数据)、净化(消除噪音、冗余数据)、推测(推算缺失数据
)、
转换(离散值数据与连续值数据之间的相互转换,数据值的分组分类,数据项之间
的计
算组合等)、数据缩减(减少数据量)。如果KDD的对象是数据仓库,那么这些工
作往往
在生成数据仓库时已经准备妥当。数据准备是KDD的第一个步骤,也是比较重要的
一个步
骤。数据准备是否做好将影响到数据挖掘的效率和准确度以及最终模式的有效性。
2.数据挖掘
数据挖掘是KDD最关键的步骤,也是技术难点所在。研究KDD的人员中大部分都在研
究数
据挖掘技术,采用较多的技术有决策树、分类、聚类、粗糙集、关联规则、神经网
络、
遗传算法等。数据挖掘根据KDD的目标,选取相应算法的参数,分析数据,得到可
能形成
知识的模式模型。
3.评估、解释模式模型
上面得到的模式模型,有可能是没有实际意义或没有实用价值的,也有可能是其不
能准
确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估,确定
哪些
是有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接用数
据来
检验其准确性。这个步骤还包括把模式以易于理解的方式呈现给用户。
4.巩固知识
用户理解的、并被认为是符合实际和有价值的模式模型形成了知识。同时还要注意
对知
识做一致性检查,解决与以前得到的知识互相冲突、矛盾的地方,使知识得到巩固
。
5.运用知识
发现知识是为了运用,如何使知识能被运用也是KDD的步骤之一。运用知识有两种
方法:
一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是要
求对
新的数据运用知识,由此可能产生新的问题,而需要对知识做进一步的优化。
KDD过程可能需要多次的循环反复,每一个步骤一旦与预期目标不符,都要回到前
面的步
骤,重新调整,重新执行。
--
※ 来源:·BBS 水木清华站 bbs.net.tsinghua.edu.cn·[FROM: 202.194.7.38]
--
海纳百川,
有容乃大,
壁立千尺,
无欲则刚。
※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: dip.hit.edu.cn]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:2.990毫秒