Database 版 (精华区)

发信人: rhine (没有昵称), 信区: Database
标  题: KDD的核心-----数据挖掘
发信站: 哈工大紫丁香 (2000年08月13日10:31:40 星期天), 站内信件

----数据挖掘是KDD最核心的部分,是采用机器学习、统计等方法进行知识学习的
阶段 
。数据挖掘算法的好坏将直接影响到所发现知识的好坏。目前大多数的研究都集中
在数 
据挖掘算法和应用上。人们往往不严格区分数据挖掘和数据库中的知识发现,把两
者混 
淆使用。一般在科研领域中称为KDD,而在工程领域则称为数据挖掘。 
----数据挖掘的任务是从数据中发现模式。模式是一个用语言L来表示的一个表达
式E, 
它可用来描述数据集F中数据的特性,E所描述的数据是集合F的一个子集FE。E作为
一个 
模式要求它比列举数据子集FE中所有元素的描述方法简单。例如,“如果成绩在
81~90 
之间,则成绩优良”可称为一个模式,而“如果成绩为81、82、83、84、85、86、
87、 
88、89或90,则成绩优良”就不能称之为一个模式。 
模式有很多种,按功能可分有两大类:预测型(Predictive)模式和描述型(
Descript 
ive)模式。 
预测型模式是可以根据数据项的值精确确定某种结果的模式。挖掘预测型模式所使
用的 
数据也都是可以明确知道结果的。例如,根据各种动物的资料,可以建立这样的模
式: 
凡是胎生的动物都是哺乳类动物。当有新的动物资料时,就可以根据这个模式判别
此动 
物是否是哺乳动物。 
描述型模式是对数据中存在的规则做一种描述,或者根据数据的相似性把数据分组
。描 
述型模式不能直接用于预测。例如,在地球上,70%的表面被水覆盖,30%是土地
。 
----在实际应用中,往往根据模式的实际作用细分为以下6种: 

分类模式 
分类模式是一个分类函数(分类器),能够把数据集中的数据项映射到某个给定的
类上 
。分类模式往往表现为一棵分类树,根据数据的值从树根开始搜索,沿着数据满足
的分 
支往上走,走到树叶就能确定类别。 
回归模式 
回归模式的函数定义与分类模式相似,它们的差别在于分类模式的预测值是离散的
,回 
归模式的预测值是连续的。如给出某种动物的特征,可以用分类模式判定这种动物
是哺 
乳动物还是鸟类;给出某个人的教育情况、工作经验,可以用回归模式判定这个人
的年 
工资在哪个范围内,是在6000元以下,还是在6000元到1万元之间,还是在1万元以
上。 
  
时间序列模式 
时间序列模式根据数据随时间变化的趋势预测将来的值。这里要考虑到时间的特殊
性质 
,像一些周期性的时间定义如星期、月、季节、年等,不同的日子如节假日可能造
成的 
影响,日期本身的计算方法,还有一些需要特殊考虑的地方如时间前后的相关性(
过去 
的事情对将来有多大的影响力)等。只有充分考虑时间因素,利用现有数据随时间
变化 
的一系列的值,才能更好地预测将来的值。 
聚类模式 
聚类模式把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可能小
。与 
分类模式不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根
据哪 
一(几)个数据项来定义组。一般来说,业务知识丰富的人应该可以理解这些组的
含义 
,如果产生的模式无法理解或不可用,则该模式可能是无意义的,需要回到上阶段
重新 
组织数据。 
则该模式可能是无意义的,需要回到上阶段重新 
组织数据。 
关联模式 
关联模式是数据项之间的关联规则。关联规则是如下形式的一种规则:“在无力偿
还贷 
款的人当中,60%的人的月收入在3000元以下。” 
序列模式 
序列模式与关联模式相仿,而把数据之间的关联性与时间联系起来。为了发现序列
模式 
,不仅需要知道事件是否发生,而且需要确定事件发生的时间。例如,在购买彩电
的人 
们当中,60%的人会在3个月内购买影碟机。 
在解决实际问题时,经常要同时使用多种模式。分类模式和回归模式是使用最普遍
的模 
式。分类模式、回归模式、时间序列模式也被认为是受监督知识,因为在建立模式
前数 
据的结果是已知的,可以直接用来检测模式的准确性,模式的产生是在受监督的情
况下 
进行的。一般在建立这些模式时,使用一部分数据作为样本,用另一部分数据来检
验、 
校正模式。聚类模式、关联模式、序列模式则是非监督知识,因为在模式建立前结
果是 
未知的,模式的产生不受任何监督。 
  
-- 
※ 来源:·BBS 水木清华站 bbs.net.tsinghua.edu.cn·[FROM: 202.194.7.38] 


--
           海纳百川,
                   有容乃大,
                           壁立千尺,
                                   无欲则刚。    

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: dip.hit.edu.cn]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:4.737毫秒