Database 版 (精华区)
发信人: rhine (没有昵称), 信区: Database
标 题: KDD的核心-----数据挖掘
发信站: 哈工大紫丁香 (2000年08月13日10:31:40 星期天), 站内信件
----数据挖掘是KDD最核心的部分,是采用机器学习、统计等方法进行知识学习的
阶段
。数据挖掘算法的好坏将直接影响到所发现知识的好坏。目前大多数的研究都集中
在数
据挖掘算法和应用上。人们往往不严格区分数据挖掘和数据库中的知识发现,把两
者混
淆使用。一般在科研领域中称为KDD,而在工程领域则称为数据挖掘。
----数据挖掘的任务是从数据中发现模式。模式是一个用语言L来表示的一个表达
式E,
它可用来描述数据集F中数据的特性,E所描述的数据是集合F的一个子集FE。E作为
一个
模式要求它比列举数据子集FE中所有元素的描述方法简单。例如,“如果成绩在
81~90
之间,则成绩优良”可称为一个模式,而“如果成绩为81、82、83、84、85、86、
87、
88、89或90,则成绩优良”就不能称之为一个模式。
模式有很多种,按功能可分有两大类:预测型(Predictive)模式和描述型(
Descript
ive)模式。
预测型模式是可以根据数据项的值精确确定某种结果的模式。挖掘预测型模式所使
用的
数据也都是可以明确知道结果的。例如,根据各种动物的资料,可以建立这样的模
式:
凡是胎生的动物都是哺乳类动物。当有新的动物资料时,就可以根据这个模式判别
此动
物是否是哺乳动物。
描述型模式是对数据中存在的规则做一种描述,或者根据数据的相似性把数据分组
。描
述型模式不能直接用于预测。例如,在地球上,70%的表面被水覆盖,30%是土地
。
----在实际应用中,往往根据模式的实际作用细分为以下6种:
分类模式
分类模式是一个分类函数(分类器),能够把数据集中的数据项映射到某个给定的
类上
。分类模式往往表现为一棵分类树,根据数据的值从树根开始搜索,沿着数据满足
的分
支往上走,走到树叶就能确定类别。
回归模式
回归模式的函数定义与分类模式相似,它们的差别在于分类模式的预测值是离散的
,回
归模式的预测值是连续的。如给出某种动物的特征,可以用分类模式判定这种动物
是哺
乳动物还是鸟类;给出某个人的教育情况、工作经验,可以用回归模式判定这个人
的年
工资在哪个范围内,是在6000元以下,还是在6000元到1万元之间,还是在1万元以
上。
时间序列模式
时间序列模式根据数据随时间变化的趋势预测将来的值。这里要考虑到时间的特殊
性质
,像一些周期性的时间定义如星期、月、季节、年等,不同的日子如节假日可能造
成的
影响,日期本身的计算方法,还有一些需要特殊考虑的地方如时间前后的相关性(
过去
的事情对将来有多大的影响力)等。只有充分考虑时间因素,利用现有数据随时间
变化
的一系列的值,才能更好地预测将来的值。
聚类模式
聚类模式把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可能小
。与
分类模式不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根
据哪
一(几)个数据项来定义组。一般来说,业务知识丰富的人应该可以理解这些组的
含义
,如果产生的模式无法理解或不可用,则该模式可能是无意义的,需要回到上阶段
重新
组织数据。
则该模式可能是无意义的,需要回到上阶段重新
组织数据。
关联模式
关联模式是数据项之间的关联规则。关联规则是如下形式的一种规则:“在无力偿
还贷
款的人当中,60%的人的月收入在3000元以下。”
序列模式
序列模式与关联模式相仿,而把数据之间的关联性与时间联系起来。为了发现序列
模式
,不仅需要知道事件是否发生,而且需要确定事件发生的时间。例如,在购买彩电
的人
们当中,60%的人会在3个月内购买影碟机。
在解决实际问题时,经常要同时使用多种模式。分类模式和回归模式是使用最普遍
的模
式。分类模式、回归模式、时间序列模式也被认为是受监督知识,因为在建立模式
前数
据的结果是已知的,可以直接用来检测模式的准确性,模式的产生是在受监督的情
况下
进行的。一般在建立这些模式时,使用一部分数据作为样本,用另一部分数据来检
验、
校正模式。聚类模式、关联模式、序列模式则是非监督知识,因为在模式建立前结
果是
未知的,模式的产生不受任何监督。
--
※ 来源:·BBS 水木清华站 bbs.net.tsinghua.edu.cn·[FROM: 202.194.7.38]
--
海纳百川,
有容乃大,
壁立千尺,
无欲则刚。
※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: dip.hit.edu.cn]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:2.403毫秒