发信人: eday (idea), 信区: Energy
标  题: 清华挑战杯作品9(转寄)(转载)
发信站: 哈工大紫丁香 (2000年11月18日20:31:36 星期六), 转信

【 以下文字转载自 eday 的信箱 】
【 原文由 eday 所发表 】
【项目名称】 基于关联规则的数据挖掘工具
【第一作者】 张辉 (计研52)
【其他作者】 黄刚 (已毕业)
【指导教师】 田金兰 
【项目简介】
一、研究背景
     目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据
中存在的关系和规则。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫
乏”的现象。用数据库管理系统来存储数据;用机器学习的方法来分析数据,挖掘大量数
据背后的知识——这样的结合促成了KDD(Knowledge Discovery in Databases 数据库中
的知识发现)的产生。
二、关联规则简介
KDD是一个交互式、循环反复的整体过程,数据挖掘是其中最核心的部分,是采用机器学习
、统计等方法进行知识学习的阶段,数据挖掘算法的好坏直接影响到所发现知识的好坏。
在数据库的知识发现中,关联规则就是描述这种在一个事务中物品之间同时出现的规律的
知识模式。
三、PCMINER简介
     在数据挖掘技术日益发展的同时,许多数据挖掘的商业软件工具也逐渐问世,其中不
乏优秀,但这些数据挖掘工具并不一定就能够很适合于在中国推广。相对来说,我们认为
这些数据挖掘工具在中国推广有下列局限性:
     一、在数据处理上不一定能够满足中国用户的需要。二、现在的数据挖掘工具的价格
较昂贵。三、大多数数据挖掘工具运行在大型服务器上,国内的很多单位没有资金配备这
些设备,因此需要一个微机上的工具。
基于以上原因我们开发了一个用于微机上的数据挖掘工具PCMiner。开发语言选择标准C语
言,开发的工具中的核心算法部分都是用标准C语言编写的,主要考虑到标准C语言比较灵
活,而且通用性好,易于移植。开发工具选择Microsoft 的 Visual C++,这是目前在微机
上开发C语言程序的首选开发工具。开发的硬件环境是:Pentium MMX 166,32 M SDRAM。
实现了关联规则的发现,数据结果的三维图象输出。
通过对保险数据进行关联规则发现,并与SGI公司的Mineset比较,我们对PCMiner进行了性
能评测。主要评测两个方面的性能:
1.准确性
通过对不同数据量的数据做不同要求的关联规则的发现,两个软件的输出结果(包括发现
的满足条件的关联规则的数量、每条关联规则的各个属性值)都是一致的,说明PCMiner的
运行结果是完全正确的。
2.速度
为了充分测试软件的速度,对几个级别的数据量的数据进行处理,共有五组数据,分别含
有5,000、10,000、20,000、200,000、1,000,000条记录。对每组数据进行三种不同要求的
关联规则发现:单路关联规则、最大路数为3的关联规则、最大路数为4的关联规则。
     通过对结果的分析,我们发现PCMiner结果可靠,性能稳定。在此基础上我们还实现
了数据库接口、可视化输出。但这只是我们在开发数据挖掘工具方面的一个初步研究,还
有许多期待改进的地方,PCMiner还需要不断的完善

--
※ 来源:.哈工大紫丁香WWW bbs.hit.edu.cn. [FROM: 202.118.234.150] 
--
※ 转寄:.哈工大紫丁香 bbs.hit.edu.cn.[FROM: 202.118.237.18]
--
※ 转载:.哈工大紫丁香 bbs.hit.edu.cn.[FROM: 202.118.237.18]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:10.998毫秒