精华区文章阅读

发信人: Lerry (想不开·撞树), 信区: Algorithm
标题: 从用户的行为模式来自动地生成动态链接(转)
发信站: 哈工大紫丁香 (2002年06月05日17:15:10 星期三), 站内信件

从用户的行为模式来自动地生成动态链接(转)
版权所有：wyle 原作　提交时间：13:50:54 02月25日
背景：每个用户在浏览网页的时候，有很多不同的浏览过程，现有的静态超链接不可能
做到让每个用户都非常满意地到达他所想要去的地方，也就是他必须经过中间链接才能
到他所想去的网页。如果我们能够根据用户的行为模式，动态地生成一些他可能想要去
的网页的超链接，这样就会让用户更有效地访问效率，从而也就提高了“回访率”。这
样，有些与用户当前浏览的网页看起来并不相关的网页就有可能被从设置成了超链接，
这点在静态里是做不到的。从server这端来看，也就可以在日志中减少了对不必要的中
间层网页访问的分析，提高了日志的质量，而且还可以为访问的用户预先取出。
原因：其一，在网站竞争日夜激烈的今天，如何让每一个用户满意，保住用户和吸引更
多的用户就成为网站的首要任务。而利用动态生成网页连接的话，就可以为每个用户独
身定做他自己个性化的浏览模式。而静态连接则并不是对每一个用户都是适用的。其二
，网站的内容是经常更新的，动态连接能够比静态连接提供更“新”的东西。
具体方法：通过分析该用户浏览的该网站的Session,来确定他属于哪一个类，从而生成
向他推荐在那个类里的人接下来所浏览的网页的超链接。
实现的困难：怎样确定同一个用户和一个用户的一个Session.
系统的设计：由在线和离线两种结构组成。web服务器主要用于保存用户的Session信息
,一个离线的模块主要用于日志分析，就是数据挖掘。一个在线的模块主要用于动态连接
的产生。
具体步骤由日志预处理，聚集和生成动态连接建议组成。
一，预处理：
我们可以认为一个网站是由许多个令用户感兴趣的元素组成的，例如一个HTML网页。那
么每个人对于元素的喜爱程度是不同的。如果在一个Session里面包含n个元素（就是n个
不同的网页），我们就可以把一个Session表示为n个向量。向量的其中一维是网页的代
号，另外一维是就是他的喜欢程度的量化表示，他可以量化为在这个网页的停留时间，
点击的次数和在这个网页上点击超链接的次数。那么预处理的过程就是将用户进入日志
的信息转化为向量的表示形式。
二，聚集：
这部分的目的是找出具有相似向量的类。相似有很多定义，例如几何距离等等。
在这儿我们采用了Leader algorithm的聚集方法。先解释一下其中涉及的名词：1，Min
Numpages,表示Session中包含的最小网页数。对那些只是看一眼的用户进行研究是没有
意义的，所以我们必须选择那些浏览数目超过一定值的Session.2，Minclustersize.。
表示我们设定的分出的类中向量个数的最小值。对于不超过最小值的类，我们就把它删
除了，我们只研究那些有共性的类。3，Maxdistance.即几何最大距离。小于这个距离才
能把它分在那个类里。
聚集过程：首先将V作为输入的向量的集合，C作为输出的类（向量的集合）的集合。
一开始，C设为０，对于每个向量，我们尽量把它加到最近的类中，并且该向量与类的中
值之间的距离要小于Maxdistancesize，如果符合这个条件的类不存在，那么我们就建立
一个新类，然后再继续对下一个向量进行同样的处理，一直到最后一个向量。然后再将
C中不符合Minclustersize的类给删除掉。
完成后，我们可以采用计算每一个类的中间值的方法来估测这个类代表的意义。
这种做法有一些缺点，主要是不能反映用户的访问顺序。但它只需要对数据库访问一次
，因此速度，效率很快。
三，生成动态连接：
　　当一个用户浏览这个网站的时候，我们看他去了哪些网页，根据这些信息我们可以
把他归为一个或者几个已知的类，根据这个类中用户的历史行为我们可以为他增加他感
兴趣的网站的连接。
问题：当一个用户浏览一个新的网页的时候，Session中的向量也就在更新了。这时的向
量只是一个不断变化的Session中的一部分。当对新的Session进行分类的时候，类的中
间值和新的向量并不匹配，新向量的元素个数要比类中向量要少。那么问题是从什么时
候开始对新的Session进行分类呢？如果Session中所访问的有两个网页能和类中网页相
似,那么就开始进行计算归类.
－－－－－－－－
本文摘自http://www.dmgroup.org.cn/
联想到前一阵sina baidu sohu频频将自己的关键字排行榜拉出来分析，摘了篇文章
给大家。
数据挖掘,顾名思义就是从大量的数据中挖掘出有用的信息。随着计算机应用的越来越广
泛，每年都要积累大量的数据，运用数据挖掘技术在这些数据当中我们可以找出“金子
”来。数据挖掘技术主要又分成“关联规则”，“时间序列”“聚集”，“分类”，“
估值”等这几类，这在我们的“算法”这个栏目里会有比较详细的介绍。
有兴趣的朋友可以翻翻这个站
http://www.dmgroup.org.cn/zs.htm
综述
http://166.111.136.3/softengi/kddforum/filelist.php3?addr=dmpapers/webmining

这是web挖掘资料

--
当一个女孩儿觉得她不太容易了解那个男人的时候，她会爱他。

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 天外飞仙]

Algorithm 版 (精华区)