Algorithm 版 (精华区)

发信人: ssos (存在与虚无·戒酒戒网), 信区: Algorithm
标  题: Web Usage Mining
发信站: 哈工大紫丁香 (2001年12月14日19:56:52 星期五), 站内信件

把数据挖掘技术应用到网上数据的过程。(the process of applying data mining te
chniques to the discovery of usage patterns from Web data)所有网上行为(用户
行为)的可记录性和数据量的快速增长促成了此项应用的需要。
Web数据
数据分类
内容(Content): 网页上的真正数据
结构(Structure): 内容的组织。Intra-page指一张网页内部各部分是如何组织的,
表现为各HTML标记间的关系,可组成一颗树。Inter-page是网页之间的链接信息。
使用(Usage): 网页被人使用的记录。如IP地址、时间、哪一页
用户资料(User Profile):此网站的用户资料
数据源
服务器端数据收集(Server Level Collection)
Web服务器的log: 记录了每一次网页请求信息。可通过记录Cookies和CGI的查询参数来
描述各个不同用户的行为。不足:考虑到Web环境中的各种Cach此记录可能不准确;用P
OST方法传送的参数没有记录下来。
包监测技术(packet sniffing technology): 监视所有到达服务器的数据,提取其中
的HTTP请求信息。
网站自身的内容和结构
客户端数据收集(Client Level Collection)
远程代理(Remote agent)(Javascripts或Java Applets): Applet能记录用户所有
的行为但有效率问题;Javascritps虽然对效率影响不大,但不能记录用户所有的动作。

修改过的浏览器(Modified browser): 如何说服用户使用
网络代理端数据收集(Proxy Level Collection)
Proxy可以不仅可以收集多个用户的行为,还可以收集对多个网站的行为。
数据抽象(Data Abstractions)
由WCA(W3C Web Characterization Activity)定义
users: 通过浏览器访问网页的个体。用户可通过不同的机器不同的代理访问网站。
page view: 用户一次单击得到的浏览器的一个显示。可能由许多文件构成。一个page
 view代表一次用户行为。
click-stream: 是一系列page view请求的序列。
user session: 一个用户访问整个网站的一个click-stream。
server session: 一个网站的某用户的user session中的click-stream。也称为一个v
isit。
episode: user session或sever session的一个子集。
Web应用挖掘
预处理(Preprocessing)
使用预处理(Usage Preprocessing)
识别用户问题:
Single IP address/Multi Server Sessons Multiple IP address/Single Server Ses
sion
Multiple IP address/Single User Multiple Agent/Single User
划分server session:
通过内容服务器的session ID 通过时间间隔(30分钟)
内容预处理(Content Preprocessing)
把网页中的文本、图片及其他文件转换成数据挖掘算法可用的形式。
结构预处理(Structure Peprocessing)
模式发现(Pattern Discovery)
统计分析(Statistical Analysis)
网页的访问频率,网页的访问时间,访问路径
可用于:系统性能分析,发现安全漏洞,为网站修改、市场决策提供支持
关联规则(Association Rules)
发现server session中请求网页的相关性。
可用于:优化网站组织,网络代理中的预取功能
分类(Clustering)
使用分类(usage clusters)把具有相似浏览模式的用户分成组
可用于:电子商务应用中市场分片(market segmentation)和为用户提供个性化服务
网页分类(page clusters)按内容的相似性把网页分类
可用于:搜索引擎和Web浏览助手(Web assistance providers),为用户提供推荐链接

归类(Classification)
根据用户的个人资料,将其归入某一特定的类
可使用:决策树、naive Bayesian classifiers、k-最近邻居、Support Vector Machi
nes等算法
序列模式(Sequential Patterns)
发现一个session内部的网页间的时间相关性
可用于:预测用户的访问,而提供建议
依赖关系建模(Denpendency Modeling)
建立一个能描述Web领域中各种变量间具有的显著依赖关系
可使用:Hidden Markov Models和Bayesian Belief Newwords
模式分析(Pattern Analysis)
找到那些有意义的(interesting)模型或规则
软件分类
个性化(Personalization)
可以进行individualized marketing for e-commerce,为Web用户动态推荐网页(可以
用于 e-commerce中的cross-sales和up-sales)
一般做法:(offline部分)先用cluster技术把用户分类(可以使基于log的用户访问模
式分类,也可以基于用户注册表的分类),(online部分)然后再根据用户当前的访问
状况动态的判断用户属于哪个分类,给出建议。
系统改良(System Improvement)
发现系统性能瓶颈,找到安全漏洞
用预取技术提高系统性能
网站修改(Site Modification)
提供详细的用户反馈,为网站设计者提供帮助
根据用户访问模式自动修改网页之间的链接
商业智能(Business Intelligence)
为专业商业智能软件提供数据,即数据预处理
使用特性(Usage Characterication)
寻找用户的个人特色
隐私问题(Privacy issues)
用户不希望自己干什么被人监视,网站管理人员又希望通过记录用户信息提高服务质量

应让用户知道网站对用户作了什么监视,这些信息将用于什么目的,并禁止这些信息的
交换和买卖。
W3C的P3P(Platfor for Privacy Preferences)


--

   
<<社会契约论>>是一本好书,应当多读几遍
风味的肘子味道不错,我还想再吃它      

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.230.220]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:1.491毫秒