精华区文章阅读

发信人: ssos (存在与虚无·戒酒戒网), 信区: Algorithm
标  题: Web Usage Mining
发信站: 哈工大紫丁香 (2001年12月14日19:56:52 星期五), 站内信件

把数据挖掘技术应用到网上数据的过程。（the process of applying data mining te
chniques to the discovery of usage patterns from Web data）所有网上行为（用户
行为）的可记录性和数据量的快速增长促成了此项应用的需要。
Web数据
数据分类
内容（Content）：网页上的真正数据
结构（Structure）：内容的组织。Intra-page指一张网页内部各部分是如何组织的，
表现为各HTML标记间的关系，可组成一颗树。Inter-page是网页之间的链接信息。
使用（Usage）：网页被人使用的记录。如IP地址、时间、哪一页
用户资料（User Profile）：此网站的用户资料
数据源
服务器端数据收集（Server Level Collection）
Web服务器的log：记录了每一次网页请求信息。可通过记录Cookies和CGI的查询参数来
描述各个不同用户的行为。不足：考虑到Web环境中的各种Cach此记录可能不准确；用P
OST方法传送的参数没有记录下来。
包监测技术（packet sniffing technology）：监视所有到达服务器的数据，提取其中
的HTTP请求信息。
网站自身的内容和结构
客户端数据收集（Client Level Collection）
远程代理（Remote agent）（Javascripts或Java Applets）： Applet能记录用户所有
的行为但有效率问题；Javascritps虽然对效率影响不大，但不能记录用户所有的动作。

修改过的浏览器（Modified browser）：如何说服用户使用
网络代理端数据收集（Proxy Level Collection）
Proxy可以不仅可以收集多个用户的行为，还可以收集对多个网站的行为。
数据抽象（Data Abstractions）
由WCA（W3C Web Characterization Activity）定义
users：通过浏览器访问网页的个体。用户可通过不同的机器不同的代理访问网站。
page view：用户一次单击得到的浏览器的一个显示。可能由许多文件构成。一个page
view代表一次用户行为。
click-stream：是一系列page view请求的序列。
user session：一个用户访问整个网站的一个click-stream。
server session：一个网站的某用户的user session中的click-stream。也称为一个v
isit。
episode： user session或sever session的一个子集。
Web应用挖掘
预处理（Preprocessing）
使用预处理（Usage Preprocessing）
识别用户问题：
Single IP address/Multi Server Sessons Multiple IP address/Single Server Ses
sion
Multiple IP address/Single User Multiple Agent/Single User
划分server session：
通过内容服务器的session ID 通过时间间隔（30分钟）
内容预处理（Content Preprocessing）
把网页中的文本、图片及其他文件转换成数据挖掘算法可用的形式。
结构预处理（Structure Peprocessing）
模式发现（Pattern Discovery）
统计分析（Statistical Analysis）
网页的访问频率，网页的访问时间，访问路径
可用于：系统性能分析，发现安全漏洞，为网站修改、市场决策提供支持
关联规则（Association Rules）
发现server session中请求网页的相关性。
可用于：优化网站组织，网络代理中的预取功能
分类（Clustering）
使用分类（usage clusters）把具有相似浏览模式的用户分成组
可用于：电子商务应用中市场分片（market segmentation）和为用户提供个性化服务
网页分类（page clusters）按内容的相似性把网页分类
可用于：搜索引擎和Web浏览助手（Web assistance providers），为用户提供推荐链接

归类（Classification）
根据用户的个人资料，将其归入某一特定的类
可使用：决策树、naive Bayesian classifiers、k-最近邻居、Support Vector Machi
nes等算法
序列模式（Sequential Patterns）
发现一个session内部的网页间的时间相关性
可用于：预测用户的访问，而提供建议
依赖关系建模（Denpendency Modeling）
建立一个能描述Web领域中各种变量间具有的显著依赖关系
可使用：Hidden Markov Models和Bayesian Belief Newwords
模式分析（Pattern Analysis）
找到那些有意义的（interesting）模型或规则
软件分类
个性化（Personalization）
可以进行individualized marketing for e-commerce，为Web用户动态推荐网页（可以
用于　e-commerce中的cross-sales和up-sales）
一般做法：（offline部分）先用cluster技术把用户分类（可以使基于log的用户访问模
式分类，也可以基于用户注册表的分类），（online部分）然后再根据用户当前的访问
状况动态的判断用户属于哪个分类，给出建议。
系统改良（System Improvement）
发现系统性能瓶颈，找到安全漏洞
用预取技术提高系统性能
网站修改（Site Modification）
提供详细的用户反馈，为网站设计者提供帮助
根据用户访问模式自动修改网页之间的链接
商业智能（Business Intelligence）
为专业商业智能软件提供数据，即数据预处理
使用特性（Usage Characterication）
寻找用户的个人特色
隐私问题（Privacy issues）
用户不希望自己干什么被人监视，网站管理人员又希望通过记录用户信息提高服务质量
。
应让用户知道网站对用户作了什么监视，这些信息将用于什么目的，并禁止这些信息的
交换和买卖。
W3C的P3P（Platfor for Privacy Preferences）

--


<<社会契约论>>是一本好书,应当多读几遍
风味的肘子味道不错,我还想再吃它

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.230.220]

Algorithm 版 (精华区)