Algorithm 版 (精华区)

发信人: AA (积极的人生、美好的人生), 信区: Algorithm
标  题: 利用NLP来学习用户特征(zz)
发信站: 哈工大紫丁香 (2002年05月23日19:49:37 星期四), 站内信件


摘要:本文研究如何生成容易理解的用户特征(profile),来精确捕捉用户的兴
趣,同时尽量减少用户交互。模型中在传统加权词目向量的基础上,引入了主题分
类特征(从词典中获取)。

关键词:Information filtering, machine learning, natural language
processing, generalization hierarchy

读书笔记简要:
本文的核心在于概括层次(generalization hierarchy)的利用。
1.介绍
 信息过滤与信息检索类似,不同点在于信息过滤一般针对用户的长期兴趣,而且
是针对不断增加的新数据。
2.以前的研究
 传统的信息推送(push)服务一般是给定分类让用户选择,或者用keyword list
来描述特定查询。
 缺点:一词多义、一义多词的问题难以解决(前者是语义排歧,后者是查询扩展

 发展趋势:从兴趣的显式给定到兴趣的机器学习(权重的调整和查询扩展)
3.本文的方法
 以前的系统不能对用户的兴趣进行概括,例如,用户对“scuba,whitewater
rafting,and kayaking”感兴趣,则学习代理应该能够概括出他对水上运动感兴
趣。
 系统要考虑缩放性和可更新能力。
 针对长期兴趣(兴趣的长期稳定性假设是系统的基础)。
 协同过滤技术对于新闻过滤不合适,因为兴趣组中的成员太少、大家都看过的文
档重叠程度较低。
3.1 文本的表达
 文本表达中包括:主题分类(多个)、人名、组织名、地名和传统的keyword
list。
3.1.1 主题分类
 从词典中构造出主题的分类层次。
3.1.2 关键词
 利用传统的TFIDF方法得到。
3.1.3 专用名称
 POL(People, Organizations, Locations)特别处理,因为它们在新闻中很重要

3.1.4 摘要层表达
 特征          描述
 x1..x5        文档所在的前5个主题分类
 x6..x59       人名
 x60..x104     组织名
 x105..x140    地名
 x141..x141+n  前n个按TFIDF排序的词目
 其中n从5到200。
3.2 学习
 利用决策树学习算法:AQ15c和C4.5-Rules
4.实验
 (略)
5.总结
 利用概括层次和混合特征表达方法能有效学习用户特征。
  
--
                人世间的事谁也无法掌握
                  该执著的  永不怨悔
                  改舍去的  不在牵挂
                  改珍惜的  好好把握

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: NLPCenter.hit.edu.cn]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:3.567毫秒