Algorithm 版 (精华区)
发信人: AA (积极的人生、美好的人生), 信区: Algorithm
标 题: 利用NLP来学习用户特征(zz)
发信站: 哈工大紫丁香 (2002年05月23日19:49:37 星期四), 站内信件
摘要:本文研究如何生成容易理解的用户特征(profile),来精确捕捉用户的兴
趣,同时尽量减少用户交互。模型中在传统加权词目向量的基础上,引入了主题分
类特征(从词典中获取)。
关键词:Information filtering, machine learning, natural language
processing, generalization hierarchy
读书笔记简要:
本文的核心在于概括层次(generalization hierarchy)的利用。
1.介绍
信息过滤与信息检索类似,不同点在于信息过滤一般针对用户的长期兴趣,而且
是针对不断增加的新数据。
2.以前的研究
传统的信息推送(push)服务一般是给定分类让用户选择,或者用keyword list
来描述特定查询。
缺点:一词多义、一义多词的问题难以解决(前者是语义排歧,后者是查询扩展
)
发展趋势:从兴趣的显式给定到兴趣的机器学习(权重的调整和查询扩展)
3.本文的方法
以前的系统不能对用户的兴趣进行概括,例如,用户对“scuba,whitewater
rafting,and kayaking”感兴趣,则学习代理应该能够概括出他对水上运动感兴
趣。
系统要考虑缩放性和可更新能力。
针对长期兴趣(兴趣的长期稳定性假设是系统的基础)。
协同过滤技术对于新闻过滤不合适,因为兴趣组中的成员太少、大家都看过的文
档重叠程度较低。
3.1 文本的表达
文本表达中包括:主题分类(多个)、人名、组织名、地名和传统的keyword
list。
3.1.1 主题分类
从词典中构造出主题的分类层次。
3.1.2 关键词
利用传统的TFIDF方法得到。
3.1.3 专用名称
POL(People, Organizations, Locations)特别处理,因为它们在新闻中很重要
。
3.1.4 摘要层表达
特征 描述
x1..x5 文档所在的前5个主题分类
x6..x59 人名
x60..x104 组织名
x105..x140 地名
x141..x141+n 前n个按TFIDF排序的词目
其中n从5到200。
3.2 学习
利用决策树学习算法:AQ15c和C4.5-Rules
4.实验
(略)
5.总结
利用概括层次和混合特征表达方法能有效学习用户特征。
--
人世间的事谁也无法掌握
该执著的 永不怨悔
改舍去的 不在牵挂
改珍惜的 好好把握
※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: NLPCenter.hit.edu.cn]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:3.567毫秒