精华区文章阅读

发信人: AA (积极的人生、美好的人生), 信区: Algorithm
标  题: 利用NLP来学习用户特征(zz)
发信站: 哈工大紫丁香 (2002年05月23日19:49:37 星期四), 站内信件

摘要：本文研究如何生成容易理解的用户特征（profile），来精确捕捉用户的兴
趣，同时尽量减少用户交互。模型中在传统加权词目向量的基础上，引入了主题分
类特征（从词典中获取）。

关键词：Information filtering, machine learning, natural language
processing, generalization hierarchy

读书笔记简要：
本文的核心在于概括层次（generalization hierarchy）的利用。
1.介绍
信息过滤与信息检索类似，不同点在于信息过滤一般针对用户的长期兴趣，而且
是针对不断增加的新数据。
2.以前的研究
传统的信息推送（push）服务一般是给定分类让用户选择，或者用keyword list
来描述特定查询。
缺点：一词多义、一义多词的问题难以解决（前者是语义排歧，后者是查询扩展
）
发展趋势：从兴趣的显式给定到兴趣的机器学习（权重的调整和查询扩展）
3.本文的方法
以前的系统不能对用户的兴趣进行概括，例如，用户对“scuba，whitewater
rafting，and kayaking”感兴趣，则学习代理应该能够概括出他对水上运动感兴
趣。
系统要考虑缩放性和可更新能力。
针对长期兴趣（兴趣的长期稳定性假设是系统的基础）。
协同过滤技术对于新闻过滤不合适，因为兴趣组中的成员太少、大家都看过的文
档重叠程度较低。
3.1 文本的表达
文本表达中包括：主题分类（多个）、人名、组织名、地名和传统的keyword
list。
3.1.1 主题分类
从词典中构造出主题的分类层次。
3.1.2 关键词
利用传统的TFIDF方法得到。
3.1.3 专用名称
POL（People, Organizations, Locations）特别处理，因为它们在新闻中很重要
。
3.1.4 摘要层表达
特征          描述
x1..x5        文档所在的前5个主题分类
x6..x59       人名
x60..x104     组织名
x105..x140    地名
x141..x141+n  前n个按TFIDF排序的词目
其中n从5到200。
3.2 学习
利用决策树学习算法：AQ15c和C4.5-Rules
4.实验
（略）
5.总结
利用概括层次和混合特征表达方法能有效学习用户特征。

--
                人世间的事谁也无法掌握
                  该执著的  永不怨悔
                  改舍去的  不在牵挂
                  改珍惜的  好好把握

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: NLPCenter.hit.edu.cn]

Algorithm 版 (精华区)