精华区文章阅读

发信人: AA (积极的人生、美好的人生), 信区: Algorithm
标  题: “智能信息检索”读书笔记(zz)
发信站: 哈工大紫丁香 (2002年05月23日19:43:39 星期四), 站内信件

“智能信息检索”读书笔记

------------------------------------------------------------------------
--------

francois 于 2001-06-13 下午 03:20:04 发表在：自然语言

“智能信息检索”
（”Intelligent Information Retrieval”, Yiming Yang, Carnegie Mellon
University, Jan Pedersen, Infoseek, IEEE INTELLIGENT SYSTEMS,
JULY/AUGUST 1999）
Yiming Yang is an associate professor at Carnegie Mellon University’s
Language Technologies Institute and Computer Science Department. Her
research interests include information retrieval, text calssification,
and statistical learning algorithms. She received her PhD in computer
science from Kyoto University, Japan. Contact her at yiming@cs.cmu.edu.

摘要：
智能信息检索涉及信息检索和人工智能技术，文档内容和用户兴趣相关度的自动学
习和预测是核心。应用在如下方面：新闻中的新事件检测和跟踪、自动主题分类、
e-mail的定制分发、WWW上的查找与导航，以及多媒体文档的索引和检索。

事件检测和跟踪：其目标是从按时间顺序的新闻流中检测到新事件并不断跟踪感兴
趣的事件。Yang概述了相关的信息检索和机器学习技术，扩展了现有的有指导学习
和无指导的聚类算法，文档可以根据内容和事件的时间段进行分类。她们采用
Reuters和CNN的新闻来评价自己的算法，发现凝聚的（agglomerative）文档聚类
算法对检测回顾事件很有效，而带时间窗口的单遍聚类则能有效地发现新事件。当
仅有很少的训练样本时要进行事件追踪，k-nearest neighbor分类算法和决策树方
法是有效的。

WWW上的查找、过滤与导航：Dunja Mladenic对智能Agent技术进行了调查，涉及信
息检索、机器学习、自然语言处理等。比较了两种智能Agent常用开发方法——基
于内容的和协作的。在第一种方法中，内容（例如文本）扮演了重要角色；在第二
种方法中，则需要多种知识资源（如某些用户）。

超文本浏览：Francis Crimmins提出了两阶段分析工具来访问和研究网站内容。第
一步是个metasearcher，它使用伪反馈来自动扩展查询。第二步是个数据挖掘工具
，用于文献目录。

文本分类：Sholom Weiss提出了新的文本挖掘算法，使用适应性重取样策略（
adapive-resampling,boosting）来训练决策树分类器。也适用于email的定制分发
。

多媒体信息检索：Madirakshi Das等提出了一个系统，可以适用自然语言（颜色名
称）或类似图形查询（给出图形样例）来检索图形。

--
                人世间的事谁也无法掌握
                  该执著的  永不怨悔
                  改舍去的  不在牵挂
                  改珍惜的  好好把握

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: NLPCenter.hit.edu.cn]

Algorithm 版 (精华区)