Algorithm 版 (精华区)
发信人: ssos (存在与虚无), 信区: Algorithm
标 题: 信息检索名词解释
发信站: 哈工大紫丁香 (2001年07月03日18:44:17 星期二), 站内信件
信息检索名词解释
·布尔查询(Boolean query)
由词项的布尔组合构成的查询. 如"information and retrieval", "vision or
sight", "Clinton and (not Gore)".
·分类(Classificaiton)
确定给定文件所属相应范畴的过程. 例如, 确定一篇文章该发到哪个News Group,
或是一个email消息该归入哪个子目录, 或是一篇文章的主题.
·聚类(Cluster)
相似文件的表示之分组. 在向量空间模型下, 检索可通过对查询向量和聚类重心之
比较来进行. 在一个聚类之内, 搜索可以更有针对性的方式继续.
·协同过滤(Collaborative Filtering)
通过参考与特定用户具有相似兴趣和需求的其他用户的选择来决定如何为该用户的
文件进行过滤的过程. 又叫"社会过滤(Social Filtering)".
·文件集(Collection)
用户准备从中获取信息的一组文件. 另见"测试文件集(test collection)".
·文件集融合(Collection Fusion)
取自多个文件集的搜索结果的综合问题. 这里面有许多技巧, 因为有些指标在不同
文件集中是不同的, 如IDF. 而且, 如果一共只要求检索固定个数的文件, 从哪个
文件集里该取多少也是不清楚的.
·基于内容的过滤(Content-Based Filtering)
从文件正文中抽取特征以确定文件的相关程度的过程. 另见"认知过滤(cognitive
filtering)".
·余弦相似度(Cosine Similarity)
见"相似度(Similarity)".
·文件(Document)
用户可能要检索的一条信息. 它可以是一个文本文件, 一个WWW page, Newsgroup
里的一篇文章, 一幅图象, 或者是某本书里的一句话.
·标引(Indexing)
把文件集转换成易于查找和检索的合适形式的过程.
·信息抽取(Information Extraction)
试图从格式不受限制的文本中找出语义结构及其他类型的信息的研究方向.
·信息过滤(Information Filtering)
从给定的大量数据中选出用户所需要的数据. 这是信息检索问题的标准形式.
·信息需求(Information Need)
用户真正要知道的东西. 一个查询是信息需求的一个近似表达.
·信息检索(Information Retrieval)
研究对数据, 特别是对文本及其他非结构化形式的数据进行标引、搜索和查遍的系
统的学科.
·倒排频度(Inverse Document Frequency)
简称IDF, 是反映一个特定的词项在一个文件集中按文件统计出现的频繁程度的指
标. 通常用log(文件集中文件总数/文件集中包含该词项的文件数)来定义. 因此,
常用词的倒排频度很低, 只在唯一文件里出现的词项的倒排频度很高. 本指标在
为模型中的参数加权时非常有用.
·倒排文件(Inverted File)
文件集的一种表示形式, 本质上是一种索引. 它对每一个词或词项, 记录其出现
的所有位置. 这种表示形式对于处理布尔查询特别有用.
·查准率(Precision)
信息检索的标准性能指标, 定义为: 查到的相关文件数/查到的文件总数. 例如, 设
在文件集里有80篇有关widgets的文件, 某系统查出60篇文件, 其中40篇与widgets
有关, 则该系统的查准率为40/60=76%. 最理想的查准率是100%. 这并不难做到(比
如只返回1篇文件). 然而, 信息检索要求系统在查准率和查全率(recall)上要同时
做到尽可能地大.
·概率模型(Probabilistic Model)
任何考虑词项或概念在文件中的出现概率或文件满足信息需求的概率的模型都是
概率模型. 贝叶斯推理网络是这类模型的很好的框架. INQUERY系统是其最成功的实
例.
·查询(Query)
刻画用户的信息需求的一串词. 注意它不必是和语法的自然语言句子.
·查询扩充(Query Expansion)
根据原有查询构造新的查询的过程. 新词可以是从其他文件里添加过来的相关反馈,
也可以是从某个主题词表上添加过来的同义词.
·问题解答(Question Answering)
从大规模文件集中寻找恰好能够回答用户用自然语言提出的问题的文件.
·查全率(Recall)
信息检索的标准性能指标, 定义为: 查到的相关文件数/文件集中的相关文件总数.
例如, 设文件集里有80篇有关widgets的文件, 某系统查出60篇文件, 其中40篇与
widgets有关, 则该系统的查全率为40/80=50%. 最理想的查准率是100%. 这并不难
做到(比如把文件集里所有的文件都返回). 然而, 信息检索要求系统在查准率和查
全率上要同时做到尽可能地大.
·相关(Relevance)
一个文件满足用户的信息需求的程度的抽象指标. 理想情况下, 系统可以把用户需
要的相关文件都检索出来. 可惜这是一个主观的概念, 很难量化.
·相关反馈(Relevance Feedback)
对已知查询结果进行求精的过程. 由用户指定已知查询结果中哪些是与其查询最相
关的. 系统从用户指定的文件里抽取共同词项添加到原查询上构成一个新查询,
新查询继而给出新结果, 如此可循环任意多次, 直至用户满意为止.
·机器人(Robot)
见"网虫"(Spider).
·分检(Routing)
与信息过滤相似, 指从连续的输入信息流中检索出用户需要的数据(即"长期信息过
滤").
·SIGER
全称是ACM信息过滤专题组(ACM special interest group on Information retrieval).
他们出版《SIGIR论坛》, 并举办年会.
·签名文件(Signiture File)
是文件集的一种表示, 其中文件被散列成二进制位串. 这是一种压缩技巧, 旨在提高
查找效率.
·相似度(Similarity)
度量两个文件或一个文件与一个查询之间相似程度的指标. 在向量空间模型中, 相似度
往往理解为两个向量表示之间的靠近程度. 流行的方法是计算两个向量夹角的余弦.
·"网虫"(Spider)
也叫机器人, 是在Web上搜寻URL地址的程序. 它从特定的Web Page出发, 依次访问从
该Page能访问到的一切连接, 从而遍历WWW组成的图. 它可以在此过程中纪录各服务器
上的信息, 以便建立索引或其他查找工具. 几乎所有的查找工具都是用"网虫"搞起来
的. 使用"网虫"的一个问题是: 如果编程不当, 会在短时间内频繁访问同一服务器,
造成系统性能下降.
·词根还原(Stemming)
从文件或查询中去掉词的前后缀, 用以形成和系统内部模型里一致的词项. 做这件
事是为了把具有同样概念意义的词(如walk, walked, walker, walking)统一处理, 这
样用户查询时就不必拘泥了. Porter是一个众所周知的词根还原算法.但是要小心: 把
"porter"这个词送到Porter系统里去还原成"port"将导致把关于船和葡萄酒的文章也
都查出来! (在英语里, "porter"是搬运工的意思, "port"有港口和酒桶阀门的意思).
·停用词(Stopword)
指象介词或冠词这类具有很少语义内容的词. 也指在文件集的各个文件里都有很高出
现频率的词. 停用词由于出现在很多文件里, 故对检索没什么贡献. 这样的词一般都
要从文件的内部模型或查询中去掉.
某些系统事先规定好哪些词是它的"停用词". 然而, 一个词是否停用词这件事可能是
与上下文有关的. 例如在有关计算机科学的文件集里, "computer"就被当做停用词;
但在从《消费者报告》中选出的文章组成的文件集中, "computer"就不是停用词.
·词项(Term)
一个出现在文件或查询中的单词或概念. 有时也指原始文本里的词.
·词频(Term Frequency)
简拼为TF. 指特定词项在给定文件或查询中的出现次数. 可用于为模型中的参数加
权.
·测试文件集(Test Collection)
专门为评价实验性信息检索系统而建立的文件集. 通常伴随一套查询题库, 以及由人
类专家做出的文件与查询相关与否的标记(相当于标准答案). TIPSTER是当前最流行的
测试文件集.
·TIPSTER
一个正在进行中的项目, 集中了若干单位和组织的资源来对信息提取和分检进行攻关.
总的框架是: 每个团队负责一部分工作, 完成后只须插到总体结构即可. 该项目有一
个很大的测试文件集.
·TREC
全文是Text REtrieval Conference(文本检索协会). 该组织为信息检索研究者提供公
用测试文件集和公用评价系统. 这样系统之间就可以在同样数据的基础上进行比较和对
照.
·向量空间模型(Vector Space Model)
文件或查询转换成向量的一种表示. 向量的特征通常是出现在对应文件或查询中的词,
当然经过了词根还原并滤掉了停用词. 向量往往做过加权处理, 以突出对确定意义因而
对信息检索有典型贡献的词项. 在检索过程中, 要拿查询向量与每个文件向量作比较.
与查询向量靠近的被认为是相似的, 作"查到"处理. SMART是使用向量空间模型的最有
名的系统.
·加权处理(Weighting)
通常对词项而言, 指突出更重要的一些词项的某些参数的过程. 在向量空间模型下,
此过程施用于向量的某些特征. 比较流行的加权方式是TF*IDF. 还有布尔方式(词项
出现为1, 不出现为0)以及只用TF的方式. 在向量空间模型下, 权值往往进行归一化(分
量总和为1), 或每个分量都除以所有分量的平方和的平方根(模为1).
--
<<社会契约论>>是一本好书,应当多读几遍
风味的肘子味道不错,我还想再吃它
※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.230.220]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:2.559毫秒