Algorithm 版 (精华区)
发信人: Lerry (想不开·撞树), 信区: Algorithm
标 题: 关于搜索引擎的胡说八道(1)
发信站: 哈工大紫丁香 (2002年06月05日17:12:46 星期三), 站内信件
关于搜索引擎的胡说八道(1)
版权所有:nio_tong 原作 提交时间:22:07:18 11月20日
从信息搜索的英文变化就可以看出搜索正在走向大众化的方向,Information Retrial
到Information Search再到Information Seeking,Dialog也开发了网上检索服务,到底
是收费的数据库还是免费的搜索引擎是网络搜索的发展方向,也许他们就是并行的,虽
然free、share是互联网真正的精神,但是不要忘记了“网络从诞生开始,就流淌着金钱
和肮脏的东西”,也许一个真正的网络搜索高手就是能够再这两者之间找到一种平衡,
对于他们来说,to pay or not to pay is not a problem,毕竟一般的搜索引擎还不能
完成分子式检索或者基因组检索,对于专利检索、药物检索等非常专业的检索也很不完
善,这就对super searcher提出了更高的要求。
前面说得太乱,也不知道到底想说什么,还是从用户开始说起吧。随着市场经济的发展
,卖方市场向买方市场的转变是不可避免的趋势,只有用户的需求才是搜索引擎存在的
根据,满足用户需求的SE就是好的SE。
首先要重视用户集团这个概念。从分析用户的检索习惯、提问方式、年龄、知识水平等
等,解析出专业方向类似的用户,称为一个用户集团,这样用户间可以参见,就像在图
书馆借书的时候,也许在你想借的图书旁边有另外一本对于你的研究更有帮助的书。一
个用户检索类似问题时,可以把另外一个和他在一个用户集团的其他用户的相关度最高
的检索条目推荐给检索者。如果建立一个用户兴趣库用来记录用户的信息登记表、历史
查询表、兴趣记录表和兴趣结构表,就可以对用户的提问进行推测,甚至利用推送技术
达到更高级的服务效果。另外用户对检索结果编辑的支持,实现用户的自定义服务。检
索过程对用户的可视化,可以让用户更好的享受服务,不过国内好像没有这方面的研究
。
再有就是对SE的评价和计量学在SE中的应用也越来越重视用户的作用。原来对检索系统
的评价指标比如标引阶段的:网络度、专指度、引得深度等,都被用户检索中的一些指
标慢慢取代。下面是一些原来用在情报学中用户评价指标在对SE评价、改进的一些变化
。
informetric in IR system usage
Usage will depend on
system content:format、coverage
Audience:search experience、demographics
System search and browsing features
1.term uesed per query
1a.Usally unimodal
1b.Mean will depende on enviroment and user search experience
1c.Higher mean for bibliographic systems,lower for web
2.Distribution of per term
2a.Not limited to index terms,can be much broader,with more term type.
2b.Analysis of most and least frequent terms revealing of search habits.
2c.As web access,expands.so will vocabulary.
3.Query term co-occurence
3a.similar limited possibilities as with index term co-occurence
3b.frequecy co-occurence can serve as basis for subject analysis of queries
and changge overtime.
4.Query frequency distribution
4a.very strong invers relationship
4b.On the web ,most queries unique,with small percentage of repeat
4c.most frequent queries quite short.
5.search session length
5a.may be measured in time or queries submitted
5b.most informal search sessions quite short,for formal enviroment geneally
longer.
6.User search and browsing patterns
6a.page request per query for SE
6b.number of nodes visited(path length) in hypertext systems.
6c.number of documents investigated in bibligraphic systems.
7.site visitation
7a.may be measuered by frequency of use by specific users.
7b.or by overall usage of different resources
--
当一个女孩儿觉得她不太容易了解那个男人的时候,她会爱他。
※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 天外飞仙]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:3.377毫秒