Algorithm 版 (精华区)

发信人: Lerry (想不开·撞树), 信区: Algorithm
标  题: 关于搜索引擎的胡说八道(2) 
发信站: 哈工大紫丁香 (2002年06月05日17:13:15 星期三), 站内信件

关于搜索引擎的胡说八道(2)
版权所有:nio_tong 原作 提交时间:21:24:28 11月21日
 从google的搜索机理看搜索引擎的数据库建设
google的搜索机制是:几个分布的Crawler同时搜取网页,URL服务器负责向Crawler提供
URL列表;这些网页被送到存储服务器storesever中,存储服务器把这些网页压缩后存成
文件放入一个知识库,赋予每个网页一个相关的ID(document id).索引库Indexer可以
读取知识库中文献、解压文档、进行解析。对每个文档采样(hits),把它转换成一组
词的出现情形(document occurence)。hits记录了词,词在文档中的位置,字体大小、
大小写等。Indexer把这些hits分装在barrels桶中,产生经过部分排序的索引。同时,
Indexer还分析网页中所有的链接,将重要信息存于Anchors中,URL Resolver读取Anch
ors文档,把相对的URL转换成绝对的URLs,与其doc ID 对应、关联,形成doc ID对(p
airs of doc ID)的链接数据库。这些链接库用于计算文档的页面等级(pagerank)
Sorter排序器读取barrels,并根据词的ID(word ID)列表重新生成倒排挡。DumpLexi
con程序把以上形成的索引列表和由Indexer产生的词表融合产生一个新的词表,来匹配
用户的查询条件。
如果更多从用户的角度考虑,可以把整个数据库按照下面建立:
1.与用户相关的DB
用户信息登记表:包括用户的基本个人信息,以及兴趣专业等等
用户的历史查询表:用户的搜索词、词的类型
用户兴趣记录表:对兴趣的描述,更重要的是兴趣与知识点的对应
用户兴趣结构表:与知识表对应
2。与知识分类体系相关的表
索引管理表:知识点的节点级别,类别,自身的描述,上下级相关节点的描述
索引表:建立树状的知识分类体系,分级建表
规范词表:建立查询词之间关系的接口
3。词表管理数据库
新词表:不同用户均使用的频率比较高的词,入此表
更新词表:审查通过的新词入词表
更新老词:要替换掉的老词入词表
转换表:新老词的更替表,级别的变化表
4。知识库结构管理数据库
所有知识的在知识领域中的分类表


--
当一个女孩儿觉得她不太容易了解那个男人的时候,她会爱他。

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 天外飞仙]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:4.192毫秒