Algorithm 版 (精华区)
发信人: Lerry (想不开·撞树), 信区: Algorithm
标 题: 动态网页给搜索技术带来困扰
发信站: 哈工大紫丁香 (2002年06月05日17:11:20 星期三), 站内信件
:“活的老鼠”不好抓——动态网页给搜索技术带来困扰
版权所有:ulika1999 转贴自http://www2.ccw.com.cn/01/0123/b/0123b01_7.asp 提
交时间:21:33:59 06月21日
“活的老鼠”不好抓
——动态网页给搜索技术带来困扰
● 丁一
----------------------------------------------------------------------------
----
何谓动态网页
所谓动态网页是指在WWW服务器上并不存在实际的一个页面供服务器读取,与之相对应。
它在服务器上实际以一个可执行的程序文件存在,这个程序文件可以产生HTML格式的信
息输出,通常人们把这样的程序叫做CGI程序。当服务器接收到客户端对一个动态网页的
访问请求时,Web服务器通过调用相应的程序文件即CGI程序文件,并把包含在Http请求
中的程序参数传递给CGI程序,程序按照调用参数实时地产生HTML输出,Web服务器再将
程序产生的HTML输出返回给用户。下面是一个表示动态网页的URL的例子:
http://search.sina.com.cn/cgi-bin/search/search.cgi?_searchkey=html&_ss=sina
在这个例子中,我们实际上是在search.sina.com.cn(新浪网搜索引擎)中进行“html”
一词的搜索,URL中的CGI程序路径是“/cgi-bin/search/search.cgi”,而我们通过该
URL传递给CGI程序的参数是“_searchkey=html&_ss=sina”。
有所得必有所失
相对于WWW中的动态页面来说,传统的静态网页是由网页编写人员按照HTML语言编写存放
在WWW服务器上的实际页面文件,当我们访问这个静态页面时,WWW服务器在接收到由客
户端发送的Http请求之后,按照客户端的要求读取相应目录中静态网页的HTML内容并将
其返回给客户。
以往的网页只有文字和图象,静态而乏味。现在不同了,动态网页实时地生成HTML网页
信息,尤其是通过CGI程序与Web数据库等的结合,人们可以通过一个CGI程序生成我们习
惯的HTML文件帮助用户方便地在WWW这个庞大的数据库系统中访问数据信息,而这些任务
如果要利用人工编写的HTML生成,其工作量是不可想像的。由于动态网页给人们带来了
极大的方便,它在近几年来被广泛应用,同时也促进了WWW的迅猛发展。但在动态网页迅
速发展的同时我们也付出了代价。
动态网页带来搜索困扰
下面我们将具体介绍动态网页对搜索引擎带来的困扰,并谈谈搜索引擎对动态网页的解
决方案。
在早期搜索引擎系统设计过程中,对动态网页大多没有进行特殊处理,而是对所有的UR
L一视同仁,但在实际运行过程中,发现越来越多的动态网页给搜索技术的实现带来很大
困扰。
对于WWW服务器来说,对于用户每一个动态网页的请求,服务器都必须调用CGI程序,等
待CGI程序的输出,然后才能够向客户返回页面结果。而无论是服务器对CGI程序的调用
,还是CGI程序的运行都需要花费CPU、内存等系统资源。这样,对于发送动态网页请求
的客户端来说,由于程序的运行需要时间,客户端需要较长时间的等待。尤其是当WWW服
务器处于繁忙状态时,客户需要等待更长的时间才能得到所需的动态页面资源。对于服
务端来说,如果服务器上运行的CGI程序没有较好的程序结构的话,则程序在服务器端还
会造成更大的影响。
具体到搜索引擎,对于搜索器即收集系统来说,系统的目的是要实现快速、广泛、高质
量的信息收集。在系统自动收集的过程中,频繁地发送请求生成动态网页会造成两个方
面的副作用:其一,在WWW服务器端引起本系统和其他访问该服务器资源的用户的竞争,
给服务器造成较大的系统压力,导致服务器效率急剧下降甚至瘫痪,对其网络造成冲击
;其二,很多的动态网页由于程序运行效率不高,加之有时网络情况恶化,从我们发送
出Http请求到最终收到服务器结果页面返回,我们经常要等待较长的时间,甚至有可能
在系统的超时时间已经到达,我们还不能够得到所需的资源。在这样的情况下,如果系
统频繁地为处理动态网页请求所占用,不仅会极大地影响系统对静态网页的收集效率,
同时也对网站造成了巨大的压力,使网站其他服务能力大打折扣。
特殊处理动态网页
由此,为了提高系统的运行效率和减小系统对网络的冲击,我们必须对动态网页进行特
殊地处理。在搜索引擎搜索器中,我们依靠URL路径中的“?”符号去断定一个网页是否
属于动态网页,在进行URL调度时,我们对动态网页的权值重新加以考虑适当进行降权处
理,并将每次调度出的动态URL限制在一定的百分比之下。按照这种方法,我们可以有效
地提高静态页面在URL调度中的优先权,从而降低了动态网页对系统造成的负面影响。
--
当一个女孩儿觉得她不太容易了解那个男人的时候,她会爱他。
※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 天外飞仙]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:3.321毫秒