Network 版 (精华区)

发信人: wxl (小亮), 信区: Network
标  题: 网通断网引发反思 亟需建立故障应急系统 
发信站: 哈工大紫丁香 (Mon Jul 18 08:38:28 2005), 转信

  7月12日下午2时许,承载着超过200万用户的北京网通ADSL和LAN宽带网,突然同时大面积中断。北京网通随即投入大量人力物力紧急抢修。至当日3时30分左右,网络开始逐渐恢复正常。据初步估计,这次事故大约影响了20万北京网民。

  有消息称,此次事故是由网通核心路由器的软件设置出现问题而引起,但目前发生问题的具体位置和原因仍在调查中。有专家对记者表示,鉴于目前数据通信网络发展的成熟度,故障原因很可能由于维护造成。

  近年来,由于设备故障引起网络大面积中断的故障时有发生。今年4月11日,中国电信部分省市的宽带网络也曾发生类似的长达30分钟的大面积中断事件,后来查明问题出在城域网部分三层交换机和汇聚层路由器的欠稳定硬件系统上。

  接二连三的重大事故为运营商敲响了警钟。“运营商的当务之急并非宽带提速,而是如何保证宽带接入的可靠性。”中国电信广东研究院研究员左健说,“建立故障应急系统、严格设备审查体制、完善内部管理操作流程已经列在了运营商的日程表上。”

  复杂的黑匣子

  一个小黑匣子就可以完整记录一架飞机失事的全部原因,但是对于有着上万节点、几十万用户的庞杂的电信网络来说,人们却很难找到一个简单的黑匣子来记录故障过程,因为故障原因本身难以简单确认。

  北京ADSL和LAN宽带网故障发生后,网通有关负责人在第一时间作出澄清:此事故并非由网通员工操作失误所引起,而是互联网路由器的原因。但对于如此大面积、长时间的中断服务故障,很难用设备原因来一概而论。是设备自身的不稳定还是软件出现了BUG,又或是电源、室温、环境导致的问题?

  有业内专家认为:此次故障很难被简单地认定为设备故障。首先,被认为出现故障的设备是目前比较主流的路由器之一,不只是网通,在其他运营商的网络上也有广泛应用,如果设备本身存在问题,那么中断故障不应仅仅局限于网通的网络。其次,从故障时间上分析,在一个小时内才被排除的故障不会是简单的误操作,很有可能是由设备或软件升级引起的长时间断网。

  软伤作祟

  故障发生后,网通向用户作出承诺:类似故障导致的服务事故,今后不会出现,这种大规模的断网现象也不可能再次发生。但是如何兑现承诺?网通和所有运营商要走的路还很长。

  据知情人士透露,目前运营商在保证宽带网络可靠性时普遍采用了三重保险:首先,运营商会在业务开通前进行宽带112系统测试,保证线路可靠性;其次,对DSLAM设备选择十分慎重,一般会排除不稳定的早期产品;最重要的是在路由器的连接上实现“双归属”,既用两条线路实现接入路由器与上一级路由器的连接,一旦一台路由器发生故障,可以立刻切换到另一台路由器上,从而确保网络在紧急时刻的通信安全。

  事实上,尽管运营商已经部署了多层的防护措施,但是网络故障还是时有发生。纠其原因,左健认为并非是技术落后或产品欠佳的硬伤作祟,而是由于故障应急系统、网络维护制度、设备引入体制等软环境的不健全引发了网络频繁瘫痪。

  完善软环境

  所有防范措施都不可能百无一失,一旦事故真的发生,如果运营商没有一套完善的故障应急系统,其造成的损失将不可估量。

  故障应急系统虽然是一套事后补救的措施,但它却能够将事故对企业造成的负面影响降到最低。此次网通的网络故障同样考验了网通网络维护部门的应急反应能力。有分析人士认为,虽然网通的大部分用户在一个小时内便恢复了网络连接,但相比于这次事故所波及的范围,以及网通由此所受到的经济和企业形象上的损失,网通的故障应急系统显然还不够称职。

  除了建立完善的故障应急系统外,日常网络维护的规范化、标准化也是运营商规避网络风险的有效途径。

  “尽管Internet服务遵循尽力而为的策略无可厚非,但是谁会愿意为一个连可靠连接都无法保证的网络买单?”有业内人士在网通ADSL服务中断后发出了这样的感叹。事实上,在数据业务飞速发展、IP承载网独领风骚的今天,该是运营商构建可靠网络的时候了。

--

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.239.188]
[百宝箱] [返回首页] [上级目录] [根目录] [返回顶部] [刷新] [返回]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:3.885毫秒