ITValue社区

系统宕机6大疑点

作者:ITValue特约专家 陈罡 / 日期:2010-06-07

近期ITValue社区在热议“双机热备”这一话题,其实从系统整体来看,当双机热备起作用,必然是发生了导致系统使用故障的事件。从多年的运行经验出发,我总结了造成系统不可用的6个主要原因和解决办法,供大家工作时参考,希望能尽量避免宕机的发生。

原因1:网络故障。

原因2:应用系统本身所固有的问题。
当处理某些问题时,资源耗用过大,造成系统性能急剧下降,导致整个系统几乎无法使用。

原因3:基础设施问题。
包括电源、空调等的故障以及维修保养造成停机。空调故障造成过热而使得存储系统热保护,进而主机也进入热保护状态,但主要原因还是机房设计不合理所引起的。

原因4:系统部署方案的不合理。
因为备份方案的问题,造成操作系统的文件系统崩溃进而导致宕机。

原因5:人为原因。
曾因电工误操作,关闭所有UPS的输出开关,造成所有设备停机。

原因6:硬件故障。

原因1网络问题的发生,是一个综合性的管理问题,病毒防护的缺失,网络滥用等等;原因2和4主要是对系统的不熟悉导致解决方案的偏差,从管理上找原因,可能是未能全面正确的评估——但这个确实比较难,很多问题是因为本身的业务模式所决定的解决方案的独特性,进而使用了非普遍使用的方案和技术,增加了风险;原因3是未能正确平衡投资与系统可用性的缘故,未能随系统应用的发展而及时调整基础平台;原因5的发生绝对是基本管理缺失;原因6,硬件故障是真正的依从概率而发生的,反映了系统运维管理的缺失。

我总结,双机热备方式只是一个保险措施,CIO只有更多的加强IT管理,将技术、人、流程、IT风险管理等综合考虑,才是IT管理的价值所在。

(本文作者为丽晶时代电子线缆有限公司信息管理部经理)

延伸阅读

推荐阅读

共有13位社区会员对该文章有贡献:

  • 李圆
  • 刘湘明 《商业价值》杂志出版人、ITValue发起理事
  • 杨小薇
  • 许明  厦门建发集团信息化总监
  • 陈东锋 恒大地产副总裁
  • 冯太川
  • 杜建成 江苏道吉面料有限公司IT总监
  • 陈其伟 独立CIO、ITValue发起理事
  • 丁春海
  • 周华胜
  • 仲强
  • 高峻 德国舍弗勒投资(中国)有限公司CIO
  • 刘世林

该知识文章由以下社区讨论提炼而成:

ITValue社区