网络问题成为数据中心中断的主要原因
深入了解数据中心停机时间
Uptime Institute的研究深入探讨了数据中心中断的具体原因。在网络方面,其中断的常见原因包括:
光纤在数据中心外部切断,路由选择不足。
主要交换机间歇性故障,未部署辅助路由器。
没有备份的主要交换机故障。
维护期间的流量配置不正确。
路由器和软件定义的网络配置错误。
非备份单个组件(如交换机和路由器)断电。
Traver表示,错误配置的路由器和软件定义的网络是常见的网络问题。他们应该是通过测试检测出来。
Traver说,“当涉及到光纤切断时,一些公司往往不知道自己有一个单一的故障点。他们可能有两个独立的供应商,但他们不知道,光纤是在同一条沟槽中铺设的。这些公司没有做适当的尽职调查来确定这一点。”
当IT成为罪魁祸首时,列举的一些原因包括:
管理不善的升级,软件级别的测试不充分。
大型磁盘驱动器或存储区域网络的故障和后续数据损坏。这可能是由硬件故障引起的,由于配置或编程错误而加剧这种情况。
负载平衡或流量管理系统中的同步失败或编程错误。
错误编程的故障/同步或灾难恢复系统。
非备份单个组件(如服务器或大型磁盘驱动器)断电。
Lawrence在谈到负载均衡/流量管理问题表示,当组织尝试更广泛地分发IT资源时,可能会出现编程错误和同步问题。他说,“减少对单一网站的依赖通常是更广泛战略的一部分,就像挤压气球一样,问题突然出现在其他地方。”
Traver补充说,“当组织没有真正规划所有平台的应用程序和数据,或者他们没有经常测试它们时,就会出现问题。”
当电力成为罪魁祸首时,导致停电的一些主要原因包括:
雷击,导致浪涌和断电。备份软件/配置失败。
转换开关出现间歇性故障,导致无法启动发电机或转移到第二个数据中心。
UPS故障和无法转移到二级系统。
操作人员错误操作,关闭电源或配置错误。
市电中断以及发电机或UPS的后续故障。
由电涌引起的IT设备损坏。
IT设备未配备双电源供应,无法切换到二级供电。
Brown说,在与电力有关的中断中,都是常见的问题。他说,“数据中心工程师一直在努力解决这些问题,例如如何通过设计缓解问题。”
Traver表示,“总的来说,组织需要更加关注数据中心的弹性,了解系统是如何设计的。并且也知道它是如何失败的,并为失败做好计划。这是我认为缺失的部分。”他说。
Lawrence 说,“设备越来越好,管理越来越好,经验越来越丰富。数据中心正在成为一个更成熟的行业。但即便如此,停机中断仍然是一个非常严重和付出惨重代价的问题。”
图片新闻
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论