网络问题成为数据中心中断的主要原因
Uptime Institute一直在研究媒体报道的数据中心中断事件,以追踪导致意外停机的原因。在过去三年中,它已经从传统媒体或社交媒体上报道的162次中断事件中筛选了一些信息。在此期间,可用数据稳步攀升。研究人员收集了2016年27次停机、2017年57次停机和2018年78次停机的数据。
“中断事件发生得越来越频繁。”Uptime Institute的研究执行主任Andy Lawrence表示,Uptime Institute主要的业务是提供弹性服务,建立和运行数据中心的建议,以及认证服务。
Lawrence在该组织发布研究结果之后表示,分布在世界各地的数据中心几乎每天都会发生重大停机,这并不一定意味着停电次数急剧增加,但停机时间越来越受到关注,“我们很清楚,停电中断的影响肯定会增加。”他说。
在Uptime Institute的研究中有一个重要发现:电源与整体故障的关联性较小,而网络和IT系统的关联性较大。这种转变的一个原因是,电力系统的运行比过去更加可靠,内部部署数据中心电力故障的数量越来越少。
Uptime Institute首席技术官Chris Brown说,“在过去的20年里,科技行业一直致力于如何设计电力系统,使IT资产能够继续运行,即使电力系统中发生故障或中断。IT设备采用2N配电系统使得IT系统能够通过一系列单一事件继续运行。”
同时,日益复杂的IT环境导致更多的IT和网络相关问题。“数据现在分布在多个地方,对网络有一些重要的依赖关系,例如应用程序和架构的方式以及数据库复制的方式。这是一个非常复杂的系统,如今干扰该系统的可能性比过去几年要少。”Uptime Institute负责IT优化和战略的副总裁Todd Traver说。
评估数据中心中断的严重性
为了区分可能导致业务崩溃的中断和只是造成不便的中断,Uptime Institute对数据中心的规模进行评估。Lawrence说,评级系统允许研究人员了解其中断模式如何随时间变化。Uptime Institute的数据中心中断规模有五个等级:
1级是可忽略不计的停机中断。其中断是可记录的,但对服务的影响很小或没有明显影响,也没有服务中断。
2级的特点是服务中断影响很小。即使发生服务中断,但对用户、客户或声誉的影响微乎其微。
3级是业务重要的服务中断。它涉及客户或用户服务中断,主要是范围、持续时间或效果有限。财务影响很小甚至没有影响,会产生一些声誉或合规性影响。
第4级是严重的业务或服务中断。涉及服务和/或操作的中断。其后果包括一些财务损失、违规行为、声誉损害和可能的安全问题。这可能造成客户损失。
5级是关键业务或任务关键中断,涉及服务和/或运营的重大和破坏性中断。可能存在巨大的财务损失、安全问题、合规性违规、客户损失和声誉受损。
Uptime Institute研究了三年内所有公开报告的数据中心中断(1至5级)时,发现IT系统和网络问题超过了电源成为主要原因(如图所示)。
网络成为中断的主要原因
当逐年比较数据中心中断的原因时,这种趋势尤其明显。2017年,电力是28%中断的罪魁祸首。2018年,只有11%的电力中断被认为是主要原因。2017年IT系统是32%中断的主要原因,2018年达到35%。网络中断上涨很快:2017年的中断有19%归咎于网络,而2018年则为32%。
Traver在谈到2018年中断数量快速上升的原因时说,“网络中断的迅速增长是中断大幅上升的原因。这不是通过一个或两个站点连接,而是通过三个或四个站点或更多站点连接。网络在IT弹性方面发挥着越来越大的作用。”
此外,随着越来越多的IT资源被移交给服务提供商,并且不再受使用这些资源的组织的直接控制,这就增加了管理和操作的复杂性。
“2018年的三分之二的中断与网络和IT有关。这是与过去几年相比的巨大变化。”Traver说。
图片新闻
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论