在真实生产环境中,存储故障的发生往往很很复杂,如何决策是进行本地解决故障还是立马进行容灾切换?
收起这个问题与灾备体系、平时灾备演练效果、业务运行的故障时长、业务等级、RPO/RTO等都有关系,不能准确地决策,进行本地 本地解决故障还是立马进行容灾切换 ,如果灾备切换比较成熟,灾备体系建设比较好,当本地存储故障短时间内无法解决时,就可以进行快速切换,恢复业务。当然如果灾备不经常使用,没有把握做切换,也没法进行决策。
这个具体问题具体分析。
我们这边是双活架构,有一次存储写I/O很慢,体现在数据库写操作上,业务交易收到了很大影响,当时直接关闭一个数据中心存储,业务立马恢复,前后只用了10分钟。我讲这个例子,主要是在处理问题时,让决策层做选择时,要提供决策的素材,让决策层有足够的把握去决策。