关于容灾系统的保护级别

书到用时方恨少,事非经过不知难。这篇文章主要讲述关于容灾系统的保护级别相关的知识,希望能为你提供帮助。
容灾的目标是在各种灾难发生时,还能为业务提供连续不中断的高可用服务。按照容灾系统对应用系统的保护程度可以分为数据级容灾、应用级容灾和业务级容灾。
【关于容灾系统的保护级别】数据级容灾,仅将生产中心的数据复制到容灾中心,在生产中心出现故障时,仅能实现存储系统的接管或数据的恢复。容灾中心的数据既可以是本地生产数据的完全复制(一般在同城实现),也可以比生产数据略微滞后,但必定是可用的(一般在异地实现),而差异的数据通常可以通过一些工具(如操作记录、日志等)手动补回。基于数据级容灾实现业务恢复的速度较慢,通常情况下RTO超过24h,但是这种级别的容灾系统运行维护的成本较低。
应用级容灾,是在数据级容灾的基础上,进一步实现应用的高可用性,确保业务的快速恢复。这就要求容灾系统的应用不能改变原有业务处理逻辑,是对生产中心系统的基本复制。因此,容灾中心需要建立起一套和本地生产环境相当的备份环境,包括主机、网络、应用、IP等资源均有配套,当生产系统发生灾难时,异地系统可以提供完全可用的生产环境。应用级容灾的RTO通常在12h以内,技术复杂度较高,运行维护的成本也比较高。
业务级容灾,是生产中心与容灾中心对业务请求同时进行处理的容灾方式,能够确保业务持续可用。采用这种方式,业务恢复过程的自动化程度高,RTO可以做到30min以内。但是这种级别的容灾项目实施难度大,需要从应用层对系统进行改造,比较适合流程固定的简单业务系统。这种容灾系统的运行维护成本最高。本书中要介绍的容灾多活方案指的就是业务级容灾。
无论任何时候,备份都是非常重要的,要定期测试备份的可靠性。绝大部分数据库产品会提供本地主备复制。主备复制主要为了主库出现故障时系统能自动切换到备库运行,这不在容灾的讨论范围内。根据容灾的距离,数据容灾又可以分成近程数据容灾(同城灾备)和远程数据容灾(异地灾备)两种方式。

  • 同城灾备:将生产中心的数据备份在本地的容灾备份机房中,同城主备两个中心机房的距离在50km以内,它的特点是速度相对较快。由于是在本地,因此建议同时做接管。但是它的缺点是一旦发生大灾难,将无法保证本地容灾备份机房中的数据和系统仍可用。
  • 异地灾备:通过互联网TCP/IP协议,将生产中心的数据备份到异地。备份时要注意“一个三”和“三个不原则”,即必须备份到300km以外,并且不能在同一地震带,不能在同地电网,不能在同一江河流域。这样即使发生大灾难,也可以在异地进行数据回退。当然,对于异地备份,如果想实现接管需要专线连接,一般需要在同一网段内才能实现业务的接管。
对于容灾架构设计时必须考虑两点:一是建立切实可行的应急机制,这主要包含一套基于充分且清楚地将风险予以分类定义的灾难数据恢复计划;二是在危机突然降临时,此计划能被有效地执行,这就要求系统在日常进行灾难演练,以验证数据备份的有效性。全面的异地容灾保护方案,意味着除了要实现本地的切换保护,更要实现数据的实时异地复制和业务系统(包括数据库和应用软件)的实时远程切换。对于IT系统,除上述的灾难之外,与系统相关的计划外死机也可视作灾难。

    推荐阅读