系统容灾解决方案
- 格式:docx
- 大小:365.19 KB
- 文档页数:13
系统容灾解决方案
容灾基本概念
容灾是一个范畴比较广泛的概念,广义上,我们可以把所有与业务连续性相关的内容都纳入容灾。容灾是一个系统工程,它包括支持用户业务的方方面面。而容灾对于IT而言,就是提供一个能防止用户业务系统遭受各种灾难影响及破坏的计算机系统。容灾还表现为一种未雨绸缪的主动性,而不是在灾难发生后的“亡羊补牢”。
从狭义的角度,我们平常所谈论的容灾是指:除了生产站点以外,用户另外建立的冗余站点,当灾难发生,生产站点受到破坏时,冗余站点可以接管用户正常的业务,达到业务不间断的目的。为了达到更高的可用性,许多用户甚至建立多个冗余站点。
容灾系统是指在相隔较远的异地,建立两套或多套功能相同的IT系统,互相之间可以进行健康状态监视和功能切换,当一处系统因意外(如火灾、地震等)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作。容灾技术是系统的高可用性技术的一个组成部分,容灾系统更加强调处理外界环境对系统的影响,特别是灾难性事件对整个IT节点的影响,提供节点级别的系统恢复功能。
要实现容灾,首先要了解哪些事件可以定义为灾难?典型的灾难事件是自然灾难,如火灾、洪水、地震、飓风、龙卷风、台风等;还有其它如原提供给业务运营所需的服务中断,出现设备故障、软件错误、网络中断和电力故障等等;此外,人为的因素往往也会酿成大祸,如操作员错误、破坏、植入有害代码和病毒袭击等。现阶段,由于信息技术正处在高速发展的阶段,很多生产流程和制度仍不完善,加之缺乏经验,这方面的损失屡见不鲜。
容灾的七个层次
等级1:
被定义为没有信息存储的需求,没有建立备援硬件平台的需求,也没有发展应急计划的需求,数据仅在本地进行备份恢复,没有数据送往异地。这种方式是成本最低的灾难恢复解决方案,但事实上这种恢复并没有真正达到灾难恢复的能力。
一种典型等级1方式就是采用本地磁带库自动备份方案,通过制定相关的备份策略,可以实现系统等级1备份。
等级2:
是一种为许多站点采用的备份标准方式。数据在完成写操作之后,将会送到远离本地的地方,同时具备有数据恢复的程序。在灾难发生后,在一台未启动的计算机上重新完成。系统和数据将被恢复并重新与网络相连。这种灾难恢复方案相对来说成本较低,但同时有难以管理的问题,即很难知道什么样的数据在什么样的地方。这种情况下,恢复时间长短依赖于何时硬件平台能够被提供和准备好。
典型方式就是将数据备份到本地磁带介质上,然后通过运输方式(如“卡车”)将备份介质送往异地保存,而异地没有主机系统。当灾难发生时,再使用新的主机,利用数据备份介质(磁带)将数据恢复起来。
等级3:
相当于等级2再加上具有热备份能力站点的灾难恢复。热备份站点拥有足够的硬件和网络设备去支持关键应用的安装需求。对于十分关键的应用,在灾难发生的同时,必须在异地有正运行着的硬件提供支持。这种方式与等级2方式的区别是在异地有一个热备份站点,该站点有主机系统,平时利用数据备份介质(磁带)将数据恢复到主机系统起来。一旦发生灾难,利用该主机系统将数据恢复。
这种情况下,由于备份介质是采用运输方式送往异地,可能会有一天、甚至一周的数据丢失。由于备份站点己经有主机系统,数据恢复典型地需要一定的时间。
等级4:
是在等级3的基础上用电子链路取代了卡车进行数据传送的灾难恢复。接收方的硬件必须与主站点物理分离,在灾难发生后,存储的数据用于灾难恢复。由于热备份站点要保持持续运行,因此增加了成本。但由于采用了电子链接方式,取消了传输工具,这样提高了灾难恢复的速度。
该方式的特点是用电子数据传输取代了使用传统交通工具(“卡车”)来传输备份数据。由于采用了电子数据传输,数据丢失的时间可能是一天甚至更短,而数据恢复则可能是一天的时间。
等级5:
第二站点(备份站点)不仅仅是一个分离的备份系统,还处于活动状态(运行)。而备份数据则可以双向传输,数据的丢失与恢复时间达到小时甚至分钟级。
这种灾难恢复要求两个站点同时处于活动状态并管理彼此的备援数据,允许备援行动在任何一个方向发生。接收方硬件必须保证与另一方平台物理分离。这种情况下,工作负载可以在两个站点之间被分担,站点1成为站点2的备份。在两个站点之间,在线关键数据的拷贝不停地相互传送着。在灾难发生时,需要的关键数据通过网络可迅速恢复,通过网络的切换,关键应用的恢复时间也可降低到了小时级或分钟级。
等级6:
在等级5的基础上使用了镜像技术,也就是说,在更新请求被认为满意之前,等级6需要应用站点与备援站点的数据都被更新。数据在两个站点之间相互映像,由远程两步提交来同步,因为关键应用使用了双重在线存储,所以在灾难发生时,仅仅传送中的数据被丢失,恢复的时间被降低到了分钟级。
等级6方式的数据不仅在本地进行确认,而且需要在异地(备份)进行确认。因为,数据是镜像地写到两个站点,所以灾难发生时只会丢失正在传输的一部分数据,因而可以在分钟级进行数据恢复。
等级7:
是灾难恢复中最昂贵的方式,也是速度最快的恢复方式,它被认为是灾难恢复的最高级别,可以实现零数据丢失率。等级7方式在本地和远程的所有数据被更新的同时,利用了双重在线存储和完全的网络切换能力。等级方式不仅保证数据的完全一致性,而且存储和网络等环境具备了应用的自动切换能力。一旦发生灾难,备份站点不仅有全部的数据,而且应用可以自动接管,实现无数据丢失的备份。
本文着重讨论的等级5、6、7层的容灾解决方案。
容灾需要考虑的内容
在通常情况下,IT系统相关的灾难备份方案设计都必须考虑以下五大因素,
灾难类型:
需要考虑哪些灾难?怎样的灾难?会使业务中断多久?
恢复速度RTO(Recovery Time Objective ):
灾难发生后需要多久来启动及运行系统?能否承受数天或数分钟的等待?
恢复程度RPO(Recovery Point Objective ):
需要恢复每条记录和交易吗?可以使用昨天或上星期的数据吗?需要恢复一切吗?有相关的文件吗?什么是合法隐含的要求?有少数的一组人输入交易吗?他们可以重新输入灾难期间丢失的交易吗?这些交易十分重要而不容许丢失吗?
可用的技术:
必须结合考虑所选技术在本地区的适用性、实现条件以及在实施时是否受某些现有条件的制约?
异构环境问题:
其实质是投资保护问题。如果由于采购了异构的硬件平台,而导致对老设备无法利用,或者今后无法使用其它硬件平台,势必造成投资的巨大浪费。
容灾中心综合利用问题:
容灾中心的建设,势必花费大量的资金和人力,如果容灾中心的功能只是静态地等待概率事件发生时产生效用,其实也是一种巨大的浪费,因此,容灾中心的综合利用是有效提高容灾中心投资回报的手段。最常见的方式有:利用容灾中心的数据实现离线数据挖掘,甚至于建立两个同时可用的生产中心,互为容灾等。
容灾中心、容灾服务的扩展问题: