1 引言
從美國9.11世貿大樓的恐怖襲擊,到我國的5.12汶川特大地震,“災難”這個詞對我們來說已并不陌生。前一段時間的日本島9.0級巨大地震,更是令人感到無比的震撼。隨著企業(yè)信息化建設的迅猛發(fā)展,企業(yè)信息系統(tǒng)已成為現(xiàn)代企業(yè)運營的基礎平臺,企業(yè)數(shù)據(jù)更是關系到企業(yè)自身利益的核心資源。具Gartner Group統(tǒng)計:在經歷大型災難而導致系統(tǒng)停運的公司中有2/5再也沒有恢復運營,剩下的公司中也有1/3在兩年內破產。美國明尼蘇達大學的研究表明:在遭遇災難的同時又沒有災難恢復計劃的企業(yè)中,將有超過60%在兩到三年后退出市場。未雨綢繆,如何應對災難性事件的發(fā)生,保障企業(yè)數(shù)據(jù)的安全性和信息系統(tǒng)的業(yè)務連續(xù)性,已成為企業(yè)信息化建設中需要重點思考的課題。本文將對企業(yè)容災系統(tǒng)建設的基本概念、建設等級、建設方案及恢復演練等方面的內容進行探討,旨在幫助企業(yè)加快容災系統(tǒng)的建設步伐,有的放矢,合理構建企業(yè)信息系統(tǒng)的避風港。
2 認識容災技術
災難恢復防范的災難包括地震、水災等自然災害以及火災、戰(zhàn)爭、恐怖襲擊、網絡攻擊、設備系統(tǒng)故障、人為破壞等無法預料的突發(fā)事件。容災的主要目標是提高抵御災難和重大事故的能力、減少災難打擊和重大事故造成的損失、確保重要信息系統(tǒng)的數(shù)據(jù)安全和作業(yè)持續(xù)性。在容災領域有一些關鍵的術語,了解和掌握這些概念將有助于容災系統(tǒng)建設的方案設計和實施,分別介紹如下:
(1)災難恢復(或稱容災備份)(disaster recovery,DR):是指利用技術、管理手段以及相關資源,將信息系統(tǒng)從災難造成的故障或癱瘓狀態(tài)恢復到可正常運行狀態(tài),并將其支持的業(yè)務功能從災難造成的不正常狀態(tài)恢復到可接受狀態(tài)的活動和流程。(《重要信息系統(tǒng)災難恢復指南》)。
(2)恢復時間目標(Recovery Time Objective,以下簡稱RTO):RTO表示了從災難發(fā)生直到業(yè)務流程再次運行(即被恢復)的時間。RTO有兩個組成部分,明確災難發(fā)生后指示恢復流程開始的決策時間(Decision Time)和進行災難恢復流程的實施時間(Deployment Time)。一般來說,恢復時間(RTO)越短,那么災難恢復方案的成本就越高,但是由于災難造成的業(yè)務損失就越;反之,恢復時間(RTO)越長,災難恢復方案的成本較低,但是由于災難造成的業(yè)務損失就較大。
(3)恢復點目標(Recovery Point Objective,以下簡稱RPO): RPO是災難發(fā)生后業(yè)務能夠容忍的數(shù)據(jù)丟失量,或者說災難發(fā)生造成的數(shù)據(jù)丟失量。一般來說, RPO越高(即,丟失的數(shù)據(jù)越少),容災的成本越高,但是由于災難造成的業(yè)務損失就越。环粗,RPO越低(即,丟失的數(shù)據(jù)較多),容災的成本越低,但災難造成的業(yè)務損失也越大。
3 容災系統(tǒng)的建設等級
建設容災系統(tǒng)前企業(yè)必須對自身IT現(xiàn)狀做詳細調研分析,圍繞RTO、RPO兩個主要業(yè)務指標,參照國家標準《重要信息系統(tǒng)災難恢復指南》,通過科學的手段分析并制定建設等級、建設目標。國標中包含七個關鍵要素:數(shù)據(jù)備份系統(tǒng)、備用基礎設施、備用數(shù)據(jù)處理系統(tǒng)、備用網絡系統(tǒng)、技術支持能力、運行維護管理能力、災難恢復預案,按照這七個要素將災難恢復劃分為六個等級,等級越高,容災系統(tǒng)越完善、企業(yè)受到的經濟損失就越小,但同時企業(yè)投入的人力、物力、財力就越高。一般企業(yè)根據(jù)業(yè)務系統(tǒng)重要程度的不同,經常采用等級為第2級、第3級和第5級的容災策略。
第6級為最高等級,相對于第5級的實時數(shù)據(jù)復制而言,要求實現(xiàn)遠程數(shù)據(jù)實時備份,實現(xiàn)零丟失;備用數(shù)據(jù)處理系統(tǒng)具備與生產數(shù)據(jù)處理系統(tǒng)一直的處理能力并完全兼容,應用軟件是集群的,可以實現(xiàn)實時無縫切換,并具備遠程集群系統(tǒng)的實時監(jiān)控和自動切換能力;對于備用網絡系統(tǒng)的要求也加強,要求最終企業(yè)可通過網絡同時接入主、備中心;備用場地還要7×24專職操作系統(tǒng)、數(shù)據(jù)庫和應用軟件的技術支持人員,具備完善、嚴格的運行管理制度。
4 容災系統(tǒng)的建設步驟
企業(yè)容災系統(tǒng)的建設需要遵循國家、行業(yè)的相關文件規(guī)定,依據(jù)科學的步驟來逐步執(zhí)行。典型的容災系統(tǒng)建設步驟大致如下:
4.1業(yè)務分析
這是容災系統(tǒng)建設方法論的第一步,企業(yè)需要根據(jù)自身現(xiàn)狀收集業(yè)務需求、災難類型、技術基礎架構(如企業(yè)內部IT架構、IT部門組織、使用技術、軟硬件、網絡架構等),確定需要防范的風險,在風險分析中確定不同的業(yè)務級別的業(yè)務恢復時間RTO和可承受的數(shù)據(jù)損失程度RPO。
4.2策略制定
根據(jù)第一個階段得出的結果,確定容災系統(tǒng)的投入預算,選擇切合實際、投資合理、可靠的容災方案。這個階段需要著重考慮容災中心的選址、兩地間的距離、運營方式、容災中心的規(guī)模、合適的技術、合適的產品。
4.3方案實施
根據(jù)制定的容災方案,制定詳細的方案和項目計劃,分階段進行實施。實施內容包括技術實施、場地實施、、初步的DRP(容災恢復計劃)開發(fā)、首次演練、文檔及培訓等。
4.4測試演習維護
此階段主要是測試和驗證容災系統(tǒng)、維護容災系統(tǒng)的正常運行、制定容災管理制度和流程、人員&技術培訓、演習。
5 典型容災方案的對比分析
IT系統(tǒng)構成的不同使容災技術類型也有很大的差異,各類技術與現(xiàn)有IT系統(tǒng)的吻合程度主要取決于系統(tǒng)本身的組成和建設要求。比如,IT系統(tǒng)由多操作系統(tǒng)組成,并且容災系統(tǒng)不能更改生產系統(tǒng)原有的格局,則可行的技術手段就極為嚴格,需要相當慎重的選擇。以往,由于容災技術實現(xiàn)手段有限,主要有主機型和存儲型兩大類容災方式,而今天,出現(xiàn)了具有更強能力的存儲網絡型的虛擬化容災方式,使得容災的技術手段開始豐富起來。
5.1主機型遠程容災
基于主機的容災技術,簡單地說,就是通過安裝在服務器的數(shù)據(jù)復制軟件,或是應用程序提供的數(shù)據(jù)復制、災難恢復工具(如數(shù)據(jù)庫的相關工具),利用TCP/IP網絡連接遠端的容災站點的服務器,實現(xiàn)異地數(shù)據(jù)復制。其中最為成熟的和應用最廣泛的就是Veritas Volume Replicator(VVR)軟件。
5.2存儲系統(tǒng)型異地容災
顧名思義是基于存儲系統(tǒng)(光纖磁盤陣列、NAS)的模式。通過存儲系統(tǒng)內建的固件(firmware)或操作系統(tǒng),通過IP網絡或DWDM、光纖通道等傳輸界面連結,將數(shù)據(jù)以同步或異步的方式復制到遠端。知名的存儲系統(tǒng)型遠程容災方案有SRDF、TrueCopy、PPRC等。
5.3虛擬化容災
一種網絡存儲型遠程容災架構,是在前端應用服務器與后端存儲系統(tǒng)之間的存儲區(qū)域網絡(SAN),加入一層存儲網關,這個網關和我們所了解的網絡網關不同,它結合了網絡存儲專用管理器,前端連接服務器主機,后端連接存儲設備。它的角色就好像是存儲網絡中的交通警察,所有的I/O都交由它來控制管理。當然,現(xiàn)在也出現(xiàn)了旁路(side-band)的控制方式,對于I/O流量進行旁路監(jiān)控和分流,實現(xiàn)異地數(shù)據(jù)復制。
由于數(shù)據(jù)復制是通過存儲網關來執(zhí)行,應用服務器只需數(shù)據(jù)庫執(zhí)行代理程序,相對于主機型遠程容災來說,它的性能影響十分低。另外,通過存儲網關的虛擬化技術,可以整合前端異構平臺的服務器和后端不同品牌的存儲設備,本地端和災備端的設備無需成對配置,企業(yè)可以根據(jù)RTO和RPO,在遠端建立完整的熱備份中心。當本地端發(fā)生災難時立即接管業(yè)務運行,或是采取僅在災備端安裝存儲設備的溫站配置,先保護數(shù)據(jù)的完整性和安全性,在本地端修復完成后再進行恢復。
除此之外,虛擬化容災技術還具有以下優(yōu)勢:
(1)構造時不需更換原有的IT基礎架構,只需在原本的存儲區(qū)域網絡中加入存儲網關,本地端的主機和存儲設備可以是任何品牌,災備端的主機和存儲設備也不需和本地端相同,企業(yè)甚至可以在災備端采用等級較低的存儲系統(tǒng)(如SATA磁盤陣列),根據(jù)統(tǒng)計,投資成本可節(jié)省多達30%左右,對于那些有構造遠程容災的熱切需要而IT預算又十分有限的企業(yè)來說,虛擬化遠程容災無疑是最佳的選擇。
(2)針對數(shù)據(jù)庫專用代理確保數(shù)據(jù)庫具有完整的容災和啟動能力,無需擔憂無法啟動的現(xiàn)象發(fā)生。更為重要的是,在存儲數(shù)據(jù)上進行的多點快照等增值功能,能使得各種數(shù)據(jù)的人為破壞得到瞬間恢復的能力(也就是歷史數(shù)據(jù)的恢復能力,這在前兩種容災方式中是一種恢復的盲點)。
(3)對于異地傳輸?shù)膸捳加,虛擬化容災方式具有各類調優(yōu)方式,使得這種方式能夠最大限度適應企業(yè)現(xiàn)有的網絡環(huán)境。
6 容災系統(tǒng)的恢復演練
建設容災系統(tǒng)的目的就是在災難發(fā)生后能夠盡快恢復業(yè)務系統(tǒng),減少IT系統(tǒng)故障給企業(yè)帶來的經濟損失。因此,完成系統(tǒng)建設后,還必須定期組織嚴格規(guī)范的災備演練、測試活動,規(guī)范和完善企業(yè)IT系統(tǒng)的應急體制,加強應急團隊建設,提高維護人員的業(yè)務水平,從而在災難發(fā)生后能夠快速、高效的完成業(yè)務恢復。
容災的演練計劃有以下幾種方式:
6.1計劃性測試/演練
災難恢復計劃要求建立業(yè)務連續(xù)性管理團隊,不僅涉及IT部門,而且關聯(lián)眾多業(yè)務部門,為減少演練對于生產的影響,可以將恢復計劃細化到很小的單位或者模塊,逐個應用進行接管驗證。當模塊都成功通過測試后,測試的范圍可以擴充到更多的模塊。
6.2突發(fā)演練
在容災系統(tǒng)全面完成并且制定了全面的恢復計劃后,可以在進行了一定備份的情況下安排突發(fā)性的測試。當然,業(yè)務連續(xù)性管理小組需要確保業(yè)務不會因為突發(fā)性測試造成不可接受的損失和業(yè)務中斷。
演練對于提高團隊的恢復經驗和協(xié)作能力以及確保災難恢復計劃的可行性是至關重要的。所有的演練結果都要進行評估、記錄,并且生成到容災流程里。
7 總結
災難的發(fā)生是“小概率、高風險”事件,隨著企業(yè)信息化水平的不斷提高,為規(guī)避風險,容災系統(tǒng)對于企業(yè)重要信息系統(tǒng)已成為必不可少的信息安全基礎設施。容災系統(tǒng)的建設是一個系統(tǒng)工程,只有科學合理地進行容災系統(tǒng)的設計與部署,才能對企業(yè)信息系統(tǒng)的安全運行起到根本的保障作用。因此,企業(yè)在容災系統(tǒng)的建設過程中,必須充分考慮重要信息系統(tǒng)的抗毀性與災難恢復,合理選擇容災技術,制定和不斷完善信息安全應急處置預案,提高應急處置和災難恢復能力,才能保證在遭遇重大災難和重大事故時發(fā)揮有效的容災功能,真正構建企業(yè)信息系統(tǒng)的避風港。
核心關注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務領域、行業(yè)應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領域的管理,全面涵蓋了企業(yè)關注ERP管理系統(tǒng)的核心領域,是眾多中小企業(yè)信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.ezxoed.cn/