引言
隨著社會發(fā)展和科技進(jìn)步,企業(yè)信息系統(tǒng)面臨的風(fēng)險(xiǎn)和威脅越來越大,保證信息系統(tǒng)的業(yè)務(wù)連續(xù)運(yùn)營是IT人員在建設(shè)企業(yè)IT架構(gòu)中首先要考慮的問題。信息系統(tǒng)要保持業(yè)務(wù)連續(xù),最大的威脅不是來自于火災(zāi)、地震等小概率、大影響的災(zāi)難,更多地受到諸如人為錯(cuò)誤、流程缺陷等事件的威脅。這些威脅時(shí)刻潛伏在企業(yè)的周圍,隨時(shí)一觸即發(fā),會影響信息系統(tǒng)的業(yè)務(wù)連續(xù)性,使企業(yè)造成重大損失。
本文從保證業(yè)務(wù)連續(xù)的視角出發(fā),對信息系統(tǒng)的業(yè)務(wù)連續(xù)性框架和關(guān)鍵技術(shù)進(jìn)行研究,以期指導(dǎo)信息系統(tǒng)的業(yè)務(wù)連續(xù)性建設(shè)。
一 風(fēng)險(xiǎn)分析
影響信息系統(tǒng)業(yè)務(wù)連續(xù)性的風(fēng)險(xiǎn)有許多,圖1列出了主要的風(fēng)險(xiǎn)。
根據(jù)風(fēng)險(xiǎn)可能造成破壞的程度不同,將風(fēng)險(xiǎn)分為兩大類:一類是災(zāi)難,即可能會對數(shù)據(jù)中心產(chǎn)生巨大破壞的風(fēng)險(xiǎn);另一類是故障,不會對數(shù)據(jù)中心產(chǎn)生巨大破壞,但是會影響信息系統(tǒng)的正常運(yùn)行。保證信息系統(tǒng)的業(yè)務(wù)連續(xù)性,要有應(yīng)對這兩類風(fēng)險(xiǎn)自動調(diào)整和快速反應(yīng)的能力。
二 業(yè)務(wù)連續(xù)性框架
考慮災(zāi)難和故障這兩類風(fēng)險(xiǎn),為信息系統(tǒng)提供業(yè)務(wù)連續(xù)性應(yīng)該包括以下兩個(gè)方面:
2.1 高可用性:是指提供在本地故障情況下能繼續(xù)訪問應(yīng)用的能力,不論這個(gè)故障是業(yè)務(wù)流程、物理設(shè)施、IT軟/硬件的故障。另外,當(dāng)所有設(shè)備無故障時(shí)應(yīng)能保持業(yè)務(wù)連續(xù)運(yùn)行,用戶不需要僅僅因?yàn)檎5膫浞莼蚓S護(hù)而需要停止應(yīng)用。
2.2 災(zāi)難恢復(fù):是指當(dāng)災(zāi)難破壞數(shù)據(jù)中心時(shí)在不同地點(diǎn)、不同硬件設(shè)備上恢復(fù)數(shù)據(jù)的能力。
上述兩個(gè)方面不是相互孤立的,而是相互關(guān)聯(lián)、有交叉的。為保證信息系統(tǒng)的業(yè)務(wù)連續(xù)性,高可用性和災(zāi)難恢復(fù)要映射到信息系統(tǒng)的各個(gè)層面,從用戶終端到服務(wù)器、存儲器,甚至包括機(jī)房環(huán)境。在映射時(shí),不能僅僅從技術(shù)的角度出發(fā),還要考慮管理因素。
圖2為信息系統(tǒng)業(yè)務(wù)連續(xù)性框架,包括管理、技術(shù)和IT系統(tǒng)3個(gè)域,管理和技術(shù)域映射到IT系統(tǒng)域。
三 IT系統(tǒng)域
首先從高可用和災(zāi)難恢復(fù)兩個(gè)方面出發(fā)對信息系統(tǒng)的各個(gè)層次進(jìn)行分析。
3.1 高可用
3.1.1 用戶終端
用戶終端的故障風(fēng)險(xiǎn)主要有硬件故障、操作系統(tǒng)故障、病毒攻擊等。目前應(yīng)對上述風(fēng)險(xiǎn)常用的技術(shù)是用戶數(shù)據(jù)異地存儲,通過數(shù)據(jù)可靠來保證用戶終端高可用性。另外,可采用用戶終端安全管理措施和安全技術(shù)(例如病毒防護(hù)),以抵御用戶終端的安全風(fēng)險(xiǎn)。
3.1.2 業(yè)務(wù)系統(tǒng)
例如ERP(企業(yè)資源計(jì)劃),一般可以分為服務(wù)器端和數(shù)據(jù)端兩個(gè)方面。在業(yè)務(wù)系統(tǒng)層面,為了保持業(yè)務(wù)連續(xù)性,可從這兩個(gè)方面考慮:
(1)服務(wù)器端:IT應(yīng)用系統(tǒng)的關(guān)鍵部分是服務(wù)器端應(yīng)用程序,如果服務(wù)器端應(yīng)用程序出現(xiàn)故障或軟件升級,需要實(shí)時(shí)切換到備份服務(wù)器端應(yīng)用程序。
(2)數(shù)據(jù)端:數(shù)據(jù)是業(yè)務(wù)系統(tǒng)的核心,為避免數(shù)據(jù)出現(xiàn)問題,需要進(jìn)行數(shù)據(jù)備份與恢復(fù)。
同時(shí),業(yè)務(wù)系統(tǒng)也需要安全措施來保障業(yè)務(wù)的高可用,例如進(jìn)行訪問控制和數(shù)據(jù)加密。
3.1.3 中間件、數(shù)據(jù)庫、服務(wù)器
業(yè)務(wù)連續(xù)性要求服務(wù)器、中間件、數(shù)據(jù)庫必須具備高可用性。數(shù)據(jù)中心的服務(wù)器(包括上面部署的中間件和數(shù)據(jù)庫)建設(shè)需要采用集群(單機(jī)出錯(cuò),群集中的備機(jī)也能迅速接管)、負(fù)載均衡等辦法,保證服務(wù)器的高可用性。隨著業(yè)務(wù)需求的變化,服務(wù)器性能需要滿足不斷增長的業(yè)務(wù)需要,數(shù)據(jù)中心服務(wù)器資源設(shè)計(jì)上,可將服務(wù)器集中放置管理,并通過虛擬化的思想動態(tài)地調(diào)整服務(wù)器的資源,使各種服務(wù)與應(yīng)用都能得到所需資源,保障各項(xiàng)服務(wù)與應(yīng)用的順利完成。安全措施包括訪問控制、用戶權(quán)限管理以及訪問審計(jì)等。
3.1.4 網(wǎng)絡(luò)
核心交換機(jī)應(yīng)分布于物理位置不同的地點(diǎn),互為冗余備份,以避免單點(diǎn)故障或者意外災(zāi)害而引起的網(wǎng)絡(luò)癱瘓。不同的接人層可以就近掛接到距離較近的核心交換機(jī),而且為了鏈路冗余,接入層可以上聯(lián)到多臺核心交換機(jī),鏈路路徑是不同的,不再處于共享風(fēng)險(xiǎn)組中,進(jìn)一步提高了可靠性和安全性。安全措施主要有網(wǎng)絡(luò)接人控制、防火墻和病毒防護(hù)等。
3.1.5 存儲
應(yīng)充分考慮數(shù)據(jù)保護(hù),構(gòu)建快速可靠的數(shù)據(jù)備份系統(tǒng),通過SATA磁盤和磁帶構(gòu)建多級數(shù)據(jù)保護(hù)機(jī)制。在備份系統(tǒng)方面需要引入新的技術(shù),實(shí)現(xiàn)快速備份,避免長時(shí)間備份工作對核心業(yè)務(wù)系統(tǒng)運(yùn)行的影響。針對核心業(yè)務(wù),必須保證在發(fā)生嚴(yán)重故障時(shí)也能夠快速恢復(fù)業(yè)務(wù)的正常運(yùn)行,因此需要考慮使用應(yīng)用容災(zāi)手段,實(shí)現(xiàn)高水平的業(yè)務(wù)連續(xù)性能力。
存儲系統(tǒng)需要支持FC、ISCSI和NAS等多種存儲訪問方式,但數(shù)據(jù)應(yīng)集中存儲以簡化容災(zāi)備份的結(jié)構(gòu)。備份系統(tǒng)除傳統(tǒng)的備份軟件加備份設(shè)備的方式外,還應(yīng)該采用快照、塊級增量備份、數(shù)據(jù)防改寫等新的手段,提供備份/恢復(fù)的性能,提高數(shù)據(jù)保護(hù)效果,減少對生產(chǎn)系統(tǒng)的影響?梢钥紤]在磁盤陣列復(fù)制技術(shù)的基礎(chǔ)上,建立應(yīng)用容災(zāi)系統(tǒng)。存儲通過冗余鏈路分別連接在光纖交換機(jī)(SAN)和千兆IP網(wǎng)絡(luò)(通過NAS設(shè)備)交換機(jī)上,實(shí)現(xiàn)存儲連接的虛擬化。
3.1.6 機(jī)房
機(jī)房的基礎(chǔ)環(huán)境包括配電、空調(diào)等系統(tǒng),需要保證這些系統(tǒng)的高可用性,可采用設(shè)備冗余的方法,例如雙路配電以及UPS。機(jī)房的安全措施主要是針對環(huán)境安全,例如采取電子門控實(shí)現(xiàn)身份鑒別。
3.2 災(zāi)難恢復(fù)
為了保證當(dāng)災(zāi)難發(fā)生時(shí),信息系統(tǒng)能夠連續(xù)運(yùn)行,需要備用的數(shù)據(jù)處理系統(tǒng)、備用網(wǎng)絡(luò)系統(tǒng)、數(shù)據(jù)備份系統(tǒng)、備用基礎(chǔ)設(shè)施、運(yùn)行維護(hù)管理能力、專業(yè)技術(shù)支持能力以及災(zāi)難恢復(fù)預(yù)案。需要做出的第一個(gè)決策是選擇一個(gè)與數(shù)據(jù)中心同樣可用的物理環(huán)境,為災(zāi)難恢復(fù)提供備用物理場所。
四 管理域
管理域是從IT服務(wù)管理以及安全管理的角度來考慮IT系統(tǒng)業(yè)務(wù)連續(xù)性。依據(jù)的標(biāo)準(zhǔn)主要是信息技術(shù)-服務(wù)管理標(biāo)準(zhǔn)ISO/IEC 20000、IT服務(wù)管理信息技術(shù)基礎(chǔ)設(shè)施庫ITIL、信息系統(tǒng)安全保密標(biāo)準(zhǔn)BMB17-2006、BMB 20-2007等。
IT業(yè)務(wù)連續(xù)性管理主要負(fù)責(zé):評估在一次災(zāi)難發(fā)生后IT服務(wù)被中斷的風(fēng)險(xiǎn)和影響;確認(rèn)需要制定額外的預(yù)防措施、對業(yè)務(wù)有關(guān)鍵性影響的服務(wù);確定服務(wù)恢復(fù)的時(shí)間限定;采取措施來預(yù)防、檢測和應(yīng)對災(zāi)難的發(fā)生,從而減緩或減輕災(zāi)難的影響;確定恢復(fù)服務(wù)的方法;制定、測試和維持一個(gè)足夠詳細(xì)的恢復(fù)計(jì)劃,從而保證能夠承受災(zāi)難的發(fā)生并在規(guī)定的時(shí)間內(nèi)恢復(fù)正常的服務(wù)運(yùn)作。其中的核心組成部分為:
(1)日常運(yùn)維管理的制度
流程構(gòu)建合理的日常維護(hù)流程,使日常維護(hù)和事故處理成為支撐運(yùn)維體系重要的環(huán)節(jié),是提供優(yōu)質(zhì)服務(wù)、簽訂服務(wù)級別協(xié)議的基礎(chǔ)。日常維護(hù)流程包括日常巡檢、性能分析、系統(tǒng)優(yōu)化、安全加固流程。日常維護(hù)與變更管理、配置管理有接口,一些日常維護(hù)流程將觸發(fā)變更流程,變更的內(nèi)容將在配置庫中體現(xiàn)。根據(jù)運(yùn)維體系人員分工,制定日常維護(hù)策略,指定責(zé)任人和日常維護(hù)職責(zé)。日常維護(hù)應(yīng)形成維護(hù)報(bào)告,用于對系統(tǒng)狀況等的評估。
(2)故障處理的預(yù)案
相關(guān)人員在發(fā)現(xiàn)信息系統(tǒng)相關(guān)故障發(fā)生或?qū)⒁l(fā)生時(shí),應(yīng)首先判斷故障的類別,然后參照對應(yīng)的故障處理預(yù)案進(jìn)行處理。
經(jīng)過完整測試和演練的故障處理預(yù)案應(yīng)主要包括以下組成部分:目標(biāo)和范圍、組織和職責(zé)、聯(lián)絡(luò)和通信、具體的故障處理流程、預(yù)案的保障條件和預(yù)案附錄。具體的故障處理流程是故障處理預(yù)案的重要組成部分。
(3)災(zāi)難恢復(fù)的預(yù)案
經(jīng)過完整測試和演練的災(zāi)難恢復(fù)預(yù)案主要包括以下組成部分:目標(biāo)與范圍、組織和職責(zé)、聯(lián)絡(luò)與通信、災(zāi)難恢復(fù)流程、預(yù)案的保障條件以及預(yù)案附錄。災(zāi)難恢復(fù)流程又包括突發(fā)事件響應(yīng)流程、恢復(fù)及重續(xù)運(yùn)行流程,是災(zāi)難恢復(fù)預(yù)案的重要組成部分。
突發(fā)事件響應(yīng)流程為:
(a)事件通告:任何人員在發(fā)現(xiàn)信息系統(tǒng)相關(guān)突發(fā)災(zāi)難事件發(fā)生或即將發(fā)生時(shí),應(yīng)按預(yù)定的流程報(bào)告相關(guān)人員,并由相關(guān)人員進(jìn)行初步判斷、通知和處置。
(b)人員疏散:提供指定的集合地點(diǎn)和替代的集合地點(diǎn),還包括通知人員撤離的辦法、撤離的組織和步驟等。
(c)損害評估:在突發(fā)事件發(fā)生后,應(yīng)由應(yīng)急響應(yīng)組的損害評估人員確定事態(tài)的嚴(yán)重程度。由災(zāi)難恢復(fù)責(zé)任人召集相應(yīng)的專業(yè)人員對突發(fā)事件進(jìn)行慎重評估,確定突發(fā)事件對信息系統(tǒng)造成的影響程度,確定下一步將要采取的行動。一旦系統(tǒng)的影響被確定,應(yīng)將最新信息按照預(yù)定的通告流程通知給相應(yīng)的團(tuán)隊(duì)。
(d)災(zāi)難宣告:應(yīng)預(yù)先制定災(zāi)難恢復(fù)預(yù)案啟動的條件。當(dāng)損害評估的結(jié)果達(dá)到一項(xiàng)或多項(xiàng)啟動條件時(shí),組織將正式發(fā)出災(zāi)難宣告,宣布啟動災(zāi)難恢復(fù)預(yù)案,并根據(jù)宣告流程通知各有關(guān)部門。
(e)恢復(fù):按照業(yè)務(wù)影響分析中確定的優(yōu)先順序,在災(zāi)難備份中心恢復(fù)支持關(guān)鍵業(yè)務(wù)功能的數(shù)據(jù)、數(shù)據(jù)處理系統(tǒng)和網(wǎng)絡(luò)系統(tǒng)。描述時(shí)間、地點(diǎn)、人員、設(shè)備和每一步的詳細(xì)操作步驟,同時(shí)還包括特定情況發(fā)生時(shí)各團(tuán)隊(duì)之間進(jìn)行協(xié)調(diào)的指令,以及異常處理流程。
(f)重續(xù)運(yùn)行:災(zāi)難備份中心的系統(tǒng)替代主系統(tǒng),支持關(guān)鍵業(yè)務(wù)功能的提供。這一階段包含主系統(tǒng)運(yùn)行管理所涉及的主要工作,包含重續(xù)運(yùn)行的所有操作流程和規(guī)章制度。
(4) 安全管理
業(yè)務(wù)連續(xù)性管理與安全管理具有密切的聯(lián)系。安全管理中3個(gè)基本的問題是保密性、完整性、可用性。安全管理主要包括安全保密策略、組織人員管理、技術(shù)管理、場地管理以及應(yīng)急響應(yīng)計(jì)劃。
五 技術(shù)域
為保證IT系統(tǒng)的高可用性,技術(shù)域中提出以下幾項(xiàng)關(guān)鍵技術(shù)。
(1) 虛擬化技術(shù)虛擬化技術(shù)的應(yīng)用遠(yuǎn)不止虛擬機(jī)和虛擬內(nèi)存,到目前已經(jīng)有了網(wǎng)絡(luò)虛擬化、服務(wù)器虛擬化、微處理器虛擬化、文件虛擬化和存儲虛擬化等技術(shù)。通過服務(wù)器虛擬化技術(shù)將服務(wù)器資源分配到多個(gè)虛擬機(jī),支持不同的應(yīng)用、甚至不同的操作系統(tǒng)在同一企業(yè)級服務(wù)器上同時(shí)運(yùn)行。利用虛擬技術(shù),管理員可以在服務(wù)器之間移動正在運(yùn)行的虛擬機(jī),保證系統(tǒng)的高可用。
(2) 集群及負(fù)載均衡技術(shù)高可用集群采用集群技術(shù)來實(shí)現(xiàn)計(jì)算機(jī)系統(tǒng)的高可用性,致力于提供高度可靠的服務(wù)。高可用集群通常又可分為以下兩種工作方式:
(a)容錯(cuò)集群:通常是主從服務(wù)器方式。從服務(wù)器檢測主服務(wù)器的狀態(tài),當(dāng)主服務(wù)工作正常時(shí),從服務(wù)器并不提供服務(wù)。但是一旦主服務(wù)器失效,從服務(wù)器就開始代替主服務(wù)器向客戶提供服務(wù)。
(b)負(fù)載均衡集群:集群中所有的節(jié)點(diǎn)都處于活動狀態(tài),它們分?jǐn)傁到y(tǒng)的工作負(fù)載。一般Web服務(wù)器集群、數(shù)據(jù)庫集群和應(yīng)用服務(wù)器集群都屬于這種類型。
(3) 數(shù)據(jù)備份和復(fù)制技術(shù)
數(shù)據(jù)備份和復(fù)制技術(shù)是容災(zāi)系統(tǒng)的關(guān)鍵技術(shù)。按對系統(tǒng)的保護(hù)程度,容災(zāi)系統(tǒng)可分為數(shù)據(jù)容災(zāi)和應(yīng)用容災(zāi)。數(shù)據(jù)容災(zāi)是指建立一個(gè)異地的數(shù)據(jù)系統(tǒng),該系統(tǒng)是本地關(guān)鍵應(yīng)用數(shù)據(jù)的一個(gè)可用復(fù)制。該數(shù)據(jù)可以是與本地生產(chǎn)數(shù)據(jù)的完全實(shí)時(shí)復(fù)制,也可以比本地?cái)?shù)據(jù)略微落后,但一定是可用的。采用的主要技術(shù)是數(shù)據(jù)備份和數(shù)據(jù)復(fù)制。數(shù)據(jù)復(fù)制按模式可分為同步復(fù)制、異步復(fù)制、周期性復(fù)制;按復(fù)制技術(shù)可分為磁盤卷鏡像、硬件復(fù)制、數(shù)據(jù)庫復(fù)制和基于主機(jī)的復(fù)制、應(yīng)用復(fù)制。應(yīng)用容災(zāi)是在數(shù)據(jù)容災(zāi)的基礎(chǔ)上,在異地建立一套完整的與本地生產(chǎn)系統(tǒng)相當(dāng)?shù)膫浞輵?yīng)用系統(tǒng)。建立這樣一個(gè)系統(tǒng)是相對比較復(fù)雜的,不僅需要一份可用的數(shù)據(jù)復(fù)制,還要有包括網(wǎng)絡(luò)、主機(jī)、應(yīng)用、甚至IP等資源,以及各資源之間的良好協(xié)調(diào)。采用的主要技術(shù)包括上面提到的集群及負(fù)載均衡技術(shù)。
(4) 安全技術(shù)
通過安全域劃分以及安全防護(hù)手段以保證IT系統(tǒng)的安全性。主要防護(hù)手段包括:安全域邊界防護(hù)系統(tǒng)、漏洞掃描、統(tǒng)一身份鑒別系統(tǒng)、計(jì)算機(jī)病毒與惡意代碼防護(hù)系統(tǒng)、審計(jì)系統(tǒng)、服務(wù)器加固系統(tǒng)、電子文檔安全保密系統(tǒng)、安全管理系統(tǒng)。
六 結(jié)束語
當(dāng)今企業(yè)業(yè)務(wù)的正常運(yùn)作越來越依賴信息系統(tǒng),因此構(gòu)建一個(gè)可連續(xù)運(yùn)行的信息系統(tǒng)是IT人員面臨的重要問題。本文從業(yè)務(wù)連續(xù)的視角出發(fā),提出了信息系統(tǒng)業(yè)務(wù)連續(xù)性通用框架,并分別對該框架中的IT系統(tǒng)域、管理域和技術(shù)域進(jìn)行了分析研究,通過映射到IT系統(tǒng)域的管理措施和技術(shù)手段相結(jié)合來保證信息系統(tǒng)的業(yè)務(wù)連續(xù)性。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:信息系統(tǒng)的業(yè)務(wù)連續(xù)性研究
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/1083954641.html