由于磁盤陣列具有容量大、數(shù)據(jù)存取速度快、安全性高等特點(diǎn),磁盤陣列技術(shù)得到了廣泛的運(yùn)用。尤其是采用RAID5技術(shù)的磁盤陣列,由于其采用了奇偶校驗(yàn)技術(shù)提供數(shù)據(jù)冗余信息,大幅提高了系統(tǒng)和數(shù)據(jù)的安全性,成為了人們首選的磁盤陣列技術(shù)。雖然RAID5模式的安全級別較高,但在實(shí)際運(yùn)用中磁盤陣列上的數(shù)據(jù)還是會(huì)發(fā)生的損壞和丟失的情況。究其原因,這些隱患主要來自于RAID5系統(tǒng)運(yùn)行和維護(hù)過程。為了使廣大系統(tǒng)維護(hù)人員能加深對RAID5磁盤陣列的安全隱患的認(rèn)識,本文在分析了RAID5磁盤陣列的數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上,提出了做好磁盤陣列數(shù)據(jù)安全管理的意見和建議。
1、RAID5磁盤陣列的數(shù)據(jù)結(jié)構(gòu)
RAID5的數(shù)據(jù)安全性較其他RAID系列的磁盤陣列要高很多,當(dāng)陣列中的一塊物理磁盤出現(xiàn)障時(shí),允許在不停機(jī)的情況下對磁盤進(jìn)行熱插拔更換,保證應(yīng)用系統(tǒng)的持續(xù)運(yùn)行。RAID5的高安全可靠性主要來自兩個(gè)技術(shù)要點(diǎn),即冗余數(shù)據(jù)應(yīng)用和奇偶校驗(yàn)算法。
冗余數(shù)據(jù)的生成有多種算法,RAID5采用的是奇偶校驗(yàn)算法。下面以4個(gè)磁盤組成的RAID5為例來說明利用奇偶校驗(yàn)算法生成冗余數(shù)據(jù)原理和過程,并介紹RAID5數(shù)據(jù)安全可靠性的原因。
如圖1所示,假設(shè)在這個(gè)由四塊磁盤做成的一個(gè)邏輯磁盤上12個(gè)連續(xù)存放的數(shù)據(jù)塊,這些數(shù)據(jù)塊以0,1,00 ,11命名。
圖1 組成RAID5的4個(gè)磁盤上的12個(gè)數(shù)據(jù)塊的排列
圖中每塊磁盤由上往分為4層,每層包括3個(gè)數(shù)據(jù)塊及一個(gè)它們的數(shù)據(jù)奇偶校驗(yàn)塊。數(shù)據(jù)奇偶校驗(yàn)塊中的每個(gè)字節(jié)是同層中的3個(gè)數(shù)據(jù)塊塊中相同位置的3個(gè)字節(jié)的奇偶校驗(yàn)值。例如,這3個(gè)數(shù)據(jù)塊其中相同位置的一個(gè)字節(jié)的分別為010001 10,01101110,01000110,那么校驗(yàn)數(shù)據(jù)塊中的相應(yīng)字節(jié)的值就為1 1010111。
通過運(yùn)算我們可以發(fā)現(xiàn),這四個(gè)數(shù)中任意3個(gè)的奇偶校驗(yàn)運(yùn)算值等于第四個(gè)數(shù),因此,當(dāng)這4個(gè)數(shù)中的任意一個(gè)被破壞了,還可以利用求出其他3個(gè)數(shù)的奇偶校驗(yàn)運(yùn)算值來恢復(fù)。同理,同一數(shù)據(jù)層的4個(gè)數(shù)據(jù)塊之間、組成RAID5的4個(gè)物理硬盤之間都存在這種數(shù)值關(guān)系,當(dāng)其中任意一個(gè)硬盤損壞后,都能通過對其他3個(gè)硬盤上的數(shù)據(jù)進(jìn)行奇偶校驗(yàn)運(yùn)算進(jìn)行數(shù)據(jù)恢復(fù)。以上就是RAID5的常的數(shù)據(jù)結(jié)構(gòu)基礎(chǔ),當(dāng)組成RAID5的4塊硬盤中有2塊以上出現(xiàn)故障,則無法通過奇偶校驗(yàn)運(yùn)算進(jìn)行數(shù)據(jù)恢復(fù)。
2、RAID5系統(tǒng)產(chǎn)生故障的主要原因及預(yù)防措施
RAID5系統(tǒng)在運(yùn)行和維護(hù)中存在著數(shù)據(jù)安全的隱患。我們首先要分析產(chǎn)生這些隱患的原因,再根據(jù)每項(xiàng)影響因素采取有針對性的預(yù)防和補(bǔ)救保護(hù)措施,具體分析如下:
2.1 組成RAID5的磁盤有具有相近的使用壽命
RAID5能夠確保在任意一塊物理磁盤故障的情況系統(tǒng)和數(shù)據(jù)的安全,但在實(shí)際工作中,組成RAID5的可能是一批型號、批次、使用期限、性能相同的磁盤,當(dāng)其中一塊出現(xiàn)故障,其他幾塊也可能接近使用壽命,因此在第一塊磁盤故障后,在短時(shí)間內(nèi)可能會(huì)有第二塊,甚至第三塊、第四塊磁盤發(fā)生故障,在這種情況下,可能系統(tǒng)維護(hù)人員還沒來的及處理好第一塊磁盤帶來的故障,整個(gè)RAID5陣列的數(shù)據(jù)就已經(jīng)無法讀取了。
預(yù)防措施之一是制定嚴(yán)格的管理制度,設(shè)立專人定時(shí)值班,對重要數(shù)據(jù)實(shí)施定期備份;二是做好兩塊以上磁盤同時(shí)產(chǎn)生故障時(shí)的數(shù)據(jù)恢復(fù)預(yù)案,這樣一旦故障來臨,也能有序從容地應(yīng)對。
2.2 在維護(hù)時(shí)弄亂磁盤陣列中的磁盤順序
構(gòu)建RAID5時(shí)起碼要3塊以上的磁盤,有的甚至有幾十塊。
RAID5的中數(shù)據(jù)塊和數(shù)據(jù)奇偶校驗(yàn)塊是按系統(tǒng)設(shè)定的順序存儲(chǔ)的,且前后位置是固定不變的,因此磁盤順序不能搞錯(cuò)。一旦磁盤順序搞錯(cuò),系統(tǒng)還會(huì)按原來的順序讀取磁盤上的數(shù)據(jù),但由于更換后的磁盤上的數(shù)據(jù)已不是準(zhǔn)確的數(shù)據(jù),從而導(dǎo)致數(shù)據(jù)丟失。
系統(tǒng)維護(hù)人員在對陣列中的磁盤進(jìn)行管理和維護(hù)時(shí)常會(huì)發(fā)生以上事故:當(dāng)對磁盤進(jìn)行衛(wèi)生清理,將多個(gè)磁盤拔下,重新裝回時(shí)可能會(huì)搞亂順序;為了保護(hù)磁盤,在搬動(dòng)磁盤陣列時(shí)拔下磁盤,再裝回時(shí)也有可能搞混磁盤的順序;在對磁盤陣列擴(kuò)容而增加硬盤時(shí),也容易弄亂磁盤順序。
為了預(yù)防這些情況的發(fā)生,可以采取以下預(yù)防措施:首先是采用簡單的方法,在型號或外觀相似的磁盤上貼上標(biāo)簽,這樣就能降低發(fā)生低級錯(cuò)誤的概率;其次是一旦磁盤順序被弄亂了,不能抱著僥幸的心理開機(jī)試試,最穩(wěn)妥的辦法是找專業(yè)的數(shù)據(jù)恢復(fù)人員或廠家的工程師來找出正確的磁盤順序。
2.3 磁盤的意外掉電脫機(jī)
磁盤陣列中的磁盤可能插在同一條SCSI數(shù)據(jù)線上,也可能插在同一塊接口背板上。為了保持系統(tǒng)不停機(jī)、不中斷,在更換故障盤時(shí)一般采用熱插拔。在這個(gè)過程中,常會(huì)引發(fā)其他磁盤掉電,造成整個(gè)磁盤陣列系統(tǒng)的癱瘓。雖然SCSI接口有線路有保護(hù)設(shè)計(jì),支持磁盤熱插拔,但在不斷電的情況下,相鄰的磁盤極有可能受磁盤插拔引起電流電壓變化的干擾,也有可能因磁盤插拔輕微震導(dǎo)致周圍的磁盤瞬間掉電,這兩種情況都會(huì)引起磁盤意外脫機(jī),RAID5系統(tǒng)在磁盤脫機(jī)時(shí)會(huì)產(chǎn)生錯(cuò)誤操作,導(dǎo)致系統(tǒng)和磁盤上數(shù)據(jù)的永久性損壞。
為防止意外掉電情況的發(fā)生,在對第一塊故障盤進(jìn)行更換前,對RAID5陣列上的數(shù)據(jù)進(jìn)行一次完全備份,然后再實(shí)施帶電的磁盤更換操作,這樣就能避免數(shù)據(jù)被損壞。
2.4 缺乏系統(tǒng)故障處理預(yù)案
在磁盤陣列的安裝、設(shè)置、調(diào)試完成后,就開始安裝應(yīng)用系統(tǒng)和加載業(yè)務(wù)數(shù)據(jù)。為了保證系統(tǒng)和數(shù)據(jù)的穩(wěn)定和安全,應(yīng)該杜絕所有與應(yīng)用系統(tǒng)無關(guān)的操作。由于這個(gè)過程過于緊湊,用戶單位的技術(shù)人員缺少熟悉和實(shí)際操作磁盤陣列的機(jī)會(huì)和實(shí)踐,在這種情況下,一旦出現(xiàn)故障,就不能及時(shí)采取正確的應(yīng)對措施。
為防止這種情況的出現(xiàn),在投入磁盤陣列應(yīng)用前,需要給用戶單位的技術(shù)人員充足的時(shí)間,給他們實(shí)際演練各類故障的處理,并讓他們進(jìn)行實(shí)際操作演練。還要做好故障處理預(yù)案,有備無患,等故障發(fā)生時(shí)能從容應(yīng)對。
2.5 充分考慮廠商的售后技術(shù)服務(wù)能力
主要應(yīng)從以下幾個(gè)方面來考慮廠商的售后技術(shù)服務(wù)能力:
一是當(dāng)磁盤和磁盤陣列已經(jīng)過保或損害超出售后技術(shù)服務(wù)范圍時(shí),廠商能夠提供的數(shù)據(jù)修復(fù)的應(yīng)急方案,或能夠提供的技術(shù)保障保證。二是由于廠商的技術(shù)服務(wù)人員流動(dòng)性很大,除了初始安裝調(diào)試的技術(shù)人員,其他廠商派來的技術(shù)人員有可能不熟悉系統(tǒng)的具體設(shè)置,因此要注意廠商對技術(shù)服務(wù)人員的管理是否規(guī)范,分析廠商技術(shù)人員對故障的處理方法能否恢復(fù)。
3、磁盤陣列的數(shù)據(jù)修復(fù)
當(dāng)實(shí)施磁盤陣列的數(shù)據(jù)修復(fù)時(shí),也是數(shù)據(jù)安全到了最危急的關(guān)頭。一旦需要對RAID5陣列上的數(shù)據(jù)進(jìn)行修復(fù),那么可以肯定的是:陣列中有兩塊以上的磁盤發(fā)生了物理故障,磁盤上的數(shù)據(jù)已無法正常讀取。磁盤陣列數(shù)據(jù)修復(fù)與單個(gè)磁盤的數(shù)據(jù)修復(fù)方法相似,唯一的區(qū)別是前者多了一項(xiàng)帶奇偶校驗(yàn)運(yùn)算的數(shù)據(jù)合并工作,這項(xiàng)工作結(jié)果的好壞是磁盤陣列數(shù)據(jù)修復(fù)的關(guān)鍵。另外如磁盤的硬件修理、數(shù)據(jù)合并后的邏輯驅(qū)動(dòng)器上數(shù)據(jù)恢復(fù)等都和單磁盤的數(shù)據(jù)修復(fù)相同。
下面舉例來說明磁盤陣列數(shù)據(jù)修復(fù)的過程:
假定陣列中出現(xiàn)了A和B兩塊故障磁盤(如圖1),其中A先產(chǎn)生故障,隨后RAID5運(yùn)行,直NB也產(chǎn)生故障在停止運(yùn)行。此后,這兩塊故障盤的修復(fù)結(jié)果可能會(huì)有4種可能組合,每一種組合都會(huì)給RAID5數(shù)據(jù)修復(fù)帶來不同的結(jié)果。這四種組合是:
、貯和B都修復(fù)失敗;②A修復(fù)成功B失敗;③A失敗B修復(fù)成功;④A、B都數(shù)修復(fù)成功;仡橰AID5的數(shù)據(jù)結(jié)構(gòu)基礎(chǔ),我們可以分析出:第①種情況會(huì)帶來最糟糕的數(shù)據(jù)合并結(jié)果,陣列中的數(shù)據(jù)基本難于修;第③種組合先數(shù)據(jù)修復(fù)結(jié)果最好,成功率很高。而第④種組合與第③種組合在實(shí)質(zhì)上是相同的,修復(fù)效果也很好。第②種組合的修復(fù)結(jié)果略遜于組合② ,但好于組合①。
磁盤陣列具有較高的數(shù)據(jù)安全保障,但也存在著安全隱患,這種隱患來自多個(gè)方面,可能來自應(yīng)用系的統(tǒng)管理,也可能來自對磁盤陣列的實(shí)際操作,也有可能來自故障處理或數(shù)據(jù)修復(fù)的操作過程中。磁盤陣列管理的實(shí)踐經(jīng)驗(yàn)表明,當(dāng)陣列中兩塊以上的磁盤故產(chǎn)生故障時(shí),最穩(wěn)妥的解決方案是斷電停止RAID5系統(tǒng)的運(yùn)行。然后直接找專業(yè)的數(shù)據(jù)修復(fù)公司或磁盤陣列你的設(shè)備供應(yīng)廠商,利用他們的技術(shù)力量來實(shí)施數(shù)據(jù)修復(fù)。事后補(bǔ)救雖然是盡可能挽救數(shù)據(jù)的一種方法,但不是治本之策,只有在大型應(yīng)用系統(tǒng)實(shí)施前,做好數(shù)據(jù)和系統(tǒng)的安全保護(hù)預(yù)案,才能有備無患,高效、及時(shí)地應(yīng)對可能發(fā)生的系統(tǒng)安全問題,其中也包括數(shù)據(jù)den存貯載體——磁盤陣列的安全問題。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:磁盤陣列的數(shù)據(jù)安全與數(shù)據(jù)修復(fù)分析
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/10839513094.html