1.工業(yè)數(shù)據(jù)災(zāi)備
災(zāi)難性事故所導(dǎo)致的信息系統(tǒng)崩潰的事件時(shí)有發(fā)生。在煙草工業(yè),隨著煙草一體化建設(shè)的推進(jìn),數(shù)據(jù)中心的范疇已逐步形成,數(shù)據(jù)和系統(tǒng)也逐步集中。結(jié)合小型機(jī)的雙機(jī)容錯(cuò)技術(shù)。數(shù)據(jù)中心順利降低了單點(diǎn)故障的風(fēng)險(xiǎn),為業(yè)務(wù)提供持續(xù)和有效的服務(wù)能力。然而,隨著系統(tǒng)和數(shù)據(jù)的集中,所有數(shù)據(jù)存儲(chǔ)在一個(gè)機(jī)房,如果災(zāi)難性事故導(dǎo)致機(jī)房受到破壞,其內(nèi)的所有數(shù)據(jù)包括備份數(shù)據(jù)也會(huì)隨之破壞,其帶來(lái)的風(fēng)險(xiǎn)和損失是無(wú)法估量的。而數(shù)據(jù)異地備份能有效解決這個(gè)問(wèn)題。隨之而來(lái)的問(wèn)題是要降低數(shù)據(jù)的存儲(chǔ)容量和降低數(shù)據(jù)網(wǎng)絡(luò)傳輸?shù)拈_(kāi)銷(xiāo)以及加快備份速度。煙草工業(yè)數(shù)據(jù)主要存在以下兩個(gè)特點(diǎn):
1)每天新增數(shù)據(jù)量大。比如:僅僅在銷(xiāo)售環(huán)節(jié),全國(guó)零售戶有大概500萬(wàn)家,平均每周進(jìn)化一次,假設(shè)平均每家只銷(xiāo)售15個(gè)規(guī)格,那么平均每天產(chǎn)生銷(xiāo)售記錄數(shù)為:500x15+7=1070(萬(wàn))。
2)數(shù)據(jù)變動(dòng)大、重復(fù)率高。比如,在筆者所參與的綜合營(yíng)銷(xiāo)平臺(tái)中,僅辦公自動(dòng)化子系統(tǒng),每天文件流轉(zhuǎn)、版本修訂、郵件附件抄送都非常普遍。有時(shí)候一個(gè)文件要抄送給多人,有時(shí)候同一原始文件會(huì)產(chǎn)生多個(gè)修訂版本,使得文件系統(tǒng)中保存有大量的重復(fù)數(shù)據(jù)。
重復(fù)數(shù)據(jù)刪除技術(shù)是一種能夠大規(guī)模消除冗余數(shù)據(jù),降低數(shù)據(jù)存儲(chǔ)成本的重要技術(shù)。它的工作方式是查找不同文件中不同位置的重復(fù)數(shù)據(jù)塊,重復(fù)的數(shù)據(jù)塊用指示符取代,使得在備份中重復(fù)數(shù)據(jù)塊只保留一份,從而可以在已有的磁盤(pán)上存儲(chǔ)更多的備份數(shù)據(jù)。重復(fù)數(shù)據(jù)刪除后,再通過(guò)WAN進(jìn)行異地備份,則能減少備份數(shù)據(jù)量,節(jié)省網(wǎng)絡(luò)帶寬,加快數(shù)據(jù)備份和恢復(fù)速度。本文將圍繞企業(yè)數(shù)據(jù)災(zāi)備,研究如何使用重復(fù)數(shù)據(jù)刪除技術(shù),提高數(shù)據(jù)存取效率,降低數(shù)據(jù)保護(hù)成本。
2.重復(fù)數(shù)據(jù)刪除方法
2.1 基于哈希(Hash)算法的重復(fù)數(shù)據(jù)刪除
哈希算法主要用于文件級(jí)和數(shù)據(jù)塊級(jí)別的重復(fù)數(shù)據(jù)刪除。在重復(fù)數(shù)據(jù)刪除技術(shù)的實(shí)現(xiàn)中,通常采用SHA-1和MD5算法計(jì)算并檢查數(shù)據(jù)塊的“指紋”,判斷該數(shù)據(jù)塊是否與已經(jīng)存在數(shù)據(jù)塊重復(fù)。如果該數(shù)據(jù)塊已經(jīng)存在,則只需要保留指向該數(shù)據(jù)塊的指針,否則,則要保留該數(shù)據(jù)塊,并將該數(shù)據(jù)塊的“指紋”保存在索引表中,供以后使用;诠K惴ǖ闹貜(fù)數(shù)據(jù)刪除的流程圖如圖1所示:
圖1 基于哈希算法的重復(fù)數(shù)據(jù)刪除流程
文件級(jí)的重復(fù)數(shù)據(jù)刪除主要是識(shí)別內(nèi)容完相同的兩個(gè)文件,從而避免相同文件多個(gè)備份。用散列函數(shù)計(jì)算文件哈希值的方法來(lái)比較文件是否相同,可以快速的掃描整個(gè)目錄,查找速度非?。文件級(jí)的重復(fù)數(shù)據(jù)刪除的缺點(diǎn)也很明顯,就是當(dāng)文件稍稍修改了一點(diǎn),都會(huì)變成不同的文件,重復(fù)數(shù)據(jù)刪除率會(huì)大打折扣。
數(shù)據(jù)塊級(jí)的重復(fù)數(shù)據(jù)肭除就是將文件分塊,然后進(jìn)行重復(fù)刪除。分塊的方式有固定大小分塊和可變大小分塊。兩者相比,固定分塊可以更快的掃描新到數(shù)據(jù)流,獲取更高重復(fù)刪除速率;而可變分塊可以提供更大的重復(fù)數(shù)據(jù)刪除率。兩者之間根本差異即空間和時(shí)間的矛盾,實(shí)際應(yīng)用中,還要根據(jù)應(yīng)用環(huán)境和需求來(lái)選擇相應(yīng)分塊方式。
通常,為了快速識(shí)別數(shù)據(jù)塊是否已經(jīng)備份,會(huì)將哈希索引保留在內(nèi)存中。當(dāng)備份的數(shù)據(jù)塊數(shù)據(jù)增加時(shí),索引也增加。因此,總有一天,索引會(huì)將內(nèi)存填滿,F(xiàn)在大部分基于散列的系統(tǒng)的都是獨(dú)立的。
2.2 基于內(nèi)容識(shí)別的重復(fù)數(shù)據(jù)刪除
從字節(jié)級(jí)別上分析數(shù)據(jù)流通常能夠“識(shí)別內(nèi)容”。這種方法主要是對(duì)比記錄的數(shù)據(jù)格式。在備份數(shù)據(jù)時(shí),首先從數(shù)據(jù)流中提取元數(shù)據(jù),并將之與備份系統(tǒng)中已經(jīng)存儲(chǔ)的元數(shù)據(jù)進(jìn)行對(duì)比。當(dāng)元數(shù)據(jù)匹配成功時(shí),則將新的數(shù)據(jù)對(duì)象與備份系統(tǒng)中對(duì)應(yīng)的數(shù)據(jù)對(duì)象進(jìn)行逐字節(jié)比較,如果完全相同,則刪除新數(shù)據(jù),用備份系統(tǒng)中的數(shù)據(jù)對(duì)象索引替換;如果不同,則找出發(fā)生變化的數(shù)據(jù),將增量保存并計(jì)算并插入索引。該方法的流程如圖2所示:
圖2 基于內(nèi)容識(shí)別的重復(fù)數(shù)據(jù)刪除流程圖
3.綜合營(yíng)銷(xiāo)平臺(tái)備份策略分析設(shè)計(jì)
筆者參與開(kāi)發(fā)的綜合營(yíng)銷(xiāo)平臺(tái)主要功能有:OA辦公、業(yè)務(wù)處理、決策支持和會(huì)員俱樂(lè)部等。平臺(tái)數(shù)據(jù)存儲(chǔ)備份整體架構(gòu)如圖3所示:
圖3 平臺(tái)數(shù)據(jù)存儲(chǔ)備份整體架構(gòu)
由此平臺(tái)系統(tǒng)的功能決定,工作人員主要是在白天(上班時(shí)間)使用系統(tǒng),系統(tǒng)產(chǎn)生大量企業(yè)內(nèi)業(yè)務(wù)數(shù)據(jù)和辦公數(shù)據(jù);而決策支持的所需大批量數(shù)據(jù)主要由國(guó)家局每天下行導(dǎo)入本系統(tǒng)。為了保證業(yè)務(wù)的正常進(jìn)行,白天需要把計(jì)算機(jī)的CPU資源和內(nèi)存資源盡量用給業(yè)務(wù)功能,因此,本系統(tǒng)對(duì)國(guó)家下行數(shù)據(jù)的抽取、整理和重復(fù)數(shù)據(jù)刪除只能在夜里進(jìn)行。首先,由于決策分析的需要,需要在每天夜里把下行的數(shù)據(jù)(數(shù)據(jù)量非常大,大概有7G到10G)進(jìn)行完全加工,而這需要較長(zhǎng)的時(shí)間(通過(guò)升級(jí)硬件資源和優(yōu)化算法可能將時(shí)間稍稍減少);其次本地存儲(chǔ)系統(tǒng)和異地存儲(chǔ)之間網(wǎng)絡(luò)帶寬的限制,在每天上班前要把每天的數(shù)據(jù)備份完畢也需要較長(zhǎng)的時(shí)間。因此,重復(fù)數(shù)據(jù)刪除的策略如下:
1)首先對(duì)于本地存儲(chǔ)的數(shù)據(jù),對(duì)每天新增的數(shù)據(jù)進(jìn)行重復(fù)數(shù)據(jù)刪除,可以減少數(shù)據(jù)遠(yuǎn)程備份的網(wǎng)絡(luò)流量,減少帶寬的占用。為能夠較快的完成重復(fù)數(shù)據(jù)刪除,采用基于哈希算法固定分塊的重復(fù)數(shù)據(jù)刪除策略,在分塊散列查找時(shí)采用一種滑動(dòng)窗1:3的方式,期望盡可能的發(fā)現(xiàn)重復(fù)數(shù)據(jù)塊。
2)對(duì)于異地存儲(chǔ),由于業(yè)務(wù)的需要對(duì)數(shù)據(jù)的真實(shí)性要求非常高,而現(xiàn)有的在線處理方式是在數(shù)據(jù)存入設(shè)備的同時(shí)時(shí)行重復(fù)數(shù)據(jù)刪除,并沒(méi)有進(jìn)行嚴(yán)格的校驗(yàn)和核對(duì)。萬(wàn)一數(shù)據(jù)處理的環(huán)節(jié)發(fā)生一個(gè)小錯(cuò)誤?赡軐(dǎo)致整個(gè)備份變成無(wú)法使用的東西,給企業(yè)帶來(lái)?yè)p失。而且異地設(shè)備除了進(jìn)行數(shù)據(jù)存儲(chǔ),一般不需要進(jìn)行其它工作。因此采用后處理重復(fù)數(shù)據(jù)刪除方式。并采用基于基于哈希算法變長(zhǎng)分塊的重復(fù)刪除數(shù)據(jù)策略,盡可能的發(fā)現(xiàn)重復(fù)數(shù)據(jù),提高存儲(chǔ)的使用率,在不增加存儲(chǔ)的情況下備份更多的數(shù)據(jù)。
3)因?yàn)楣K惴ù嬖诠_突的問(wèn)題,此系統(tǒng)采用一種優(yōu)化了的方法,對(duì)哈希匹配的數(shù)據(jù)對(duì)象,進(jìn)行二進(jìn)制的比對(duì),若完全一致,才能進(jìn)行重復(fù)數(shù)據(jù)刪除。
4)為了能以較快、較高效率的進(jìn)行重復(fù)數(shù)據(jù)刪除,在本地和異地執(zhí)行重復(fù)數(shù)據(jù)刪除前,先利用系統(tǒng)的智能引擎模塊探測(cè)新增數(shù)據(jù)的文件名、文件各類(lèi)和日期/時(shí)間戳等信息,然后進(jìn)行有規(guī)律的分塊,再通過(guò)數(shù)據(jù)壓縮技術(shù)進(jìn)行壓縮。這之后再進(jìn)行重復(fù)數(shù)據(jù)刪除。采用這種策略可以極大的提高執(zhí)行重復(fù)數(shù)據(jù)刪除的效率。
5)對(duì)于非常重要的業(yè)務(wù)數(shù)據(jù)和要求能夠迅速恢復(fù)的數(shù)據(jù)(比如職員信息,最近的業(yè)務(wù)訂單等),則不進(jìn)行重復(fù)數(shù)據(jù)刪除,以便在發(fā)生故障時(shí)能夠迅速恢復(fù),不影響工作的開(kāi)展。
4.結(jié)束語(yǔ)
配置管理自產(chǎn)生至今經(jīng)過(guò)幾十年的發(fā)展,理論體系日臻成熟,是一種系統(tǒng)、高效的質(zhì)量管理體系。在技術(shù)上。配置管理能夠建立對(duì)于核電數(shù)字化儀控系統(tǒng)原始設(shè)計(jì)和中間變更的控制和審查、批準(zhǔn)流程,為核電項(xiàng)目的安全性和可靠性奠定基礎(chǔ)。在經(jīng)濟(jì)上,配置管理保證配置項(xiàng)描述文檔及時(shí)的反應(yīng)已經(jīng)實(shí)施的變更,從而有效的控制變更,控制項(xiàng)目成本。在管理上,它為項(xiàng)目管理提供了各種監(jiān)控項(xiàng)目進(jìn)展的視角,為項(xiàng)目經(jīng)理確切掌握項(xiàng)目進(jìn)程提供了保證。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:煙草工業(yè)數(shù)據(jù)災(zāi)備中重復(fù)數(shù)據(jù)刪除技術(shù)研究
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/10839312820.html