現(xiàn)在社會上云的概念被鋪天蓋地地議論著,究竟什么是云.可以說它是一種現(xiàn)代計算機技術(shù)發(fā)展的產(chǎn)物,但與其他技術(shù)有所區(qū)別的是它以網(wǎng)絡(luò)為基礎(chǔ)和依托的.所有在云端的服務(wù)都是客戶端遠程發(fā)送請求,由網(wǎng)絡(luò)另一端的云朵進行操作,在通過網(wǎng)絡(luò)傳回給客戶.公司企業(yè)可以通過租用云服務(wù)的方式,使用提供商的硬件設(shè)備軟件資源等來進行大規(guī)模的數(shù)據(jù)存儲和運算.因此云可以是廣域網(wǎng)或者某個局域網(wǎng)內(nèi)硬件、軟件、網(wǎng)絡(luò)等一系列資源統(tǒng)一在一起的一個綜合稱呼.云服務(wù)的概念包含基礎(chǔ)設(shè)施服務(wù)(IaaS)、平臺服務(wù)(PaaS)、軟件服務(wù)(SaaS)以及web2.0和其他最新技術(shù).云的應(yīng)用主要分為云計算和云存儲.云計算瞳3是分布式處理、并行處理和網(wǎng)格計算的發(fā)展,是透過網(wǎng)絡(luò)將龐大的計算處理程序自動分拆成無數(shù)個較小的子程序,再交由多部服務(wù)器所組成的龐大系統(tǒng)經(jīng)計算分析之后將處理結(jié)果回傳給用戶.通過云計算技術(shù),網(wǎng)絡(luò)服務(wù)提供者可以在數(shù)秒之內(nèi)處理數(shù)以千萬計甚至億計的信息,達到和“超級計算機”同樣強大的網(wǎng)絡(luò)服務(wù).而且云端利用虛擬化技術(shù)等有效利用小型機服務(wù)器資源,不僅降低企業(yè)客戶端用戶機器運算能耗,也可提高企業(yè)本身資源的利用率.
云存儲是在云計算概念上延伸和發(fā)展出來的一個新的概念.云計算時代可以拋棄U盤等移動設(shè)備,比如利用Google云存儲技術(shù)要新建一個文檔,只需要進入Google Docs頁面,新建文檔,編輯內(nèi)容,保存起來,然后,直接將文檔的URL分享給其他人,他們可以直接打開瀏覽器訪問URL.此時我們再也不用擔(dān)心因PC硬盤的損壞而發(fā)生資料丟失事件,云存儲的系統(tǒng)已經(jīng)為我們進行了容災(zāi)備份,只需要我們有網(wǎng)絡(luò)可以訪問就可以進行如在自己電腦上一樣的用戶體驗.
隨著電子設(shè)備廣泛應(yīng)用,互聯(lián)網(wǎng)技術(shù)快速發(fā)展,市場商業(yè)運營模式擴大,企業(yè)的數(shù)據(jù)量正在急劇膨脹.海量數(shù)據(jù)的出現(xiàn)使企業(yè)不得不思考海量數(shù)據(jù)的存儲和計算等.為了解決這種海量數(shù)據(jù)處理問題,包括海量數(shù)據(jù)存儲容量、計算速度、傳送帶寬及處理成本等等,根據(jù)用戶需求,Amazon等公司提供了云端服務(wù)系統(tǒng).
多副本的產(chǎn)生主要是為了保障不發(fā)生由于硬件故障而引起的數(shù)據(jù)丟失.而現(xiàn)在,面對復(fù)雜的網(wǎng)絡(luò)環(huán)境下的多副本,不僅僅是為了保證數(shù)據(jù)不丟失,還包括對數(shù)據(jù)讀寫的訪問速度,數(shù)據(jù)容災(zāi)性及可靠性等方面的考慮.多副本技術(shù)的產(chǎn)生也引起對一系列針對多副本管理策略的討論,何時何地創(chuàng)建副本,怎樣選擇最佳副本并快速定位進行訪問,哪些副本可以被刪除廢棄和如何保證副本之問的一致性等技術(shù)問題都在考慮范圍.在傳統(tǒng)的分布式系統(tǒng)中已經(jīng)有很多成熟的多副本管理技術(shù)來應(yīng)對上述問題.
1、多副本管理
本節(jié)將從多副本傳統(tǒng)的創(chuàng)建技術(shù)、多副本選擇技術(shù)、多副本定位技術(shù)、多副本刪除技術(shù)及多副本一致性保障技術(shù)這5個方面簡述現(xiàn)有技術(shù),并將現(xiàn)有的P2P環(huán)境和網(wǎng)格環(huán)境下的多副本管理方法與云環(huán)境下的多副本管理方法比較進行簡要闡述.
1.1多副本創(chuàng)建技術(shù)
副本創(chuàng)建技術(shù)分為靜態(tài)的副本創(chuàng)建和動態(tài)副本創(chuàng)建,對于現(xiàn)在討論及應(yīng)用的最多的動態(tài)副本創(chuàng)建的策略.而且無論何種的文件系統(tǒng),策略代價評估規(guī)則都必須考慮到運行系統(tǒng)負載、存儲終端效率、網(wǎng)絡(luò)狀況和數(shù)據(jù)副本尺寸大小等物理特性因素,并結(jié)合用戶訪問特征,最終確定此時是否適合副本的創(chuàng)建并按照放置策略選擇最佳的放置位置.本文也主要討論如何動態(tài)的確定創(chuàng)建副本的最佳時機、創(chuàng)建副本數(shù)量和副本的放置策略.目前,針對不同網(wǎng)絡(luò)拓撲已有的副本創(chuàng)建策略,如表1中所列各種創(chuàng)建策略,其優(yōu)缺點進行了對比.
1)無副本策略:又稱之為緩存策略,就是不產(chǎn)生任何副本.將所有的數(shù)據(jù)都儲存在系統(tǒng)中的某個節(jié)點上,該節(jié)點可看作是該網(wǎng)格系統(tǒng)層次結(jié)構(gòu)的根節(jié)點.在一定的訪問模式下,測出各種副本策略相應(yīng)的響應(yīng)時間和帶寬消耗,以無副本策略的參數(shù)值作為參照,比較其他策略的優(yōu)劣.若其他策略產(chǎn)生的參數(shù)值都比該策略的參數(shù)值差,則不予考慮.
2)最佳客戶策略:該策略主要基于對歷史訪問記錄的統(tǒng)計,在每個網(wǎng)格節(jié)點詳細記錄每個文件訪問歷史詞組,這個記錄列表詳細描述節(jié)點對文件的請求次數(shù)和請求該文件的節(jié)點編號.在該策略中,某節(jié)點在給定的時間間隔內(nèi)檢查其上是否有文件的訪問次數(shù)超過事先給出的閾值,并找出訪問次數(shù)超過這個閾值的節(jié)點,然后標識該節(jié)點為該文件的最佳客戶,并在該節(jié)點上拷貝一個副本.生成副本之后,清除該文件在所有節(jié)點上的訪問記錄,然后重復(fù)上述過程,產(chǎn)生下一個周期的最佳客戶,這必然會在一定程度上提高數(shù)據(jù)的訪問效率和減少帶寬的消耗.這種復(fù)制策略的副本創(chuàng)建請求由服務(wù)端發(fā)出,在一定時候不能及時地反映客戶端的需求,可能會造成客戶端存儲資源的浪費或者存儲資源的不足兩種極端.
3)瀑布式策略:主要針對具有層次結(jié)構(gòu)的分級存儲系統(tǒng),利用三級瀑布思想,系統(tǒng)中根節(jié)點的訪問次數(shù)超過了一定的限額,就在下一層中尋找最佳節(jié)點創(chuàng)建該文件的副本,當(dāng)下一層中對這個文件副本的訪問次數(shù)又超過限額,最終在客戶端創(chuàng)建了該文件的副本.這種復(fù)制策略能夠比較合理地將數(shù)據(jù)分布在層次網(wǎng)格結(jié)構(gòu)的各層節(jié)點中,最終實現(xiàn)系統(tǒng)負載的均衡性.應(yīng)用到其他的類型的網(wǎng)格拓撲結(jié)構(gòu)就有比較大的局限性.
4)普通緩存策略:當(dāng)有文件讀寫請求時,該用戶節(jié)點就在本地拷貝一個副本.但是針對于容量很大的大文件請求,就需要客戶節(jié)點有足夠的存儲空間,并且緩存數(shù)據(jù)的更新速度應(yīng)該很快.這樣就對客戶節(jié)點的存儲空間提出了很高的要求,它是以犧牲客戶節(jié)點的存儲開銷以求系統(tǒng)的高效運作.
5)緩存瀑布式策略:這是綜合瀑布式策略和普通緩存策略的優(yōu)點的一種策略,副本文件仍然在客戶節(jié)點本地生成,Master將周期性地標識出熱點文件,即請求次數(shù)超過閾值的文件,并按照級噴泉策略在最佳客戶路徑上生成各級節(jié)點副本.這樣可以發(fā)現(xiàn),用戶通常就是網(wǎng)格中的葉子節(jié)點.網(wǎng)格中的任一節(jié)點均可以充當(dāng)Master.特殊的情況下,用戶節(jié)點可以充當(dāng)它的相鄰節(jié)點的服務(wù)器.該策略合理地在各個網(wǎng)格節(jié)點中分布數(shù)據(jù)的同時,實現(xiàn)了客戶端的快速訪問,以開銷大量的存儲資源為代價.因此,采用該策略時應(yīng)該權(quán)衡訪問的速度和存儲資源的開銷.
6)快速擴展策略:該策略將在從根節(jié)點到客戶節(jié)點路徑上的所有節(jié)點上拷貝副本.就是說當(dāng)一個客戶需要某個文件時,根節(jié)點服務(wù)器會將該文件的副本存儲在到達客戶節(jié)點所走過路徑上的每一個節(jié)點上,從而達到數(shù)據(jù)快速擴展的效果.該存儲網(wǎng)格數(shù)據(jù)管理種策略在能夠加快訪問速度和減少帶寬消耗的同時存儲資源,對存儲資源提出了更為苛刻的要求,在數(shù)據(jù)網(wǎng)格中每一個節(jié)點都應(yīng)該有足夠在數(shù)據(jù)訪問速度和存儲資源富余的情況下可以采用該種策略.
7)基于市場應(yīng)用的副本創(chuàng)建策略:應(yīng)不同的需求產(chǎn)生不同的策略,揚長避短.如基于螞蟻算法的文件創(chuàng)建.在考慮絡(luò)帶寬和磁盤讀寫速度等物理因素和存儲代價和傳輸通信代價的同時,如何確定最優(yōu)的副本創(chuàng)建路徑.這里的最優(yōu)策略可以是時間代價最優(yōu),花費代價最優(yōu)和性價比指數(shù)最優(yōu).在對等網(wǎng)絡(luò)中,副本放置算法就是一個完全意義的NP.再如基于經(jīng)濟學(xué)模型的復(fù)制策略,按照反向拍賣協(xié)議確定副本創(chuàng)建位置及進行副本選擇,它將數(shù)據(jù)傳輸時間作為拍賣的價格指標.該模型在評估數(shù)據(jù)復(fù)制價值時存在這樣的問題:節(jié)點往往根據(jù)自身利益進行決策,因而不一定得到全局最佳效益.
1.2多副本定位技術(shù)
多副本定位技術(shù)要求Master通過用戶遞交的特定信息,如數(shù)據(jù)對象的名字、ID或關(guān)鍵字等,能夠快速準確地在整個廣域分布的系統(tǒng)內(nèi)高效找到并返回數(shù)據(jù)對象的物理位置信息.不同網(wǎng)絡(luò)拓撲結(jié)構(gòu)也有不同的副本定位技術(shù).
現(xiàn)在已經(jīng)存在十分成熟的兩種定位策略集中式資源定位和分布式資源定位.集中式資源定位是指系統(tǒng)利用一個唯一確定的目錄結(jié)構(gòu)作為索引服務(wù)器,目錄中包含當(dāng)前系統(tǒng)中所有共享資源的元數(shù)據(jù)信息,需要定位時只需到索引服務(wù)器進行查詢.這種定位方法理解容易、實現(xiàn)簡單、使用方便,但是其擴展性和可靠性較差,不適合大型系統(tǒng),特別是大型的網(wǎng)格環(huán)境.而分布式資源定位在系統(tǒng)中建立分布式的索引服務(wù)器,而非集中式管理數(shù)據(jù)信息,其定位方法也可分為多種,如基于分布哈希表的資源定位方法,通過對節(jié)點間拓撲關(guān)系以及資源位置的精確控制,可以保證系統(tǒng)中的資源一定能夠通過某種特定的查找方法被找到,并具有較高的查詢效率,其典型的應(yīng)用系統(tǒng)包括OceanStore,CFS和Pastry等.基于無結(jié)構(gòu)的資源定位方法[73的查詢多采用廣播查詢、隨機轉(zhuǎn)發(fā)和有選擇性轉(zhuǎn)發(fā)等查找算法.該定位方法無需花費很大的代價維護分布哈希表,但是其查詢效率較低,且并不保證系統(tǒng)中的資源一定能夠被找到,采用無結(jié)構(gòu)資源定位的典型系統(tǒng)包括Gnutella,F(xiàn)reenet和Free Haven等.
在數(shù)據(jù)網(wǎng)格環(huán)境下,討論最多的便是Globus提出的目錄副本服務(wù)的副本定位技術(shù)和基于這種技術(shù)提出的各種改進算法,如Globus和歐洲數(shù)據(jù)網(wǎng)格項目聯(lián)合提出的Giggle架構(gòu).Globus的副本定位采用類似于P2P中的集中式目錄結(jié)構(gòu)管理,實現(xiàn)簡單,但擴展性、可靠性不強.另外,歐洲數(shù)據(jù)網(wǎng)格項目組也曾提出的層次式副本定位策略,該策略中所有邏輯文件都在副本目錄的根節(jié)點中出現(xiàn),因此根節(jié)點將非常龐大,可擴展性、可靠性和查詢性能都比較差.后來Globus和歐洲數(shù)據(jù)網(wǎng)格項目聯(lián)合提出的Giggle架構(gòu)采用了一個通用的層次式副本目錄結(jié)構(gòu),在具體應(yīng)用時需要結(jié)合應(yīng)用的具體特征設(shè)置參數(shù)的取值.通過改變參數(shù)的取值可以改變副本目錄的結(jié)構(gòu)和性能,這項技術(shù)得到了廣泛應(yīng)用.
可見分布式的副本定位方法SRB(Storage resource broker)、Globus這些著名的數(shù)據(jù)網(wǎng)格管理技術(shù)由于它們的副本定位都是采用集中式的目錄,限制了系統(tǒng)的可擴展性和可靠性.而很多研究者也在這些的基礎(chǔ)上提出了可擴展的分布式副本定位方法凹].力求將副本定位信息平均地分布在多個索引節(jié)點上,簡單易實現(xiàn)且具備動態(tài)遷移和可擴展的特性.
1.3多副本選擇技術(shù)
副本選擇策略負責(zé)根據(jù)用戶的要求選擇最佳副本,不同應(yīng)用所對應(yīng)的副本選擇標準不盡不同,可以是副本的響應(yīng)時間、副本的可靠性以及訪問代價等.由于實際應(yīng)用中網(wǎng)格環(huán)境的動態(tài)復(fù)雜性,加之副本較多的情況下,影響副本選擇的因素較多,往往是綜合多種因素進行預(yù)測尋找最優(yōu)解.
1)基于性能模型的預(yù)測:系統(tǒng)對性能要求十分高時,要通過為數(shù)據(jù)網(wǎng)格系統(tǒng)建立性能模型來對系統(tǒng)中副本的響應(yīng)時間進行預(yù)測.實現(xiàn)預(yù)測的關(guān)鍵在于建立網(wǎng)格系統(tǒng)的性能模型并獲取模型所需的物理參數(shù).但它的缺點是需要訪問大量底層物理設(shè)備的詳細信息.
2)基于訪問歷史信息的預(yù)測:Master或者Slaves中保存副本訪問的詳細歷史信息,以此來預(yù)測副本的響應(yīng)時間.基于訪問歷史信息的性能預(yù)測的實現(xiàn)包括兩個關(guān)鍵問題:性能度量信息的獲取和基于度量信息的性能預(yù)測.在實際應(yīng)用中,需要在度量信息量和預(yù)測的精度之間進行有效折中.
1.4多副本刪除技術(shù)
由于副本數(shù)目可能由于訪問量的減少而變得相對較多,或者副本過多引起網(wǎng)絡(luò)訪問不夠通暢等原因,提出副本刪除策略可以保證存儲空間的優(yōu)化,實現(xiàn)網(wǎng)絡(luò)性能的提高.無論是通過用戶通知的刪除或者系統(tǒng)根據(jù)副本訪問量的動態(tài)刪除,都要在保證數(shù)據(jù)安全一致的情況下執(zhí)行,這樣可以提高存儲資源的利用率.對于多副本的刪除也有以下幾種策略.
1)延遲刪除:當(dāng)刪除一條被引用的數(shù)據(jù)時,可以利用該技術(shù)實現(xiàn).原始數(shù)據(jù)被刪除后,并不急于刪除引用它所生成的副本文件,而是當(dāng)再有數(shù)據(jù)要訪問所引用文件時,再進行刪除.但一旦副本數(shù)較多,或者有些資源不再被訪問,此方法會造成存儲資源的嚴重浪費.
2)線下刪除:當(dāng)數(shù)據(jù)涉及關(guān)聯(lián)的入口數(shù)據(jù)較多,一旦執(zhí)行起來會產(chǎn)生很大的系統(tǒng)消耗,就可以采用線下刪除的方法,選擇在系統(tǒng)負載比較低的時候觸發(fā)任務(wù).
3)不刪除:如果對副本生命期限進行設(shè)定,在有效期內(nèi),我們并不消耗額外的系統(tǒng)資源去刪除它們.但是隨其使用頻率或者動態(tài)策略的調(diào)整,可以對其有效期時限進行重新設(shè)定.
1.5多副本一致性技術(shù)
數(shù)據(jù)建立副本或者在多用戶同時讀寫數(shù)據(jù)時,往往會造成副本狀態(tài)不一致的問題.而為保證副本一致性的CAP性能,我們要求副本具有物理上的一致,即表示同一個事實的數(shù)據(jù)應(yīng)相同,也稱數(shù)據(jù)的相容性和邏輯上的一致,即不同數(shù)據(jù)之間業(yè)務(wù)邏輯的一致性.但無論哪種一致,我們都通過數(shù)據(jù)強一致性和數(shù)據(jù)弱一致性兩類來研究數(shù)據(jù)一致性維護技術(shù).
數(shù)據(jù)強一致性數(shù)據(jù)副本之間保持實時的一致性,通過事務(wù)控制和同步復(fù)制執(zhí)行保持各副本在任何時刻數(shù)據(jù)的絕對一致.強一致性確保并發(fā)的修改操作不會發(fā)生沖突,但是過多的副本數(shù)量會造成副本管理瓶頸,因為過多的副本數(shù)一般是基于過多用戶的訪問,當(dāng)過多用戶并發(fā)請求讀寫數(shù)據(jù)時,系統(tǒng)的可用性、連通性就將受到限制.而且強一致性對硬件的要求非常高,大量節(jié)點同步幾乎是不可能的.另外,對分布系統(tǒng)的穩(wěn)定性和連通性要求也比較高,一旦某個副本不可用則可能導(dǎo)致整個系統(tǒng)的癱瘓.數(shù)據(jù)弱一致性又被稱作最終一致性,只要在到達一定條件下保證了各副本數(shù)據(jù)一致即可.可通過現(xiàn)有的異步復(fù)制和數(shù)據(jù)復(fù)制兩種基本復(fù)制技術(shù)來實現(xiàn)副本進行一致性校驗.與強一致性相比,弱一致性提高了系統(tǒng)包容通信失效和節(jié)點失效的能力.弱一致性是對復(fù)制算法的最低要求,如果滿足不了最終一致,副本內(nèi)容可能總是保持在“被破壞”的狀態(tài),從而導(dǎo)致放棄該副本甚至整個系統(tǒng)不可用;其次,弱一致性提供的最終一致性服務(wù)總是盡最大努力在副本之間快速地傳播更新,實際上對許多應(yīng)用來講這已經(jīng)足夠了.Amazon云系統(tǒng)S3所使用的就是這種數(shù)據(jù)弱一致性技術(shù).針對海量數(shù)據(jù)一致性,有人提出了更新一致性維護策略,用戶更新所訪問的數(shù)據(jù)對象,并提交到系統(tǒng)中;系統(tǒng)根據(jù)設(shè)計的一致性維護方法在多個副本間進行更新傳播;副本按照不同的順序接收更新,然后根據(jù)一定的規(guī)則應(yīng)用更新,最終達到一致狀態(tài).
2、云環(huán)境下的多副本管理技術(shù)探討
多副本是通過利用物理存儲資源對數(shù)據(jù)進行備份.云環(huán)境下的多副本管理主要是依托于現(xiàn)在新型的云存儲技術(shù),云存儲又是依托于云計算而發(fā)展出來的.云存儲是將互聯(lián)網(wǎng)上不同結(jié)構(gòu)不同類型的存儲設(shè)備通過應(yīng)用軟件集合起來,利用集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,提供對外數(shù)據(jù)存儲和業(yè)務(wù)訪問等服務(wù).云存儲可以是指云計算的存儲部分,即虛擬化的、易于擴展的存儲資源池.云存儲也意味著存儲可以作為一種服務(wù),通過網(wǎng)絡(luò)提供給用戶.換句話說,云存儲并非傳統(tǒng)意義上的硬件設(shè)備,而是一種基于硬件存儲資源、網(wǎng)絡(luò)設(shè)備、應(yīng)用軟件和接人口等一系列的復(fù)雜網(wǎng)絡(luò)服務(wù)系統(tǒng).
目前要在云環(huán)境下考慮多副本管理技術(shù)就要綜合云平臺特性及客戶需求,有不同的策略,如表2中所述,云環(huán)境下要考慮一些額外影響因素.在云環(huán)境下存在多數(shù)據(jù)中心,這種復(fù)雜情況下的數(shù)據(jù)副本管理不僅要依賴于傳統(tǒng)多副本管理方法,還要針對云環(huán)境下不同應(yīng)用優(yōu)化服務(wù)策略.優(yōu)秀的副本管理策略直接影響用戶體驗.在海量數(shù)據(jù)云存儲的環(huán)境下的多副本創(chuàng)建問題、選擇策略、動態(tài)遷移技術(shù)和多副本一致性的方法討論則成為重點方向.云環(huán)境下的副本選擇則比較復(fù)雜,而且是其他副本管理的基礎(chǔ).它的選擇預(yù)測直接影響到副本創(chuàng)建時的放置策略,動態(tài)遷移時遷移哪個副本,副本一致性檢測時使用哪些副本進行校驗.和傳統(tǒng)選擇技術(shù)一樣要考慮地域分布、網(wǎng)絡(luò)負載均衡等綜合因素對訪問性能的限制,還要對訪問歷史記錄的分析決策.
云環(huán)境下的多副本創(chuàng)建主要考慮創(chuàng)建粒度和放置位置.對于使用云端服務(wù)的用戶,其數(shù)據(jù)量必然是大量的,甚至海量數(shù)據(jù).最初創(chuàng)建副本時,結(jié)合副本選擇預(yù)測算法預(yù)測出熱點位置,并創(chuàng)建合理的副本數(shù)量.這可以保證大量的數(shù)據(jù)在多個數(shù)據(jù)中心的數(shù)據(jù)之間暢通傳輸.
對于在云環(huán)境下的副本一致性的管理,文獻提出了按照4個類別的應(yīng)用程序的一致性,根據(jù)他們的閱讀頻率和更新頻率,然后設(shè)計相應(yīng)的一致性策略.應(yīng)用程序在運行時自動選擇最合適的戰(zhàn)略,以實現(xiàn)一致性,可用性和高性能之間的動態(tài)平衡.評價結(jié)果表明,該機制在保證數(shù)據(jù)一致性的同時還降低了操作帶來的負載消耗.文獻則提出了一種基于樹的一致性的方法,減小副本服務(wù)器對于引入云數(shù)據(jù)庫的部分一致和完全一致的狀態(tài)的依賴關(guān)系.保證從主服務(wù)器到所有副本服務(wù)器都在最可靠路徑上.因此,事務(wù)失敗的概率大大減少,這有助于提高不可靠的網(wǎng)絡(luò)性能和使吞吐量均勻.
云環(huán)境下的動態(tài)遷移技術(shù)則更多的是結(jié)合虛擬化技術(shù)應(yīng)用.動態(tài)遷移和多副本技術(shù)可以簡單理解成計算機中的剪切與復(fù)制技術(shù).如何選擇合適的節(jié)點做數(shù)據(jù)的容災(zāi)備份或者熱點遷移地址,并且在保證服務(wù)不中斷的情況下迅速進行數(shù)據(jù)轉(zhuǎn)移.尤其在云環(huán)境下,用戶會產(chǎn)生不同的用戶需求,比如實時動態(tài)遷移過程等,延遲刪除與線下刪除等技術(shù)的結(jié)合使用可以.而且在云環(huán)境下的副本數(shù)據(jù)是海量存儲,分布式的文件系統(tǒng)將海量數(shù)據(jù)分割成較為小的數(shù)據(jù),但需要處理的數(shù)據(jù)量依然很大.如果立即刪除會給系統(tǒng)突發(fā)地帶來相當(dāng)大的負載,甚至可能會引起用戶訪問的響應(yīng)率降低的任務(wù).將刪除任務(wù)分割成很多很小的任務(wù),分批地提交給系統(tǒng)定時線下處理.Aaron等人提出一種彈性云平臺下的動態(tài)遷移技術(shù),有效進行非共享事務(wù)實時數(shù)據(jù)庫遷移.文獻提出的一種懶惰更新算法是分隔云的數(shù)據(jù)復(fù)制和數(shù)據(jù)訪問的過程,從而提高數(shù)據(jù)訪問的吞吐量和縮短響應(yīng)時間.多副本技術(shù)在云環(huán)境下應(yīng)用也更多討論的是副本動態(tài)遷移問題,充分利用了上述提到過的幾種技術(shù)策略,綜合性較強.
3、云環(huán)境下的多副本管理技術(shù)展望
在云環(huán)境下未來的研究中,多副本管理仍將是討論的重點,隨著海量數(shù)據(jù)的出現(xiàn),相信云存儲及云端海量數(shù)據(jù)分析都將遇到挑戰(zhàn).筆者認為,在云環(huán)境下,多副本管理可以從以下幾方面進行研究:
1)基于云平臺的數(shù)據(jù)遷移問題.云環(huán)境下對于數(shù)據(jù)遷移工作的部署,必將是大量數(shù)據(jù)由傳統(tǒng)的數(shù)據(jù)存儲中轉(zhuǎn)移到云存儲中.另外,在云存儲的海量數(shù)據(jù)中,如何備份容災(zāi)和進行海量數(shù)據(jù)轉(zhuǎn)移也是很關(guān)鍵的問題.云平臺下的數(shù)據(jù)庫管理系統(tǒng)要具有可伸縮、容錯和彈性,這樣才能夠保證副本之間可以在不宕機的情況下進行無縫遷移復(fù)制,并且使用戶完全感覺不到.而這項技術(shù)是傳統(tǒng)多副本定位、刪除、一致性保證等技術(shù)融合,對于云存儲這種海量數(shù)據(jù)的處理以及面對超級多的用戶訪問,策略的完善更是刻不容緩.而在云環(huán)境下,無論是云計算或是云存儲都是基于虛擬化技術(shù)的實現(xiàn),多副本存儲與虛擬化存儲的配合使用也是云平臺下多副本管理的研究值得思考的問題.虛擬機宕機之后的多副本存放與硬盤存儲設(shè)備的接管,都是遷移技術(shù)的難點所在.單是針對存儲資源的動態(tài)遷移已經(jīng)是現(xiàn)在技術(shù)的難點,更值得提出的是對于云環(huán)境下多副本的處理,動態(tài)遷移哪個副本文件,副本選擇策略放置策略等技術(shù)在遷移過程中的應(yīng)用,更將把這個云環(huán)境下的副本遷移技術(shù)難度推向一個新高度.
2)在云環(huán)境下,由于海量級的數(shù)據(jù)存在多個副本,對于像Google的GFS系統(tǒng)和Yahoo!的Hadoop這樣的系統(tǒng),還要將其龐大的數(shù)據(jù)分割存放,其副本的選擇和放置策略則要經(jīng)過精密計算.如何有效對碎片式的多副本數(shù)據(jù)進行整合調(diào)用將成為未來研究重點之一.海量數(shù)據(jù)的處理已經(jīng)讓技術(shù)人員煞費苦心,對于分布式文件管理系統(tǒng)開發(fā)人員,數(shù)據(jù)的分割策略也是技術(shù)難點,而對于應(yīng)用分布式存儲的云環(huán)境下的海量數(shù)據(jù)多副本管理這個課題,更將是難上加難.云環(huán)境下的多副本意味著海量數(shù)據(jù)的數(shù)量級更上一層樓,而數(shù)據(jù)分割分配策略也會因?qū)嶋H情況底層存儲系統(tǒng)不同而不同.因此,云環(huán)境下的海量分片式多副本管理仍面臨很多技術(shù)挑戰(zhàn).
3)在云環(huán)境下對多用戶多應(yīng)用的即時響應(yīng)也是需要深度探討的問題.要求副本粒度隨著用戶數(shù)的變化而動態(tài)調(diào)整,使副本數(shù)不至于太多而浪費存儲空間,也不會太少而影響多用戶訪問速度.該刪除副本時是用哪種刪除策略才不會影響系統(tǒng)性能.
4)數(shù)據(jù)基于地理位置的感知也十分關(guān)鍵.隨著數(shù)據(jù)量增大,存放數(shù)據(jù)的云朵規(guī)模也越來越大,越來越多的應(yīng)用被部署在不同地理空間上.如何改進傳統(tǒng)的放置和選擇多副本策略使之適應(yīng)于云環(huán)境的大規(guī)模數(shù)據(jù)調(diào)用,使副本合理分布在不同的地理空間,以節(jié)省數(shù)據(jù)在傳輸過程的消耗并保證數(shù)據(jù)副本數(shù)容災(zāi)性及可靠性必將是多副本在云存儲平臺的一個討論熱點.
5)當(dāng)年伴隨云計算的提出,很多質(zhì)疑聲音也出現(xiàn)了,那就是云安全的問題.對于云計算安全的處理一直是云技術(shù)發(fā)展的一個難點.用戶將大量私密數(shù)據(jù)存在云端,而在云環(huán)境下數(shù)據(jù)的多副本策略,既要保證數(shù)據(jù)不被外界截獲盜取,又要保證數(shù)據(jù)一致性無誤保存,又將是云存儲環(huán)境下的技術(shù)難點.副本數(shù)目越多,分布范圍越廣,其管理難度就會越大.,安全性也會越低.如何在云端對數(shù)據(jù)的多副本進行加密處理等措施是未來云端副本秘密安全性的重點.
4、結(jié)束語
云環(huán)境的應(yīng)用已經(jīng)越來越火熱,圍繞云存儲和云計算的多副本高可靠性、高性能的技術(shù)正在被慢慢挖掘.而云環(huán)境下多副本管理如何繼承傳統(tǒng)分布式存儲系統(tǒng)中的技術(shù)優(yōu)點,如何對于傳統(tǒng)的多副本創(chuàng)建方法、放置技術(shù)、選擇刪除策略及一致性管理等方面進行優(yōu)化改進,針對不同應(yīng)用,又如何運用不同的技術(shù)管理方法實現(xiàn)云環(huán)境下的多副本管理.目前在云環(huán)境下的多副本管理研究較少.本文全面分析了傳統(tǒng)的多副本管理技術(shù),并針對在云環(huán)境中所涉及到的多副本管理問題進行闡述,分析了不同的網(wǎng)絡(luò)環(huán)境、不同文件系統(tǒng)要求及不同的應(yīng)用需求、多副本管理采用的不同側(cè)重的管理方法.
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標題:云環(huán)境下多副本管理綜述
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/1083972201.html