面對數(shù)據(jù)量的急劇增長,傳統(tǒng)存儲技術(shù)面臨建設(shè)成本高、運維復(fù)雜、擴(kuò)展性有限等問題,主要體現(xiàn)在以下幾個方面:
(1)開放性不足:盤陣存儲標(biāo)準(zhǔn)化程度低,組件的更換常常導(dǎo)致系統(tǒng)故障或者硬件的升級,這些組件通常是由制造商專門開發(fā)用于此系統(tǒng),不能輕易的利用市場上通用部件。
(2)成本較高:盤陣造價昂貴,導(dǎo)致系統(tǒng)建設(shè)成本居高不下;
(3)擴(kuò)展性較差:傳統(tǒng)盤陣單點擴(kuò)展存在容量上限和接口帶寬等限制,面對PB級的海量存儲需求,傳統(tǒng)的SAN或NAS在容量和性能的擴(kuò)展上無法滿足。
在此背景下,成本低廉、提供高可擴(kuò)展性的云存儲技術(shù)日益得到關(guān)注,本文將詳細(xì)介紹存儲的新技術(shù)——云存儲的特征定義、相關(guān)技術(shù)發(fā)展現(xiàn)狀及國際標(biāo)準(zhǔn)情況,并針對各類云存儲技術(shù),分析其對于電信運營商的適合應(yīng)用場景及應(yīng)用建議。
1 云存儲概況
1.1云存儲的定義
由于業(yè)內(nèi)沒有統(tǒng)一的標(biāo)準(zhǔn),各廠商的技術(shù)發(fā)展路線也不盡相同,因此相對于云計算,云存儲概念存在更多的多義和模糊現(xiàn)象。結(jié)合云存儲技術(shù)發(fā)展背景及主流廠商的技術(shù)方向,可以得出如下定義:云存儲不是指某一個具體的設(shè)備,而是指一個由許許多多個存儲設(shè)備和服務(wù)器所構(gòu)成的集合體。使用者使用云存儲,并不是使用某一個存儲設(shè)備,而是使用整個云存儲系統(tǒng)帶來的一種數(shù)據(jù)訪問服務(wù)。云存儲的核心是應(yīng)用軟件與存儲設(shè)備相結(jié)合,通過應(yīng)用軟件來實現(xiàn)存儲設(shè)備向存儲服務(wù)的轉(zhuǎn)變。
1.2云存儲系統(tǒng)的特征
云存儲系統(tǒng)應(yīng)具有以下通用特征:
(1)高可擴(kuò)展性:云存儲系統(tǒng)可支持海量數(shù)據(jù)處理,資源可以實現(xiàn)按需擴(kuò)展;
(2)低成本:云存儲系統(tǒng)應(yīng)具備高性價比的特點,低成本體現(xiàn)在兩方面,更低的建設(shè)成本和更低的運維成本;
(3)無接入限制:相比傳統(tǒng)存儲,云存儲強調(diào)對用戶存儲的靈活支持,服務(wù)域內(nèi)存儲資源可以隨處接入,隨時訪問。
(4)易管理:少量管理員可以處理上千節(jié)點和PB級存儲,更高效的支撐大量上層應(yīng)用對存儲資源的快速部署需求。
1.3云存儲的分類
在存儲資源獲取接口上,云存儲和傳統(tǒng)存儲在功能上并無差異,二者的區(qū)別體現(xiàn)在云存儲可以按需提供易管理、高可擴(kuò)展、高性價比的存儲資源。根據(jù)存儲的數(shù)據(jù)類型不同和應(yīng)用需求不同,云存儲系統(tǒng)可分為以下4種類型:
(1)提供塊存儲的云存儲系統(tǒng);
(2)提供文件存儲的云存儲系統(tǒng)。
(3)提供對象存儲的云存儲系統(tǒng)。
(4)提供表存儲的云存儲系統(tǒng)。
2 云存儲技術(shù)現(xiàn)狀和應(yīng)用場景分析
2.1提供塊存儲的云存儲系統(tǒng)
傳統(tǒng)FC SAN系統(tǒng)就是典型的塊存儲系統(tǒng)。由于采用直接讀寫磁盤空間來訪問數(shù)據(jù),相對于其它數(shù)據(jù)讀取方式,塊存儲的讀取效率最高,一些大型數(shù)據(jù)庫應(yīng)用只能運行在塊存儲設(shè)備上。
一些廠家在SAN存儲系統(tǒng)的基礎(chǔ)上進(jìn)行“云化”,在保證讀取效率和設(shè)備可靠性的情況下,增加設(shè)備的擴(kuò)展能力。這種云化方案主要包括兩類技術(shù),一種為存儲虛擬化,另一種為新存儲架構(gòu)。
2.2存儲虛擬化
根據(jù)虛擬化實現(xiàn)層面的不同,存儲虛擬化又分為基于主機的虛擬化、基于存儲網(wǎng)絡(luò)的虛擬化和基于存儲設(shè)備的虛擬化3類。
各類存儲虛擬化技術(shù)的實現(xiàn)方式、技術(shù)優(yōu)缺點及使用場景分析如表l所示。
基于傳統(tǒng)FC SAN存儲、通過第三方虛擬化設(shè)備實現(xiàn)存儲的彈性擴(kuò)展的存儲虛擬化技術(shù)也可以算作云存儲系統(tǒng)。但由于虛擬化硬件或軟件的性能瓶頸問題、傳統(tǒng)磁盤陣列本身有限的擴(kuò)展能力以及異構(gòu)設(shè)備故障定位困難等問題,存儲虛擬化技術(shù)應(yīng)用具有一定局限性,對于遺留FC SAN存儲系統(tǒng),建議選擇適合的存儲虛擬化技術(shù)進(jìn)行資源整合和分級存儲,以實現(xiàn)存儲資源的有效利用。
表1 各類存儲虛擬化技術(shù)對比及適用場景分析表
2.3新存儲架構(gòu)
目前一些傳統(tǒng)存儲設(shè)備廠商也推出了全新架構(gòu)的云存儲系統(tǒng),如通過改變前端交換矩陣結(jié)構(gòu)、通過分布式算法管理的網(wǎng)格存儲等在設(shè)計上實現(xiàn)塊存儲系統(tǒng)的scale Out。此類代表的產(chǎn)品有EMC V—MAX和IBM XIV。
V—MAX其后端架構(gòu)體系和現(xiàn)有盤陣相同,可在新建系統(tǒng)中考慮使用,并可與原有傳統(tǒng)盤陣進(jìn)行虛擬化整合。但其擁有成本仍然較高,XIV屬于全新架構(gòu)的陣列設(shè)備,無法與傳統(tǒng)FC SAN設(shè)備以虛擬化方式進(jìn)行整合,引入必然帶來新的存儲豎井,在已有系統(tǒng)擴(kuò)容中不建議考慮,但由于其采用標(biāo)準(zhǔn)硬件單元,成本降低。也可在新建生產(chǎn)系統(tǒng)時謹(jǐn)慎采用。由于設(shè)備的廠商私有性,各廠商新架構(gòu)的云存儲系統(tǒng)之間難以兼容。
2.4提供文件存儲的云存儲系統(tǒng)
文件存儲系統(tǒng)可提供通用的文件訪問接口,如POSIX、NFS、CIFS、FTP等,實現(xiàn)文件與目錄操作、文件訪問、文件訪問控制等功能。文件系統(tǒng)云存儲系統(tǒng)適合處理海量非結(jié)構(gòu)化數(shù)據(jù),目前提供文件存儲的云存儲系統(tǒng)包括兩類:
(1)軟硬件一體解決方案:基于X86硬件,但利用專有的、定制設(shè)計的硬件組件,與廠家分布式文件系統(tǒng)集成在一起,以實現(xiàn)目標(biāo)設(shè)計的性能和可靠性目標(biāo)。
(2)軟硬件分離解決方案:基于開源分布式文件系統(tǒng)對外提供彈性存儲資源,軟硬件分離方式。可采用標(biāo)準(zhǔn)PC服務(wù)器硬件。
2.5軟硬件一體機
軟硬件一體機又可進(jìn)一步分為并行文件系統(tǒng)和NAS虛擬化系統(tǒng),前者代表產(chǎn)品為EMC Isilon ONE FS和IBM SONAS GPFS,后者代表產(chǎn)品為HP X9000(IBRIX Fusion FS)。
NAS虛擬化本質(zhì)為NAS機頭+集中存儲的解決方案,存在管理節(jié)點的瓶頸,同時以文件為粒度的分布式?jīng)Q定了其有限的文件讀寫性能,不是完全意義上的分布式文件系統(tǒng),前兩者為分布式并行文件系統(tǒng),且無管理節(jié)點瓶頸,但均采用集中共享存儲,文件系統(tǒng)成熟度較好,但軟硬一體的結(jié)構(gòu)帶來成本問題和未來擴(kuò)容的局限性問題。
2.6軟硬件分離的分布式文件系統(tǒng)
分布式文件系統(tǒng)雖然已經(jīng)提出很多年,但由于以開源產(chǎn)品或自用技術(shù)為主,既無統(tǒng)一標(biāo)準(zhǔn)又缺少成熟商用產(chǎn)品,因此真正的商用應(yīng)用較少。代表性的為Google的GFS和開源的HDFS,另外Facebook、淘寶、騰訊等均開發(fā)了自己的分布式文件系統(tǒng),用于管理其Blog、相冊等數(shù)據(jù)信息。近年來一些國內(nèi)廠商也推出了商用的軟硬件分離的分布式文件系統(tǒng)。
HDFS可以認(rèn)為是GFS的一個簡化版實現(xiàn),采用單一主控機(Master)+多臺工作機的模式,由一臺主控機存儲系統(tǒng)全部元數(shù)據(jù),并實現(xiàn)數(shù)據(jù)的分布、復(fù)制、備份決策,工作機存儲數(shù)據(jù)并根據(jù)主控機的指令進(jìn)行數(shù) 據(jù)存儲、數(shù)據(jù)遷移和數(shù)據(jù)計算等。HDFS通過數(shù)據(jù)分塊和復(fù)制(多副本,一般是3)來提供更高的可靠性和更高的性能。同時,針對數(shù)據(jù)讀多于寫的特點,讀服務(wù) 被分配到多個副本所在機器,提供了系統(tǒng)的整體性能。HDFS提供了一個樹結(jié)構(gòu)的文件系統(tǒng),實現(xiàn)了類似與Linux下的文件復(fù)制、改名、移動、創(chuàng)建、刪除操 作以及簡單的權(quán)限管理等。但HDFS為避免多客戶端對同一文件的追加,簡化了設(shè)計,不支持對文件的Append追加操作,這也使得HDFS不能提供標(biāo)準(zhǔn)的 POSIX接口,不能成為一個完整意義上“文件系統(tǒng)”。
軟硬件分離分布式文件系統(tǒng)解決方案與廠商私有分布式文件系統(tǒng)一樣,可通過分布式架構(gòu)有效提高文件并發(fā)讀寫性能,且能夠構(gòu)建在標(biāo)準(zhǔn)的x86服務(wù)器集群之上.比軟硬件一體設(shè)備具有更好的擴(kuò)展性并可有效降低建設(shè)成本,但開源軟件本身的成熟度有待驗證。
圖1 HDFS技術(shù)架構(gòu)示意圖
2.7提供對象存儲的云存儲系統(tǒng)
對象存儲是為海量數(shù)據(jù)提供Key—Value這種通過鍵值查找數(shù)據(jù)文件的存儲模式,它引人對象元數(shù)據(jù)來描述對象特征,對象元數(shù)據(jù)具有豐富的語義,引人容器 概念作為存儲對象的集合。對象存儲系統(tǒng)服務(wù)層對應(yīng)用系統(tǒng)提供基于http/https協(xié)議的對象存儲WebService服務(wù)或直接提供API接口,底層 基于分布式存儲系統(tǒng)來實現(xiàn)數(shù)據(jù)的存取,具體存儲方式對外部應(yīng)用透明。這樣的存儲系統(tǒng)架構(gòu)具有高可擴(kuò)展性,支持?jǐn)?shù)據(jù)的并發(fā)讀寫,一般不支持?jǐn)?shù)據(jù)的隨機寫操 作。
2.7.1 AmazoN S3
Amazon S3 (Amazon Simple Storage Service)是亞馬遜公司利用他們的亞馬遜網(wǎng)絡(luò)服務(wù)系統(tǒng)所提供的網(wǎng)絡(luò)線上儲存服務(wù)。經(jīng)由Web服務(wù)界面,提供給用戶包括REST, SQAP與BitTorrent接口,使用戶能夠輕易把檔案儲存到網(wǎng)絡(luò)服務(wù)器上。
S3基本概念:
(1)桶(bucket):類比于文件系統(tǒng)的目錄,存儲對象的容器,不能嵌套,名稱全局唯一;
(2)對象(object):類比文件系統(tǒng)的文件,包含對象數(shù)據(jù)和對象元數(shù)據(jù)。對象元數(shù)據(jù)用來描述對象特征,具有豐富的語義,并帶有版本概念。上傳的對象在其存儲周期內(nèi)不能改變,
(3)鍵值(Keys):類比文件名,key的樣式是URL。
同名文件的寫人,并不覆蓋已有文件而是增加了一個最新的文件版本(圖2左)。同樣下面的刪除也不真正刪除,而是mark了刪除標(biāo)記(圖2右)。當(dāng)最新版本 mark為deleted之后,對該對象的get操作返回錯誤,除非明確指定一個歷史版本。也可以指定版本永久刪除其中一個拷貝。
2.7.2 中國移動BC-ONEST
中國移動大云也提供了對象存儲模塊BC-ONest,基本概念與S3類似,相關(guān)接口如下:
Native API接口:提供C++, Java API接口,實現(xiàn)本地高并發(fā)數(shù)據(jù)操作。
Internet接口:基于http/https的REST/SOAP訪問接口,用戶可以通過互聯(lián)網(wǎng)隨時隨地的上傳、訪問系統(tǒng)中的對象數(shù)據(jù);系統(tǒng)為用戶的接人和數(shù)據(jù)的傳輸提供安全可靠的通道。
Cloud NA5接口:本系統(tǒng)支持以NAS Server的形式對外提供基于文件系統(tǒng)訪問接口的存儲服務(wù)?蛻舳藨(yīng)用可以通過“掛載(mount)”,將遠(yuǎn)程的對象存儲空間映射為本地的文件系統(tǒng)。
小結(jié):對象存儲技術(shù)相對成熟,國內(nèi)外也有很多成功案例,對于運營商來說,對象存儲對底層硬件要求不高,存儲系統(tǒng)可靠性和容錯通過軟件實現(xiàn),同時其訪問接口 簡單,適合處理海量、小數(shù)據(jù)的非結(jié)構(gòu)化數(shù)據(jù),如在線的公共云存儲服務(wù)、數(shù)據(jù)備份服務(wù)等;移動互聯(lián)網(wǎng)類應(yīng)用,如郵箱、網(wǎng)盤、相冊、音頻視頻存儲等。
圖2 Amazon 53存儲操作示意圖
2. 8提供表存儲的云存儲系統(tǒng)
表結(jié)構(gòu)存儲是一種結(jié)構(gòu)化數(shù)據(jù)存儲,如傳統(tǒng)數(shù)據(jù)庫相比,它提供的表空間訪問功能受限,但更強調(diào)系統(tǒng)的可擴(kuò)展性。提供表存儲的云存儲系統(tǒng)的特征就是同時提供高并發(fā)的數(shù)據(jù)訪問性能和可伸縮的存儲和計算架構(gòu)。如表2所示。
表2 結(jié)構(gòu)云存儲與傳統(tǒng)數(shù)據(jù)庫比較表
提供表存儲的云存儲系統(tǒng)有兩類接口訪問方式。一類是標(biāo)準(zhǔn)的xDBC, SQL數(shù)據(jù)庫接口,一類是MapReduce的數(shù)據(jù)倉庫應(yīng)用處理接口。前者目前以開源技術(shù)為主,尚未有成熟的商業(yè)軟件,后者己有商業(yè)軟件和成功的商業(yè)應(yīng)用案例。
2.8.1 分布式數(shù)據(jù)倉庫
分布式數(shù)據(jù)倉庫一般采用MPP( Massive ParallelProcessing)架構(gòu)實現(xiàn)海量數(shù)據(jù)存儲和處理、以及高并發(fā)數(shù)據(jù)讀寫能力,它實現(xiàn)了SQL到MapReduce的翻譯,優(yōu)化.執(zhí)行和 結(jié)果收集,具有良好的擴(kuò)展能力。分布式數(shù)據(jù)倉庫能基于各種開放式硬件平臺,同時支持SQL和MapReduce接口。
分布式數(shù)據(jù)倉庫的代表系統(tǒng):商業(yè)軟件GreenPlum,中國移動HuqeTable、開源Hive等。
圖3 為Green Plum的SharcNothiny體系架構(gòu)示意圖
2.8.2分布式數(shù)據(jù)庫
分布式數(shù)據(jù)庫同樣基于低成本的PC服務(wù)器,提供了高度可伸縮的存儲和計算架構(gòu)。數(shù)據(jù)存儲、可靠性依賴于表存儲底層采用的文件存儲;高性能的數(shù)據(jù)讀寫能力也需要利用底層并行文件系統(tǒng)的并行數(shù)據(jù)讀寫能力。分布式數(shù)據(jù)庫的代表系統(tǒng):Google BigTable。
BigTable承載了Google搜索引擎、郵件、地圖、Analytics等應(yīng)用的結(jié)構(gòu)化數(shù)據(jù),容量達(dá)到十PB規(guī)模,它提供了簡單的數(shù)據(jù)模型,支持快 速數(shù)據(jù)定位、掃描,但是不支持RDBMS的關(guān)系運算如報表、多表查詢、復(fù)雜關(guān)系運算。BigTable可提供高性能數(shù)據(jù)讀寫,利用內(nèi)存寫十日志保證數(shù)據(jù)寫 性能,利用數(shù)據(jù)分區(qū)+三層索引提高讀性能,尤其是數(shù)據(jù)掃描的性能。
小結(jié):分布式數(shù)據(jù)倉庫領(lǐng)域里。商用Greenplum和開源的Hive有了大量的成功案例,己經(jīng)成為BI領(lǐng)域發(fā)展趨勢.適用于海量數(shù)據(jù)ETL處理、數(shù)據(jù)挖掘應(yīng)用、以及網(wǎng)管信令分析應(yīng)用、海量日志處理等。
分布式數(shù)據(jù)庫目前以開源為主,尚未有成熟的商業(yè)軟件,其與并行計算模式配合可實現(xiàn)高性能可伸縮的批處理,可用于話單結(jié)算等場景,并提供了簡單的數(shù)據(jù)模型以支持快速數(shù)據(jù)定位、掃描,但目前不適用于業(yè)務(wù)邏輯復(fù)雜的OLTP應(yīng)用,如CRM和ERP等。
圖4 BigTable的邏輯模型與物理設(shè)計示意圖
模型以支持快速數(shù)據(jù)定位、掃描,但目前不適用于業(yè)務(wù)邏輯復(fù)雜的OLTP應(yīng)用,如CRM和ERP等。
2.9相關(guān)國際標(biāo)準(zhǔn)簡介
SNIA(Storage Networking IndustryAssociation )于2010年4月12日推出首個云存儲標(biāo)準(zhǔn)—CDMI ( Cloud Data Management Interface)標(biāo)準(zhǔn),主要面向存儲即服務(wù)(DaaS),屬于對象存儲的范疇,廠家產(chǎn)品可以以CDMI標(biāo)準(zhǔn)為基礎(chǔ)提供按需虛擬存儲或相關(guān)數(shù)據(jù)服務(wù)。
由于篇幅有限,本文不再詳細(xì)敘述CDMI標(biāo)準(zhǔn)。
3 結(jié)束語
以上詳細(xì)闡述了不同數(shù)據(jù)類型的云存儲技術(shù),并一一分析了其應(yīng)用場景。
對于企業(yè)私有云應(yīng)用,面對各類生產(chǎn)系統(tǒng)的存儲需求,要求云存儲系統(tǒng)按需提供不同空間容量、不同性能的存儲資源,應(yīng)積極采用存儲虛擬化技術(shù)整合現(xiàn)有FC SAN資源,挖掘設(shè)備潛力,建立分級存儲機制,使數(shù)據(jù)合理分布,在海量非結(jié)構(gòu)化數(shù)據(jù)處理、日志詳單處理、經(jīng)營分析領(lǐng)域等積極實驗和試點分布式存儲解決方 案。
對于公眾云服務(wù),云存儲的成本和擴(kuò)展性是首要考慮,應(yīng)基于標(biāo)準(zhǔn)x86服務(wù)器,采用分布式對象存儲技術(shù)提供有競爭力的云存儲服務(wù),為將來云服務(wù)在更大范圍的融合和合作奠定基礎(chǔ),在云存儲服務(wù)接口上應(yīng)統(tǒng)一規(guī)范要求,建議參考CDMI國際標(biāo)準(zhǔn)。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:云存儲技術(shù)發(fā)展及應(yīng)用
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/1083967643.html