一 引言
由于數(shù)字設(shè)備的產(chǎn)生及快速發(fā)展(例如個人電腦、筆記本電腦、平板電腦、及智能電話等),因此新的數(shù)據(jù)不斷產(chǎn)生,其規(guī)模越來越龐大。
根據(jù)市場研究公司IDC的一項調(diào)查顯示,全球數(shù)字?jǐn)?shù)據(jù)量每2年便翻一番。2011年的數(shù)據(jù)量將達(dá)到里程碑式的1.8澤字節(jié)(ZB),也就是1.8萬億G字節(jié)。IDC調(diào)查了一年中世界范圍內(nèi)原創(chuàng)或復(fù)制的數(shù)據(jù)發(fā)現(xiàn):全球IT從業(yè)人數(shù)的增長并沒有與服務(wù)器、數(shù)據(jù)管理及非結(jié)構(gòu)化數(shù)據(jù)的大量增加成正比。到2020年,服務(wù)器數(shù)量將是現(xiàn)在的10倍,信息量將是現(xiàn)在的50倍。根據(jù)該調(diào)查得出的結(jié)論,到2020年,全球?qū)氖鹿芾頂?shù)據(jù)工作的IT專業(yè)人員的需求量將是現(xiàn)在的1.5倍。
如何有效地管理和存儲這些海量的數(shù)據(jù),這一難題成為業(yè)界所關(guān)注的焦點。而分布式存儲系統(tǒng)被認(rèn)為是針對該問題的最佳解決方案,也越來越受到大家的關(guān)注。
二 傳統(tǒng)的存儲系統(tǒng)
2.1 直連式存儲(DAS)
開放系統(tǒng)的直連式存儲(Direct-Attached Storage,DAS),已經(jīng)有近40年的發(fā)展歷史,它的特點是:存儲設(shè)備是通過電纜(通常是SCSI接口電纜)直接連接服務(wù)器。I/O(輸入,輸出)請求直接發(fā)送到存儲設(shè)備,它基于服務(wù)器,其本身是硬件的堆疊,不帶有任何存儲操作系統(tǒng)。它的缺點是:
、俟芾韽(fù)雜;
、谥鞣⻊(wù)器容易成為訪問的瓶頸;
③缺乏數(shù)據(jù)共享能力;
、軘U展能力有限;
、莶荒茉诰擴展和維護(hù)。
2.2 網(wǎng)絡(luò)附屬存儲(NAS)
網(wǎng)絡(luò)附屬存儲(Network Attached Storage,NAS)是一種將分布、獨立的數(shù)據(jù)整合為大型、集中化管理的數(shù)據(jù)中心,以便對不同主機和應(yīng)用服務(wù)器進(jìn)行訪問的技術(shù)。
NAS被定義為一種特殊的專用數(shù)據(jù)存儲服務(wù)器,包括存儲器件(例如磁盤陣列、CD/DVD驅(qū)動器、磁帶驅(qū)動器或可移動的存儲介質(zhì))和內(nèi)嵌系統(tǒng)軟件,可提供跨平臺文件共享功能。但是文件服務(wù)器容易成為整個系統(tǒng)的瓶頸,例如在大規(guī)模數(shù)據(jù)訪問時會出現(xiàn)性能方面的問題。
2.3 存儲區(qū)域網(wǎng)絡(luò)(SAN)
存儲區(qū)域網(wǎng)絡(luò)(Storage Area Network)的支撐技術(shù)是光線通道(Fiber Channel)技術(shù),這是ANSI為網(wǎng)絡(luò)和通道I/O接口建立的—個標(biāo)準(zhǔn)集成。支持HIPPI、IPI、SCSI、IP、ATM等多種高級協(xié)議。它的最大特性是將網(wǎng)絡(luò)和設(shè)備的通信協(xié)議與傳輸物理介質(zhì)隔離。這樣,多種協(xié)議可在同一個物理連接上同時傳送,高性能存儲體和寬帶網(wǎng)絡(luò)使用單I/O接口使得系統(tǒng)的成本和復(fù)雜程度大大降低。
SAN的主要特點是:
①具有較高的擴展能力和高存儲能力;
、跀(shù)據(jù)分享能力有限;
③安全性較差。
三 分布式存儲系統(tǒng)分類
分布式存儲系統(tǒng)從數(shù)據(jù)存儲模型上來看,可以分為以下幾類。
3.1 存儲虛擬化
全球網(wǎng)絡(luò)存儲工業(yè)協(xié)會(Storage Networking Industry Association,SNIA)對存儲虛擬化做了如下定義:從應(yīng)用、計算機服務(wù)器或者一般的網(wǎng)絡(luò)資源中抽象、隱藏或隔離存儲系統(tǒng),使應(yīng)用和網(wǎng)絡(luò)可以獨立地管理、存儲及獲得數(shù)據(jù)。使用存儲虛擬化的應(yīng)用服務(wù)或者設(shè)備可以集成不同的存儲設(shè)備,還能添加底層存儲資源來擴展存儲能力。
對存儲虛擬化(Storage Virtualization)最通俗的理解就是對存儲硬件資源進(jìn)行抽象化表現(xiàn)。通過將一個或多個目標(biāo)(Target)服務(wù)或功能與其他附加的功能集成,統(tǒng)一提供有用的全面功能服務(wù)。典型的虛擬化情況有:屏蔽系統(tǒng)的復(fù)雜性,增加或集成新的功能,仿真、整合或分解現(xiàn)有的服務(wù)功能等。虛擬化是作用在一個或者多個實體上的,而這些實體則是用來提供存儲資源或服務(wù)的。
存儲虛擬化的主要特點是:
①通過虛擬化集中管理現(xiàn)有的存儲資源以提高資產(chǎn)利用率;
②不會增加管理和配置的復(fù)雜程度;
、劭梢酝ㄟ^增加新的存儲資源(通常是硬件設(shè)備),提高線性的擴展存儲能力,但不會產(chǎn)生數(shù)據(jù)搜索方面的問題;
、芴峁┌踩愿叩淖鈶艄芾頇C制,因此用戶和數(shù)據(jù)可以共享虛擬化的資源,而不受其他用戶的影響;
、菘梢詿o縫集成多個存儲廠家的存儲設(shè)備,避免了廠家鎖定的問題。
存儲虛擬化技術(shù)在實現(xiàn)層面上劃分,有以下幾種類別:
、倩谥鳈C的虛擬化,這是存儲虛擬化最早期的實現(xiàn)形式,它在主機的操作系統(tǒng)上基于存儲虛擬化軟件實現(xiàn)其功能;
、诨诖鎯W(wǎng)絡(luò)的虛擬化是指在存儲的網(wǎng)絡(luò)層中嵌入智能存儲資源管理軟件的技術(shù);
、刍诖鎯刂破鞯奶摂M化,該架構(gòu)在陣列的存儲控制器上執(zhí)行虛擬化。一個第三方廠家的陣列可以簡單地通過插到FC端口上的方式被虛擬化,解決了一般基于陣列虛擬化的廠家鎖定的問題。
3.2 分布式對象存儲系統(tǒng)
SNIA的對象存儲設(shè)備是這樣定義的:
、僖环N新的SCSI存儲設(shè)備;
、趯ο罂梢灶惐葹閭鹘y(tǒng)的文件;
③對象是自完備的,包含元數(shù)據(jù)、數(shù)據(jù)和屬性;
、艽鎯υO(shè)備可以自行決定對象的具體存儲位置和數(shù)據(jù)的分布;
⑤存儲設(shè)備可以對不同的對象提供不同的Qos;
、迣ο蟠鎯υO(shè)備相對于塊設(shè)備具有更高的智能性,上層通過對象ID訪問對象,而不需要了解對象的具體空間分布情況。
與傳統(tǒng)存儲模型相比,對象存儲模型有了如下改變:
、倩趯ο蟮拇鎯,將存儲模塊轉(zhuǎn)移到存儲設(shè)備中;
、诨趯ο蟮拇鎯,將設(shè)備的訪問接口轉(zhuǎn)變?yōu)閷ο笤L問接口。傳統(tǒng)存儲模型與對象存儲模型對比情況如圖l所示。
對象是平等的,分布在一個平面中,而非文件系統(tǒng)那樣的樹狀邏輯結(jié)構(gòu)中,這也就給了用戶很大的操作空間:可以利用對象構(gòu)建文件系統(tǒng).也可以直接使用這個平面空間。用對象替代傳統(tǒng)的模塊的好處在于:對象的內(nèi)容本身來自應(yīng)用,具有“原子性”,因此可以做到:
、僭诖鎯舆M(jìn)行更智能的空間管理;
、趦(nèi)容相關(guān)的數(shù)據(jù)預(yù)取和緩存;
、劭煽康亩嘤脩艄蚕碓L問;
④對象級別的安全性。
同時,對象存儲架構(gòu)還具有更好的可伸縮性。對象存儲模型如圖2所示。
一個對象除了包含ID和用戶數(shù)據(jù)外,還包含了屬主、時間、尺寸、位置等源數(shù)據(jù)信息,以及權(quán)限等預(yù)定義屬性,乃至很多自定義屬性。對象存儲設(shè)備中的對象分成4類:
、儆脩魧ο螅瑧(yīng)用創(chuàng)建的普通對象;
、诩蠈ο,一組具有共同點的用戶對象的集合;
、鄯謪^(qū)對象,容納用戶對象和集合對象的容器,包含了有某些空間管理、安全等方面(比如quota)的共性的對象;
、芨鶎ο,對象存儲設(shè)備自己。
3.3 分布式文件系統(tǒng)
分布式文件系統(tǒng)或網(wǎng)絡(luò)文件系統(tǒng)是指那些可以通過計算機網(wǎng)絡(luò)訪問存儲在多個主機中的數(shù)據(jù)的文件系統(tǒng)。這使得在多用戶之間和多應(yīng)用之間共享數(shù)據(jù)和存儲資源成為可能。
分布式文件系統(tǒng)最初產(chǎn)生于1980年代,其代表是NFS(Network File System)和AFS(Andrew File System)。2000年以后,分布式文件系統(tǒng)得到了更多的關(guān)注和長足的發(fā)展,其中以GFS(googh File system)和Lustre最為著名。
現(xiàn)在的分布式文件系統(tǒng)更加專注于高性能、高擴展能力、高可靠性、系統(tǒng)的高可用性和容錯能力。以GPS為例,它構(gòu)建在相對便宜的計算機節(jié)點上,通過以下手段達(dá)到了以上提出的需要付出高昂成本才能實現(xiàn)的存儲能力:
、偻ㄟ^將控制流與數(shù)據(jù)流分離的方式來提高系統(tǒng)的吞吐率,用戶可以并行在多個節(jié)點上提取數(shù)據(jù);
、趯(shù)據(jù)分成同等大小的數(shù)據(jù)塊,以方便數(shù)據(jù)的遷移和復(fù)制;
、勖總數(shù)據(jù)塊都有多個(通常是3個)存儲副本,以提高數(shù)據(jù)的可靠性和讀取速度;
、芤粋數(shù)據(jù)塊可以被分布到不同的機器上,以提高系統(tǒng)的容錯能力。GFS系統(tǒng)架構(gòu)如圖3所示
四 結(jié)語
分布式存儲系統(tǒng)可以存儲海量數(shù)據(jù),它具有性價比高及靈活的可擴展性等特點,在工業(yè)界和學(xué)術(shù)研究領(lǐng)域得到廣泛關(guān)注。本文從傳統(tǒng)的存儲系統(tǒng)出發(fā),比較了傳統(tǒng)的存儲系統(tǒng)和目前流行的分布式存儲系統(tǒng)的區(qū)別與聯(lián)系。同時,對分布式存儲系統(tǒng)的分類及特點進(jìn)行了初步分析。分布式存儲系統(tǒng)有多種不同的實現(xiàn)原理和方法,適用于不同的應(yīng)用領(lǐng)域,我們需要根據(jù)應(yīng)用特點來選擇合適的存儲方式。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:分布式存儲系統(tǒng)調(diào)查
本文網(wǎng)址:http://www.ezxoed.cn/html/support/1112154416.html