什么是大數(shù)據(jù)?IDC的權(quán)威定義為:滿足4V(Variety,Velocity,Volume,Value,即種類(lèi)多、流量大、容量大、價(jià)值高)指標(biāo)的數(shù)據(jù)稱(chēng)為大數(shù)據(jù)。IDC對(duì)大數(shù)據(jù)技術(shù)的定位為:通過(guò)高速捕捉、發(fā)現(xiàn)和/或分析,從大容量數(shù)據(jù)中獲取價(jià)值的一種新的技術(shù)架構(gòu)。大數(shù)據(jù)主要涉及兩個(gè)不同的技術(shù)領(lǐng)域:一項(xiàng)致力于研發(fā)可以擴(kuò)展至PB甚至EB級(jí)別的大數(shù)據(jù)存儲(chǔ)平臺(tái);另一項(xiàng)則是大數(shù)據(jù)分析,關(guān)注在最短時(shí)間內(nèi)處理大量不同類(lèi)型的數(shù)據(jù)集。這兩個(gè)論題已經(jīng)被充分討論,這里不準(zhǔn)備再作討論,而是換個(gè)角度思考一下大數(shù)據(jù),事實(shí)上可能與大數(shù)據(jù)存儲(chǔ)平臺(tái)更相關(guān)一點(diǎn)。這些需求或者思考,或源自用戶(hù)模糊的需求,或源自存儲(chǔ)同行的交流討論,還有一些源自存儲(chǔ)實(shí)踐中的感悟。
1、數(shù)據(jù)備份
信息作為現(xiàn)代企業(yè)的核心資產(chǎn),一旦發(fā)生數(shù)據(jù)損壞或丟失,小則帶來(lái)不同程度的經(jīng)濟(jì)損失,大則關(guān)系企業(yè)生存。因此,現(xiàn)在企業(yè)對(duì)重要數(shù)據(jù)備份都不得不高度重視。在大數(shù)據(jù)之前,企業(yè)需要備份的數(shù)據(jù)量通常在GB級(jí)-數(shù)十TB級(jí)之間,上百TB的數(shù)據(jù)量的企業(yè)非常之少。這些數(shù)據(jù)往往都是Oracle/DB2/SQLServer等數(shù)據(jù)庫(kù)的結(jié)構(gòu)化數(shù)據(jù),以及FTP/CIFS/NFS等文件共享服務(wù)的非結(jié)構(gòu)化數(shù)據(jù),目前諸如Symantec/Falcon/CommVault/EMC/Eisoo等公司的備份系統(tǒng)都可以很好地滿足普通的備份需求。然而當(dāng)遇上大數(shù)據(jù),它們是否仍然可以滿足備份需求呢?大數(shù)據(jù)容量很容易達(dá)到數(shù)十TB級(jí)以上,數(shù)百TB甚至PB級(jí)的案例也不再鮮見(jiàn),而且這些數(shù)據(jù)種類(lèi)多、流量大,都是新增數(shù)據(jù)。從備份技術(shù)角度看,全備份/增量備份/差異備份的備份窗口會(huì)很大,CDP的并發(fā)I/O捕獲和處理能力要超強(qiáng),否則大量數(shù)據(jù)都來(lái)不及備份。從備份數(shù)據(jù)量看,備份所需要的存儲(chǔ)空間至少生產(chǎn)數(shù)據(jù)量的一倍以上,這個(gè)成本是巨大的。還有重點(diǎn)的一點(diǎn)是,大數(shù)據(jù)通常都是分布式采集、存儲(chǔ)和處理的,實(shí)現(xiàn)統(tǒng)一的數(shù)據(jù)備份對(duì)備份系統(tǒng)是個(gè)技術(shù)挑戰(zhàn)。或許,大數(shù)據(jù)天然不合適采用備份技術(shù),而需要由存儲(chǔ)系統(tǒng)本身的機(jī)制來(lái)解決,諸如多版本(multi-vesion)、寫(xiě)新地址(WriteAnyWhere,可實(shí)現(xiàn)自然的快照)等。
2、長(zhǎng)期存儲(chǔ)
信息有生命周期,金融/商業(yè)/財(cái)務(wù)/通信/法律等很多數(shù)據(jù)都需要遵從法規(guī)保存相應(yīng)年限,一些重要的科學(xué)實(shí)驗(yàn)數(shù)據(jù)和歷史資料甚至要永久保存。大數(shù)據(jù)作為現(xiàn)代企業(yè)有重要價(jià)的資產(chǎn),長(zhǎng)期保存基本都是必要的,比如10-20年甚至永久。長(zhǎng)期存儲(chǔ),看似很簡(jiǎn)單的事情,實(shí)際上有很多問(wèn)題需要解決。幾百個(gè)TB或者PB級(jí)的大數(shù)據(jù),假設(shè)是非活動(dòng)的歷史數(shù)據(jù),采用什么介質(zhì)進(jìn)行存儲(chǔ)?磁盤(pán),磁帶,還是光盤(pán)?采用離線還是近線方式?如何監(jiān)控巨大數(shù)量存儲(chǔ)硬件設(shè)備的狀態(tài)?采用什么方法來(lái)保證海量數(shù)據(jù)的完整性?如何發(fā)現(xiàn)長(zhǎng)期存儲(chǔ)中的問(wèn)題并修復(fù)?需要的時(shí)候如何簡(jiǎn)便快速地查詢(xún)和獲取數(shù)據(jù)?另外,還需要考慮存儲(chǔ)所占用空間和能耗問(wèn)題。面對(duì)這些問(wèn)題,我們就會(huì)發(fā)現(xiàn)大數(shù)據(jù)長(zhǎng)期存儲(chǔ)也是一個(gè)很大的挑戰(zhàn),一方面需要提高存儲(chǔ)介質(zhì)的持久性、智能性、可靠性等,另一方面需要信息生命周期管理系統(tǒng)進(jìn)行完善的管理和監(jiān)控。
3、數(shù)據(jù)查詢(xún)
數(shù)據(jù)訪問(wèn)是存儲(chǔ)系統(tǒng)最基本的功能之一。傳統(tǒng)的數(shù)據(jù)訪問(wèn)方式,都是根據(jù)文件名來(lái)定位和訪問(wèn)數(shù)據(jù)。文件名標(biāo)識(shí)具有一定的表意性,但非常不足,很難通過(guò)文件名對(duì)數(shù)據(jù)本身的內(nèi)容和特征進(jìn)行理解。這種查詢(xún)?cè)L問(wèn)語(yǔ)義非常差,需要用戶(hù)給出準(zhǔn)確的文件名,否則就無(wú)法進(jìn)行定位和訪問(wèn)。隨著文件數(shù)量的不斷增加,它將給用戶(hù)對(duì)數(shù)據(jù)的訪問(wèn)帶來(lái)很大的困難,F(xiàn)實(shí)世界中,人們主要根據(jù)事物的特征記憶和區(qū)分不同的事物,而非簡(jiǎn)單的名字。在實(shí)際應(yīng)用中,如果能夠提供基于文件屬性和內(nèi)容的數(shù)據(jù)訪問(wèn)方式,豐富的語(yǔ)義將會(huì)極大地增加數(shù)據(jù)的表意性,從而大大方便用戶(hù)的使用,提高數(shù)據(jù)訪問(wèn)效率。Internet中,用戶(hù)在Web搜索引擎(如Google,Baidu)中輸入內(nèi)容關(guān)鍵字就可以查詢(xún)到自己想要的數(shù)據(jù)。數(shù)據(jù)庫(kù)系統(tǒng)中,使用SQL語(yǔ)言查詢(xún)記錄,可以指定相關(guān)條件對(duì)查詢(xún)記錄進(jìn)行篩選。由此可見(jiàn),與傳統(tǒng)的數(shù)據(jù)訪問(wèn)方式相比,基于數(shù)據(jù)內(nèi)容和屬性的數(shù)據(jù)訪問(wèn)方式具有很強(qiáng)的語(yǔ)義,能有效提高數(shù)據(jù)定位和訪問(wèn)效率,可以很大程度上降低用戶(hù)的使用復(fù)雜性,適合于各種數(shù)據(jù)存儲(chǔ)系統(tǒng),尤其是分布式存儲(chǔ)系統(tǒng)。目前,自然語(yǔ)言處理和WEB語(yǔ)義網(wǎng)絡(luò)都有了長(zhǎng)足的發(fā)展,大數(shù)據(jù)管理中如何能實(shí)現(xiàn)基于語(yǔ)義的數(shù)據(jù)訪問(wèn)方式,不僅可以提高了查詢(xún)效率,而且符合人們的思維模式,能夠提供更加友好的數(shù)據(jù)訪問(wèn)界面。
4、綠色歸檔
由于法規(guī)遵從或長(zhǎng)期存儲(chǔ)的需要,數(shù)據(jù)根據(jù)生命周期管理需要進(jìn)行歸檔處理,采用方法有磁帶歸檔、磁盤(pán)歸檔、光盤(pán)歸檔、CAS系統(tǒng)歸檔等。大數(shù)據(jù)數(shù)據(jù)量大,如果采用磁盤(pán)介質(zhì)進(jìn)行歸檔,磁盤(pán)數(shù)量會(huì)很多,正常工作下能耗也是相當(dāng)可觀。為了降低能耗實(shí)現(xiàn)綠色歸檔,同時(shí)有效延長(zhǎng)磁盤(pán)使用壽命,需要考慮相關(guān)高效存儲(chǔ)技術(shù),包括MAID、SemiRAID、數(shù)據(jù)壓縮、重復(fù)數(shù)據(jù)刪除、自動(dòng)精簡(jiǎn)配置等。這些技術(shù)主要從兩個(gè)方面著手,一是精減數(shù)據(jù)量以減少磁盤(pán)介質(zhì)達(dá)到降低能耗的目標(biāo),如數(shù)據(jù)壓縮、重復(fù)數(shù)據(jù)刪除、自動(dòng)精簡(jiǎn)配置,二是控制磁盤(pán)介質(zhì)狀態(tài)(高速、低速、停止)或減少活動(dòng)磁盤(pán)數(shù)量來(lái)實(shí)現(xiàn)降低能耗和延長(zhǎng)壽命,如MAID和SemiRAID。SNIA相關(guān)組織專(zhuān)門(mén)研究綠色存儲(chǔ)技術(shù),包括提到的上述各種技術(shù)。
5、統(tǒng)一存儲(chǔ)
大數(shù)據(jù)種類(lèi)多,涵蓋了結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及對(duì)象數(shù)據(jù),分別采用數(shù)據(jù)塊接口、文件接口和對(duì)象接口進(jìn)行訪問(wèn)。目前的大多數(shù)企業(yè)還沒(méi)有將三者統(tǒng)一起來(lái),采用不同的存儲(chǔ)系統(tǒng)來(lái)管理這三類(lèi)數(shù)據(jù),在大數(shù)據(jù)快速增長(zhǎng)的壓力下,帶來(lái)存儲(chǔ)利用效率低、管理復(fù)雜性高、成本不斷提升、資源整合程度低等一系列問(wèn)題。在這些因素驅(qū)動(dòng)下,統(tǒng)一存儲(chǔ)概念得到復(fù)興,SAN/NAS統(tǒng)一存儲(chǔ)得到各大存儲(chǔ)廠商推崇并相繼推出產(chǎn)品,對(duì)象存儲(chǔ)也有望被一同整合到統(tǒng)一存儲(chǔ)中。如此一來(lái),就可以使用統(tǒng)一的存儲(chǔ)來(lái)管理大數(shù)據(jù),統(tǒng)一規(guī)劃和整合資源,提高存儲(chǔ)資源利用率,簡(jiǎn)化管理和降低總體成本。
6、存儲(chǔ)介質(zhì)壽命管理
大數(shù)據(jù)存儲(chǔ)系統(tǒng)具有成千上萬(wàn)塊磁盤(pán)很常見(jiàn),可能包括FC、SAS、SATA磁盤(pán),還有可能包括SSD固態(tài)硬盤(pán)和磁帶等存儲(chǔ)介質(zhì)。這么大數(shù)量的存儲(chǔ)介質(zhì),每天壞上一兩塊盤(pán)的概率是非常的,不可控制的故障發(fā)生會(huì)影響前端大數(shù)據(jù)應(yīng)用。存儲(chǔ)介質(zhì)的使用年限都有標(biāo)準(zhǔn),可以基于此進(jìn)行存儲(chǔ)介質(zhì)壽命管理,結(jié)合實(shí)際環(huán)境進(jìn)行適當(dāng)調(diào)整,并根據(jù)存儲(chǔ)介質(zhì)運(yùn)行狀態(tài)進(jìn)行分析和故障預(yù)測(cè)。當(dāng)存儲(chǔ)介質(zhì)使用壽命即將到達(dá),或者預(yù)測(cè)到故障即將發(fā)生,則主動(dòng)通知管理員對(duì)存儲(chǔ)介質(zhì)進(jìn)行更換,之后有系統(tǒng)自動(dòng)進(jìn)行數(shù)據(jù)重建。如此,可以有效降低存儲(chǔ)介質(zhì)發(fā)生故障的隨機(jī)性,增強(qiáng)故障的可管理性,再結(jié)合人為的調(diào)度,就可降低或者避免故障發(fā)生對(duì)大數(shù)據(jù)應(yīng)用的影響。
7、磁帶存儲(chǔ)
一直都有人在預(yù)測(cè)磁帶已死,不過(guò)可惜的是,直到目前這個(gè)預(yù)測(cè)還沒(méi)有成真。
相比磁盤(pán),磁帶具有成本、壽命、能耗等特性和優(yōu)勢(shì),另外磁帶技術(shù)本身也在不斷發(fā)展,比如新一代LTO5的磁帶寫(xiě)入速度達(dá)到180Mb/s,未壓縮容量提升至1.6TB,保證磁帶仍然是最適合做為長(zhǎng)期的數(shù)據(jù)歸檔保存之用,這些特性是磁盤(pán)所無(wú)法取代的。關(guān)于磁帶在大數(shù)據(jù)中的使用,最為典型是做數(shù)據(jù)歸檔,比如上面談到的長(zhǎng)期存儲(chǔ)和綠色歸檔,這里面的數(shù)據(jù)基本不會(huì)被訪問(wèn)。另外還有一種形式是分級(jí)存儲(chǔ)HSM,磁帶、磁盤(pán)、SSD固態(tài)硬盤(pán)、內(nèi)存形成四級(jí)存儲(chǔ),數(shù)據(jù)按照活躍程度在不同級(jí)別存儲(chǔ)介質(zhì)之間流動(dòng),以實(shí)現(xiàn)較高的性?xún)r(jià)比。HSM中位于磁帶的數(shù)據(jù)會(huì)被訪問(wèn),只是頻率和概率非常低。由于磁帶自身的優(yōu)勢(shì)以及不斷發(fā)展,它可能不但不會(huì)消亡,反而會(huì)在大數(shù)據(jù)時(shí)代重獲新生。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴(lài)品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:換個(gè)角度思考大數(shù)據(jù)存儲(chǔ)問(wèn)題
本文網(wǎng)址:http://www.ezxoed.cn/html/support/11121510815.html