| 當(dāng)前位置：拓步ERP資訊網(wǎng) >>服務(wù)支持 >>ERP技術(shù)支持 >>技術(shù)支持知識(shí)庫(kù)

www.ezxoed.cn拓步ERP|ERP系統(tǒng)|ERP軟件|ERP管理系統(tǒng)軟件|免費(fèi)ERP系統(tǒng)|免費(fèi)ERP軟件|免費(fèi)進(jìn)銷(xiāo)存軟件|免費(fèi)倉(cāng)庫(kù)管理軟件|免費(fèi)下載專(zhuān)業(yè)資訊網(wǎng)-架構(gòu)大數(shù)據(jù)：挑戰(zhàn)、現(xiàn)狀與展望(下)

架構(gòu)大數(shù)據(jù)：挑戰(zhàn)、現(xiàn)狀與展望(下)

發(fā)布日期：2013-05-01 8:50:11 來(lái)源：www.ezxoed.cn 編輯：拓步ERP資訊網(wǎng) 瀏覽：評(píng)論

摘要：大數(shù)據(jù)分析相比于傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用，具有數(shù)據(jù)量大、查詢(xún)分析復(fù)雜等特點(diǎn)，為了設(shè)計(jì)適合大數(shù)據(jù)分析的數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)，文中列舉了大數(shù)據(jù)分析平臺(tái)需要具備的幾個(gè)重要特性，對(duì)當(dāng)前的主流實(shí)現(xiàn)平臺(tái)———并行數(shù)據(jù)庫(kù)、ＭａｐＲｅｄｕｃｅ及基于兩者的混合架構(gòu)進(jìn)行了分析歸納，指出了各自的優(yōu)勢(shì)及不足，同時(shí)也對(duì)各個(gè)方向的研究現(xiàn)狀及作者在大數(shù)據(jù)分析方面的努力進(jìn)行了介紹，對(duì)未來(lái)研究做了展望。 原標(biāo)題：架構(gòu)大數(shù)據(jù)：挑戰(zhàn)、現(xiàn)狀與展望(下) 原作者：發(fā)表時(shí)間：2013/4/29 王珊王會(huì)舉覃雄派周烜來(lái)源：萬(wàn)方數(shù)據(jù)

ＨａｄｏｏｐＤＢ的核心思想是利用Ｈａｄｏｏｐ作為調(diào)度層和網(wǎng)絡(luò)溝通層，關(guān)系數(shù)據(jù)庫(kù)作為執(zhí)行引擎，盡可能地將查詢(xún)壓入數(shù)據(jù)庫(kù)層處理，目標(biāo)是想借助Ｈａｄｏｏｐ框架來(lái)獲得較好的容錯(cuò)性和對(duì)異構(gòu)環(huán)境的支持；通過(guò)將查詢(xún)盡可能推入數(shù)據(jù)庫(kù)中執(zhí)行來(lái)獲得關(guān)系數(shù)據(jù)庫(kù)的性能優(yōu)勢(shì)，ＨａｄｏｏｐＤＢ的思想是深遠(yuǎn)的，但目前尚無(wú)應(yīng)用案例，原因在于：

（１）其數(shù)據(jù)預(yù)處理代價(jià)過(guò)高：數(shù)據(jù)需要進(jìn)行兩次分解和一次數(shù)據(jù)庫(kù)加載操作后才能使用；

（２）將查詢(xún)推向數(shù)據(jù)庫(kù)層只是少數(shù)情況，大多數(shù)情況下，查詢(xún)?nèi)杂桑龋椋觯逋瓿�，因�(yàn)?a href="http://www.ezxoed.cn/" title="" target="_blank" >數(shù)據(jù)倉(cāng)庫(kù)查詢(xún)往往涉及多表連接，由于連接的復(fù)雜性，難以做到在保持連接數(shù)據(jù)局部性的前提下將參某種模式劃分；

（３）維護(hù)代價(jià)過(guò)高，不僅要維護(hù)Ｈａｄｏｏｐ系統(tǒng)，還要維護(hù)每個(gè)數(shù)據(jù)庫(kù)節(jié)點(diǎn)；

（４）目前尚不支持?jǐn)?shù)據(jù)的動(dòng)態(tài)劃分，需要手工方式將數(shù)據(jù)一次性劃分好，總的來(lái)說(shuō)，ＨａｄｏｏｐＤＢ在某些情況下，可以同時(shí)實(shí)現(xiàn)關(guān)系數(shù)據(jù)庫(kù)的高性能特性和ＭａｐＲｅｄｕｃｅ的擴(kuò)展性、容錯(cuò)性，但同時(shí)也喪失了關(guān)系數(shù)據(jù)庫(kù)和ＭａｐＲｅｄｕｃｅ的某些優(yōu)點(diǎn)，比如ＭａｐＲｅｄｕｃｅ較低的預(yù)處理代價(jià)和維護(hù)代價(jià)、關(guān)系數(shù)據(jù)庫(kù)的動(dòng)態(tài)數(shù)據(jù)重分布等。

Ｖｅｒｔｉｃａ采用的是共存策略：根據(jù)Ｈａｄｏｏｐ和Ｖｅｒｔｉｃａ各自的處理優(yōu)勢(shì)，對(duì)數(shù)據(jù)處理任務(wù)進(jìn)行劃分，比如Ｈａｄｏｏｐ負(fù)責(zé)非結(jié)構(gòu)化數(shù)據(jù)的處理，Ｖｅｒｔｉｃａ負(fù)責(zé)結(jié)構(gòu)化數(shù)據(jù)的處理；Ｈａｄｏｏｐ負(fù)責(zé)耗時(shí)的批量復(fù)雜處理，Ｖｅｒｔｉｃａ負(fù)責(zé)高性能的交互式查詢(xún)等，從而將兩者結(jié)合起來(lái)，Ｖｅｒｔｉｃａ實(shí)際采用的是兩套系統(tǒng)，同時(shí)支持在ＭａｐＲｅｄｕｃｅ任務(wù)中直接訪問(wèn)Ｖｅｒｔｉｃａ數(shù)據(jù)庫(kù)中的數(shù)據(jù)，由于結(jié)構(gòu)化數(shù)據(jù)仍在Ｖｅｒｔｉｃａ中處理，在處理結(jié)構(gòu)化大數(shù)據(jù)上的查詢(xún)分析時(shí)，仍面臨擴(kuò)展性問(wèn)題；如果將查詢(xún)推向Ｈａｄｏｏｐ進(jìn)行，又將面臨性能問(wèn)題，因此，Ｖｅｒｔｉｃａ的擴(kuò)展性問(wèn)題和Ｈａｄｏｏｐ的性能問(wèn)題在該系統(tǒng)中共存。

與前兩者相比，Ｔｅｒａｄａｔａ的集成相對(duì)簡(jiǎn)單，Ｔｅｒａｄａｔａ采用了存儲(chǔ)層的整合：ＭａｐＲｅｄｕｃｅ任務(wù)可以從Ｔｅｒａｄａｔａ數(shù)據(jù)庫(kù)中讀取數(shù)據(jù)，Ｔｅｒａｄａｔａ數(shù)據(jù)庫(kù)也可以從Ｈａｄｏｏｐ分布式文件系統(tǒng)上讀取數(shù)據(jù)，同樣，Ｔｅｒａｄａｔａ和Ｈａｄｏｏｐ各自的根本性問(wèn)題都未解決。

６研究現(xiàn)狀

對(duì)并行數(shù)據(jù)庫(kù)來(lái)講，其最大問(wèn)題在于有限的擴(kuò)展能力和待改進(jìn)的軟件級(jí)容錯(cuò)能力；ＭａｐＲｅｄｕｃｅ的最大問(wèn)題在于性能，尤其是連接操作的性能；混合式架構(gòu)的關(guān)鍵是，如何能盡可能多地把工作推向合適的執(zhí)行引擎（并行數(shù)據(jù)庫(kù)或ＭａｐＲｅｄｕｃｅ），本節(jié)對(duì)近年來(lái)在這些問(wèn)題上的研究做一分析和歸納。

６．１并行數(shù)據(jù)庫(kù)擴(kuò)展性和容錯(cuò)性研究

華盛頓大學(xué)在文獻(xiàn)［２３］中提出了可以生成具備容錯(cuò)能力的并行執(zhí)行計(jì)劃優(yōu)化器，該優(yōu)化器可以依靠輸入的并行執(zhí)行計(jì)劃、各個(gè)操作符的容錯(cuò)策略及查詢(xún)失敗的期望值等，輸出一個(gè)具備容錯(cuò)能力的并行執(zhí)行計(jì)劃，在該計(jì)劃中，每個(gè)操作符都可以采取不同的容錯(cuò)策略，在失敗時(shí)僅重新執(zhí)行其子操作符（在某節(jié)點(diǎn)上運(yùn)行的操作符）的任務(wù)來(lái)避免整個(gè)查詢(xún)的重新執(zhí)行。

ＭＩＴ于２０１０年設(shè)計(jì)的Ｏｓｐｒｅｙ系統(tǒng)基于維表在各個(gè)節(jié)點(diǎn)全復(fù)制、事實(shí)表橫向切分并冗余備份的數(shù)據(jù)分布策略，將一星型查詢(xún)劃分為眾多獨(dú)立子查詢(xún)，每個(gè)子查詢(xún)?cè)趫?zhí)行失敗時(shí)都可以在其備份節(jié)點(diǎn)上重新執(zhí)行，而不用重做整個(gè)查詢(xún)，使得數(shù)據(jù)倉(cāng)庫(kù)查詢(xún)獲得類(lèi)似ＭａｐＲｅｄｕｃｅ的容錯(cuò)能力，數(shù)據(jù)倉(cāng)庫(kù)擴(kuò)展性方面的研究較少，中國(guó)人民大學(xué)的ＬｉｎｅａｒＤＢ原型屬于這方面的研究，詳細(xì)參見(jiàn)７．１節(jié)。

６．２ＭａｐＲｅｄｕｃｅ性能優(yōu)化研究

ＭａｐＲｅｄｕｃｅ的性能優(yōu)化研究集中于對(duì)關(guān)系數(shù)據(jù)庫(kù)的先進(jìn)技術(shù)和特性的移植上。

Ｆａｃｅｂｏｏｋ和俄亥俄州立大學(xué)合作，將關(guān)系數(shù)據(jù)庫(kù)的混合式存儲(chǔ)模型應(yīng)用于Ｈａｄｏｏｐ平臺(tái)，提出了ＲＣＦｉｌｅ存儲(chǔ)格式。與之不同，文獻(xiàn)［２６］將列存儲(chǔ)技術(shù)引入Ｈａｄｏｏｐ平臺(tái)，Ｈａｄｏｏｐ＋＋系統(tǒng)運(yùn)用了傳統(tǒng)數(shù)據(jù)庫(kù)的索引技術(shù)，并通過(guò)分區(qū)數(shù)據(jù)并置（ＣｏＰａｒｔｉｔｉｏｎ）的方式來(lái)提升性能，文獻(xiàn)［２８２９］基于ＭａｐＲｅｄｕｃｅ實(shí)現(xiàn)了以流水線方式在各個(gè)操作符間傳遞數(shù)據(jù)，從而縮短了任務(wù)執(zhí)行時(shí)間；在線聚集（ｏｎｌｉｎｅａｇｇｒｅｇａｔｉｏｎ）的操作模式使得用戶(hù)可以在查詢(xún)執(zhí)行過(guò)程中看到部分較早返回的結(jié)果，兩者的不同之處在于前者仍基于ｓｏｒｔｍｅｒｇｅ方式來(lái)實(shí)現(xiàn)流水線，只是將排序等操作推向了ｒｅｄｕｃｅｒ，部分情況下仍會(huì)出現(xiàn)流水線停頓的情況；而后者利用ｈａｓｈ方式來(lái)分布數(shù)據(jù)，能實(shí)現(xiàn)更好的并行流水線操作，文獻(xiàn)［３０］提出了ＭＲＳｈａｒｅ架構(gòu)，對(duì)批量查詢(xún)進(jìn)行轉(zhuǎn)換，將可共享掃描、共享Ｍａｐ輸出結(jié)果等的一組任務(wù)合并為一個(gè)，以提升性能，新加坡國(guó)立大學(xué)對(duì)影響Ｈａｄｏｏｐ性能的因素做了深入分析，并提出了５項(xiàng)有效的優(yōu)化技術(shù)，使得Ｈａｄｏｏｐ的性能提升了近３倍，逼近關(guān)系數(shù)據(jù)庫(kù)的性能。

近年的研究熱點(diǎn)是基于ＭａｐＲｅｄｕｃｅ的連接操作的性能優(yōu)化，文獻(xiàn)［３１］對(duì)ＭａｐＲｅｄｕｃｅ平臺(tái)的兩表連接算法做了總結(jié)，提出了Ｍａｐ端連接、Ｒｅｄｕｃｅ端連接及廣播式連接等算法，文獻(xiàn)［３２］對(duì)ＭａｐＲｅｄｕｃｅ框架進(jìn)行了擴(kuò)展，在Ｒｅｄｕｃｅ步驟后添加了一Ｍｅｒｇｅ步驟來(lái)完成連接操作，提出的ＭａｐＲｅｄｕｃｅＭｅｒｇｅ框架可以同時(shí)處理兩個(gè)異構(gòu)數(shù)據(jù)源的數(shù)據(jù)，對(duì)于多表連接，當(dāng)前主流的研究集中于僅通過(guò)一個(gè)任務(wù)來(lái)完成連接操作，文獻(xiàn)提出了一對(duì)多復(fù)制的方法，在Ｍａｐ階段結(jié)束后，為保證連接操作的局部性，元組會(huì)被復(fù)制到多個(gè)節(jié)點(diǎn)，但在節(jié)點(diǎn)數(shù)和數(shù)據(jù)量增大的情況下，會(huì)帶來(lái)Ｉ／Ｏ量及網(wǎng)絡(luò)傳輸量的巨大增長(zhǎng)，Ｌｌａｍａ通過(guò)預(yù)排序和按連接屬性劃分?jǐn)?shù)據(jù)的方式來(lái)降低星型連接的代價(jià)，但要付出可觀的預(yù)處理代價(jià)和空間代價(jià)，不同于以上等值連接優(yōu)化，文獻(xiàn)［３６］提出了針對(duì)任意連接條件的優(yōu)化模型，以上連接方式都是先執(zhí)行連接，然后在連接后的數(shù)據(jù)上執(zhí)行聚集操作，而中國(guó)人民大學(xué)的Ｄｕｍｂｏ系統(tǒng)卻采用了另一種更適應(yīng)于ＭａｐＲｅｄｕｃｅ平臺(tái)的思路：先執(zhí)行過(guò)濾聚集操作，再基于聚集的數(shù)據(jù)執(zhí)行連接，詳細(xì)參考７．２節(jié)。

６．３ＨａｄｏｏｐＤＢ的改進(jìn)

ＨａｄｏｏｐＤＢ于２０１１年針對(duì)其架構(gòu)提出了兩種連接優(yōu)化技術(shù)和兩種聚集優(yōu)化技術(shù)。

兩種連接優(yōu)化的核心思想都是盡可能地將數(shù)據(jù)的處理推入數(shù)據(jù)庫(kù)層執(zhí)行，第１種優(yōu)化方式是根據(jù)表與表之間的連接關(guān)系，通過(guò)數(shù)據(jù)預(yù)分解，使參與連接的數(shù)據(jù)盡可能分布在同一數(shù)據(jù)庫(kù)內(nèi)（參照分解法），從而實(shí)現(xiàn)將連接操作下壓進(jìn)數(shù)據(jù)庫(kù)內(nèi)執(zhí)行，該算法的缺點(diǎn)是應(yīng)用場(chǎng)景有限，只適用于鏈?zhǔn)竭B接，第２種連接方式是針對(duì)廣播式連接而設(shè)計(jì)的，在執(zhí)行連接前，先在數(shù)據(jù)庫(kù)內(nèi)為每張參與連接的維表建立一張臨時(shí)表，使得連接操作盡可能在數(shù)據(jù)庫(kù)內(nèi)執(zhí)行，該算法的缺點(diǎn)是較多的網(wǎng)絡(luò)傳輸和磁盤(pán)Ｉ／Ｏ操作。

兩種聚集優(yōu)化技術(shù)分別是連接后聚集和連接前聚集，前者是執(zhí)行完Ｒｅｄｕｃｅ端連接后，直接對(duì)符合條件的記錄執(zhí)行聚集操作；后者是將所有數(shù)據(jù)先在數(shù)據(jù)庫(kù)層執(zhí)行聚集操作，然后基于聚集數(shù)據(jù)執(zhí)行連接操作，并將不符合條件的聚集數(shù)據(jù)做減法操作，該方式適用的條件有限，主要用于參與連接和聚集的列的基數(shù)相乘后小于表記錄數(shù)的情況。

總的來(lái)看，ＨａｄｏｏｐＤＢ的優(yōu)化技術(shù)大都局限性較強(qiáng)，對(duì)于復(fù)雜的連接操作（如環(huán)形連接等）仍不能下推至數(shù)據(jù)庫(kù)層執(zhí)行，并未從根本上解決其性能問(wèn)題。

７ＭａｐＲｅｄｕｃｅ和關(guān)系數(shù)據(jù)庫(kù)技術(shù)的融合

綜上所述，當(dāng)前研究大都集中于功能或特性的移植，即從一個(gè)平臺(tái)學(xué)習(xí)新的技術(shù)，到另一平臺(tái)重新實(shí)現(xiàn)和集成，未涉及執(zhí)行核心，因此也沒(méi)有從根本上解決大數(shù)據(jù)分析問(wèn)題，鑒于此，中國(guó)人民大學(xué)高性能數(shù)據(jù)庫(kù)實(shí)驗(yàn)室的研究小組采取了另一種思路：從數(shù)據(jù)的組織和查詢(xún)的執(zhí)行兩個(gè)核心層次入手，融合關(guān)系數(shù)據(jù)庫(kù)和ＭａｐＲｅｄｕｃｅ兩種技術(shù)，設(shè)計(jì)高性能的可擴(kuò)展的抽象數(shù)據(jù)倉(cāng)庫(kù)查詢(xún)處理框架，該框架在支持高度可擴(kuò)展的同時(shí)，又具有關(guān)系數(shù)據(jù)庫(kù)的性能，我們團(tuán)隊(duì)嘗試過(guò)兩個(gè)研究方向：

（１）借鑒ＭａｐＲｅｄｕｃｅ的思想，使ＯＬＡＰ查詢(xún)的處理能像ＭａｐＲｅｄｕｃｅ一樣高度可擴(kuò)展（ＬｉｎｅａｒＤＢ原型）；

（２）利用關(guān)系數(shù)據(jù)庫(kù)的技術(shù)，使ＭａｐＲｅｄｕｃｅ在處理ＯＬＡＰ查詢(xún)時(shí)，逼近關(guān)系數(shù)據(jù)庫(kù)的性能（Ｄｕｍｂｏ原型）。

７．１ＬｉｎｅａｒＤＢ

ＬｉｎｅａｒＤＢ①原型系統(tǒng)沒(méi)有直接采用基于連接的星型模型（雪花模型），而是對(duì)其進(jìn)行了改造，設(shè)計(jì)了擴(kuò)展性更好的、基于掃描的無(wú)連接雪花模型ＪＦＳＳ（ＪｏｉｎＦｒｅｅＳｎｏｗｆｌａｋｅＳｃｈｅｍａ），該模型的設(shè)計(jì)借鑒了泛關(guān)系模型的思想，采用層次編碼技術(shù)［４０］將維表層次信息壓縮進(jìn)事實(shí)表，使得事實(shí)表可以獨(dú)立執(zhí)行維表上的謂詞判斷、聚集等操作，從而使連接的數(shù)據(jù)在大規(guī)模機(jī)群上實(shí)現(xiàn)局部性，消除了連接操作，圖４是一個(gè)星型模型和無(wú)連接雪花模型的對(duì)應(yīng)示意圖。

在執(zhí)行層次上，ＬｉｎｅａｒＤＢ吸取了ＭａｐＲｅｄｕｃｅ處理模式的設(shè)計(jì)思想，將數(shù)據(jù)倉(cāng)庫(kù)查詢(xún)的處理抽象為Ｔｒａｎｓｆｏｒｍ、Ｒｅｄｕｃｅ、Ｍｅｒｇｅ３個(gè)操作（ＴＲＭ執(zhí)行模型）：

（１）Ｔｒａｎｓｆｏｒｍ，主節(jié)點(diǎn)對(duì)查詢(xún)進(jìn)行預(yù)處理，將查詢(xún)中作用于維表的操作（主要是謂詞判斷，ｇｒｏｕｐｂｙ聚集操作等）轉(zhuǎn)換為事實(shí)表上的操作；

（２）Ｒｅｄｕｃｅ，每個(gè)數(shù)據(jù)節(jié)點(diǎn)并行地掃描、聚集本地?cái)?shù)據(jù)，然后將處理結(jié)果返回給主節(jié)點(diǎn)；

（３）Ｍｅｒｇｅ，主節(jié)點(diǎn)對(duì)各個(gè)數(shù)據(jù)節(jié)點(diǎn)返回的結(jié)果進(jìn)行合并，并執(zhí)行后續(xù)的過(guò)濾、排序等操作，基于ＴＲＭ執(zhí)行模型，查詢(xún)可以劃分為眾多獨(dú)立的子任務(wù)在大規(guī)模機(jī)群上并行執(zhí)行，執(zhí)行過(guò)程中，任何失敗子任務(wù)都可以在其備份節(jié)點(diǎn)重新執(zhí)行，從而獲得較好的容錯(cuò)能力。ＬｉｎｅａｒＤＢ的執(zhí)行代價(jià)主要取決于對(duì)事實(shí)表的Ｒｅｄｕｃｅ（主要是掃描）操作，因此，ＬｉｎｅａｒＤＢ可以獲得近乎線性的大規(guī)�？蓴U(kuò)展能力。

實(shí)驗(yàn)表明，其性能比ＨａｄｏｏｐＤＢ至少高出一個(gè)數(shù)量級(jí)。

ＬｉｎｅａｒＤＢ的擴(kuò)展能力、容錯(cuò)能力和高性能在于其巧妙地結(jié)合了關(guān)系數(shù)據(jù)庫(kù)技術(shù)（層次編碼技術(shù)、泛關(guān)系模式）和ＭａｐＲｅｄｕｃｅ處理模式的設(shè)計(jì)思想，由此，可以看出，結(jié)合方式的不同可以導(dǎo)致系統(tǒng)能力的巨大差異。

７.２Ｄｕｍｂｏ

Ｄｕｍｂｏ的核心思想是根據(jù)ＭａｐＲｅｄｕｃｅ的“過(guò)濾－＞聚集”的處理模式，對(duì)ＯＬＡＰ查詢(xún)的處理進(jìn)行改造，使其適應(yīng)于ＭａｐＲｅｄｕｃｅ框架，Ｄｕｍｂｏ采用了類(lèi)似于ＬｉｎｅａｒＤＢ的數(shù)據(jù)組織模式———利用層次編碼技術(shù)將維表信息壓縮進(jìn)事實(shí)表，區(qū)別在于Ｄｕｍｂｏ采用了更加有效的編碼方式，并針對(duì)Ｈａｄｏｏｐ分布式文件系統(tǒng)的特點(diǎn)對(duì)數(shù)據(jù)的存儲(chǔ)進(jìn)行了優(yōu)化。

在執(zhí)行層次上，Ｄｕｍｂｏ對(duì)ＭａｐＲｅｄｕｃｅ框架進(jìn)行了擴(kuò)展，設(shè)計(jì)了新的ＯＬＡＰ查詢(xún)處理框架———ＴＭＲＰ（Ｔｒａｎｓｆｏｒｍ－＞Ｍａｐ－＞Ｒｅｄｕｃｅ－＞Ｐｏｓｔｐｒｏｃｅｓｓ）處理框架（如圖５所示），在該框架中，主節(jié)點(diǎn)首先對(duì)查詢(xún)進(jìn)行轉(zhuǎn)換，生成一個(gè)ＭａｐＲｅｄｕｃｅ任務(wù)來(lái)執(zhí)行查詢(xún)，該任務(wù)在Ｍａｐ階段以流水線方式掃描、聚集本地?cái)?shù)據(jù)，并只將本地的聚集數(shù)據(jù)傳至Ｒｅｄｕｃｅ階段，來(lái)進(jìn)行數(shù)據(jù)的合并及聚集、排序等操作，在Ｐｏｓｔｐｒｏｃｅｓｓ階段，主節(jié)點(diǎn)在數(shù)據(jù)節(jié)點(diǎn)上傳的聚集數(shù)據(jù)之上執(zhí)行連接操作，實(shí)驗(yàn)表明，Ｄｕｍｂｏ性能遠(yuǎn)超Ｈａｄｏｏｐ和ＨａｄｏｏｐＤＢ。

由此我們可以看出，復(fù)雜的ＯＬＡＰ查詢(xún)?cè)冢停幔穑遥澹洌酰悖蹇蚣芟乱部梢垣@得接近甚至超越關(guān)系數(shù)據(jù)庫(kù)的性能，其關(guān)鍵在于如何有效地結(jié)合關(guān)系數(shù)據(jù)庫(kù)和ＭａｐＲｅｄｕｃｅ兩種技術(shù)，僅僅停留于表層的移植和集成是難以從根本上解決大數(shù)據(jù)分析問(wèn)題的，我們?cè)谖墨I(xiàn)［４１］的研究中也展示了如何基于這種新的數(shù)據(jù)組織方式來(lái)實(shí)現(xiàn)復(fù)雜分析操作———百分位數(shù)的高效計(jì)算問(wèn)題。

ＬｉｎｅａｒＤＢ和Ｄｕｍｂｏ雖然基本可以達(dá)到預(yù)期的設(shè)計(jì)目標(biāo)，但兩者都需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，其預(yù)處理代價(jià)是普通加載時(shí)間的７倍左右，因此其應(yīng)對(duì)變化的能力還較弱，這是我們未來(lái)的工作內(nèi)容之一。

對(duì)比：一個(gè)典型星型模型與其對(duì)應(yīng)的無(wú)連接雪花模型

圖４對(duì)比：一個(gè)典型星型模型與其對(duì)應(yīng)的無(wú)連接雪花模型

８研究展望

當(dāng)前３個(gè)方向的研究都不能完美地解決大數(shù)據(jù)分析問(wèn)題，也就意味著每個(gè)方向都有極具挑戰(zhàn)性的工作等待著我們。

對(duì)并行數(shù)據(jù)庫(kù)來(lái)說(shuō)，其擴(kuò)展性近年雖有較大改善（如Ｇｒｅｅｎｐｌｕｍ和ＡｓｔｅｒＤａｔａ都是面向ＰＢ級(jí)數(shù)據(jù)規(guī)模設(shè)計(jì)開(kāi)發(fā)的），但距離大數(shù)據(jù)的分析需求仍有較大差距，因此，如何改善并行數(shù)據(jù)庫(kù)的擴(kuò)展能力是一項(xiàng)非常有挑戰(zhàn)的工作，該項(xiàng)研究將同時(shí)涉及數(shù)據(jù)一致性協(xié)議、容錯(cuò)性、性能等數(shù)據(jù)庫(kù)領(lǐng)域的諸多方面。

Ｄｕｍｂｏ架構(gòu)（深灰色部分是新增模塊，剩余部分是Ｈａｄｏｏｐ自帶模塊）

圖５Ｄｕｍｂｏ架構(gòu)（深灰色部分是新增模塊，剩余部分是Ｈａｄｏｏｐ自帶模塊）

混合式架構(gòu)方案可以復(fù)用已有成果，開(kāi)發(fā)量較小，但只是簡(jiǎn)單的功能集成似乎并不能有效解決大數(shù)據(jù)的分析問(wèn)題，因此該方向還需要更加深入的研究工作，比如從數(shù)據(jù)模型及查詢(xún)處理模式上進(jìn)行研究，使兩者能較自然地結(jié)合起來(lái)，這將是一項(xiàng)非常有意義的工作，中國(guó)人民大學(xué)的Ｄｕｍｂｏ系統(tǒng)即是在深層結(jié)合方向上努力的一個(gè)例子。

相比于前兩者，ＭａｐＲｅｄｕｃｅ的性能優(yōu)化進(jìn)展迅速，其性能正逐步逼近關(guān)系數(shù)據(jù)庫(kù)，該方向的研究又分為兩個(gè)方向：理論界側(cè)重于利用關(guān)系數(shù)據(jù)庫(kù)技術(shù)及理論改善ＭａｐＲｅｄｕｃｅ的性能；工業(yè)界側(cè)重于基于ＭａｐＲｅｄｕｃｅ平臺(tái)開(kāi)發(fā)高效的應(yīng)用軟件，針對(duì)數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域，我們認(rèn)為如下幾個(gè)研究方向比較重要，且目前研究還較少涉及：

（１）多維數(shù)據(jù)的預(yù)計(jì)算，ＭａｐＲｅｄｕｃｅ更多針對(duì)的是一次性分析操作，大數(shù)據(jù)上的分析操作雖然難以預(yù)測(cè)，但傳統(tǒng)的分析，如基于報(bào)表和多維數(shù)據(jù)的分析仍占多數(shù)，因此，ＭａｐＲｅｄｕｃｅ平臺(tái)也可以利用預(yù)計(jì)算等手段加快數(shù)據(jù)分析的速度，基于存儲(chǔ)空間的考慮（可以想象，在爆炸數(shù)據(jù)之上計(jì)算數(shù)據(jù)立方體需要付出昂貴的存儲(chǔ)空間代價(jià)），ＭＯＬＡＰ是不可取的，混合式ＯＬＡＰ（ＨＯＬＡＰ）應(yīng)該是ＭａｐＲｅｄｕｃｅ平臺(tái)的優(yōu)選ＯＬＡＰ實(shí)現(xiàn)方案，具體研究如：①基于ＭａｐＲｅｄｕｃｅ框架的高效Ｃｕｂｅ計(jì)算算法；②物化視圖的選擇問(wèn)題，即物化哪些數(shù)據(jù)；③不同分析操作的物化手段（比如預(yù)測(cè)分析操作的物化）及如何基于物化的數(shù)據(jù)進(jìn)行復(fù)雜分析操作（如數(shù)據(jù)訪問(wèn)路徑的選擇問(wèn)題）。

（２）各種分析操作的并行化實(shí)現(xiàn)，大數(shù)據(jù)分析需要高效的復(fù)雜統(tǒng)計(jì)分析功能的支持，ＩＢＭ將開(kāi)源統(tǒng)計(jì)分析軟件Ｒ集成進(jìn)Ｈａｄｏｏｐ平臺(tái)，增強(qiáng)了Ｈａｄｏｏｐ的統(tǒng)計(jì)分析功能，但更具挑戰(zhàn)性的問(wèn)題是，如何基于ＭａｐＲｅｄｕｃｅ框架設(shè)計(jì)可并行化的、高效的分析算法，尤其需要強(qiáng)調(diào)的是，鑒于移動(dòng)數(shù)據(jù)的巨大代價(jià)，這些算法應(yīng)基于移動(dòng)計(jì)算的方式來(lái)實(shí)現(xiàn)。

（３）查詢(xún)共享，ＭａｐＲｅｄｕｃｅ采用步步物化的處理方式，導(dǎo)致其Ｉ／Ｏ代價(jià)及網(wǎng)絡(luò)傳輸代價(jià)較高，一種有效的降低該代價(jià)的方式是在多個(gè)查詢(xún)間共享物化的中間結(jié)果，甚至原始數(shù)據(jù)，以分?jǐn)偞鷥r(jià)并避免重復(fù)計(jì)算，因此如何在多查詢(xún)間共享中間結(jié)果將是一項(xiàng)非常有實(shí)際應(yīng)用價(jià)值的研究。

（４）用戶(hù)接口，如何較好地實(shí)現(xiàn)數(shù)據(jù)分析的展示和操作，尤其是復(fù)雜分析操作的直觀展示。

（５）Ｈａｄｏｏｐ可靠性研究，當(dāng)前Ｈａｄｏｏｐ采用主從結(jié)構(gòu)，由此決定了主節(jié)點(diǎn)一旦失效，將會(huì)出現(xiàn)整個(gè)系統(tǒng)失效的局面，因此，如何在不影響Ｈａｄｏｏｐ現(xiàn)有實(shí)現(xiàn)的前提下，提高主節(jié)點(diǎn)的可靠性，將是一項(xiàng)切實(shí)的研究。

（６）數(shù)據(jù)壓縮，ＭａｐＲｅｄｕｃｅ的執(zhí)行模型決定了其性能取決于Ｉ／Ｏ和網(wǎng)絡(luò)傳輸代價(jià)，文獻(xiàn)［１１］在比較并行數(shù)據(jù)庫(kù)和ＭａｐＲｅｄｕｃｅ基于壓縮數(shù)據(jù)的性能時(shí)，發(fā)現(xiàn)壓縮技術(shù)并沒(méi)有改善Ｈａｄｏｏｐ的性能①，但實(shí)際情況是，壓縮不僅可以節(jié)省空間，節(jié)�。桑霞熬W(wǎng)絡(luò)帶寬，還可以利用當(dāng)前ＣＰＵ的多核并行計(jì)算能力，平衡Ｉ／Ｏ和ＣＰＵ的處理能力，從而提高性能，比如并行數(shù)據(jù)庫(kù)利用數(shù)據(jù)壓縮后，性能往往可以大幅提升，此后，文獻(xiàn)［２５、２６］的研究成功地利用壓縮技術(shù)提升了Ｈａｄｏｏｐ的性能，但這些研究都基于各自的存儲(chǔ)模型，而非Ｈａｄｏｏｐ的默認(rèn)存儲(chǔ)模式（行存模型），因此，ＭａｐＲｅｄｕｃｅ上的壓縮是一個(gè)尚待研究的重要問(wèn)題。

（７）多維索引研究，如何基于ＭａｐＲｅｄｕｃｅ框架實(shí)現(xiàn)多維索引，加快多維數(shù)據(jù)的檢索速度。

當(dāng)然，仍有許多其它研究工作，比如基于Ｈａｄｏｏｐ的實(shí)時(shí)數(shù)據(jù)分析、彈性研究、數(shù)據(jù)一致性研究等，都是非常有挑戰(zhàn)和意義的研究，限于篇幅我們不再贅述。

９總結(jié)

本文對(duì)大數(shù)據(jù)分析的主流實(shí)現(xiàn)平臺(tái)（并行數(shù)據(jù)庫(kù)、ＭａｐＲｅｄｕｃｅ及兩者的混合架構(gòu)）進(jìn)行了評(píng)價(jià)、歸納與對(duì)比分析，介紹了中國(guó)人民大學(xué)在大數(shù)據(jù)分析方面的研究，并對(duì)當(dāng)前的研究進(jìn)行了歸納，從文中可以看出，每種分析平臺(tái)都不是完美的，在大數(shù)據(jù)面前，都有很長(zhǎng)的路要走，大數(shù)據(jù)分析迫使我們反思傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)，虛心地研究ＭａｐＲｅｄｕｃｅ等新生平臺(tái)，以站在更高的層次來(lái)思考問(wèn)題，從而找到適應(yīng)時(shí)代需求的數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)。

核心關(guān)注：拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用，蘊(yùn)涵了豐富的ERP管理思想，集成了ERP軟件業(yè)務(wù)管理理念，功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理，全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域，是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴(lài)品牌。

轉(zhuǎn)載請(qǐng)注明出處：拓步ERP資訊網(wǎng)http://www.ezxoed.cn/

本文標(biāo)題：架構(gòu)大數(shù)據(jù)：挑戰(zhàn)、現(xiàn)狀與展望(下)

本文網(wǎng)址：http://www.ezxoed.cn/html/support/1112158845.html

關(guān)鍵詞標(biāo)簽： 架構(gòu)大數(shù)據(jù)：挑戰(zhàn)、現(xiàn)狀與展望(下),大數(shù)據(jù) 大規(guī)�？蓴U(kuò)展ＭａｐＲｅｄｕｃｅ并行數(shù)據(jù)庫(kù),ERP,ERP系統(tǒng),ERP軟件,ERP系統(tǒng)軟件,ERP管理系統(tǒng),ERP管理軟件,進(jìn)銷(xiāo)存軟件,財(cái)務(wù)軟件,倉(cāng)庫(kù)管理軟件,生產(chǎn)管理軟件,企業(yè)管理軟件,拓步,拓步ERP,拓步軟件,免費(fèi)ERP,免費(fèi)ERP軟件,免費(fèi)ERP系統(tǒng),ERP軟件免費(fèi)下載,ERP系統(tǒng)免費(fèi)下載,免費(fèi)ERP軟件下載,免費(fèi)進(jìn)銷(xiāo)存軟件,免費(fèi)進(jìn)銷(xiāo)存,免費(fèi)財(cái)務(wù)軟件,免費(fèi)倉(cāng)庫(kù)管理軟件,免費(fèi)下載,

本文轉(zhuǎn)自：e-works制造業(yè)信息化門(mén)戶(hù)網(wǎng)

本文來(lái)源于互聯(lián)網(wǎng)，拓步ERP資訊網(wǎng)本著傳播知識(shí)、有益學(xué)習(xí)和研究的目的進(jìn)行的轉(zhuǎn)載，為網(wǎng)友免費(fèi)提供，并盡力標(biāo)明作者與出處，如有著作權(quán)人或出版方提出異議，本站將立即刪除。如果您對(duì)文章轉(zhuǎn)載有任何疑問(wèn)請(qǐng)告之我們，以便我們及時(shí)糾正。聯(lián)系方式：QQ：10877846 Tel：0755-26405298。

上一篇：基于Excel模板打印的實(shí)現(xiàn)及服務(wù)器部署

下一篇：架構(gòu)大數(shù)據(jù)：挑戰(zhàn)、現(xiàn)狀與展望(上)

相關(guān)文章

服務(wù)支持


	ERP新聞動(dòng)態(tài) 拓步新聞行業(yè)新聞關(guān)注產(chǎn)品觀點(diǎn)縱橫企業(yè)管理企業(yè)應(yīng)用

	ERP解決方案按ERP應(yīng)用行業(yè)分類(lèi) 按ERP企業(yè)規(guī)模分類(lèi) 按ERP管理領(lǐng)域分類(lèi) 按ERP軟件功能分類(lèi) 按ERP系統(tǒng)特性分類(lèi) 用友ERP解決方案金蝶ERP解決方案易飛ERP解決方案速達(dá)ERP解決方案其他ERP解決方案

	ERP顧問(wèn)咨詢(xún) ERP管理咨詢(xún) ERP戰(zhàn)略診斷 ERP流程分析 ERP流程優(yōu)化 ERP風(fēng)險(xiǎn)分析 ERP可行性研究 ERP整體規(guī)劃 ERP選型招標(biāo) ERP實(shí)施監(jiān)理 ERP評(píng)審驗(yàn)收 ERP績(jī)效評(píng)價(jià) ERP基礎(chǔ)知識(shí) ERP課程培訓(xùn) ERP培訓(xùn)教育 ERP視頻教材

	CIO技術(shù)專(zhuān)欄 CIO企業(yè)應(yīng)用 CIO網(wǎng)絡(luò)通信 CIO信息安全 CIO基礎(chǔ)設(shè)施 CIO云計(jì)算

	ERP技術(shù)支持技術(shù)支持知識(shí)庫(kù) 常見(jiàn)問(wèn)題資料庫(kù) 在線學(xué)習(xí)資料庫(kù) 日常辦公資料庫(kù) 企業(yè)管理知識(shí)庫(kù)

	ERP系統(tǒng)價(jià)格拓步ERP系統(tǒng)價(jià)格體系拓步EIS軟件價(jià)格體系合作品牌ERP價(jià)格體系技術(shù)支持服務(wù)價(jià)格體系

	合作品牌用友UFIDA 金蝶KingDee 神州數(shù)碼Digital 速達(dá)SuperData 拓步ERP系統(tǒng)成功案例

	代理加盟合作聯(lián)盟策略代理合作指南代理聯(lián)盟前景聯(lián)盟技術(shù)支持快速搜索ERP軟件資訊

	關(guān)于拓步公司介紹公司愿景企業(yè)文化誠(chéng)聘英才聯(lián)系我們在線留言在線訂購(gòu)意向下載體驗(yàn)登記

2021色婷婷综合久久久_国产亚洲午夜高清国产亚洲_亚洲开心婷婷中文字幕_亚洲国产中文精品字幕第一页_国产综合免费视频

ERP技術(shù)支持

技術(shù)支持知識(shí)庫(kù)

常見(jiàn)問(wèn)題資料庫(kù)

在線學(xué)習(xí)資料庫(kù)

日常辦公資料庫(kù)

企業(yè)管理知識(shí)庫(kù)

ERP系統(tǒng)教程

ERP免費(fèi)下載

ERP在線咨詢(xún)

即時(shí)聯(lián)系

服務(wù)熱線

快捷互動(dòng)

猜您喜歡