| 當前位置：拓步ERP資訊網(wǎng) >>服務(wù)支持 >>ERP技術(shù)支持 >>技術(shù)支持知識庫

架構(gòu)大數(shù)據(jù)：挑戰(zhàn)、現(xiàn)狀與展望(上)

發(fā)布日期：2013-05-01 8:50:06 來源：www.ezxoed.cn 編輯：拓步ERP資訊網(wǎng) 瀏覽：評論

摘要：大數(shù)據(jù)分析相比于傳統(tǒng)的數(shù)據(jù)倉庫應(yīng)用，具有數(shù)據(jù)量大、查詢分析復雜等特點，為了設(shè)計適合大數(shù)據(jù)分析的數(shù)據(jù)倉庫架構(gòu)，文中列舉了大數(shù)據(jù)分析平臺需要具備的幾個重要特性，對當前的主流實現(xiàn)平臺———并行數(shù)據(jù)庫、ＭａｐＲｅｄｕｃｅ及基于兩者的混合架構(gòu)進行了分析歸納，指出了各自的優(yōu)勢及不足，同時也對各個方向的研究現(xiàn)狀及作者在大數(shù)據(jù)分析方面的努力進行了介紹，對未來研究做了展望。 原標題：架構(gòu)大數(shù)據(jù)：挑戰(zhàn)、現(xiàn)狀與展望(上) 原作者：發(fā)表時間：2013/4/29 王珊王會舉覃雄派周烜來源：萬方數(shù)據(jù)

１引言

最近幾年，數(shù)據(jù)倉庫又成為數(shù)據(jù)管理研究的熱點領(lǐng)域，主要原因是當前數(shù)據(jù)倉庫系統(tǒng)面臨的需求在數(shù)據(jù)源、需提供的數(shù)據(jù)服務(wù)和所處的硬件環(huán)境等方面發(fā)生了根本性的變化（詳見１．１節(jié)），這些變化是我們必須面對的。

本文在大數(shù)據(jù)的時代背景下，對現(xiàn)有數(shù)據(jù)倉庫系統(tǒng)實現(xiàn)方案（主要是并行數(shù)據(jù)庫和ＭａｐＲｅｄｕｃｅ）進行重新審視，期望能為設(shè)計滿足時代需求的數(shù)據(jù)倉庫系統(tǒng)提供理論參考，限于篇幅，本文主要關(guān)注不同數(shù)據(jù)倉庫實現(xiàn)方案的主體架構(gòu)及其缺陷在最近幾年的改進情況，依據(jù)研究立足點的不同，本文將該領(lǐng)域的研究歸為三大類：并行數(shù)據(jù)庫、ＭａｐＲｅｄｕｃｅ、并行數(shù)據(jù)庫和ＭａｐＲｅｄｕｃｅ技術(shù)的混合架構(gòu)，其中第三類研究又細分為：并行數(shù)據(jù)庫主導型、ＭａｐＲｅｄｕｃｅ主導型、并行數(shù)據(jù)庫和ＭａｐＲｅｄｕｃｅ集成型三種，文第１節(jié)分析大數(shù)據(jù)時代，數(shù)據(jù)倉庫所面臨的問題及挑戰(zhàn)；第２節(jié)列出大數(shù)據(jù)時代的數(shù)據(jù)倉庫平臺需具備的幾個重要特性；第３節(jié)到第５節(jié)就這幾個特性對各類平臺進行歸納分析；第６節(jié)對最新研究做一跟蹤歸納；第７節(jié)介紹中國人民大學在大數(shù)據(jù)分析方面的研究工作；第８節(jié)對未來研究做出展望；第９節(jié)總結(jié)全文。

１．１三個變化

（１）數(shù)據(jù)量。由ＴＢ級升至ＰＢ級，并仍在持續(xù)爆炸式增長，根據(jù)ＷｉｎｔｅｒＣｏｒｐ的調(diào)查顯示，最大的數(shù)據(jù)倉庫中的數(shù)據(jù)量，每兩年增加３倍［１］（年均增長率為１７３％），其增長速度遠超摩爾定律增長速度，照此增長速度計算，２０１５年最大數(shù)據(jù)倉庫中的數(shù)據(jù)量將逼近１００ＰＢ。

（２）分析需求。由常規(guī)分析轉(zhuǎn)向深度分析（ＤｅｅｐＡｎａｌｙｔｉｃｓ），數(shù)據(jù)分析日益成為企業(yè)利潤必不可少的支撐點，根據(jù)ＴＤＷＩ對大數(shù)據(jù)分析的報告（如圖１），企業(yè)已經(jīng)不滿足于對現(xiàn)有數(shù)據(jù)的分析和監(jiān)測，而是更期望能對未來趨勢有更多的分析和預(yù)測，以增強企業(yè)競爭力，這些分析操作包括諸如移動平均線分析、數(shù)據(jù)關(guān)聯(lián)關(guān)系分析、回歸分析、市場籃分析等復雜統(tǒng)計分析，我們稱之為深度分析，值得補充的是，本文中的大數(shù)據(jù)分析不僅僅指基于大數(shù)據(jù)上的深度分析，也包括常規(guī)分析。

分析的趨勢

圖１分析的趨勢

（３）硬件平臺。由高端服務(wù)器轉(zhuǎn)向由中低端硬件構(gòu)成的大規(guī)模機群平臺，由于數(shù)據(jù)量的迅速增加，并行數(shù)據(jù)庫的規(guī)模不得不隨之增大，從而導致其成本的急劇上升，出于成本的考慮，越來越多的企業(yè)將應(yīng)用由高端服務(wù)器轉(zhuǎn)向了由中低端硬件構(gòu)成的大規(guī)模機群平臺。

１.２兩個問題

圖２是一個典型的數(shù)據(jù)倉庫架構(gòu)，從圖中我們可以看出，傳統(tǒng)的數(shù)據(jù)倉庫將整個實現(xiàn)劃分為４個層次，數(shù)據(jù)源中的數(shù)據(jù)首先通過ＥＴＬ工具被抽取到數(shù)據(jù)倉庫中進行集中存儲和管理，再按照星型模型或雪花模型組織數(shù)據(jù)，然后ＯＬＡＰ工具從數(shù)據(jù)倉庫中讀取數(shù)據(jù)，生成數(shù)據(jù)立方體（ＭＯＬＡＰ）或者直接訪問數(shù)據(jù)倉庫進行數(shù)據(jù)分析（ＲＯＬＡＰ），在大數(shù)據(jù)時代，此種計算模式存在兩個問題：

問題１，數(shù)據(jù)移動代價過高，在數(shù)據(jù)源層和分析層之間引入一個存儲管理層，可以提升數(shù)據(jù)質(zhì)量并針對查詢進行優(yōu)化，但也付出了較大的數(shù)據(jù)遷移代價和執(zhí)行時的連接代價：數(shù)據(jù)首先通過復雜且耗時的ＥＴＬ過程存儲到數(shù)據(jù)倉庫中，在ＯＬＡＰ服務(wù)器中轉(zhuǎn)化為星型模型或者雪花模型；執(zhí)行分析時，又通過連接方式將數(shù)據(jù)從數(shù)據(jù)庫中取出，這些代價在ＴＢ級時也許可以接受，但面對大數(shù)據(jù)，其執(zhí)行時間至少會增長幾個數(shù)量級，更為重要的是，對于大量的即席分析，這種數(shù)據(jù)移動的計算模式是不可取的。

一個典型的數(shù)據(jù)倉庫架構(gòu)

圖２一個典型的數(shù)據(jù)倉庫架構(gòu)

問題２，不能快速適應(yīng)變化，傳統(tǒng)的數(shù)據(jù)倉庫假設(shè)主題是較少變化的，其應(yīng)對變化的方式是對數(shù)據(jù)源到前端展現(xiàn)的整個流程中的每個部分進行修改，然后再重新加載數(shù)據(jù)，甚至重新計算數(shù)據(jù)，導致其適應(yīng)變化的周期較長，這種模式比較適合對數(shù)據(jù)質(zhì)量和查詢性能要求較高、而不太計較預(yù)處理代價的場合，但在大數(shù)據(jù)時代，分析處在變化的業(yè)務(wù)環(huán)境中，這種模式將難以適應(yīng)新的需求。

１．３一個鴻溝

在大數(shù)據(jù)時代，巨量數(shù)據(jù)與系統(tǒng)的數(shù)據(jù)處理能力之間將會產(chǎn)生一個鴻溝：一邊是至少ＰＢ級的數(shù)據(jù)量，另一邊是面向傳統(tǒng)數(shù)據(jù)分析能力設(shè)計的數(shù)據(jù)倉庫和各種ＢＩ工具，如果這些系統(tǒng)或工具發(fā)展緩慢，該鴻溝將會隨著數(shù)據(jù)量的持續(xù)爆炸式增長而逐步拉大。

雖然，傳統(tǒng)數(shù)據(jù)倉庫可以采用舍棄不重要數(shù)據(jù)或者建立數(shù)據(jù)集市的方式來緩解此問題，但畢竟只是權(quán)益之策，并非系統(tǒng)級解決方案，而且，舍棄的數(shù)據(jù)在未來可能會重新使用，以發(fā)掘更大的價值。

２期望特性

本節(jié)我們列出對大數(shù)據(jù)進行分析時，數(shù)據(jù)倉庫系統(tǒng)需具備的幾個重要特性（表１所示）。

大數(shù)據(jù)分析平臺需具備的特性

表１大數(shù)據(jù)分析平臺需具備的特性

高度可擴展性，一個明顯的事實是，數(shù)據(jù)庫不能依靠一臺或少數(shù)幾臺機器的升級（ｓｃａｌｅｕｐ縱向擴展）滿足數(shù)據(jù)量的爆炸式增長，而是希望能方便地做到橫向可擴展（ｓｃａｌｅｏｕｔ）來實現(xiàn)此目標，普遍認為ｓｈａｒｅｄｎｏｔｈｉｎｇ無共享結(jié)構(gòu)（每個節(jié)點擁有私有內(nèi)存和磁盤，并且通過高速網(wǎng)絡(luò)同其它節(jié)點互連）具備較好的擴展性，分析型操作往往涉及大規(guī)模的并行掃描、多維聚集及星型連接操作，這些操作也比較適合在無共享結(jié)構(gòu)的網(wǎng)絡(luò)環(huán)境運行，Ｔｅｒａｄａｔａ即采用此結(jié)構(gòu)，Ｏｒａｃｌｅ在其新產(chǎn)品Ｅｘａｄａｔａ中也采用了此結(jié)構(gòu)。

高性能，數(shù)據(jù)量的增長并沒有降低對數(shù)據(jù)庫性能的要求，反而有所提高，軟件系統(tǒng)性能的提升可以降低企業(yè)對硬件的投入成本、節(jié)省計算資源，提高系統(tǒng)吞吐量，巨量數(shù)據(jù)的效率優(yōu)化，并行是必由之路，１ＰＢ數(shù)據(jù)在５０ＭＢ／ｓ速度下串行掃描一次，需要２３０天；而在６０００塊磁盤上，并行掃描１ＰＢ數(shù)據(jù)只需要１個小時。

高度容錯，大數(shù)據(jù)的容錯性要求在查詢執(zhí)行過程中，一個參與節(jié)點失效時，不需要重做整個查詢，而機群節(jié)點數(shù)的增加會帶來節(jié)點失效概率的增加，在大規(guī)模機群環(huán)境下，節(jié)點的失效將不再是稀有事件（Ｇｏｏｇｌｅ報告，平均每個ＭａｐＲｅｄｕｃｅ數(shù)據(jù)處理任務(wù)就有１.２個工作節(jié)點失效），因此在大規(guī)模機群環(huán)境下，系統(tǒng)不能依賴于硬件來保證容錯性，要更多地考慮軟件級容錯。

支持異構(gòu)環(huán)境，建設(shè)同構(gòu)系統(tǒng)的大規(guī)模機群難度較大，原因在于計算機硬件更新較快，一次性購置大量同構(gòu)的計算機是不可取的，而且也會在未來添置異構(gòu)計算資源，此外，不少企業(yè)已經(jīng)積累了一些閑置的計算機資源，此種情況下，對異構(gòu)環(huán)境的支持可以有效地利用這些閑置計算資源，降低硬件成本的投入，還需特別關(guān)注的是，在異構(gòu)環(huán)境下，不同節(jié)點的性能是不一樣的，可能出現(xiàn)“木桶效應(yīng)”，即最慢節(jié)點的性能決定整體處理性能，因此，異構(gòu)的機群需要特別關(guān)注負載均衡、任務(wù)調(diào)度等方面的設(shè)計。

較低的分析延遲，分析延遲指的是分析前的數(shù)據(jù)準備時間，在大數(shù)據(jù)時代，分析所處的業(yè)務(wù)環(huán)境是變化的，因此也要求系統(tǒng)能動態(tài)地適應(yīng)業(yè)務(wù)分析需求，在分析需求發(fā)生變化時，減少數(shù)據(jù)準備時間，系統(tǒng)能盡可能快地做出反應(yīng)，快速地進行數(shù)據(jù)分析。

易用且開放的接口，ＳＱＬ的優(yōu)點是簡單易用，但其主要用于數(shù)據(jù)的檢索查詢，對于大數(shù)據(jù)上的深度分析來講，是不夠的，原因在于：（１）其提供的服務(wù)方式依賴于數(shù)據(jù)移動來實現(xiàn)：將數(shù)據(jù)從數(shù)據(jù)庫中取出，然后傳遞給應(yīng)用程序，該實現(xiàn)方式在大數(shù)據(jù)時代代價過高；（２）復雜的分析功能，如Ｒ或Ｍａｔｌａｂ中的分析功能，ＳＱＬ是難以勝任的，因此，除對ＳＱＬ的支持外，系統(tǒng)還應(yīng)能提供開放的接口，讓用戶自己開發(fā)需要的功能，設(shè)計該接口時，除了關(guān)注其易用性和開放性，還需要特別注意兩點隱藏的要求：（１）基于接口開發(fā)的用戶自定義函數(shù)，能自動在機群上并行執(zhí)行；（２）分析在數(shù)據(jù)庫內(nèi)進行，即分析盡可能靠近數(shù)據(jù)。

較低的成本，在滿足需求的前提下，某技術(shù)成本越低，其生命力就越強，需要指出的是成本是一個綜合指標，不僅僅是硬件或軟件的代價，還應(yīng)包括日常運維成本（網(wǎng)絡(luò)費用、電費、建筑等）和管理人員成本等，據(jù)報告，數(shù)據(jù)中心的主要成本不是硬件的購置成本，而是日常運維成本，因此，在設(shè)計系統(tǒng)時需要更多地關(guān)注此項內(nèi)容。

向下兼容性，數(shù)據(jù)倉庫發(fā)展的３０年，產(chǎn)生了大量面向客戶業(yè)務(wù)的數(shù)據(jù)處理工具（如Ｉｎｆｏｒｍａｃｔｉｃａ、ＤａｔａＳｔａｇｅ等）、分析軟件（如ＳＰＳＳ、Ｒ、Ｍａｔｌａｂ等）和前端展現(xiàn)工具（如水晶報表）等，這些軟件是一筆寶貴的財富，已被分析人員所熟悉，是大數(shù)據(jù)時代中小規(guī)模數(shù)據(jù)分析的必要補充，因此，新的數(shù)據(jù)倉庫需考慮同傳統(tǒng)商務(wù)智能工具的兼容性，由于這些系統(tǒng)往往提供標準驅(qū)動程序，如ＯＤＢＣ、ＪＤＢＣ等，這項需求的實際要求是對ＳＱＬ的支持。

總之，以較低的成本投入、高效地進行數(shù)據(jù)分析，是大數(shù)據(jù)分析的基本目標。

３并行數(shù)據(jù)庫

并行數(shù)據(jù)庫起源于２０世紀８０年代，當前主流的并行數(shù)據(jù)庫都同早期的Ｇａｍｍａ和Ｇｒａｃｅ等并行數(shù)據(jù)庫類似，這些數(shù)據(jù)庫都支持標準ＳＱＬ，并且實現(xiàn)了數(shù)據(jù)庫界過去３０年提出的許多先進技術(shù)，其主要采用ｓｈａｒｅｄｎｏｔｈｉｎｇ結(jié)構(gòu)，將關(guān)系表在節(jié)點間橫向劃分，并且利用優(yōu)化器來對執(zhí)行過程進行調(diào)度和管理，其目標是高性能和高可用性。

并行數(shù)據(jù)庫的最大優(yōu)勢在于性能，這主要得益于數(shù)據(jù)庫界近幾十年的研究成果———許多先進的技術(shù)手段及算法，如索引、數(shù)據(jù)壓縮、物化視圖、結(jié)果緩沖、Ｉ／Ｏ共享、優(yōu)化的數(shù)據(jù)連接等，但是在大數(shù)據(jù)時代，如前言所述，數(shù)據(jù)移動的實現(xiàn)方式將影響其性能。

并行數(shù)據(jù)庫通過ＳＱＬ向外提供數(shù)據(jù)訪問服務(wù)，ＳＱＬ因其簡單易用的特點而被廣泛使用，因此，大多ＢＩ工具都支持基于標準ＳＱＬ的數(shù)據(jù)交互方式，使得關(guān)系數(shù)據(jù)庫能較好地兼容當前多數(shù)ＢＩ工具，某些數(shù)據(jù)庫，如ＩＢＭＤＢ２還針對一些ＢＩ工具進行了優(yōu)化，但在大數(shù)據(jù)分析面前，ＳＱＬ接口面臨巨大挑戰(zhàn)，ＳＱＬ的優(yōu)勢源于其對底層數(shù)據(jù)訪問的封裝，但封裝在一定程度上影響了其開放性，而且并行數(shù)據(jù)庫提供的用戶自定義函數(shù)大都是基于單數(shù)據(jù)庫實例設(shè)計的，從而不能在機群上并行執(zhí)行，也即意味著傳統(tǒng)的實現(xiàn)方式不適合大數(shù)據(jù)的處理及分析，而且，在并行數(shù)據(jù)庫中實現(xiàn)用戶自定義函數(shù)往往需要經(jīng)過復雜的系統(tǒng)交互，甚至要熟悉數(shù)據(jù)庫的內(nèi)部結(jié)構(gòu)及系統(tǒng)調(diào)用等，從而難以使用。

并行數(shù)據(jù)庫在擴展性、容錯性、成本、對異構(gòu)環(huán)境的支持等幾項上有所欠缺，這幾項實際是相互影響的，我們以其最大問題———擴展性為主線展開討論，并行數(shù)據(jù)庫大多支持有限擴展，一般可擴至數(shù)百節(jié)點的規(guī)模，尚未有數(shù)千節(jié)點規(guī)模的應(yīng)用案例，并行數(shù)據(jù)庫擴展性有限主要因為如下幾點：（１）并行數(shù)據(jù)庫軟件級容錯能力較差，并行數(shù)據(jù)庫基于高端硬件設(shè)計，并且假設(shè)查詢失敗屬于稀有事件，因此當查詢失敗時，一般采取重做查詢的方式，而在大規(guī)模機群環(huán)境下，查詢失敗將會變?yōu)橐粋€普通事件，極端情況下，并行數(shù)據(jù)有可能出現(xiàn)不停重做查詢的局面；（２）并行數(shù)據(jù)庫對異構(gòu)硬件的支持非常有限，且對于處理較慢的節(jié)點反應(yīng)敏感，容易出現(xiàn)“木桶效應(yīng)”，如第２節(jié)中所論述的，完全基于同構(gòu)硬件搭建大規(guī)模機群在現(xiàn)實中是較難實現(xiàn)的，因而，對異構(gòu)硬件的支持能力影響了其擴展性；（３）并行數(shù)據(jù)庫若做到大規(guī)�？蓴U展，其代價將會較高（需基于高端硬件來保證可靠性，需購買昂貴的軟件系統(tǒng)），從而限制了其擴展性；（４）根據(jù)ＣＡＰ理論①，在分布式系統(tǒng)中，數(shù)據(jù)一致性（Ｃｏｎｓｉｓｔｅｎｃｙ）、可用性（Ａｖａｉｌａｂｉｌｉｔｙ）、子網(wǎng)可分解性（ＮｅｔｗｏｒｋＰａｒｔｉｔｉｏｎｉｎｇ）不可同時兼得，選擇其中任兩項，便會損害另一項，并行數(shù)據(jù)庫追求的是數(shù)據(jù)一致性和系統(tǒng)的可用性，從而影響了它的擴展能力。

此外，如１.２節(jié)所討論的，基于并行數(shù)據(jù)庫實現(xiàn)的傳統(tǒng)數(shù)據(jù)倉庫借助于外圍工具（ＥＴＬ工具、ＯＬＡＰ產(chǎn)品、ＢＩ報表工具、統(tǒng)計分析軟件等）來完成數(shù)據(jù)的預(yù)處理和分析展現(xiàn)任務(wù)，導致其數(shù)據(jù)處理及分析過程涉及大量的數(shù)據(jù)遷移和計算，分析延遲往往較高。

４MapReduce

ＭａｐＲｅｄｕｃｅ是２００４年由Ｇｏｏｇｌｅ提出的面向大數(shù)據(jù)集處理的編程模型，起初主要用作互聯(lián)網(wǎng)數(shù)據(jù)的處理，例如文檔抓取、倒排索引的建立等，但由于其簡單而強大的數(shù)據(jù)處理接口和對大規(guī)模并行執(zhí)行、容錯及負載均衡等實現(xiàn)細節(jié)的隱藏，該技術(shù)一經(jīng)推出便迅速在機器學習、數(shù)據(jù)挖掘、數(shù)據(jù)分析等領(lǐng)域得到廣泛應(yīng)用。

ＭａｐＲｅｄｕｃｅ將數(shù)據(jù)處理任務(wù)抽象為一系列的Ｍａｐ（映射）Ｒｅｄｕｃｅ（化簡）操作對，Ｍａｐ主要完成數(shù)據(jù)的過濾操作，Ｒｅｄｕｃｅ主要完成數(shù)據(jù)的聚集操作，輸入輸出數(shù)據(jù)均以〈ｋｅｙ，ｖａｌｕｅ〉格式存儲，用戶在使用該編程模型時，只需按照自己熟悉的語言實現(xiàn)Ｍａｐ函數(shù)和Ｒｅｄｕｃｅ函即可，ＭａｐＲｅｄｕｃｅ框架會自動對任務(wù)進行劃分以做到并行執(zhí)行。

下面本文將以基于ＭａｐＲｅｄｕｃｅ的開源實現(xiàn)Ｈａｄｏｏｐ為主，對其主要特性進行介紹。

ＭａｐＲｅｄｕｃｅ是面向由數(shù)千臺中低端計算機組成的大規(guī)模機群而設(shè)計的，其擴展能力得益于其ｓｈａｒｅｄｎｏｔｈｉｎｇ結(jié)構(gòu)、各個節(jié)點間的松耦合性和較強的軟件級容錯能力：節(jié)點可以被任意地從機群中移除，而幾乎不影響現(xiàn)有任務(wù)的執(zhí)行，該技術(shù)被稱為ＲＡＩＮ（Ｒｅｄｕｎｄａｎｔ／ＲｅｌｉａｂｌｅＡｒｒａｙｏｆＩｎｄｅｐｅｎｄｅｎｔ（ａｎｄＩｎｅｘｐｅｎｓｉｖｅ）Ｎｏｄｅｓ），ＭａｐＲｅｄｕｃｅ卓越的擴展能力已在工業(yè)界（Ｇｏｏｇｌｅ、Ｆａｃｅｂｏｏｋ、Ｂａｉｄｕ、Ｔａｏｂ等）得到了充分驗證，ＭａｐＲｅｄｕｃｅ對硬件的要求較低，可以基于異構(gòu)的廉價硬件來搭建機群，且免費開源，因此其構(gòu)建成本低于并行數(shù)據(jù)庫，但基于ＭａｐＲｅｄｕｃｅ的應(yīng)用軟件相對較少，許多數(shù)據(jù)分析功能需要用戶自行開發(fā)，從而會導致使用成本的增加。

作為開源系統(tǒng)，ＭａｐＲｅｄｕｃｅ具有完全的開放性：其〈ｋｅｙ，ｖａｌｕｅ〉存儲模型具有較強的表現(xiàn)力，可以存儲任意格式的數(shù)據(jù)；Ｍａｐ和Ｒｅｄｕｃｅ兩個基本的函數(shù)接口也給用戶提供了足夠的發(fā)揮空間，可以實現(xiàn)各種復雜的數(shù)據(jù)處理功能，但這種開放性也帶來一個問題，就是將本來應(yīng)由數(shù)據(jù)庫管理系統(tǒng)完成的工作，諸如文件存儲格式的設(shè)計、模式信息的記錄、數(shù)據(jù)處理算法的實現(xiàn)等，轉(zhuǎn)移給了程序員，從而導致程序員負擔過重，程序員水平對系統(tǒng)處理性能起決定性作用，在某些情況下，寫ＭａｐＲｅｄｕｃｅ程序的時間遠大于寫ＳＱＬ語句的時間，部分復雜的ＢＩ報表分析，可能僅程序的編寫和調(diào)試就要耗費幾天的時間。

基于ＭａｐＲｅｄｕｃｅ平臺的分析，無需復雜的數(shù)據(jù)預(yù)處理和寫入數(shù)據(jù)庫的過程，而是可以直接基于平面文件進行分析，并且其采用的計算模式是移動計算而非移動數(shù)據(jù)，因此可以將分析延遲最小化。

在同等硬件條件下，ＭａｐＲｅｄｕｃｅ性能遠低于并行數(shù)據(jù)庫，這是由其最初的設(shè)計定位決定的，ＭａｐＲｅｄｕｃｅ的設(shè)計初衷是面向非結(jié)構(gòu)化數(shù)據(jù)的處理，這些數(shù)據(jù)具有數(shù)據(jù)量大，處理復雜等特點，而且往往是一次性處理，為了獲得較好的擴展能力和容錯能力，ＭａｐＲｅｄｕｃｅ采取了基于掃描的處理模式和對中間結(jié)果步步物化的執(zhí)行策略，從而導致較高的Ｉ／Ｏ代價，為了減少數(shù)據(jù)預(yù)處理時間，ＭａｐＲｅｄｕｃｅ沒有使用模式、索引、物化視圖等技術(shù)手段，其數(shù)據(jù)預(yù)處理僅是一次數(shù)據(jù)加載操作，但由此導致了一個問題———較高的元組解析代價。ＭａｐＲｅｄｕｃｅ環(huán)境下，每個查詢都是直接從文件系統(tǒng)中讀入原始數(shù)據(jù)文件，而非傳統(tǒng)的從數(shù)據(jù)庫中讀入經(jīng)處理過的文件，因此其元組解析代價遠高于關(guān)系數(shù)據(jù)庫，對數(shù)據(jù)分析領(lǐng)域來說，連接是關(guān)鍵操作（如傳統(tǒng)的星型查詢和雪花查詢均是依賴于連接來處理查詢），但ＭａｐＲｅｄｕｃｅ處理連接的性能尤其不盡如人意，原因在于ＭａｐＲｅｄｕｃｅ最初是針對單數(shù)據(jù)集設(shè)計的處理模型，而連接操作往往涉及多個數(shù)據(jù)集，在利用ＭａｐＲｅｄｕｃｅ實現(xiàn)連接時，最直接的方式是每個任務(wù)執(zhí)行一個屬性上的連接操作，然后將多個ＭａｐＲｅｄｕｃｅ任務(wù)通過物化的中間結(jié)果串接起來，這種實現(xiàn)方式往往涉及中間結(jié)果的讀寫，從而導致大量的Ｉ／Ｏ操作和網(wǎng)絡(luò)傳輸。

ＭａｐＲｅｄｕｃｅ目前基本不兼容現(xiàn)有的ＢＩ工具，原因在于其初衷并不是要成為數(shù)據(jù)庫系統(tǒng)，因此它并未提供ＳＱＬ接口，但已有研究致力于ＳＱＬ語句與ＭａｐＲｅｄｕｃｅ任務(wù)的轉(zhuǎn)換工作（例如Ｈｉｖｅ），進而有可能實現(xiàn)ＭａｐＲｅｄｕｃｅ與現(xiàn)存ＢＩ工具的兼容。

５并行數(shù)據(jù)庫和ＭａｐＲｅｄｕｃｅ的混合架構(gòu)

基于以上分析，我們可以清楚地看出，基于并行數(shù)據(jù)庫和ＭａｐＲｅｄｕｃｅ實現(xiàn)的數(shù)據(jù)倉庫系統(tǒng)都不是大數(shù)據(jù)分析的理想方案，針對兩者哪個更適合時代需求的問題，業(yè)界近年展開了激烈爭論，當前基本達成如下共識：并行數(shù)據(jù)庫和ＭａｐＲｅｄｕｃｅ是互補關(guān)系，應(yīng)該相互學習，基于該觀點，大量研究著手將兩者結(jié)合起來，期望設(shè)計出兼具兩者優(yōu)點的數(shù)據(jù)分析平臺，這種架構(gòu)又可以分為三類：并行數(shù)據(jù)庫主導型、ＭａｐＲｅｄｕｃｅ主導型、ＭａｐＲｅｄｕｃｅ和并行數(shù)據(jù)庫集成型（表２對３種架構(gòu)進行了對比分析）。

混合架構(gòu)型解決方案對比分析

表２混合架構(gòu)型解決方案對比分析

５．１并行數(shù)據(jù)庫主導型

該種方式關(guān)注于如何利用ＭａｐＲｅｄｕｃｅ來增強并行數(shù)據(jù)庫的數(shù)據(jù)處理能力，代表性系統(tǒng)是Ｇｒｅｅｎｐｌｕｍ（已被ＥＭＣ收購）和ＡｓｔｅｒＤａｔａ（已被Ｔｅｒａｄａｔａ收購），ＡｓｔｅｒＤａｔａ將ＳＱＬ和ＭａｐＲｅｄｕｃｅ進行結(jié)合，針對大數(shù)據(jù)分析提出了ＳＱＬ／ＭａｐＲｅｄｕｃｅ框架。

該框架允許用戶使用Ｃ＋＋、ｊａｖａ、Ｐｙｔｈｏｎ等語言編寫ＭａｐＲｅｄｕｃｅ函數(shù)，編寫的函數(shù)可以作為一個子查詢在ＳＱＬ中使用，從而同時獲得ＳＱＬ的易用性和ＭａｐＲｅｄｕｃｅ的開放性，不僅如此，ＡｓｔｅｒＤａｔａ基于ＭａｐＲｅｄｕｃｅ實現(xiàn)了３０多個統(tǒng)計軟件包，從而將數(shù)據(jù)分析推向數(shù)據(jù)庫內(nèi)進行（數(shù)據(jù)庫內(nèi)分析），大大提升了數(shù)據(jù)分析的性能。

Ｇｒｅｅｎｐｌｕｍ也在其數(shù)據(jù)庫中引入了ＭａｐＲｅｄｕｃｅ處理功能，其執(zhí)行引擎可以同時處理ＳＱＬ查詢和ＭａｐＲｅｄｕｃｅ任務(wù)，這種方式在代碼級整合了ＳＱＬ和ＭａｐＲｅｄｕｃｅ：ＳＱＬ可以直接使用ＭａｐＲｅｄｕｃｅ任務(wù)的輸出，同時ＭａｐＲｅｄｕｃｅ任務(wù)也可以使用ＳＱＬ的查詢結(jié)果作為輸入。

總的來說，這些系統(tǒng)都集中于利用ＭａｐＲｅｄｕｃｅ來改進并行數(shù)據(jù)庫的數(shù)據(jù)處理功能，其根本性問題———可擴展能力和容錯能力并未改變。

５．２ＭａｐＲｅｄｕｃｅ主導型

該方向的研究主要集中于利用關(guān)系數(shù)據(jù)庫的ＳＱＬ接口和對模式的支持等技術(shù)來改善ＭａｐＲｅｄｕｃｅ的易用性，代表系統(tǒng)是Ｈｉｖｅ、ＰｉｇＬａｔｉｎ等。

Ｈｉｖｅ是Ｆａｃｅｂｏｏｋ提出的基于Ｈａｄｏｏｐ的大型數(shù)據(jù)倉庫，其目標是簡化Ｈａｄｏｏｐ上的數(shù)據(jù)聚集、ａｄｈｏｃ查詢及大數(shù)據(jù)集的分析等操作，以減輕程序員的負擔，它借鑒關(guān)系數(shù)據(jù)庫的模式管理、ＳＱＬ接口等技術(shù)，把結(jié)構(gòu)化的數(shù)據(jù)文件映射為數(shù)據(jù)庫表，提供類似于ＳＱＬ的描述性語言ＨｉｖｅＱＬ供程序員使用，可自動將ＨｉｖｅＱＬ語句解析成一優(yōu)化的ＭａｐＲｅｄｕｃｅ任務(wù)執(zhí)行序列，此外，它也支持用戶自定義的ＭａｐＲｅｄｕｃｅ函數(shù)。

ＰｉｇＬａｔｉｎ是Ｙａｈｏｏ！提出的類似于Ｈｉｖｅ的大數(shù)據(jù)集分析平臺，兩者的區(qū)別主要在于語言接口。

Ｈｉｖｅ提供了類似ＳＱＬ的接口，ＰｉｇＬａｔｉｎ提供的是一種基于操作符的數(shù)據(jù)流式的接口，圖３是ＰｉｇＬａｔｉｎ在處理查詢時的一個操作實例，該查詢的目的是找出“年齡在１８～２５周歲之間的用戶（Ｕｓｅｒｓ）最頻繁訪問的５個頁面（Ｐａｇｅｓ）”，從圖３可以看出，Ｐｉｇ提供的操作接口類似于關(guān)系數(shù)據(jù)庫的操作符（對應(yīng)圖中右側(cè)部分中的每一行命令），用戶查詢的腳本類似于邏輯查詢計劃（對應(yīng)圖中左側(cè)部分），因此，也可以說Ｐｉｇ利用操作符來對Ｈａｄｏｏｐ進行封裝，Ｈｉｖｅ利用ＳＱＬ進行封裝。

５．３ＭａｐＲｅｄｕｃｅ和并行數(shù)據(jù)庫集成型

該方向的代表性研究是耶魯大學提出的ＨａｄｏｏｐＤＢ（已于２０１１年商業(yè)化為Ｈａｄａｐｔ）Ｓｔｏｎｅｂｒａｋｅｒ等人設(shè)計的Ｖｅｒｔｉｃａ數(shù)據(jù)庫和ＮＣＲ公司的Ｔｅｒａｄａｔａ數(shù)據(jù)庫。

ＰｉｇＬａｔｉｎ的一個查詢示例（右邊為實際腳本）

圖３ＰｉｇＬａｔｉｎ的一個查詢示例（右邊為實際腳本）

核心關(guān)注：拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用，蘊涵了豐富的ERP管理思想，集成了ERP軟件業(yè)務(wù)管理理念，功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理，全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域，是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。

轉(zhuǎn)載請注明出處：拓步ERP資訊網(wǎng)http://www.ezxoed.cn/

本文標題：架構(gòu)大數(shù)據(jù)：挑戰(zhàn)、現(xiàn)狀與展望(上)

本文網(wǎng)址：http://www.ezxoed.cn/html/support/1112158844.html

關(guān)鍵詞標簽： 架構(gòu)大數(shù)據(jù)：挑戰(zhàn)、現(xiàn)狀與展望(上),大數(shù)據(jù) 大規(guī)�？蓴U展ＭａｐＲｅｄｕｃｅ并行數(shù)據(jù)庫深度分析,ERP,ERP系統(tǒng),ERP軟件,ERP系統(tǒng)軟件,ERP管理系統(tǒng),ERP管理軟件,進銷存軟件,財務(wù)軟件,倉庫管理軟件,生產(chǎn)管理軟件,企業(yè)管理軟件,拓步,拓步ERP,拓步軟件,免費ERP,免費ERP軟件,免費ERP系統(tǒng),ERP軟件免費下載,ERP系統(tǒng)免費下載,免費ERP軟件下載,免費進銷存軟件,免費進銷存,免費財務(wù)軟件,免費倉庫管理軟件,免費下載,

本文轉(zhuǎn)自：e-works制造業(yè)信息化門戶網(wǎng)

本文來源于互聯(lián)網(wǎng)，拓步ERP資訊網(wǎng)本著傳播知識、有益學習和研究的目的進行的轉(zhuǎn)載，為網(wǎng)友免費提供，并盡力標明作者與出處，如有著作權(quán)人或出版方提出異議，本站將立即刪除。如果您對文章轉(zhuǎn)載有任何疑問請告之我們，以便我們及時糾正。聯(lián)系方式：QQ：10877846 Tel：0755-26405298。

上一篇：架構(gòu)大數(shù)據(jù)：挑戰(zhàn)、現(xiàn)狀與展望(下)

下一篇： 7個大數(shù)據(jù)流言——避免錯誤的Hadoop和云分析決策

相關(guān)文章

服務(wù)支持

拓步ERP系統(tǒng)軟件平臺11.5專業(yè)版v10.1.2...

拓步ERP系統(tǒng)軟件平臺11.5標..

金蝶KIS財務(wù)軟件標準版V8.1..

金蝶KIS財務(wù)軟件迷你版V8.1..

金蝶KIS工業(yè)貿(mào)易專業(yè)版V12...

SQL2000 4in1 ISO..

MSDE2000 SP4 簡體中..

金蝶KIS商貿(mào)高級版V4.0|破..

金蝶KIS財務(wù)軟件行政事業(yè)版V9..

金蝶KIS零售版V4.1|破解版..

熱門培訓視頻

拓步ERP系統(tǒng)平臺庫存管理系統(tǒng)培訓視頻教材

拓步ERP系統(tǒng)平臺客戶端安裝培訓..

拓步ERP財務(wù)管理系統(tǒng)培訓視頻

拓步ERP系統(tǒng)平臺數(shù)據(jù)庫安裝培訓..

拓步ERP系統(tǒng)平臺通用操作培訓視..

拓步ERP系統(tǒng)平臺采購管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺考勤管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺財務(wù)報表系統(tǒng)培..

拓步ERP系統(tǒng)平臺財務(wù)總帳系統(tǒng)培..

拓步ERP系統(tǒng)平臺應(yīng)收帳款系統(tǒng)培..

熱門電子圖書

拓步ERP財務(wù)管理系統(tǒng)電子圖書

熱門管理軟件

拓步ERP系統(tǒng)管理軟件介紹

拓步ERP平臺系列旗艦版

拓步ERP生產(chǎn)系列標準版（進銷存..

拓步ERP業(yè)務(wù)系列倉存版（倉庫管..

拓步ERP平臺系列標準版

拓步ERP財務(wù)系列迷你版（財務(wù)管..

拓步ERP條碼系列業(yè)務(wù)標準版（條..

拓步ERP平臺系列企業(yè)版

拓步ERP平臺系列專業(yè)版

拓步ERP行業(yè)系列電子行業(yè)版

最新服務(wù)支持

談3D可視化系統(tǒng)在工業(yè)4.0三項集成的應(yīng)用

互聯(lián)網(wǎng)+智能家裝TOP50新鮮出..

淺談業(yè)務(wù)流程治理

解析工業(yè)4.0系列專欄—— 德國..

工業(yè)物聯(lián)網(wǎng)應(yīng)用場景及系統(tǒng)構(gòu)建

數(shù)據(jù)中心四大災(zāi)備技術(shù)解析

2015網(wǎng)絡(luò)、數(shù)據(jù)中心和云該期待..

如何利用云服務(wù)創(chuàng)建強大的備份策略

《中國制造2025》的總體思路圖

未來數(shù)據(jù)中心UPS需求趨勢

點擊

聯(lián)系ERP系統(tǒng)咨詢顧問
點擊

聯(lián)系ERP系統(tǒng)售前顧問-1
點擊

聯(lián)系ERP系統(tǒng)售前顧問-2


	ERP新聞動態(tài) 拓步新聞行業(yè)新聞關(guān)注產(chǎn)品觀點縱橫企業(yè)管理企業(yè)應(yīng)用

	ERP解決方案按ERP應(yīng)用行業(yè)分類按ERP企業(yè)規(guī)模分類按ERP管理領(lǐng)域分類按ERP軟件功能分類按ERP系統(tǒng)特性分類用友ERP解決方案金蝶ERP解決方案易飛ERP解決方案速達ERP解決方案其他ERP解決方案

	ERP顧問咨詢 ERP管理咨詢 ERP戰(zhàn)略診斷 ERP流程分析 ERP流程優(yōu)化 ERP風險分析 ERP可行性研究 ERP整體規(guī)劃 ERP選型招標 ERP實施監(jiān)理 ERP評審驗收 ERP績效評價 ERP基礎(chǔ)知識 ERP課程培訓 ERP培訓教育 ERP視頻教材

	CIO技術(shù)專欄 CIO企業(yè)應(yīng)用 CIO網(wǎng)絡(luò)通信 CIO信息安全 CIO基礎(chǔ)設(shè)施 CIO云計算

	ERP技術(shù)支持技術(shù)支持知識庫常見問題資料庫在線學習資料庫日常辦公資料庫企業(yè)管理知識庫

	ERP系統(tǒng)價格拓步ERP系統(tǒng)價格體系拓步EIS軟件價格體系合作品牌ERP價格體系技術(shù)支持服務(wù)價格體系

	合作品牌用友UFIDA 金蝶KingDee 神州數(shù)碼Digital 速達SuperData 拓步ERP系統(tǒng)成功案例

	代理加盟合作聯(lián)盟策略代理合作指南代理聯(lián)盟前景聯(lián)盟技術(shù)支持快速搜索ERP軟件資訊

	關(guān)于拓步公司介紹公司愿景企業(yè)文化誠聘英才聯(lián)系我們在線留言在線訂購意向下載體驗登記

2021色婷婷综合久久久_国产亚洲午夜高清国产亚洲_亚洲开心婷婷中文字幕_亚洲国产中文精品字幕第一页_国产综合免费视频

ERP技術(shù)支持

技術(shù)支持知識庫

常見問題資料庫

在線學習資料庫

日常辦公資料庫

企業(yè)管理知識庫

ERP系統(tǒng)教程

ERP免費下載

ERP在線咨詢

即時聯(lián)系

服務(wù)熱線

快捷互動