那些想要弄清楚“大數(shù)據(jù)”概念的組織需要做出一個選擇,是要采用傳統(tǒng)的數(shù)據(jù)倉庫概念和現(xiàn)有的數(shù)據(jù)倉庫架構(gòu),還是不熟越來越流行的開源Hadoop分布式處理平臺,或者使用這二者的結(jié)合。
那些想要從簡單的BI報表轉(zhuǎn)向深度數(shù)據(jù)挖掘與預(yù)測分析的企業(yè),第三種選項看上去是最靠譜的。最近采訪了Forrester機構(gòu)的高級數(shù)據(jù)管理分析師James Kobielus,他向我們分析了企業(yè)如何從快速變化的海量數(shù)據(jù)中獲取有價值的洞察力。在本文中,您將了解到如何將現(xiàn)有數(shù)據(jù)倉庫架構(gòu)的功能發(fā)揮到最大,Hadoop的優(yōu)勢與劣勢,以及大數(shù)據(jù)時代中每一個數(shù)據(jù)倉庫廠商的發(fā)展等。
我看到了對大數(shù)據(jù)幾個不同的定義,請問Forrester是如何理解時下這一流行概念的?
James Kobielus:大數(shù)據(jù)事實上是引用極限可擴展分析的概念,“極限可擴展分析”這個詞在我看來是人們所說大數(shù)據(jù)的核心。在某種程度上,是可以用三個V來概括的:Volume,數(shù)據(jù)量,可以使TB可以是PB甚至更大;Velocity,數(shù)據(jù)流動速度,實時的獲取、轉(zhuǎn)換、查詢與訪問數(shù)據(jù);Variety,數(shù)據(jù)的種類,包括各種結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及半結(jié)構(gòu)化數(shù)據(jù)。在分析方面,它是指所有能夠挖掘并獲取意義的數(shù)據(jù)集。
企業(yè)對數(shù)據(jù)倉庫概念應(yīng)如何理解,才能夠搞清大數(shù)據(jù)的意義?
Kobielus:我認為數(shù)據(jù)倉庫能夠通過三種方式來幫助企業(yè)處理好數(shù)據(jù)問題:第一、在一個企業(yè)數(shù)據(jù)倉庫中,你按照主題領(lǐng)域來劃分組織你的數(shù)據(jù),而這些主題領(lǐng)域往往是比較穩(wěn)定的,很長一段時間內(nèi)都不會有任何改變,比如數(shù)據(jù)倉庫架構(gòu)中的OLAP cube,無論是物理上實現(xiàn)還是邏輯上的劃分。換句話說,你的客戶數(shù)據(jù)在一個分區(qū)里,財務(wù)數(shù)據(jù)在另一個,HR數(shù)據(jù)在第三個,以此類推。這樣做的好處就是有利于你根據(jù)數(shù)據(jù)的關(guān)聯(lián)性來匹配下游的應(yīng)用和用戶。這就是數(shù)據(jù)倉庫數(shù)據(jù)庫管理的核心所在,也是通過數(shù)據(jù)倉庫來處理大數(shù)據(jù)的最重要的方式。
那么第二種方式是什么?
Kobielus:第二種方式是數(shù)據(jù)庫內(nèi)分析的概念以及利用數(shù)據(jù)倉庫執(zhí)行數(shù)據(jù)剖析、數(shù)據(jù)清洗以及數(shù)據(jù)挖掘或者回歸分析。換句話說,就是做全套的數(shù)據(jù)挖掘,但是是在數(shù)據(jù)倉庫內(nèi)部執(zhí)行。這能夠幫助你處理好數(shù)據(jù),因為你使用數(shù)據(jù)挖掘或者回歸分析來從根本上了解數(shù)據(jù)集模式。然后使用數(shù)據(jù)庫內(nèi)挖掘(in-database data mining)來填充下游的分析數(shù)據(jù)集市,數(shù)據(jù)挖掘和統(tǒng)計模型專業(yè)人士可以利用它將復(fù)雜的模式實現(xiàn)可視化。舉例來說,他們使用那些模式來辨別潛在的大客戶,這樣可以有限將他們設(shè)定為銷售的目標。使用數(shù)據(jù)庫內(nèi)分析以及像MapReduce這樣的技術(shù),可以在一個高并發(fā)高擴展的數(shù)據(jù)庫架構(gòu)內(nèi)將數(shù)據(jù)挖掘自動化。
數(shù)據(jù)庫內(nèi)分析目前的應(yīng)用狀況如何?是不是每個企業(yè)都會用到它?
Kobielus:雖然不是所有人都會用到數(shù)據(jù)庫內(nèi)分析技術(shù),但是我們可以看到越來越多的企業(yè)已經(jīng)對它產(chǎn)生了濃厚的興趣。如果你的數(shù)據(jù)挖掘規(guī)模很大,數(shù)據(jù)庫內(nèi)分析已經(jīng)被視為是最佳實踐。眾所周知,目前大量實際生產(chǎn)中的數(shù)據(jù)倉庫都是面向操作型商業(yè)智能的,它們更多的是在生產(chǎn)報表、執(zhí)行即席查詢(ad hoc query)等,很少進行數(shù)據(jù)挖掘。但隨著數(shù)據(jù)量的增長,數(shù)據(jù)挖掘的必要性也就凸現(xiàn)出來,而數(shù)據(jù)庫內(nèi)分析的價值也將體現(xiàn)。利用這一技術(shù)的目標就是加速并擴展你的數(shù)據(jù)挖掘項目,同時根據(jù)一組通用的參考數(shù)據(jù)使所有的挖掘在數(shù)據(jù)倉庫中保持一致。
第三種最佳實踐是什么?
Kobielus:第三就是將數(shù)據(jù)倉庫作為數(shù)據(jù)治理的核心,主數(shù)據(jù)可以合理地在數(shù)據(jù)倉庫中進行維護。當你的數(shù)據(jù)倉庫作為數(shù)據(jù)治理與數(shù)據(jù)清洗的核心時,它能夠幫助你搞清楚所有的信息。在整個企業(yè)架構(gòu)中,也許會有成百上千個應(yīng)用在向數(shù)據(jù)倉庫中添加數(shù)據(jù)。數(shù)據(jù)就像洪水一般實時地流動,數(shù)據(jù)倉庫就是其中的樞紐,確保大數(shù)據(jù)集可靠恰當?shù)赜迷谙掠蔚南M當中。
在大數(shù)據(jù)蔓延的今天,傳統(tǒng)的數(shù)據(jù)倉庫廠商都為客戶做了哪些努力?
Kobielus:Teradata、Oracle-Exadata、IBM-Netezza、HP-Vertica等等都在做大數(shù)據(jù)。絕大一部分數(shù)據(jù)倉庫廠商能夠利用網(wǎng)格或者云架構(gòu)將他們的產(chǎn)品擴展到PB級別,而且也有絕大一部分能夠完成數(shù)據(jù)庫內(nèi)分析,即在大規(guī)模并行數(shù)據(jù)倉庫網(wǎng)格或者云環(huán)境中實現(xiàn)。他們還可以在企業(yè)數(shù)據(jù)倉庫之內(nèi)來支持數(shù)據(jù)轉(zhuǎn)化和數(shù)據(jù)清洗功能。
從現(xiàn)在大多數(shù)的媒體報道來看,處理大數(shù)據(jù)挑戰(zhàn),Hadoop似乎是最好的辦法,您怎么認為?
Kobielus:如果你想要處理好大數(shù)據(jù),你需要企業(yè)數(shù)據(jù)倉庫和Hadoop的組合來完成。我不同意人們把Hadoop看作是處理大數(shù)據(jù)問題唯一的救命稻草。其實現(xiàn)在的企業(yè)數(shù)據(jù)倉庫基本上已經(jīng)能夠做到Hadoop可以實現(xiàn)的任何功能。Hadoop同傳統(tǒng)的企業(yè)數(shù)據(jù)倉庫系統(tǒng)相比,優(yōu)勢就是開源,它是免費的,但是需要提醒企業(yè)用戶不要忽視開源Hadoop的許多無形維護費用?梢哉fHadoop是未來五到十年內(nèi)下一代企業(yè)數(shù)據(jù)倉庫發(fā)展的最大動力。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標題:Forrester分析師解讀Hadoop與數(shù)據(jù)倉庫概念
本文網(wǎng)址:http://www.ezxoed.cn/html/solutions/1401939115.html