許多新的分析應(yīng)用需要更強(qiáng)大的算法,及比Hadoop或關(guān)系數(shù)據(jù)庫更強(qiáng)大的計算方法。數(shù)據(jù)科學(xué)家越來越需要以新穎的方式來利用其所在企業(yè)所有的數(shù)據(jù)源,并使用相關(guān)的分析工具和基礎(chǔ)架構(gòu)來完成某些任務(wù)了。
從我們針對于相關(guān)數(shù)據(jù)科學(xué)家們的調(diào)研中,我們發(fā)現(xiàn)企業(yè)正日益從簡單的SQL聚合和匯總統(tǒng)計過度到下一代的更為復(fù)雜的分析。這包括機(jī)器學(xué)習(xí),聚類分析,相關(guān)分析和主成分分析。
Hadoop缺失標(biāo)記
Hadoop非常適合于簡單的并行的問題,但其對于大型復(fù)雜的分析卻是不夠的。越來越多的復(fù)雜的分析案例已然充分證明,復(fù)雜分析中僅僅采用Hadoop是行不通的。這些例子包括基于數(shù)以百萬計的客戶和產(chǎn)品的推薦引擎,需要運(yùn)行大量的基因序列數(shù)據(jù),研究數(shù)據(jù)之間的相關(guān)性,并運(yùn)用強(qiáng)大的降噪算法在傳感器和圖像數(shù)據(jù)中發(fā)現(xiàn)有用信息的巨陣列。
目前,第一波Hadoop技術(shù)的采用者像谷歌,F(xiàn)acebook,LinkedIn都需要有一個小的開發(fā)者團(tuán)隊來編寫和維護(hù)Hadoop。但是更多的企業(yè)要么不具備采用Hadoop和MapReduce編程所需的資源和內(nèi)部經(jīng)驗;要么就是他們所面對的復(fù)雜的分析案例不能簡單的通過采用Hadoop就能解決。因為Hadoop不支持SQL,也就不可能為數(shù)據(jù)科學(xué)家們加入其他管理和操縱數(shù)據(jù)所需的重要的功能。
解決重大缺陷
Hadoop的供應(yīng)商們也已然認(rèn)識到了這一局限性。他們正在將他們的產(chǎn)品中加入SQL功能,以支持?jǐn)?shù)據(jù)科學(xué)家們所偏愛的在低級別的編程語言如Java中進(jìn)行高級查詢語言,并解決了MapReduce的局限性。
例如,Cloudera就拋棄了MapReduce并提供Impala以在Hadoop分布式文件系統(tǒng)(HDFS)提供SQL支持。其他的供應(yīng)商也紛紛在其Hadoop解決方案中加入SQL支持來解決Hadoop的重大缺陷。雖然這些方法可以更容易的實現(xiàn)編程,但他們也有其局限性,因為其是運(yùn)行在一個文件系統(tǒng)上的,而不是數(shù)據(jù)庫管理系統(tǒng)上。最后,他們不具備某些應(yīng)用程序所需的原子性,一致性,隔離性和持久性(ACID)的能力。他們是緩慢的。
不局限于SQL功能,而是充分利用技能集
除了缺乏支持SQL的功能,Hadoop不能有效地利用數(shù)據(jù)科學(xué)家的技能集。在一個Hadoop環(huán)境,用戶通常使用MapReduce Java作為主要編程語言。但數(shù)據(jù)科學(xué)家往往偏向于更強(qiáng)大和更熟悉的高級語言如R和Python來工作。
這樣,存儲在Hadoop的數(shù)據(jù)傾向于導(dǎo)出到數(shù)據(jù)科學(xué)家的首選的分析環(huán)境,注入時間密集型,低價值的數(shù)據(jù)到分析流程。將數(shù)據(jù)遷移出Hadoop來進(jìn)行分析,匯總和聚集,然后將結(jié)果返回到Hadoop破壞數(shù)據(jù)源,使得科學(xué)家們能夠無縫的進(jìn)行數(shù)據(jù)探索,并分析數(shù)據(jù)在整個頻譜的細(xì)粒度和聚合。
基于Hadoop的戰(zhàn)略反思
許多企業(yè)被吸引到采用Hadoop,因為Hadoop分布式文件系統(tǒng)實現(xiàn)了針對廣泛的數(shù)據(jù)類型的低成本的存儲策略,而無需預(yù)先定義表格模式或確定數(shù)據(jù)最終會被用來做什么。雖然這很方便,但這對于存儲和分析結(jié)構(gòu)化數(shù)據(jù)的龐大數(shù)據(jù)集而言則是非常低效的方式。
從簡單的方法轉(zhuǎn)到復(fù)雜的大數(shù)據(jù)分析提醒我們關(guān)于超越了單一服務(wù)器內(nèi)存限制,適當(dāng)處理稀疏,缺失值和混合采樣頻率的新興規(guī)模分析需求的興起。這些復(fù)雜的分析方法也可以為數(shù)據(jù)科學(xué)家提供無需監(jiān)督和假設(shè)的方法,讓所有數(shù)據(jù)說話。存儲和分析解決方案,充分利用固有的數(shù)據(jù)結(jié)構(gòu),能夠顯著產(chǎn)生比Hadoop更好的性能。
雖然Hadoop是一款非常有用且普遍采用的技術(shù),它不是萬能的。Hadoop和MapReduce的環(huán)境中需要大量的開發(fā)資源,同時無法利用流行的高級語言,如數(shù)據(jù)科學(xué)家所偏愛的R和Python。
對于交互式數(shù)據(jù)探索而言太慢,且不適用于復(fù)雜的分析,Hadoop迫使數(shù)據(jù)科學(xué)家們將數(shù)據(jù)從Hadoop分布式文件系統(tǒng)遷到分析環(huán)境,這無疑是一項耗時且低價值的工作。數(shù)據(jù)科學(xué)家們越來越開始轉(zhuǎn)向采用復(fù)雜分析來幫助他們解決最困難的問題,而企業(yè)也正在重新反思其基于Hadoop的策略。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:為什么數(shù)據(jù)科學(xué)家想要的遠(yuǎn)不止是Hadoop
本文網(wǎng)址:http://www.ezxoed.cn/html/support/11121517237.html