更加強(qiáng)大且富有表現(xiàn)力的分析工具
在過去的一年中,圍繞著NoSQL和Hadoop,基本的存儲與數(shù)據(jù)處理引擎方面的改進(jìn)工作得到了加強(qiáng)并且日趨工程化。毫無疑問,這種態(tài)勢將會持續(xù)下去,因?yàn)槲覀兛吹搅薍adoop世界中有越來越多形態(tài)各異的產(chǎn)品融入到了各種發(fā)布包、設(shè)備和按需的云服務(wù)當(dāng)中。我衷心希望在不遠(yuǎn)的將來Hadoop能夠成為必要的基礎(chǔ)設(shè)施。
現(xiàn)在,已經(jīng)出現(xiàn)了一些面向程序員與數(shù)據(jù)科學(xué)家的工具(例如Karmasphere和Datameer),此外,還有面向已經(jīng)建立起來的分析工具的Hadoop連接器(例如Tableau和R)。但還有一種方式可以讓大數(shù)據(jù)變得更為強(qiáng)大,那就是降低實(shí)驗(yàn)的成本。
下面兩種方式可以使大數(shù)據(jù)變得更為強(qiáng)大。
更好的編程語言支持。因?yàn)槲覀儗?shù)據(jù)而非業(yè)務(wù)邏輯作為程序中的主要實(shí)體,所以必須要創(chuàng)建或再去探索一些方言,使我們能夠?qū)⒕Ψ旁跀?shù)據(jù)而非底層Hadoop設(shè)施所透露出來的抽象上面。換句話說,編寫更簡短的程序,能夠更清晰地表達(dá)出我們對數(shù)據(jù)所做的處理。這些抽象將有助于為非程序員創(chuàng)建更好的工具。
需要提供更好的交互支持。如果說Hadoop有缺點(diǎn),那么其缺點(diǎn)也在于它所孕育的批量化處理的計(jì)算本質(zhì)。數(shù)據(jù)科學(xué)的敏捷本質(zhì)決定了它鐘愛于能夠提供更好交互性的工具。
流線化的數(shù)據(jù)處理
Hadoop批量化的處理對于很多場合都足夠用了,特別是數(shù)據(jù)報(bào)告的頻率不需要達(dá)到分鐘級別的場合。然而,批量化處理并非總能滿足我們的要求,特別是對于移動和Web客戶端等在線需求,或是財(cái)務(wù)和廣告等需要實(shí)時(shí)變化的市場。
在未來幾年中,用于處理流線化或接近實(shí)時(shí)的分析與處理的可伸縮框架和平臺將會得到采用。Hadoop將會支持大規(guī)模的Web應(yīng)用,這些平臺將會由大規(guī)模位置感知的移動、社交和傳感器應(yīng)用所推動。
對于某些應(yīng)用來說,已經(jīng)沒有足夠的空間來存儲業(yè)務(wù)接收到的所有數(shù)據(jù):在某一時(shí)刻,你需要扔掉一些東西。憑借流線化的計(jì)算能力,你可以對數(shù)據(jù)進(jìn)行分析并決定扔掉哪些數(shù)據(jù)而不必查看map/reduce的“存儲—計(jì)算”循環(huán)。在實(shí)時(shí)框架領(lǐng)域中,新涌現(xiàn)的競爭者有來自Twitter的Storm和Yahoo!的S4。
數(shù)據(jù)市場的興起
當(dāng)與其他數(shù)據(jù)集混合到一起時(shí),你自己的數(shù)據(jù)會變得更有說服力。比如說,將天氣狀況添加到客戶的數(shù)據(jù)中,檢查是否有與客戶購買模式相關(guān)的天氣模式。獲取這些數(shù)據(jù)集是個(gè)讓人頭疼的問題,特別是在IT部門之外做這件事,并且要求一定的精度時(shí)更是如此。數(shù)據(jù)市場的價(jià)值在于為這種數(shù)據(jù)提供了一個(gè)目錄,以及流線化、標(biāo)準(zhǔn)化的交付方法。微軟將其Azure市場集成到分析工具中的做法預(yù)示了我們今后能更加方便地訪問數(shù)據(jù)了。
數(shù)據(jù)科學(xué)工作流與工具的開發(fā)
隨著數(shù)據(jù)科學(xué)團(tuán)隊(duì)不斷為各個(gè)公司所認(rèn)可和接受,其角色和流程將會變得更加正規(guī)化。成功的數(shù)據(jù)科學(xué)團(tuán)隊(duì)的驅(qū)動力之一就是其與公司經(jīng)營活動的集成程度,這與成為邊緣的分析團(tuán)隊(duì)截然相反。
軟件開發(fā)者已經(jīng)擁有了大量富于邏輯與社交性質(zhì)的基礎(chǔ)設(shè)施,這包括wiki與源代碼控制,以及用于將其流程和需求公開給企業(yè)主的各種工具。集成的數(shù)據(jù)科學(xué)團(tuán)隊(duì)需要自己的一套工具才能高效協(xié)作。其中之一就是EMC Greenplum的Chorus,它提供了針對數(shù)據(jù)科學(xué)的一個(gè)社交軟件平臺。使用這些工具有助于組織中數(shù)據(jù)科學(xué)處理的不斷涌現(xiàn)。
數(shù)據(jù)科學(xué)團(tuán)隊(duì)將會逐漸開始一些重復(fù)的流程,我們希望這是敏捷的。相比諸如The Guardian和NewYork Times之類的新聞組織的新聞數(shù)據(jù)團(tuán)隊(duì)所做的開創(chuàng)性工作:只要給定一個(gè)不長的時(shí)間表,這些團(tuán)隊(duì)就可以將原生格式的數(shù)據(jù)轉(zhuǎn)換為成品,這需要與記者攜手來完成。
對可視化的理解和需求的提升
可視化在數(shù)據(jù)工作流中能夠?qū)崿F(xiàn)兩個(gè)目的:解釋與探索。雖然業(yè)務(wù)人員可能將可視化看作是最終結(jié)果,但數(shù)據(jù)科學(xué)家還會將可視化作為尋求問題以及探索數(shù)據(jù)集新特性的一種方式。
如果說成為數(shù)據(jù)驅(qū)動的組織需要培養(yǎng)所有員工擁有更好的數(shù)據(jù)感覺的話,那么可視化在將數(shù)據(jù)操縱能力傳遞給那些不會編程或缺乏統(tǒng)計(jì)分析技巧的員工的過程中就扮演著重要角色。
過去的整整一年,業(yè)務(wù)對數(shù)據(jù)科學(xué)家的需求一直都是如此。我不斷地聽到數(shù)據(jù)科學(xué)家說,他們最想要的是:懂得創(chuàng)建可視化的人才。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:2012,大數(shù)據(jù)五大預(yù)測
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/1083932033.html