大數(shù)據(jù)革命正FAApache Hadoop為中心如火如荼的進(jìn)行著。自從開(kāi)源分布式數(shù)據(jù)處理平臺(tái)在5年前發(fā)布時(shí)討論之聲就不絕于耳。但在過(guò)去的18個(gè)月中,Hadoop贏得了客戶的認(rèn)可,并得到眾多商業(yè)化的支持以及眾多數(shù)據(jù)庫(kù)和數(shù)據(jù)集成軟件商的整合。在眾多廠商之中最著名的三個(gè)商業(yè)數(shù)據(jù)供應(yīng)商當(dāng)屬orack、IBM 和Microsoft。
Hadoop會(huì)在未來(lái)成為大數(shù)據(jù)的重大技術(shù)嗎?
Hadoop是一個(gè)基于Java的分布式密集數(shù)據(jù)處理和數(shù)據(jù)分析的軟件框架。Hadoop在很大程度上是受Google在2004年白皮書(shū)中闡述的MapReduce的技術(shù)啟發(fā)。MapReduce工作原理是將任務(wù)分解為成百上千塊的小任務(wù),然后發(fā)送到計(jì)算機(jī)集群中。每臺(tái)計(jì)算機(jī)再傳送會(huì)自己那部分信息,MapReduce則迅速整合這些反饋并形成答案。
Hadoop的擴(kuò)展性非常優(yōu)秀,Hadoop可處理分布在數(shù)以千計(jì)的低成本x86服務(wù)器計(jì)算節(jié)點(diǎn)中的大型數(shù)據(jù)。同時(shí)由于眾所周知的摩爾定律,內(nèi)存和磁盤(pán)的容量也在不斷增長(zhǎng)。Hadoop對(duì)硬件的支持也在加強(qiáng),現(xiàn)在每個(gè)節(jié)點(diǎn)可部署16核的處理器,12TB甚至24TB磁盤(pán)。Cloudera透露其推出的產(chǎn)品每個(gè)節(jié)點(diǎn)的成本大約4000美元。這個(gè)價(jià)格對(duì)于關(guān)系數(shù)據(jù)庫(kù)部署每TB 10000至12000美元來(lái)說(shuō)極具競(jìng)爭(zhēng)優(yōu)勢(shì)。
這種高容量低成本的組合引人注目,但Hadoop最吸引人的是其處理混合數(shù)據(jù)類(lèi)型的能力。
Hadoop可以管理結(jié)構(gòu)化數(shù)據(jù),以及諸如服務(wù)器日志文件和Web點(diǎn)擊流的數(shù)據(jù)。同時(shí)還可以管理以非結(jié)構(gòu)化文本為中心的數(shù)據(jù),如Facebook和Twitter。這種處理多類(lèi)型數(shù)據(jù)能力非常重要。它催生了NoSQL平臺(tái)和產(chǎn)品。而傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)如Oracle, IBM DB2, Microsoft SQLServer和MySQL則都不能處理混合數(shù)據(jù)類(lèi)型和非結(jié)構(gòu)化數(shù)據(jù)。由于事務(wù)處理靈活性的需求,Hadoop獲得大多數(shù)數(shù)據(jù)分析廠商的關(guān)注和支持。
Hadoop已被廣泛應(yīng)用
現(xiàn)今,Hadoop已被認(rèn)為是非結(jié)構(gòu)化數(shù)據(jù)的專用技術(shù)。低成本、高擴(kuò)展性和靈活性等優(yōu)勢(shì)已成為處理大規(guī)模點(diǎn)擊流量分析和廣告定位等網(wǎng)絡(luò)巨頭(如AOL和comScore)的首選。
AOL三年多時(shí)間一直使用Hadoop。AOL的研發(fā)團(tuán)隊(duì)在加利福尼亞州的Mountain View部署了300節(jié)點(diǎn)的系統(tǒng),該系統(tǒng)可以存儲(chǔ)每天數(shù)十億事件和超過(guò)500TB的點(diǎn)擊流數(shù)據(jù)。點(diǎn)擊所帶來(lái)流數(shù)據(jù)是高度結(jié)構(gòu)化的,但數(shù)據(jù)量是非常龐大和多樣的。所以幾乎不可能處理所有的提取、轉(zhuǎn)換和負(fù)載工作。AOL為了解決以上問(wèn)題決定使用HadoopMapReduce處理分布在數(shù)百個(gè)計(jì)算節(jié)點(diǎn)的數(shù)據(jù)過(guò)濾和關(guān)聯(lián)任務(wù)。由于Hadoop為業(yè)務(wù)帶來(lái)的優(yōu)勢(shì),AOL的Hadoop研發(fā)團(tuán)隊(duì)在今年四月在其總部部署了700節(jié)點(diǎn)的系統(tǒng)。
Hadoop適用于所有類(lèi)型數(shù)據(jù)的特性注定將使Hadoop在更廣泛的領(lǐng)域使用。例如提供托管服務(wù)和中小型企業(yè)應(yīng)用服務(wù)提供商SunGrad。他們將計(jì)劃推出基于云的托管服務(wù),旨在幫助金融服務(wù)公司處理他們基于Hadoop MapReduce的數(shù)據(jù)處理。
商用軟件廠商Tidemark最近也推出一款SaaS軟件,這種基于云的性能管理應(yīng)用使用MapReduce將混合數(shù)據(jù)源轉(zhuǎn)化為產(chǎn)品或金融規(guī)劃方案。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:Hadoop掀起大數(shù)據(jù)革命:三巨頭齊發(fā)力
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/1083936031.html