“大數(shù)據(jù)不是炒作,也不是泡沫。Hadoop在未來(lái)將繼續(xù)追隨谷歌的腳步。”Hadoop的創(chuàng)造者兼Apache Hadoop項(xiàng)目創(chuàng)始人Doug Cutting近日表示。
作為一個(gè)批處理計(jì)算引擎,Apache Hadoop是大數(shù)據(jù)核心的開(kāi)源軟件框架。有一種說(shuō)法是,Hadoop并不適用于真正實(shí)時(shí)數(shù)據(jù)可見(jiàn)性所需要的在線(xiàn)互動(dòng)數(shù)據(jù)處理。事實(shí)是這樣的嗎?Hadoop的創(chuàng)造者兼Apache Hadoop項(xiàng)目創(chuàng)始人(現(xiàn)任Cloudera公司首席架構(gòu)師)Doug Cutting說(shuō):“相信Hadoop擁有一個(gè)超越批處理的未來(lái)!
“批處理有其用武之地。例如,你需要移動(dòng)大量數(shù)據(jù)并分析所有數(shù)據(jù)的時(shí)候。但我仍認(rèn)為,人們真正想要的是批處理和在線(xiàn)計(jì)算的結(jié)合體。Hadoop將會(huì)成為企業(yè)未來(lái)主流數(shù)據(jù)處理系統(tǒng)的內(nèi)核! Cutting說(shuō)。
Hadoop行至何處?
在剛剛結(jié)束的Strata Conference+Hadoop World會(huì)議上,Cutting解釋了Hadoop堆棧的核心思想,以及其未來(lái)的發(fā)展方向!癏adoop被看作是一個(gè)批處理計(jì)算引擎,事實(shí)上,這是我們開(kāi)始的地方(結(jié)合MapReduce)。MapReduce是一個(gè)很棒的工具,目前市場(chǎng)上有很多關(guān)于如何在MapReduce上部署各種算法的書(shū)籍!盋utting說(shuō)。
MapReduce是一個(gè)編程模型,由谷歌公司設(shè)計(jì),用于使用分布式計(jì)算批量并行處理海量數(shù)據(jù)。MapReduce得到一個(gè)輸入,然后將其分成很多更小的子問(wèn)題,這些問(wèn)題被分配到不同節(jié)點(diǎn)來(lái)并行處理。然后,它們重新組合子問(wèn)題的答案以形成輸出。
“這是非常有效的,”Cutting表示,“它允許你把計(jì)算移向數(shù)據(jù)。這樣一來(lái),當(dāng)你處理數(shù)據(jù)時(shí)就不需要到處復(fù)制數(shù)據(jù),并且它還形成了一個(gè)共享平臺(tái)。構(gòu)建分布式系統(tǒng)是一個(gè)復(fù)雜的過(guò)程,所以我們不希望反反復(fù)復(fù)重新部署它。MapReduce被證明是一個(gè)堅(jiān)實(shí)的基礎(chǔ),依托MapReduce開(kāi)發(fā)出了很多工具,例如 Pig和Hive!
Hadoop關(guān)鍵特性
為了證明Hadoop大數(shù)據(jù)平臺(tái)的通用性,Cutting描述了他所認(rèn)為的Hadoop的兩個(gè)核心主題。首先,Hadoop平臺(tái)具有很好的可擴(kuò)展性,不僅適用于存儲(chǔ)在內(nèi)存中的小數(shù)據(jù)集,還能夠擴(kuò)展到處理龐大的數(shù)據(jù)集。
“評(píng)估可擴(kuò)展性的一個(gè)關(guān)鍵因素是經(jīng)濟(jì)承受能力。我們?cè)谕ㄓ糜布脚_(tái)上運(yùn)行是因?yàn)樗试S你進(jìn)一步地?cái)U(kuò)展。如果你可以購(gòu)買(mǎi)10倍的存儲(chǔ)量,那么就可以存儲(chǔ)10倍的數(shù)據(jù)量。所以,經(jīng)濟(jì)承受能力是關(guān)鍵,這也是我們使用通用硬件的原因,因?yàn)樗亲罱?jīng)濟(jì)實(shí)惠的平臺(tái)。”Cutting說(shuō)。
Hadoop另一個(gè)關(guān)鍵特性在于開(kāi)源。Cutting指出,開(kāi)源軟件是非常實(shí)惠的。開(kāi)發(fā)者可以向供應(yīng)商付費(fèi),但是為了他們所提供的價(jià)值而付費(fèi)。開(kāi)發(fā)者不需要年復(fù)一年地付費(fèi),隨著時(shí)間的推移,供應(yīng)商需要通過(guò)向你提供價(jià)值來(lái)贏得開(kāi)發(fā)者的信任和信心。此外,對(duì)于Hadoop而言,用戶(hù)可以以原始的形態(tài)保存數(shù)據(jù),然后,當(dāng)你使用數(shù)據(jù)時(shí),再使用不同的模式。
大數(shù)據(jù)領(lǐng)域另一種流行的做法是,在通常情況下,與更聰明的算法相比,分析更多的數(shù)據(jù)能夠幫助你更好地了解你的問(wèn)題。也就是說(shuō),你應(yīng)該花更多的時(shí)間來(lái)收集數(shù)據(jù),而不是調(diào)整較小數(shù)據(jù)集所采用的算法。直觀地說(shuō),這很像是具有更高分辨率的圖像,如果你試圖分析圖片,你應(yīng)該選擇放大高分辨率圖片,而不是低分辨率圖像。
Cutting還指出,批處理并不算是Hadoop的典型特性。例如,仿效谷歌BigTable的HBase是Hadoop堆棧的一部分,它已經(jīng)成為非常成功的開(kāi)源非關(guān)系型分布式數(shù)據(jù)庫(kù)。HBase是一個(gè)在線(xiàn)計(jì)算系統(tǒng),而不是批處理計(jì)算系統(tǒng)。
“HBase 也支持批處理,它與HDFS以及Hadoop堆棧的其他組件共享存儲(chǔ)。我認(rèn)為這也是HBase如此受歡迎的原因之一。HBase被整合到系統(tǒng)的其他部分中,而不是成為一個(gè)獨(dú)立的系統(tǒng)。它可以與堆棧的其他組件進(jìn)行共享,可以對(duì)可用性、安全性和災(zāi)難恢復(fù)等特性進(jìn)行共享!盋utting解釋說(shuō)。
技術(shù)未來(lái)展望
如果Hadoop不僅僅是批處理計(jì)算平臺(tái),而是成為一個(gè)更為通用的數(shù)據(jù)處理平臺(tái),它將會(huì)變成什么樣,它到底將走向何方?Cutting表示,我們當(dāng)然希望擁有開(kāi)源的大數(shù)據(jù)平臺(tái),并且能夠在通用硬件上運(yùn)行。同時(shí),我們還希望它具有線(xiàn)性擴(kuò)展能力,也就是說(shuō),如果你需要存儲(chǔ)10倍數(shù)據(jù),只需要購(gòu)買(mǎi)10倍的硬件就可以了。無(wú)論你的數(shù)據(jù)集變得有多大,都可以采用這樣的方式進(jìn)行擴(kuò)展。
性能方面同樣是如此。對(duì)于批處理性能,如果你需要更大的批處理吞吐量或更小的延遲,你只需要增加硬件數(shù)量即可。而對(duì)于交互式查詢(xún),也是同樣。增加硬件就能為你帶來(lái)性能和數(shù)據(jù)處理量級(jí)方面的線(xiàn)性擴(kuò)展。Cutting還表示:“人們通常會(huì)認(rèn)為,采用大數(shù)據(jù)平臺(tái)后,需要放棄某些東西。我不這樣認(rèn)為的。從長(zhǎng)期來(lái)看,我們不需要放棄任何的功能!
對(duì)于Hadoop未來(lái)的技術(shù)發(fā)展方向,Cutting表示谷歌已經(jīng)給出了相關(guān)路線(xiàn)圖!肮雀璋l(fā)布GFS和MapReduce的論文后,我們很快地將其復(fù)制到Hadoop項(xiàng)目中。這些年以來(lái),谷歌在很多方面激勵(lì)著Hadoop開(kāi)源堆棧。谷歌的Sawzall系統(tǒng)催生了Pig和Hive,而B(niǎo)igTable則直接啟發(fā)了HBase。我很激動(dòng)地看到,今年谷歌發(fā)表了名為Spanner的論文,其中介紹了在分布式數(shù)據(jù)庫(kù)系統(tǒng)實(shí)現(xiàn)傳輸?shù)臋C(jī)制。可能很多人都會(huì)認(rèn)為這不會(huì)很快成為現(xiàn)實(shí),但卻為我們指明了前進(jìn)的方向!盋utting說(shuō)。
Cutting指出,作為一項(xiàng)復(fù)雜技術(shù),Spanner并不會(huì)很快成為Hadoop的一部分,但它確實(shí)明確了技術(shù)發(fā)展的方向。他同時(shí)還提到了Impala(Cloudera最新發(fā)布的數(shù)據(jù)庫(kù)引擎),它可以使用SQL查詢(xún)存儲(chǔ)在HBase中的數(shù)據(jù)集。 Impala將為用戶(hù)帶來(lái)交互式在線(xiàn)查詢(xún)的新體驗(yàn),它同樣追隨了谷歌的一些研究成果,已經(jīng)發(fā)布了一段時(shí)間。Cutting認(rèn)為,Impala將發(fā)展成為一個(gè)通用的技術(shù)平臺(tái)。
“我們已經(jīng)知曉前進(jìn)方向,并且知道如何去實(shí)現(xiàn)目標(biāo)。所以,我鼓勵(lì)大家現(xiàn)在就開(kāi)始使用Hadoop,因?yàn)樵谖磥?lái)你將收獲更多!盋utting說(shuō)。
“大數(shù)據(jù)不是炒作,也不是泡沫。Hadoop在未來(lái)將繼續(xù)追隨谷歌的腳步!盚adoop的創(chuàng)造者兼Apache Hadoop項(xiàng)目創(chuàng)始人Doug Cutting近日表示。
作為一個(gè)批處理計(jì)算引擎,Apache Hadoop是大數(shù)據(jù)核心的開(kāi)源軟件框架。有一種說(shuō)法是,Hadoop并不適用于真正實(shí)時(shí)數(shù)據(jù)可見(jiàn)性所需要的在線(xiàn)互動(dòng)數(shù)據(jù)處理。事實(shí)是這樣的嗎?Hadoop的創(chuàng)造者兼Apache Hadoop項(xiàng)目創(chuàng)始人(現(xiàn)任Cloudera公司首席架構(gòu)師)Doug Cutting說(shuō):“相信Hadoop擁有一個(gè)超越批處理的未來(lái)!
“批處理有其用武之地。例如,你需要移動(dòng)大量數(shù)據(jù)并分析所有數(shù)據(jù)的時(shí)候。但我仍認(rèn)為,人們真正想要的是批處理和在線(xiàn)計(jì)算的結(jié)合體。Hadoop將會(huì)成為企業(yè)未來(lái)主流數(shù)據(jù)處理系統(tǒng)的內(nèi)核! Cutting說(shuō)。
Hadoop行至何處?
在剛剛結(jié)束的Strata Conference+Hadoop World會(huì)議上,Cutting解釋了Hadoop堆棧的核心思想,以及其未來(lái)的發(fā)展方向!癏adoop被看作是一個(gè)批處理計(jì)算引擎,事實(shí)上,這是我們開(kāi)始的地方(結(jié)合MapReduce)。MapReduce是一個(gè)很棒的工具,目前市場(chǎng)上有很多關(guān)于如何在MapReduce上部署各種算法的書(shū)籍!盋utting說(shuō)。
MapReduce是一個(gè)編程模型,由谷歌公司設(shè)計(jì),用于使用分布式計(jì)算批量并行處理海量數(shù)據(jù)。MapReduce得到一個(gè)輸入,然后將其分成很多更小的子問(wèn)題,這些問(wèn)題被分配到不同節(jié)點(diǎn)來(lái)并行處理。然后,它們重新組合子問(wèn)題的答案以形成輸出。
“這是非常有效的,”Cutting表示,“它允許你把計(jì)算移向數(shù)據(jù)。這樣一來(lái),當(dāng)你處理數(shù)據(jù)時(shí)就不需要到處復(fù)制數(shù)據(jù),并且它還形成了一個(gè)共享平臺(tái)。構(gòu)建分布式系統(tǒng)是一個(gè)復(fù)雜的過(guò)程,所以我們不希望反反復(fù)復(fù)重新部署它。MapReduce被證明是一個(gè)堅(jiān)實(shí)的基礎(chǔ),依托MapReduce開(kāi)發(fā)出了很多工具,例如 Pig和Hive。”
Hadoop關(guān)鍵特性
為了證明Hadoop大數(shù)據(jù)平臺(tái)的通用性,Cutting描述了他所認(rèn)為的Hadoop的兩個(gè)核心主題。首先,Hadoop平臺(tái)具有很好的可擴(kuò)展性,不僅適用于存儲(chǔ)在內(nèi)存中的小數(shù)據(jù)集,還能夠擴(kuò)展到處理龐大的數(shù)據(jù)集。
“評(píng)估可擴(kuò)展性的一個(gè)關(guān)鍵因素是經(jīng)濟(jì)承受能力。我們?cè)谕ㄓ糜布脚_(tái)上運(yùn)行是因?yàn)樗试S你進(jìn)一步地?cái)U(kuò)展。如果你可以購(gòu)買(mǎi)10倍的存儲(chǔ)量,那么就可以存儲(chǔ)10倍的數(shù)據(jù)量。所以,經(jīng)濟(jì)承受能力是關(guān)鍵,這也是我們使用通用硬件的原因,因?yàn)樗亲罱?jīng)濟(jì)實(shí)惠的平臺(tái)!盋utting說(shuō)。
Hadoop另一個(gè)關(guān)鍵特性在于開(kāi)源。Cutting指出,開(kāi)源軟件是非常實(shí)惠的。開(kāi)發(fā)者可以向供應(yīng)商付費(fèi),但是為了他們所提供的價(jià)值而付費(fèi)。開(kāi)發(fā)者不需要年復(fù)一年地付費(fèi),隨著時(shí)間的推移,供應(yīng)商需要通過(guò)向你提供價(jià)值來(lái)贏得開(kāi)發(fā)者的信任和信心。此外,對(duì)于Hadoop而言,用戶(hù)可以以原始的形態(tài)保存數(shù)據(jù),然后,當(dāng)你使用數(shù)據(jù)時(shí),再使用不同的模式。
大數(shù)據(jù)領(lǐng)域另一種流行的做法是,在通常情況下,與更聰明的算法相比,分析更多的數(shù)據(jù)能夠幫助你更好地了解你的問(wèn)題。也就是說(shuō),你應(yīng)該花更多的時(shí)間來(lái)收集數(shù)據(jù),而不是調(diào)整較小數(shù)據(jù)集所采用的算法。直觀地說(shuō),這很像是具有更高分辨率的圖像,如果你試圖分析圖片,你應(yīng)該選擇放大高分辨率圖片,而不是低分辨率圖像。
Cutting還指出,批處理并不算是Hadoop的典型特性。例如,仿效谷歌BigTable的HBase是Hadoop堆棧的一部分,它已經(jīng)成為非常成功的開(kāi)源非關(guān)系型分布式數(shù)據(jù)庫(kù)。HBase是一個(gè)在線(xiàn)計(jì)算系統(tǒng),而不是批處理計(jì)算系統(tǒng)。
“HBase 也支持批處理,它與HDFS以及Hadoop堆棧的其他組件共享存儲(chǔ)。我認(rèn)為這也是HBase如此受歡迎的原因之一。HBase被整合到系統(tǒng)的其他部分中,而不是成為一個(gè)獨(dú)立的系統(tǒng)。它可以與堆棧的其他組件進(jìn)行共享,可以對(duì)可用性、安全性和災(zāi)難恢復(fù)等特性進(jìn)行共享!盋utting解釋說(shuō)。
技術(shù)未來(lái)展望
如果Hadoop不僅僅是批處理計(jì)算平臺(tái),而是成為一個(gè)更為通用的數(shù)據(jù)處理平臺(tái),它將會(huì)變成什么樣,它到底將走向何方?Cutting表示,我們當(dāng)然希望擁有開(kāi)源的大數(shù)據(jù)平臺(tái),并且能夠在通用硬件上運(yùn)行。同時(shí),我們還希望它具有線(xiàn)性擴(kuò)展能力,也就是說(shuō),如果你需要存儲(chǔ)10倍數(shù)據(jù),只需要購(gòu)買(mǎi)10倍的硬件就可以了。無(wú)論你的數(shù)據(jù)集變得有多大,都可以采用這樣的方式進(jìn)行擴(kuò)展。
性能方面同樣是如此。對(duì)于批處理性能,如果你需要更大的批處理吞吐量或更小的延遲,你只需要增加硬件數(shù)量即可。而對(duì)于交互式查詢(xún),也是同樣。增加硬件就能為你帶來(lái)性能和數(shù)據(jù)處理量級(jí)方面的線(xiàn)性擴(kuò)展。Cutting還表示:“人們通常會(huì)認(rèn)為,采用大數(shù)據(jù)平臺(tái)后,需要放棄某些東西。我不這樣認(rèn)為的。從長(zhǎng)期來(lái)看,我們不需要放棄任何的功能!
對(duì)于Hadoop未來(lái)的技術(shù)發(fā)展方向,Cutting表示谷歌已經(jīng)給出了相關(guān)路線(xiàn)圖。“谷歌發(fā)布GFS和MapReduce的論文后,我們很快地將其復(fù)制到Hadoop項(xiàng)目中。這些年以來(lái),谷歌在很多方面激勵(lì)著Hadoop開(kāi)源堆棧。谷歌的Sawzall系統(tǒng)催生了Pig和Hive,而B(niǎo)igTable則直接啟發(fā)了HBase。我很激動(dòng)地看到,今年谷歌發(fā)表了名為Spanner的論文,其中介紹了在分布式數(shù)據(jù)庫(kù)系統(tǒng)實(shí)現(xiàn)傳輸?shù)臋C(jī)制。可能很多人都會(huì)認(rèn)為這不會(huì)很快成為現(xiàn)實(shí),但卻為我們指明了前進(jìn)的方向!盋utting說(shuō)。
Cutting指出,作為一項(xiàng)復(fù)雜技術(shù),Spanner并不會(huì)很快成為Hadoop的一部分,但它確實(shí)明確了技術(shù)發(fā)展的方向。他同時(shí)還提到了Impala(Cloudera最新發(fā)布的數(shù)據(jù)庫(kù)引擎),它可以使用SQL查詢(xún)存儲(chǔ)在HBase中的數(shù)據(jù)集。 Impala將為用戶(hù)帶來(lái)交互式在線(xiàn)查詢(xún)的新體驗(yàn),它同樣追隨了谷歌的一些研究成果,已經(jīng)發(fā)布了一段時(shí)間。Cutting認(rèn)為,Impala將發(fā)展成為一個(gè)通用的技術(shù)平臺(tái)。
“我們已經(jīng)知曉前進(jìn)方向,并且知道如何去實(shí)現(xiàn)目標(biāo)。所以,我鼓勵(lì)大家現(xiàn)在就開(kāi)始使用Hadoop,因?yàn)樵谖磥?lái)你將收獲更多!盋utting說(shuō)。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴(lài)品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:Hadoop之父勾勒大數(shù)據(jù)平臺(tái)未來(lái)
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/1083975573.html