| 當(dāng)前位置：拓步ERP資訊網(wǎng) >>服務(wù)支持 >>ERP技術(shù)支持 >>技術(shù)支持知識(shí)庫(kù)

www.ezxoed.cn拓步ERP|ERP系統(tǒng)|ERP軟件|ERP管理系統(tǒng)軟件|免費(fèi)ERP系統(tǒng)|免費(fèi)ERP軟件|免費(fèi)進(jìn)銷存軟件|免費(fèi)倉(cāng)庫(kù)管理軟件|免費(fèi)下載專業(yè)資訊網(wǎng)-Hadoop的生命周期有多久？

Hadoop的生命周期有多久？

發(fā)布日期：2015-01-25 11:52:27 來(lái)源：www.ezxoed.cn 編輯：拓步ERP資訊網(wǎng) 瀏覽：評(píng)論

摘要：Hadoop技術(shù)已經(jīng)無(wú)處不在。不管是好是壞，Hadoop已經(jīng)成為大數(shù)據(jù)的代名詞。短短幾年間，Hadoop從一種邊緣技術(shù)成為事實(shí)上的標(biāo)準(zhǔn)�？磥�(lái)，不僅現(xiàn)在Hadoop是企業(yè)大數(shù)據(jù)的標(biāo)準(zhǔn)，而且在未來(lái)，它的地位似乎一時(shí)難以動(dòng)搖。 原標(biāo)題：Hadoop的生命周期有多久？ 原作者：發(fā)表時(shí)間：2015/1/23 36大數(shù)據(jù) 來(lái)源：e-works

　　Hadoop技術(shù)已經(jīng)無(wú)處不在。不管是好是壞，Hadoop已經(jīng)成為大數(shù)據(jù) 的代名詞。短短幾年間，Hadoop從一種邊緣技術(shù)成為事實(shí)上的標(biāo)準(zhǔn)�？磥�(lái)，不僅現(xiàn)在Hadoop是企業(yè) 大數(shù)據(jù) 的標(biāo)準(zhǔn)，而且在未來(lái)，它的地位似乎一時(shí)難以動(dòng)搖。

　　谷歌文件系統(tǒng)與MapReduce

　　我們先來(lái)探討一下Hadoop的靈魂——MapReduce。面對(duì)數(shù)據(jù)的爆炸性增長(zhǎng)，谷歌的工程師Jeff Dean和Sanjay Ghemawat架構(gòu)并發(fā)布了兩個(gè)開(kāi)創(chuàng)性的系統(tǒng)：谷歌文件系統(tǒng)（GFS）和谷歌MapReduce（GMR）。前者是一個(gè)出色而實(shí)用的解決方案-使用常規(guī)的硬件擴(kuò)展并管理數(shù)據(jù)，后者同樣輝煌，造就了一個(gè)適用于大規(guī)模并行處理的計(jì)算框架。

　　谷歌MapReduce（GMR）為普通開(kāi)發(fā)者/用戶進(jìn)行大數(shù)據(jù)處理提供了簡(jiǎn)易的方式，并使之快速、具備容錯(cuò)性。谷歌文件系統(tǒng)（GFS）和谷歌MapReduce（GMR）也為谷歌搜索引擎對(duì)網(wǎng)頁(yè)進(jìn)行抓取、分析提供了核心動(dòng)力。

　　再回頭看看開(kāi)源世界中的Hadoop，Apache Hadoop的分布式文件系統(tǒng)（HDFS）和Hadoop MapReduce完全是谷歌文件系統(tǒng)（GFS）和谷歌MapReduce（GMR）的開(kāi)源實(shí)現(xiàn)。Hadoop項(xiàng)目已經(jīng)發(fā)展成為一個(gè)生態(tài)系統(tǒng)，并觸及了大數(shù)據(jù)領(lǐng)域的方方面面。但從根本上，它的核心是MapReduce。

　　Hadoop是否可以趕超谷歌？

　　一個(gè)有趣的現(xiàn)象是，MapReduce在谷歌已不再顯赫。當(dāng)企業(yè)矚目MapReduce的時(shí)候，谷歌好像早已進(jìn)入到了下一個(gè)時(shí)代。事實(shí)上，我們談?wù)摰倪@些技術(shù)早就不是新技術(shù)了，MapReduce也不例外。

　　我希望在后Hadoop時(shí)代下面這些技術(shù)能夠更具競(jìng)爭(zhēng)性。盡管許多Apache社區(qū)的項(xiàng)目和商業(yè)化Hadoop項(xiàng)目都非常活躍，并以來(lái)自HBase、Hive和下一代MapReduce（YARN）的技術(shù)不斷完善著Hadoop體系，我依然認(rèn)為，Hadoop核心（HDFS和Zookeeper）需要脫離MapReduce并以全新的架構(gòu)增強(qiáng)自己的競(jìng)爭(zhēng)力，真正與谷歌技術(shù)一較高下。

　　過(guò)濾不斷增長(zhǎng)的索引，分析不斷變化的數(shù)據(jù)集。 Hadoop的偉大之處在于，它一旦開(kāi)始運(yùn)行，就會(huì)飛速地分析你的數(shù)據(jù)。盡管如此，在每次分析數(shù)據(jù)之前，即添加、更改或刪除數(shù)據(jù)之后，我們都必須將整個(gè)數(shù)據(jù)集進(jìn)行流式處理。這意味著，隨著數(shù)據(jù)集的膨脹，分析時(shí)間也會(huì)隨之增加，且不可預(yù)期。

　　那么，谷歌又是怎么做到搜索結(jié)果越來(lái)越實(shí)時(shí)呈現(xiàn)呢？一個(gè)名為Percolator的增量處理引擎取代了谷歌MapReduce（GMR）。通過(guò)對(duì)新建、更改和已刪除文檔的處理，并使用二級(jí)索引進(jìn)行高效的分類、查詢，谷歌能夠顯著地降低實(shí)現(xiàn)其目標(biāo)的時(shí)間。

　　Percolator的作者寫(xiě)道：“將索引系統(tǒng)轉(zhuǎn)化為一個(gè)增量系統(tǒng)……文檔平均處理延遲的因子降低到了現(xiàn)在的100。”這句話的意思是，索引Web上新內(nèi)容的速度比之前MapReduce系統(tǒng)快了100倍。

　　谷歌Dremel即時(shí)數(shù)據(jù)分析解決方案

　　谷歌和Hadoop社區(qū)曾致力于構(gòu)建基于MapReduce的易用性即時(shí)數(shù)據(jù)分析工具，如谷歌的并行處理語(yǔ)言Sawzall，Apache Pig和Hive。但對(duì)熟知SQL的人們而言，他們忽略了一個(gè)基本事實(shí)-構(gòu)建MapReduce的目標(biāo)就在于管理數(shù)據(jù)處理工作。它的核心能力在于工作流管理，而不是即時(shí)數(shù)據(jù)分析。

　　與之形成鮮明對(duì)比的是，很多BI或數(shù)據(jù)分析查詢基本上都要求即時(shí)、交互和低延遲。這意味著，使用Hadoop不僅需要規(guī)劃流程圖，而且需要為許多查詢分析裁減不必要的工作流。即便如此，我們也要花費(fèi)數(shù)分鐘等待工作開(kāi)始，然后花費(fèi)數(shù)小時(shí)等待工作流完成，并且這個(gè)過(guò)程也非常不利于交互式體驗(yàn)。因此，谷歌研發(fā)了Dremel予以應(yīng)對(duì)。Dremel是Google 的“交互式”數(shù)據(jù)分析系統(tǒng)，可以在幾秒鐘內(nèi)處理PB級(jí)別的數(shù)據(jù)，并能輕松應(yīng)對(duì)即時(shí)查詢。

　　Google Dremel的設(shè)計(jì)特點(diǎn)：

　　Dremel是一個(gè)可擴(kuò)展的大型系統(tǒng)。在一個(gè)PB級(jí)別的數(shù)據(jù)集上面，將任務(wù)縮短到秒級(jí)，無(wú)疑需要大量的并發(fā)。磁盤(pán)的順序讀速度在100MB/S上下，那么在1S內(nèi)處理1TB數(shù)據(jù)，意味著至少需要有1萬(wàn)個(gè)磁盤(pán)的并發(fā)讀! Google一向是用廉價(jià)機(jī)器辦大事的好手。但是機(jī)器越多，出問(wèn)題概率越大，如此大的集群規(guī)模，需要有足夠的容錯(cuò)考慮，保證整個(gè)分析的速度不被集群中的個(gè)別節(jié)點(diǎn)影響。

　　Dremel是MapReduce的補(bǔ)充。和MapReduce一樣，Dremel也需要GFS這樣的文件系統(tǒng)作為存儲(chǔ)層。在設(shè)計(jì)之初，Dremel并非是MapReduce的替代品，它只是可以執(zhí)行非�？斓姆治�，在使用的時(shí)候，常常用它來(lái)處理MapReduce的結(jié)果集或者用來(lái)建立分析原型。

　　Dremel的數(shù)據(jù)模型是嵌套的。互聯(lián)網(wǎng)數(shù)據(jù)常常是非關(guān)系型的。Dremel還需要有一個(gè)靈活的數(shù)據(jù)模型，這個(gè)數(shù)據(jù)模型至關(guān)重要。Dremel支持一個(gè)嵌套的數(shù)據(jù)模型，類似于JSON。而傳統(tǒng)的關(guān)系模型，由于不可避免的有大量的JOIN操作，在處理如此大規(guī)模的數(shù)據(jù)的時(shí)候，往往是有心無(wú)力的。

　　Dremel中的數(shù)據(jù)是采用列式存儲(chǔ)的。使用列式存儲(chǔ)，分析的時(shí)候，可以只掃描需要的那部分?jǐn)?shù)據(jù)的時(shí)候，減少CPU和磁盤(pán)的訪問(wèn)量。同時(shí)列式存儲(chǔ)是壓縮友好的，使用壓縮，可以綜合CPU和磁盤(pán)，發(fā)揮最大的效能。

　　Dremel結(jié)合了Web搜索和并行DBMS的技術(shù)。 Dremel借鑒了Web搜索中的“查詢樹(shù)”的概念，將一個(gè)相對(duì)巨大復(fù)雜的查詢，分割成較小較簡(jiǎn)單的查詢。大事化小，小事化了，能并發(fā)的在大量節(jié)點(diǎn)上跑。另外，和并行DBMS類似，Dremel可以提供了一個(gè)SQL-like的接口，就像Hive和Pig那樣。

　　谷歌的圖數(shù)據(jù)計(jì)算框架Pregel

　　谷歌MapReduce是專門(mén)為抓取、分析世界上最龐大的圖形架構(gòu)-internet而設(shè)計(jì)的，但針對(duì)大規(guī)模圖算法（如圖遍歷（BFS）、PageRank，最短路徑（SSSP）等）的計(jì)算則顯得效率低下。因此，谷歌構(gòu)建了Pregel。

　　Hadoop,大數(shù)據(jù),谷歌

　　Pregel給人的印象非常深刻。Pregel不僅能高效執(zhí)行SSSP或PageRank算法，更令人驚訝的是，公布的數(shù)據(jù)顯示Pregel處理一個(gè)有著幾十億節(jié)點(diǎn)、上萬(wàn)億條邊的圖，只需數(shù)分鐘即可完成，其執(zhí)行時(shí)間隨著圖的大小呈線性增長(zhǎng)。

　　Pregel基于BSP模型，就是“計(jì)算”-“通信”-“同步”的模式：

輸入輸出為有向圖
分成超步
以節(jié)點(diǎn)為中心計(jì)算，超步內(nèi)每個(gè)節(jié)點(diǎn)執(zhí)行自己的任務(wù)，執(zhí)行節(jié)點(diǎn)的順序不確定
兩個(gè)超步之間是通信階段

　　在Pregel中，以節(jié)點(diǎn)為中心計(jì)算。Step 0時(shí)每節(jié)點(diǎn)都活動(dòng)著，每個(gè)節(jié)點(diǎn)主動(dòng)“給停止投票”進(jìn)入不活動(dòng)狀態(tài)。如果接收到消息，則激活。沒(méi)有活動(dòng)節(jié)點(diǎn)和消息時(shí)，整個(gè)算法結(jié)束。容錯(cuò)是通過(guò)檢查點(diǎn)來(lái)做的。在每個(gè)超步開(kāi)始的時(shí)候，對(duì)主從節(jié)點(diǎn)分別備份。

　　總結(jié)

　　盡管當(dāng)前大數(shù)據(jù)技術(shù)的核心依然是Hadoop，但谷歌卻已經(jīng)為我們展現(xiàn)了許多更先進(jìn)的大數(shù)據(jù)技術(shù)。谷歌開(kāi)發(fā)這些技術(shù)的本意并不是要立刻拋棄掉MapReduce，但毫無(wú)疑問(wèn)這是未來(lái)大數(shù)據(jù)技術(shù)的趨勢(shì)。盡管已經(jīng)出現(xiàn)了上述大數(shù)據(jù)技術(shù)的開(kāi)源實(shí)現(xiàn)，但我們不禁要問(wèn)，Hadoop的輝煌還能延續(xù)多久？

核心關(guān)注：拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用，蘊(yùn)涵了豐富的ERP管理思想，集成了ERP軟件業(yè)務(wù)管理理念，功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理，全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域，是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。

轉(zhuǎn)載請(qǐng)注明出處：拓步ERP資訊網(wǎng)http://www.ezxoed.cn/

本文標(biāo)題：Hadoop的生命周期有多久？

本文網(wǎng)址：http://www.ezxoed.cn/html/support/11121517777.html

關(guān)鍵詞標(biāo)簽： Hadoop的生命周期有多久？,Hadoop Hadoop生命周期,ERP,ERP系統(tǒng),ERP軟件,ERP系統(tǒng)軟件,ERP管理系統(tǒng),ERP管理軟件,進(jìn)銷存軟件,財(cái)務(wù)軟件,倉(cāng)庫(kù)管理軟件,生產(chǎn)管理軟件,企業(yè)管理軟件,拓步,拓步ERP,拓步軟件,免費(fèi)ERP,免費(fèi)ERP軟件,免費(fèi)ERP系統(tǒng),ERP軟件免費(fèi)下載,ERP系統(tǒng)免費(fèi)下載,免費(fèi)ERP軟件下載,免費(fèi)進(jìn)銷存軟件,免費(fèi)進(jìn)銷存,免費(fèi)財(cái)務(wù)軟件,免費(fèi)倉(cāng)庫(kù)管理軟件,免費(fèi)下載,

本文轉(zhuǎn)自：e-works制造業(yè)信息化門(mén)戶網(wǎng)

本文來(lái)源于互聯(lián)網(wǎng)，拓步ERP資訊網(wǎng)本著傳播知識(shí)、有益學(xué)習(xí)和研究的目的進(jìn)行的轉(zhuǎn)載，為網(wǎng)友免費(fèi)提供，并盡力標(biāo)明作者與出處，如有著作權(quán)人或出版方提出異議，本站將立即刪除。如果您對(duì)文章轉(zhuǎn)載有任何疑問(wèn)請(qǐng)告之我們，以便我們及時(shí)糾正。聯(lián)系方式：QQ：10877846 Tel：0755-26405298。

上一篇：自適應(yīng)紅外隱身系統(tǒng)溫度調(diào)節(jié)板外表面溫度仿真

下一篇：中國(guó)首創(chuàng)透明計(jì)算：可讓計(jì)算機(jī)徹底減掉操作系統(tǒng)

相關(guān)文章

服務(wù)支持


	ERP新聞動(dòng)態(tài) 拓步新聞行業(yè)新聞關(guān)注產(chǎn)品觀點(diǎn)縱橫企業(yè)管理企業(yè)應(yīng)用

	ERP解決方案按ERP應(yīng)用行業(yè)分類按ERP企業(yè)規(guī)模分類按ERP管理領(lǐng)域分類按ERP軟件功能分類按ERP系統(tǒng)特性分類用友ERP解決方案金蝶ERP解決方案易飛ERP解決方案速達(dá)ERP解決方案其他ERP解決方案

	ERP顧問(wèn)咨詢 ERP管理咨詢 ERP戰(zhàn)略診斷 ERP流程分析 ERP流程優(yōu)化 ERP風(fēng)險(xiǎn)分析 ERP可行性研究 ERP整體規(guī)劃 ERP選型招標(biāo) ERP實(shí)施監(jiān)理 ERP評(píng)審驗(yàn)收 ERP績(jī)效評(píng)價(jià) ERP基礎(chǔ)知識(shí) ERP課程培訓(xùn) ERP培訓(xùn)教育 ERP視頻教材

	CIO技術(shù)專欄 CIO企業(yè)應(yīng)用 CIO網(wǎng)絡(luò)通信 CIO信息安全 CIO基礎(chǔ)設(shè)施 CIO云計(jì)算

	ERP技術(shù)支持技術(shù)支持知識(shí)庫(kù) 常見(jiàn)問(wèn)題資料庫(kù) 在線學(xué)習(xí)資料庫(kù) 日常辦公資料庫(kù) 企業(yè)管理知識(shí)庫(kù)

	ERP系統(tǒng)價(jià)格拓步ERP系統(tǒng)價(jià)格體系拓步EIS軟件價(jià)格體系合作品牌ERP價(jià)格體系技術(shù)支持服務(wù)價(jià)格體系

	合作品牌用友UFIDA 金蝶KingDee 神州數(shù)碼Digital 速達(dá)SuperData 拓步ERP系統(tǒng)成功案例

	代理加盟合作聯(lián)盟策略代理合作指南代理聯(lián)盟前景聯(lián)盟技術(shù)支持快速搜索ERP軟件資訊

	關(guān)于拓步公司介紹公司愿景企業(yè)文化誠(chéng)聘英才聯(lián)系我們在線留言在線訂購(gòu)意向下載體驗(yàn)登記

2021色婷婷综合久久久_国产亚洲午夜高清国产亚洲_亚洲开心婷婷中文字幕_亚洲国产中文精品字幕第一页_国产综合免费视频

ERP技術(shù)支持

技術(shù)支持知識(shí)庫(kù)

常見(jiàn)問(wèn)題資料庫(kù)

在線學(xué)習(xí)資料庫(kù)

日常辦公資料庫(kù)

企業(yè)管理知識(shí)庫(kù)

ERP系統(tǒng)教程

ERP免費(fèi)下載

ERP在線咨詢

即時(shí)聯(lián)系

服務(wù)熱線

快捷互動(dòng)