文章的標(biāo)題看上去很幼齒很科普,但實(shí)際上那些天天觀賞大數(shù)據(jù)演講的管理層技術(shù)小白來(lái)說(shuō),他們永遠(yuǎn)不會(huì)公開(kāi)問(wèn)出這個(gè)問(wèn)題。
大數(shù)據(jù)是個(gè)鋪天蓋地的詞,而談?wù)摯髷?shù)據(jù)又不可避免地要提到Hadoop,遺憾的是今天大多數(shù)大數(shù)據(jù)鼓吹者,甚至專(zhuān)業(yè)人士其實(shí)并不能說(shuō)清楚Hadoop到底是什么玩意,以及有何功用,而他們的管理層小白聽(tīng)眾更是一頭霧水。
眾所周知,Hadoop是Apache軟件基金會(huì)管理的開(kāi)源軟件平臺(tái),但Hadoop到底是什么呢?簡(jiǎn)單來(lái)說(shuō),Hadoop是在分布式服務(wù)器集群上存儲(chǔ)海量數(shù)據(jù)并運(yùn)行分布式分析應(yīng)用的一種方法。
Hadoop被設(shè)計(jì)成一種非常“魯棒”的系統(tǒng),即使某臺(tái)服務(wù)器甚至集群宕機(jī)了,運(yùn)行其上的大數(shù)據(jù)分析應(yīng)用也不會(huì)中斷。此外Hadoop的效率也很高,因?yàn)樗⒉恍枰阍诰W(wǎng)絡(luò)間來(lái)回?fù)v騰數(shù)據(jù)。
以下是Apache的正式定義:
Apache Hadoop軟件庫(kù)是一個(gè)框架,允許在集群服務(wù)器上使用簡(jiǎn)單的編程模型對(duì)大數(shù)據(jù)集進(jìn)行分布式處理。Hadoop被設(shè)計(jì)成能夠從單臺(tái)服務(wù)器擴(kuò)展到數(shù)以千計(jì)的服務(wù)器,每臺(tái)服務(wù)器都有本地的計(jì)算和存儲(chǔ)資源。Hadoop的高可用性并不依賴(lài)硬件,其代碼庫(kù)自身就能在應(yīng)用層偵測(cè)并處理硬件故障,因此能基于服務(wù)器集群提供高可用性的服務(wù)。
如果更深入地分析,我們發(fā)現(xiàn)Hadoop還有更加精彩的特性。首先,Hadoop幾乎完全是模塊化的,這意味著你們能用其他軟件工具抽換掉Hadoop的模塊。這使得Hadoop的架構(gòu)異常靈活,同時(shí)又不犧牲其可靠性和高效率。
Hadoop分布式文件系統(tǒng)(HDFS)
如果提起Hadoop你的大腦一片空白,那么請(qǐng)牢記住這一點(diǎn):Hadoop有兩個(gè)主要部分:一個(gè)數(shù)據(jù)處理框架和一個(gè)分布式數(shù)據(jù)存儲(chǔ)文件系統(tǒng)(HDFS)。
HDFS就像Hadoop系統(tǒng)的籃子,你把數(shù)據(jù)整整齊齊碼放在里面等待數(shù)據(jù)分析大廚出手變成性感的大餐端到CEO的桌面上。當(dāng)然,你可以在Hadoop進(jìn)行數(shù)據(jù)分析,也可以見(jiàn)gHadoop中的數(shù)據(jù)“抽取轉(zhuǎn)換加載”到其他的工具中進(jìn)行分析。
數(shù)據(jù)處理框架和MapReduce
顧名思義,數(shù)據(jù)處理框架是處理數(shù)據(jù)的工具。具體來(lái)說(shuō)Hadoop的數(shù)據(jù)處理框架是基于Jave的系統(tǒng)——MapReduce,你聽(tīng)到MapReduce的次數(shù)會(huì)比HDFS還要多,這是因?yàn)椋?/div>
1.MapReduce是真正完成數(shù)據(jù)處理任務(wù)的工具
2.MapReduce往往會(huì)把它的用戶(hù)逼瘋
在常規(guī)意義上的關(guān)系型數(shù)據(jù)庫(kù)中,數(shù)據(jù)通過(guò)SQL(結(jié)構(gòu)化查詢(xún)語(yǔ)言)被找到并分析,非關(guān)系型數(shù)據(jù)庫(kù)也使用查詢(xún)語(yǔ)句,只是不局限于SQL而已,于是有了一個(gè)新名詞NoSQL。
有一點(diǎn)容易搞混的是,Hadoop并不是一個(gè)真正意義上的數(shù)據(jù)庫(kù):它能存儲(chǔ)和抽取數(shù)據(jù),但并沒(méi)有查詢(xún)語(yǔ)言介入。Hadoop更多是一個(gè)
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),所以需要MapReduce這樣的系統(tǒng)來(lái)進(jìn)行真正的數(shù)據(jù)處理。
MapRduce運(yùn)行一系列任務(wù),其中每項(xiàng)任務(wù)都是單獨(dú)的Java應(yīng)用,能夠訪問(wèn)數(shù)據(jù)并抽取有用信息。使用MapReduce而不是查詢(xún)語(yǔ)言讓Hadoop數(shù)據(jù)分析的功能更加強(qiáng)大和靈活,但同時(shí)也導(dǎo)致技術(shù)復(fù)雜性大幅增加。
目前有很多工具能夠讓Hadoop更容易使用,例如Hive,可以將查詢(xún)語(yǔ)句轉(zhuǎn)換成MapReduce任務(wù)。但是MapReduce的復(fù)雜性和局限性(單任務(wù)批處理)使得Hadoop在更多情況下都被作為數(shù)據(jù)倉(cāng)庫(kù)使用而非數(shù)據(jù)分析工具。參考閱讀:Hadoop只是窮人的ETL。
Hadoop的另外一個(gè)獨(dú)特之處是:所有的功能都是分布式的,而不是傳統(tǒng)數(shù)據(jù)庫(kù)的集中式系統(tǒng)。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴(lài)品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:Hadoop到底是什么玩意?
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/10820612299.html
關(guān)鍵詞標(biāo)簽:
Hadoop到底是什么玩意?,BI Hadoop開(kāi)源,ERP,ERP系統(tǒng),ERP軟件,ERP系統(tǒng)軟件,ERP管理系統(tǒng),ERP管理軟件,進(jìn)銷(xiāo)存軟件,財(cái)務(wù)軟件,倉(cāng)庫(kù)管理軟件,生產(chǎn)管理軟件,企業(yè)管理軟件,拓步,拓步ERP,拓步軟件,免費(fèi)ERP,免費(fèi)ERP軟件,免費(fèi)ERP系統(tǒng),ERP軟件免費(fèi)下載,ERP系統(tǒng)免費(fèi)下載,免費(fèi)ERP軟件下載,免費(fèi)進(jìn)銷(xiāo)存軟件,免費(fèi)進(jìn)銷(xiāo)存,免費(fèi)財(cái)務(wù)軟件,免費(fèi)倉(cāng)庫(kù)管理軟件,免費(fèi)下載,
本文轉(zhuǎn)自:e-works制造業(yè)信息化門(mén)戶(hù)網(wǎng)
本文來(lái)源于互聯(lián)網(wǎng),拓步ERP資訊網(wǎng)本著傳播知識(shí)、有益學(xué)習(xí)和研究的目的進(jìn)行的轉(zhuǎn)載,為網(wǎng)友免費(fèi)提供,并盡力標(biāo)明作者與出處,如有著作權(quán)人或出版方提出異議,本站將立即刪除。如果您對(duì)文章轉(zhuǎn)載有任何疑問(wèn)請(qǐng)告之我們,以便我們及時(shí)糾正。聯(lián)系方式:QQ:10877846 Tel:0755-26405298。