Hadoop是由英雄們創(chuàng)造的開源傳奇,然而傳奇經(jīng)常還伴隨著一些流言——這些流言可能會(huì)導(dǎo)致IT高管們帶著樂(lè)觀的心態(tài)去制定策略。
數(shù)據(jù)體積和數(shù)據(jù)使用在以驚人的速度增長(zhǎng)著,這一點(diǎn)從分析師的分析中不難獲得——IDC今年在數(shù)據(jù)存儲(chǔ)上的 增長(zhǎng)速度將達(dá)到53.4%,AT&T聲稱 無(wú)線數(shù)據(jù)的流量在過(guò)去的5年內(nèi)增長(zhǎng)200倍,如果你著眼自己通信渠道的話,將毫無(wú)疑問(wèn)的發(fā)現(xiàn)互聯(lián)網(wǎng)內(nèi)容、電子郵件、應(yīng)用通知、社交消息以及每天自動(dòng)接收的消息都在顯著的增長(zhǎng)。這也是為什么 從McKinsey到Facebook再到Walmart都重點(diǎn)聚焦于大數(shù)據(jù)。
就像我們看到的90年代與2000年代的互聯(lián)網(wǎng)泡沫,大數(shù)據(jù)同樣會(huì)導(dǎo)致一些公司做出糟糕的設(shè)想和決策。
Hadoop毫無(wú)疑問(wèn)是公司為了解決大數(shù)據(jù)需求的主要投資領(lǐng)域之一,而類似Facebook這些在大體積數(shù)據(jù)處理上有所建樹的公司都公開的吹捧過(guò)在Hadoop上取得的成功,同樣初入大數(shù)據(jù)領(lǐng)域的公司也必先著眼這些成功的典型。Adam Bloom的一個(gè)MIT(麻省理工學(xué)院)計(jì)算機(jī)科學(xué)校友曾對(duì)他說(shuō):“when all you have is a hammer, everything looks like a nail。”通過(guò)Hadoop的炒作,我們可以避免 功能固著(functional fixedness)這種認(rèn)知偏差。 Hadoop是一個(gè)多維的解決方案,可以通過(guò)不同的方式進(jìn)行部署和使用。下面就看一下公司在開始Hadoop項(xiàng)目之前必須了解的一些關(guān)于Hadoop和大數(shù)據(jù)的預(yù)先構(gòu)想的錯(cuò)誤理念:
1. 大數(shù)據(jù)只關(guān)系到體積
在體積之外,許多工業(yè)先鋒還經(jīng)常提到 variety(多樣)、variability(可變)、velocity(速度)和value(價(jià)值)。撇開所有單詞都押頭韻,關(guān)鍵點(diǎn)在于大數(shù)據(jù)并不是體積上的增長(zhǎng)——它正在向著實(shí)時(shí)分析、結(jié)構(gòu)化和非結(jié)構(gòu)化來(lái)源方向發(fā)展,并被用于嘗試和制定更好的決策。綜上所述,不是只有分析大體積數(shù)據(jù)才會(huì)獲得價(jià)值。舉個(gè)例子,超時(shí)限的存儲(chǔ)和分析1PB的數(shù)據(jù)的價(jià)值可能比不上實(shí)時(shí)分析1GB的數(shù)據(jù)。從工具集上考慮,你可能需要一個(gè)內(nèi)存數(shù)據(jù)網(wǎng)絡(luò)進(jìn)行實(shí)時(shí)的分析,從新鮮的數(shù)據(jù)上獲得價(jià)值,而不是去解剖過(guò)時(shí)的數(shù)據(jù)獲得價(jià)值。
2. 傳統(tǒng)SQL不可以在Hadoop上使用
當(dāng)Facebook、Twitter、Yahoo!在Hadoop上豪賭時(shí),他們同樣知道HDFS和MapReduce受限于處理類似SQL語(yǔ)言的能力,這也是 Hive、 Pig和 Sqoop最終得以孵化的原因;谌蛏洗罅康臄(shù)據(jù)都是通過(guò)SQL來(lái)管理,一些公司和項(xiàng)目都在Hadoop和SQL的兼容上狠下功夫。
3. 取代大型機(jī)!Hadoop是唯一的新IT數(shù)據(jù)平臺(tái)
在IT投資組合里有很多一直長(zhǎng)期存在的投資,而大型機(jī)就是這么一個(gè)例子,與ERP、CRM和SCM這些系統(tǒng)一樣演變至今。而如果大型機(jī)不想被公司或者架構(gòu)遺棄,它就必須展示在現(xiàn)有投資環(huán)境中的價(jià)值。而VMware的許多客戶在使用大型機(jī)上都遇到了速度、規(guī)模和開銷的問(wèn)題,但是并不是沒(méi)有途徑去解決這些問(wèn)題,比如像vFabric SQLFire這樣的內(nèi)存大數(shù)據(jù)網(wǎng)絡(luò)就可以被嵌入或者使用分布式緩存途徑去解決類似隊(duì)列的高速攝取、促進(jìn)大型機(jī)的批處理或?qū)崟r(shí)分析報(bào)告這些問(wèn)題。
4. 虛擬化會(huì)導(dǎo)致性能下降
Hadoop最初的設(shè)計(jì)只是在實(shí)體服務(wù)器上運(yùn)行,然而隨著越來(lái)越多機(jī)構(gòu)的采用,許多公司都希望它能作為數(shù)據(jù)中心服務(wù)在云中運(yùn)行。為什么這么多的公司都希望虛擬化Hadoop?首先要考慮管理基礎(chǔ)設(shè)施的擴(kuò)展性,VMware快速的認(rèn)識(shí)到擴(kuò)展計(jì)算資源,比如虛擬Hadoop節(jié)點(diǎn),當(dāng)數(shù)據(jù)和計(jì)算分開時(shí)會(huì)對(duì)性能有所幫助,否則如果你關(guān)閉某個(gè)Hadoop節(jié)點(diǎn)將丟失上面的所有數(shù)據(jù)或者添加一個(gè)沒(méi)有數(shù)據(jù)的空節(jié)點(diǎn)。而鑒于這個(gè)原因,許多來(lái)自MapR、Hortonworks、Cloudera和Greenplum的專業(yè)Hadoop發(fā)行版都支持 Project Serengeti和 Hadoop Virtualization Extensions(HVE)。
5. Hadoop只可以在數(shù)據(jù)中心運(yùn)行
首先,存在SaaS云服務(wù)解決方案。許多云服務(wù)允許你云端運(yùn)行Hadoop、SQL,這無(wú)疑可以幫助你省下數(shù)據(jù)中心建造投資的時(shí)間和金錢。對(duì)于一個(gè)公有云運(yùn)行時(shí),Java開發(fā)者可以從Spring Data for Hadoop以及一些其它的GitHub中的用例獲益。
6. Hadoop對(duì)虛擬化毫無(wú)經(jīng)濟(jì)價(jià)值
Hadoop通常解釋在一堆商用服務(wù)器上運(yùn)行,這樣就會(huì)有人認(rèn)為添加一個(gè)虛擬層在帶來(lái)額外支出的同時(shí)并不會(huì)有額外的價(jià)值收益。用這個(gè)觀點(diǎn)看是存在缺陷的,你并沒(méi)有考慮到數(shù)據(jù)和數(shù)據(jù)分析事實(shí)上都是動(dòng)態(tài)的。想成為一個(gè)利用Hadoop能量去成長(zhǎng)、創(chuàng)新及創(chuàng)造效率的公司,你必須改變數(shù)據(jù)的來(lái)源、分析的速度等等。虛擬化基礎(chǔ)設(shè)施同樣可以減少物理硬件的封裝,讓CAPEX直接等于純粹的商用硬件,而通過(guò)自動(dòng)以及更搞笑的利用共享基礎(chǔ)設(shè)施同樣可以減少OPEX(運(yùn)營(yíng)成本)。
7. Hadoop不可以在SAN或NAS上運(yùn)行
Hadoop在本地磁盤上運(yùn)行,對(duì)于中小型集群它同樣可以在一個(gè)共享的SAN環(huán)境下運(yùn)行良好。而高帶寬比如10GB Ethernet、PoE以及iSCSI對(duì)性能同樣有很好的支持。
總結(jié)
宣傳異或是炒作只能作為接受新事物的參考,在做決策之前必須進(jìn)行深入的了解和分析。被流言所迷惑而做出錯(cuò)誤的決策,必然會(huì)讓投資陷入危險(xiǎn)的境地。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:7個(gè)大數(shù)據(jù)流言——避免錯(cuò)誤的Hadoop和云分析決策
本文網(wǎng)址:http://www.ezxoed.cn/html/support/1112158842.html