目前人人都在談大數(shù)據(jù),談DT時代,但是,大數(shù)據(jù)是什么,每個人都有自己的一個看法,好比盲人摸象,每個都認(rèn)為自己摸到是真正的大象。我也擔(dān)心我所看到的,只是大數(shù)據(jù)的冰山一角,畢竟,將引領(lǐng)整個人類下一次變革的大數(shù)據(jù),不是幾篇文章就能說清楚的。
一,DT時代
大數(shù)據(jù)這個概念,其實在上世紀(jì)九十年代就有人提出來了,當(dāng)時希望通過將所有零散的數(shù)據(jù)歸并起來,然后進(jìn)行數(shù)據(jù)挖掘,以看到以前存在的問題,去預(yù)測未來幾年的趨勢,來指導(dǎo)商業(yè)決策。比如保險行業(yè),人壽保險會通過大數(shù)據(jù)的統(tǒng)計計算,根據(jù)人均壽命來計算保費(fèi)與回報率。 這是在特定的環(huán)境,特定的時間下,對數(shù)據(jù)做一些商業(yè)化的嘗試,還算不上真正的大數(shù)據(jù)。
我們再看國內(nèi)大數(shù)據(jù)的領(lǐng)導(dǎo)者——阿里巴巴,早在2010年就在開始談大數(shù)據(jù)戰(zhàn)略,同年,Maxcompute(原ODPS)開始布局,螞蟻小貸開始創(chuàng)業(yè) 。
2012年,阿里設(shè)立了CDO這個崗位以及成立CDO事業(yè)部,全面負(fù)責(zé)阿里集團(tuán)的“數(shù)據(jù)分享平臺”的大數(shù)據(jù)戰(zhàn)略。同年,一本《大數(shù)據(jù)時代》也開始在國內(nèi)外暢銷,國內(nèi)大數(shù)據(jù)時代拉開序幕。
2014年,馬云再次提出,“人類正從IT時代走向DT時代”,人類已經(jīng)從IT時代走向DT時代,IT時代是以自我控制、自我管理為主,而DT(Datatechnology)時代,它是以服務(wù)大眾、激發(fā)生產(chǎn)力為主的技術(shù)。這兩者之間看起來似乎是一種技術(shù)的差異,但實際上是思想觀念層面的差異。
講了這么多,那大數(shù)據(jù)是什么呢?我們先看看大數(shù)據(jù)不是什么。
大數(shù)據(jù)不是什么?
1,大數(shù)據(jù)≠擁有數(shù)據(jù)
很多人覺得擁有數(shù)據(jù),特別是擁有大量的數(shù)據(jù),這就是大數(shù)據(jù)了,這個是肯定不對的,數(shù)據(jù)量大不是大數(shù)據(jù),比如氣象數(shù)據(jù)很大,如果僅僅用于氣象預(yù)測,只要計算能力跟上就行,還遠(yuǎn)遠(yuǎn)沒有發(fā)揮它的價值。但是保險公司根據(jù)氣象大數(shù)據(jù),來預(yù)測自然災(zāi)害以及調(diào)整與自然災(zāi)害相關(guān)的保險費(fèi)率,它就演化出其它的商業(yè)價值,形成了大數(shù)據(jù)的商業(yè)環(huán)境。所以,大數(shù)據(jù)要使用,甚至關(guān)聯(lián),交換才能產(chǎn)生真正價值,形成DT時代特有的大數(shù)據(jù)商業(yè)。
2,大數(shù)據(jù)≠報表平臺,
有很多企業(yè),建立了自己業(yè)務(wù)的報表中心,或者是大屏展示中心,就馬上宣布他們已經(jīng)實現(xiàn)了大數(shù)據(jù),這是遠(yuǎn)遠(yuǎn)不夠的。報表雖然也是大數(shù)據(jù)的一種體現(xiàn),但是真正的大數(shù)據(jù)業(yè)務(wù),不是生成報表靠人來指揮,那是披著大數(shù)據(jù)外表的報表系統(tǒng)而已。在大數(shù)據(jù)閉環(huán)系統(tǒng)中,萬物都是數(shù)據(jù)產(chǎn)生者,也是數(shù)據(jù)使用者,他們通過自動化,智能化的閉環(huán)系統(tǒng),自動學(xué)習(xí),智能調(diào)整,從而提升整體的生產(chǎn)效率。
3,大數(shù)據(jù)≠計算平臺
之前看過一個報道,說某某金融機(jī)構(gòu)建立了自己的大數(shù)據(jù)系統(tǒng),后來仔細(xì)一看,就是搭建了一個幾百臺機(jī)器的Hadoop集群而已。大數(shù)據(jù)計算平臺,是大數(shù)據(jù)應(yīng)用的技術(shù)基礎(chǔ),是大數(shù)據(jù)閉環(huán)中非常重要的一環(huán),也是不可缺少的一環(huán),但是,不能說有了計算平臺就有了大數(shù)據(jù)。比如我買了鍋,不能說我已經(jīng)有了菜,從鍋到菜還缺原料(數(shù)據(jù)),刀具(加工工具),廚師(數(shù)據(jù)加工)才能最終做出菜來。
4,大數(shù)據(jù)≠精準(zhǔn)營銷
見過很多創(chuàng)業(yè)公司在做大數(shù)據(jù)創(chuàng)業(yè),仔細(xì)一看,人家做的是基于大數(shù)據(jù)的推薦引擎、廣告定投等等。這是大數(shù)據(jù)嗎?他們做的是大數(shù)據(jù)的一種應(yīng)用,可以說已經(jīng)是大數(shù)據(jù)的一種了。只是大數(shù)據(jù)整個生態(tài),不能通過這一種就來表達(dá)而已。正如大象的耳朵是大象的一部分,但是,它不能代表大象。
那大數(shù)據(jù)到底是什么?
簡單講,大數(shù)據(jù)需要有大量能互相連接的的數(shù)據(jù)(不管是自己的,還是購買,交換別人的),他們在一個大數(shù)據(jù)計算平臺(或者是能互通的各個數(shù)據(jù)節(jié)點(diǎn)上),有相同的數(shù)據(jù)標(biāo)準(zhǔn)能正確的關(guān)聯(lián)(如ETL,數(shù)據(jù)標(biāo)準(zhǔn)),通過大數(shù)據(jù)相關(guān)處理技術(shù)(如算法,引擎,機(jī)器學(xué)習(xí)),形成自動化、智能化的大數(shù)據(jù)產(chǎn)品或者業(yè)務(wù),進(jìn)而形成大數(shù)據(jù)采集,反饋的閉環(huán),自動智能的指導(dǎo)人類的活動,工業(yè)制造,社會發(fā)展等。
數(shù)據(jù)正在金融,廣告,零售,物流,影視等行業(yè),悄悄地改變我們的生活。隨著手機(jī)的更大規(guī)模的普及,還是日新月異的可穿戴設(shè)備、智能家居、甚至無人駕駛汽車,都在提醒我們,以互聯(lián)網(wǎng)(或者
物聯(lián)網(wǎng))、
云計算、大數(shù)據(jù)為代表的這場技術(shù)革命正引領(lǐng)人類社會加速進(jìn)入農(nóng)業(yè)時代、工業(yè)時代之后的一個新的發(fā)展階段 -- 數(shù)據(jù)時代(DT時代)。
前兩個時代分別以土地、資本為生產(chǎn)要素,而正在我們面前開啟的數(shù)據(jù)時代,正如其名,數(shù)據(jù)將成為最核心的生產(chǎn)要素。
在未來,數(shù)據(jù)將成為商業(yè)競爭最重要的資源,誰能更好的使用了大數(shù)據(jù),誰將領(lǐng)導(dǎo)下一代商業(yè)潮流。所謂無數(shù)據(jù),不智能;無智能,不商業(yè)。下一代的商業(yè)模式就是基于數(shù)據(jù)智能的全新模式,雖然才開始萌芽,雖然才幾個有限的案例,但是,其巨大的潛力與力量,已經(jīng)被人們認(rèn)識到。
在下一代的革命中,不管是工業(yè)4.0(中國叫中國制造2025),還是
物聯(lián)網(wǎng)(甚至是一個全新的協(xié)議與標(biāo)準(zhǔn)),隨著數(shù)據(jù)科學(xué)與云計算能力(甚至是基于區(qū)塊鏈的分布式計算技術(shù)),唯獨(dú)數(shù)據(jù)是所有系統(tǒng)的核心。萬物互聯(lián),萬物數(shù)據(jù)化之后,基于數(shù)據(jù)的個性化、智能化將是一次全新的革命,將超越100多年前開始的自動化生產(chǎn)線的工業(yè)3.0,給人類社會整體的生產(chǎn)力提升帶來一次根本性地突破,實現(xiàn)從0到1的巨大變化。
正是在這個意義上,這是一場商業(yè)模式的范式革命。商業(yè)的未來、知識的未來、文明的未來,它們本質(zhì)上就是人的未來。而基于數(shù)據(jù)智能的智能商業(yè),就是這未來的起點(diǎn)。
二,數(shù)據(jù)來源
大數(shù)據(jù)的第一要務(wù)就是需要有數(shù)據(jù),否則,何來“數(shù)據(jù)是DT時代的第一生產(chǎn)要素”。
數(shù)據(jù)來源于哪里,哪里會產(chǎn)生數(shù)據(jù)?
數(shù)據(jù)無處不在,人類自從發(fā)明文字開始,就開始記錄各種數(shù)據(jù),只是保存的介質(zhì)一般是書本,而且難以分析、加工。隨著計算機(jī)與存儲技術(shù)的快速發(fā)展,以及萬物數(shù)字化的過程(音頻數(shù)字化,圖形數(shù)字化等),出現(xiàn)了數(shù)據(jù)的爆發(fā),而且數(shù)據(jù)爆發(fā)的趨勢,隨著萬物互聯(lián)的
物聯(lián)網(wǎng)技術(shù)的發(fā)展,會越來越迅速。同時,對數(shù)據(jù)的存儲技術(shù),處理技術(shù)的要求也會越來越高。
據(jù)IDC出版的數(shù)字世界研究報告顯示,2013年人類產(chǎn)生、復(fù)制和消費(fèi)的數(shù)據(jù)量達(dá)到4.4ZB。而到2020年,數(shù)據(jù)量將增長10倍,達(dá)到44ZB。大數(shù)據(jù)已經(jīng)成為當(dāng)下人類最寶貴的財富,怎樣合理有效的運(yùn)用這些數(shù)據(jù),發(fā)揮這些數(shù)據(jù)應(yīng)有的作用,這是大數(shù)據(jù)將要做到的。
早期的企業(yè)也比較簡單,關(guān)系型數(shù)據(jù)庫中存儲的數(shù)據(jù),往往是他們?nèi)康臄?shù)據(jù)來源,這個時候他們對應(yīng)的大數(shù)據(jù)技術(shù),也就是傳統(tǒng)的OLAP
數(shù)據(jù)倉庫解決方案。因為關(guān)系型數(shù)據(jù)庫中基本上是他們的所有數(shù)據(jù),往往大數(shù)據(jù)技術(shù)也比較簡單,直接從關(guān)系型數(shù)據(jù)庫中獲得統(tǒng)計數(shù)據(jù),或者最多建一個統(tǒng)一的OLAP數(shù)據(jù)倉庫中心。
通過淘寶的歷史來看,早期的數(shù)倉數(shù)據(jù)基本來源于主業(yè)務(wù)的OLTP數(shù)據(jù)庫,數(shù)據(jù)不外乎用戶信息(通過注冊、認(rèn)證獲。唐沸畔ⅲㄍㄟ^賣家上傳獲得),交易數(shù)據(jù)(通過買賣行為獲得),收藏數(shù)據(jù)(通過用戶的收藏行為獲得)。從公司的業(yè)務(wù)層面來看,關(guān)注的也就是這些數(shù)據(jù)的統(tǒng)計,比如總用戶數(shù),活躍用戶數(shù),交易筆數(shù)、金額(可鉆取到類目,省份等),支付寶筆數(shù)、金額等等。因為這個時候沒有營銷系統(tǒng),沒有廣告系統(tǒng),公司也只關(guān)注用戶,商品,交易的相關(guān)數(shù)據(jù),這些數(shù)據(jù)的統(tǒng)計加工,就是當(dāng)時淘寶大數(shù)據(jù)的全部。
但是,隨著業(yè)務(wù)的發(fā)展,比如個性化推薦,廣告投放系統(tǒng)的出現(xiàn),會需要更多的數(shù)據(jù)來做支撐,而數(shù)據(jù)庫的用戶數(shù)據(jù),除了收藏,購物車是用戶行為的體現(xiàn),但是,用戶的其它行為,如瀏覽數(shù)據(jù),搜索行為等,這個時候是完全不知道的。
這里就需要引進(jìn)另外一個數(shù)據(jù)來源,日志數(shù)據(jù),記錄了用戶的行為數(shù)據(jù),可以通過cookie的技術(shù),只要用戶登錄過一次,就能跟真實的用戶取得關(guān)聯(lián)。比如通過獲取用戶的瀏覽行為,購買行為,進(jìn)而可以給用戶推薦他可能感興趣的商品,看了又看,買了又買就是基于這些最基礎(chǔ)的用戶行為數(shù)據(jù)做的推薦算法。這些行為數(shù)據(jù)還可以用來分析用戶的瀏覽路徑,瀏覽時長,這些數(shù)據(jù)是用來改進(jìn)相關(guān)淘寶產(chǎn)品的重要依據(jù)。
2009年,無線互聯(lián)網(wǎng)飛速發(fā)展,隨著基于native技術(shù)的App大規(guī)模的出現(xiàn),用傳統(tǒng)日志方式獲取無線用戶行為數(shù)據(jù)已經(jīng)不再可能,這個時候也涌現(xiàn)了一批新的無線數(shù)據(jù)采集分析工具,比如友盟,Talkingdata,淘寶內(nèi)部的無線數(shù)讀等等,通過內(nèi)置的SDK,他們可以統(tǒng)計到native上的用戶行為數(shù)據(jù)。
數(shù)據(jù)是統(tǒng)計到了,但是,新的問題也誕生了,比如我在PC上的用戶行為,怎么對應(yīng)到無線上的用戶行為,這個是脫節(jié)的,因為PC是PC上的標(biāo)準(zhǔn),無線又采用了無線的標(biāo)準(zhǔn),如果有一個統(tǒng)一的用戶庫,比如不管是登錄名,郵箱,身份證號碼,手機(jī)號,imei地址,mac地址等等,來唯一標(biāo)識一個用戶,不管是哪里產(chǎn)生的數(shù)據(jù),只要是第一次關(guān)聯(lián)上來,后來就能對應(yīng)上。
這就涉及到了一個重要的話題 -- 數(shù)據(jù)標(biāo)準(zhǔn),數(shù)據(jù)標(biāo)準(zhǔn)不僅僅是解決企業(yè)內(nèi)部數(shù)據(jù)關(guān)聯(lián)的問題,比如一個好的用戶庫,可以解決未來大數(shù)據(jù)關(guān)聯(lián)上的很多問題,假定公安的數(shù)據(jù)想跟醫(yī)院的數(shù)據(jù)進(jìn)行關(guān)聯(lián)打通,發(fā)揮更大的價值。但是,公安標(biāo)識用戶的是身份證,而醫(yī)院標(biāo)識用戶的數(shù)據(jù)則是手機(jī)號碼,有了統(tǒng)一的用戶庫,就可以通過idmapping技術(shù)簡單的把雙方的數(shù)據(jù)進(jìn)行關(guān)聯(lián)。
數(shù)據(jù)的標(biāo)準(zhǔn)不僅僅是企業(yè)內(nèi)部進(jìn)行數(shù)據(jù)關(guān)聯(lián)非常重要,跨組織,跨企業(yè)進(jìn)行數(shù)據(jù)關(guān)聯(lián)也非常重要,而業(yè)界有能力建立類似用戶庫等數(shù)據(jù)標(biāo)準(zhǔn)的公司并不多,阿里巴巴就是其中之一。
大數(shù)據(jù)發(fā)展到后期,當(dāng)然是數(shù)據(jù)越多越好,企業(yè)內(nèi)部的數(shù)據(jù)已經(jīng)不能滿足公司的需要,比如還是淘寶,想要對用戶進(jìn)行一個完整的畫像分析,比如想獲得用戶的實時地位位置,愛好,星座,消費(fèi)水平,開什么樣的車等等,用于精準(zhǔn)營銷。淘寶自身的數(shù)據(jù)是不夠的,這個時候,很多企業(yè)就會去購買一些數(shù)據(jù)(有些企業(yè)也會自己去爬取一些信息,這個相對簡單一點(diǎn)),比如阿里購買高德,友盟,又另外采購微博的相關(guān)數(shù)據(jù),用于用戶的標(biāo)簽加工,獲得更精準(zhǔn)的用戶畫像。
但是,數(shù)據(jù)交易并沒有這么簡單。因為數(shù)據(jù)交易涉及到幾個非常大的問題:
1)是怎么保護(hù)用戶隱私信息
歐盟已經(jīng)出臺了苛刻的數(shù)據(jù)保護(hù)條例,美國也對出售客戶數(shù)據(jù)的運(yùn)營商施以重罰,還處在萌芽狀態(tài)的中國大數(shù)據(jù)行業(yè),怎么確保用戶隱私信息不被泄漏呢?對于一些非隱私信息,比如地理數(shù)據(jù),氣象數(shù)據(jù),地圖數(shù)據(jù)進(jìn)行開放、交易、分析是非常有價值的,但是一旦涉及到用戶的隱私數(shù)據(jù),特別是單個人的隱私數(shù)據(jù),就會涉及到道德與法律的風(fēng)險。
數(shù)據(jù)交易之前的脫敏或許是一種解決辦法,但是,并不能完全解決這個問題,因此,阿里也提出了另外一種解決思路,基于平臺擔(dān)保的“可用不可見”技術(shù)。比如阿里云作為交易平臺,跟支付寶一樣是一個中間擔(dān)保機(jī)構(gòu),雙方的數(shù)據(jù)上傳到阿里云大數(shù)據(jù)交易平臺,雙方可以使用對方的數(shù)據(jù),以獲得特定的結(jié)果,比如通過上傳一些算法,模型而獲得結(jié)果,雙方都不能看到對方的任何詳細(xì)數(shù)據(jù)。
2)是數(shù)據(jù)的所有者問題
數(shù)據(jù)作為一種生產(chǎn)資料,跟農(nóng)業(yè)時期的土地,工業(yè)時期的資本不一樣,使用之后并不會消失,如果作為數(shù)據(jù)的購買者,這個數(shù)據(jù)的所有者到底是誰?怎么確保數(shù)據(jù)的購買者不會再次售賣這些數(shù)據(jù)?或者購買者加工了這些數(shù)據(jù)之后,加工之后的數(shù)據(jù)所有者是誰?
3)是數(shù)據(jù)使用的合法性問題
大數(shù)據(jù)營銷中,目前用得最多的就是精準(zhǔn)營銷。數(shù)據(jù)交易中,最值錢的也是個人數(shù)據(jù)。我們?nèi)粘7治鲋凶龅目蛻舢嬒瘢康木褪墙o海量客戶分群、打標(biāo)簽,然后針對性地開展定向營銷和服務(wù)。然而如果利用用戶的個人信息(比如年齡、性別、職業(yè)等)進(jìn)行營銷,必須事先征得用戶的同意,才能向用戶發(fā)送廣告信息呢,還是可以直接使用?
所以,數(shù)據(jù)的交易與關(guān)聯(lián)使用,就必須解決數(shù)據(jù)標(biāo)準(zhǔn),立法以及監(jiān)管的問題,在未來的時間里,不排除有專門的法律,甚至專業(yè)的監(jiān)管機(jī)構(gòu),如成立數(shù)監(jiān)會來監(jiān)管數(shù)據(jù)的交易與使用問題。如果真的到了這一天,那也是好事,數(shù)據(jù)要流通起來才會發(fā)揮更大的價值,如果每個企業(yè)都只有自己的數(shù)據(jù),就算消除了企業(yè)內(nèi)部的信息孤島,還有企業(yè)外部的信息孤島。
如果能合理,合適的使用多方數(shù)據(jù),就會發(fā)生所謂“羊毛出在豬身上”的事情,比如阿里小貸,使用的是B2B以及淘寶的數(shù)據(jù)。這樣情況下,對豬(B2B,淘寶來)說,這是一種商業(yè)場景中的海量數(shù)據(jù)的溢出效應(yīng),而對羊(螞蟻小貸)來說,是在較低的成本下、不同維度的數(shù)據(jù)集合后,發(fā)生化學(xué)反應(yīng)的價值躍升的過程,這是大數(shù)據(jù)時代智能商業(yè)的典型特征。
這才是大數(shù)據(jù)的價值,正是我們正在迎來的這個新時代以“數(shù)據(jù)”命名的理由。
阿里大數(shù)據(jù)發(fā)展歷程
三,數(shù)據(jù)技術(shù)
大數(shù)據(jù)技術(shù),個人認(rèn)為可以分成兩個大的層面,大數(shù)據(jù)平臺技術(shù)與大數(shù)據(jù)應(yīng)用技術(shù)。
要使用大數(shù)據(jù),你先必須有計算能力,大數(shù)據(jù)平臺技術(shù)包括了數(shù)據(jù)的采集,存儲,流轉(zhuǎn),加工所需要的底層技術(shù),如hadoop生態(tài)圈,數(shù)加生態(tài)圈。
數(shù)據(jù)的應(yīng)用技術(shù)是指對數(shù)據(jù)進(jìn)行加工,把數(shù)據(jù)轉(zhuǎn)化成商業(yè)價值的技術(shù),如算法,以及由算法衍生出來的模型,引擎,接口,產(chǎn)品等等。這些數(shù)據(jù)加工的底層平臺,包括平臺層的工具,以及平臺上運(yùn)行的算法,也可以沉淀到一個大數(shù)據(jù)的生態(tài)市場中,避免重復(fù)的研發(fā),大大的提高大數(shù)據(jù)的處理效率。
大數(shù)據(jù)首先需要有數(shù)據(jù),數(shù)據(jù)首先要解決采集與存儲的問題,數(shù)據(jù)采集與存儲技術(shù),隨著數(shù)據(jù)量的爆發(fā)與大數(shù)據(jù)業(yè)務(wù)的飛速發(fā)展,也是在不停的進(jìn)化過程中。
在大數(shù)據(jù)的早期,或者很多企業(yè)的發(fā)展初期,是只有關(guān)系型數(shù)據(jù)庫用來存儲核心業(yè)務(wù)數(shù)據(jù),就算數(shù)據(jù)倉庫,也是集中型OLAP關(guān)系型數(shù)據(jù)庫。比如很多企業(yè),包括淘寶早期,就用Oracle作為數(shù)據(jù)倉庫來存儲數(shù)據(jù),當(dāng)時建立了亞洲最大的Oracle RAC作為數(shù)據(jù)倉庫,按當(dāng)時的規(guī)模來說,可以處理10T以下的數(shù)據(jù)規(guī)模 。
一旦出現(xiàn)獨(dú)立的數(shù)據(jù)倉庫,就會涉及到ETL,如數(shù)據(jù)的抽取,數(shù)據(jù)清洗,數(shù)據(jù)校驗,數(shù)據(jù)導(dǎo)入甚至數(shù)據(jù)安全脫敏。如果數(shù)據(jù)來源僅僅是業(yè)務(wù)數(shù)據(jù)庫,ETL還不會很復(fù)雜,如果數(shù)據(jù)的來源是多方的,比如日志數(shù)據(jù),APP數(shù)據(jù),爬蟲數(shù)據(jù),購買的數(shù)據(jù),整合的數(shù)據(jù)等等,ETL就會變得很復(fù)雜,數(shù)據(jù)清洗與校驗的任務(wù)就會變得很重要。
這時的ETL必須配合數(shù)據(jù)標(biāo)準(zhǔn)來實施,如果沒有數(shù)據(jù)標(biāo)準(zhǔn)的ETL,可能會導(dǎo)致數(shù)據(jù)倉庫中的數(shù)據(jù)都是不準(zhǔn)確的,錯誤的大數(shù)據(jù)就會導(dǎo)致上層數(shù)據(jù)應(yīng)用,數(shù)據(jù)產(chǎn)品的結(jié)果都是錯誤的。錯誤的大數(shù)據(jù)結(jié)論,還不如沒有大數(shù)據(jù)。由此可見,數(shù)據(jù)標(biāo)準(zhǔn)與ETL中的數(shù)據(jù)清洗,數(shù)據(jù)校驗是非常的重要。
最后,隨著數(shù)據(jù)的來源變多,數(shù)據(jù)的使用者變多,整個大數(shù)據(jù)流轉(zhuǎn)就變成了一個非常復(fù)雜的網(wǎng)狀拓?fù)浣Y(jié)構(gòu),每個人都在導(dǎo)入數(shù)據(jù),清洗數(shù)據(jù),同時每個人也都在使用數(shù)據(jù),但是,誰都不相信對方導(dǎo)入,清洗的數(shù)據(jù),就會導(dǎo)致重復(fù)數(shù)據(jù)越來越多,數(shù)據(jù)任務(wù)也越來越多,任務(wù)的關(guān)系越來越復(fù)雜。要解決這樣的問題,必須引入數(shù)據(jù)管理,也就是針對大數(shù)據(jù)的管理。比如元數(shù)據(jù)標(biāo)準(zhǔn),公共數(shù)據(jù)服務(wù)層(可信數(shù)據(jù)層),數(shù)據(jù)使用信息披露等等。
隨著數(shù)據(jù)量的繼續(xù)增長,集中式的關(guān)系型OLAP數(shù)倉已經(jīng)不能解決企業(yè)的問題,這個時候出現(xiàn)了基于MPP的專業(yè)級的數(shù)據(jù)倉庫處理軟件 ,如GreenPlum。greenplum采用了MPP方式處理數(shù)據(jù),可以處理的數(shù)據(jù)更多,更快,但是本質(zhì)上還是數(shù)據(jù)庫的技術(shù)。Greenplum支持100臺機(jī)器規(guī)模左右,可以處理PB級別數(shù)據(jù)量。Greenplum產(chǎn)品是基于流行的PostgreSQL之上開發(fā),幾乎所有的PostgreSQL客戶端工具及PostgreSQL應(yīng)用都能運(yùn)行在Greenplum平臺上,在Internet上有著豐富的PostgreSQL資源供用戶參考。
隨著數(shù)據(jù)量的繼續(xù)增加,比如阿里每天需要處理100PB以上數(shù)據(jù),每天有100萬以上的大數(shù)據(jù)任務(wù)。以上的解決方案發(fā)現(xiàn)都沒有辦法來解決了,這個時候,就出現(xiàn)了一些更大的基于M/R分布式的解決方案,如大數(shù)據(jù)技術(shù)生態(tài)體系中的Hadoop,Spark和Storm。他們是目前最重要的三大分布式計算系統(tǒng),Hadoop常用于離線的復(fù)雜的大數(shù)據(jù)處理,Spark常用于離線的快速的大數(shù)據(jù)處理,而Storm常用于在線的實時的大數(shù)據(jù)處理。以及阿里云推出的數(shù)加,它也包括了大數(shù)據(jù)計算服務(wù)MaxCompute(前ODPS),關(guān)系型數(shù)據(jù)庫ADS(類似Impala),以及基于Java的Storm系統(tǒng)JStorm(前Galaxy)。
我們看看大數(shù)據(jù)技術(shù)生態(tài)中的不同解決方案,也對比看看阿里云數(shù)加的解決方案,最后我也會單獨(dú)介紹數(shù)加。
1、大數(shù)據(jù)生態(tài)技術(shù)體系
Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。Hadoop的框架最核心的設(shè)計就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲,則MapReduce為海量的數(shù)據(jù)提供了計算。Hadoop作為一個基礎(chǔ)框架,上面也可以承載很多其它東西,比如Hive,不想用程序語言開發(fā)MapReduce的人,熟悉SQL的人可以使用Hive開離線的進(jìn)行數(shù)據(jù)處理與分析工作。比如HBase,作為面向列的數(shù)據(jù)庫運(yùn)行在HDFS之上,HDFS缺乏隨即讀寫操作,HBase正是為此而出現(xiàn),HBase是一個分布式的、面向列的開源數(shù)據(jù)庫。
Spark也是Apache基金會的開源項目,它由加州大學(xué)伯克利分校的實驗室開發(fā),是另外一種重要的分布式計算系統(tǒng)。Spark與Hadoop最大的不同點(diǎn)在于,Hadoop使用硬盤來存儲數(shù)據(jù),而Spark使用內(nèi)存來存儲數(shù)據(jù),因此Spark可以提供超過Hadoop100倍的運(yùn)算速度。Spark可以通過YARN(另一種資源協(xié)調(diào)者)在Hadoop集群中運(yùn)行,但是現(xiàn)在的Spark也在往生態(tài)走,希望能夠上下游通吃,一套技術(shù)棧解決大家多種需求。比如Spark Shark,是為了VS hadoop Hive,Spark Streaming是為了VS Storm。
Storm是Twitter主推的分布式計算系統(tǒng),它由BackType團(tuán)隊開發(fā),是Apache基金會的孵化項目。它在Hadoop的基礎(chǔ)上提供了實時運(yùn)算的特性,可以實時的處理大數(shù)據(jù)流。不同于Hadoop和Spark,Storm不進(jìn)行數(shù)據(jù)的收集和存儲工作,它直接通過網(wǎng)絡(luò)實時的接受數(shù)據(jù)并且實時的處理數(shù)據(jù),然后直接通過網(wǎng)絡(luò)實時的傳回結(jié)果。Storm擅長處理實時流式。比如日志,比如網(wǎng)站購物的點(diǎn)擊流,是源源不斷、按順序的、沒有終結(jié)的,所以通過Kafka等消息隊列來了數(shù)據(jù)后,Storm就一邊開始工作。Storm自己不收集數(shù)據(jù)也不存儲數(shù)據(jù),隨來隨處理隨輸出結(jié)果。
其上的模塊只是大規(guī)模分布式計算底層的通用框架,通常也用計算引擎來描述他們。
除了計算引擎,想要做數(shù)據(jù)的加工應(yīng)用,我們還需要一些平臺工具,如開發(fā)IDE,作業(yè)調(diào)度系統(tǒng),數(shù)據(jù)同步工具,BI模塊,數(shù)據(jù)管理,監(jiān)控報警等等,他們與計算引擎一起,構(gòu)成大數(shù)據(jù)的基礎(chǔ)平臺。
在這個平臺上,我們就可以基于數(shù)據(jù)做大數(shù)據(jù)的加工應(yīng)用,開發(fā)數(shù)據(jù)應(yīng)用產(chǎn)品了。
比如一個餐廳,為了做中餐,西餐,日料,西班牙菜,它必須食材(數(shù)據(jù)),配合不同的廚具(大數(shù)據(jù)底層計算引擎),加上不同的佐料(加工工具)才能做出做出不同類型的菜系;但是為了接待大批量的客人,他必須配備更大的廚房空間,更強(qiáng)的廚具,更多的廚師(分布式);做的菜到底好吃不好吃,這又得看廚師的水平(大數(shù)據(jù)加工,應(yīng)用能力)。
2、阿里大數(shù)據(jù)體系
我們先看一下阿里的計算引擎三件套。
阿里云最早先使用Hadoop解決方案,并且成功的把Hadoop單集群規(guī)模擴(kuò)展到5000臺規(guī)模。2010年起,阿里云開始獨(dú)立研發(fā)了類似Hadoop的分布式計算平臺Maxcompute平臺(前ODPS),目前單集群規(guī)模過萬臺,并支持多集群聯(lián)合計算,可以在6個小時內(nèi)處理完100PB的數(shù)據(jù)量,相當(dāng)于一億部高清電影。
分析型數(shù)據(jù)庫服務(wù)ADS(AnalyticDB) ,是一套RT-OLAP(Realtime OLAP,實時 OLAP)系統(tǒng)。在數(shù)據(jù)存儲模型上,采用自由靈活的關(guān)系模型存儲,可以使用 SQL進(jìn)行自由靈活的計算分析,無需預(yù)先建模;而利用分布式計算技術(shù),ADS可以在處理百億條甚至更多量級的數(shù)據(jù)上達(dá)到甚至超越MOLAP類系統(tǒng)的處理性能,真正實現(xiàn)百億數(shù)據(jù)毫秒級計算。ADS是采用搜索+數(shù)據(jù)庫技術(shù)的數(shù)據(jù)高度預(yù)分布類MPP架構(gòu),初始成本相對比較高,但是查詢速度極快,高并發(fā)。而類似的產(chǎn)品Impala,采用Dremel數(shù)據(jù)結(jié)構(gòu)的低預(yù)分布MPP架構(gòu),初始化成本相對比較低,并發(fā)與響應(yīng)速度也相當(dāng)慢一些。
流計算產(chǎn)品(前Galaxy),可以針對大規(guī)模流動數(shù)據(jù)在不斷變化運(yùn)動過程中實時的進(jìn)行分析 ,是阿里巴巴開源的基于Storm采用Java重寫的一套分布式實時流計算框架,也叫JStorm,對比產(chǎn)品是Storm或者是Spark Streaming。最近阿里云會開始公測stream sql,通過sql 的方式來實現(xiàn)實時的流式計算,降低了使用流式計算技術(shù)的使用門檻。
除了計算引擎部分,整個阿里大數(shù)據(jù)技術(shù)生態(tài),我在數(shù)加的文章中再詳細(xì)介紹。
未來的大數(shù)據(jù)底層技術(shù)又將會怎么發(fā)展呢,個人覺得,會有如下兩個要點(diǎn)發(fā)展:
1、數(shù)據(jù)處理云端化與生態(tài)化
數(shù)據(jù)未來一定是互聯(lián)互通才有價值,目前的私有云大數(shù)據(jù)解決方案是一個過渡階段,未來大數(shù)據(jù)需要的是更大型,更專業(yè)的平臺。這里才可以實現(xiàn)整個大數(shù)據(jù)的生態(tài)體系(后面的文章會介紹到)。包括了數(shù)據(jù)本身的交易市場(大數(shù)據(jù)交易平臺),以及加工數(shù)據(jù)的工具,算法(或基于算法的引擎,接口,產(chǎn)品)的交易市場,類似目前的App Store。
數(shù)據(jù)生態(tài)是一個非常大的市場。
2、云端數(shù)倉一體化
未來很多企業(yè)將受益于云端數(shù)據(jù)庫/數(shù)據(jù)倉庫一體化的解決方案中,從現(xiàn)在的技術(shù)看來,大數(shù)據(jù)平臺越來越具備實時的能力;在線的業(yè)務(wù)數(shù)據(jù)庫越來越具備分布式計算的能力。當(dāng)這些能力整合,統(tǒng)一的時候,在線/離線的界限又將變得不再清晰,整個數(shù)據(jù)技術(shù)體系又會回到當(dāng)初的數(shù)據(jù)庫/數(shù)據(jù)倉庫一體化。
四,數(shù)據(jù)應(yīng)用
講了這么多的大數(shù)據(jù)相關(guān)定義與相關(guān)技術(shù)了,那大數(shù)據(jù)怎么轉(zhuǎn)變?yōu)樯虡I(yè)價值呢,這又是一個大的話題。阿里在大數(shù)據(jù)的應(yīng)用上,最早的提出了存、通、用三個概念,而現(xiàn)在大數(shù)據(jù)應(yīng)用更多是在談數(shù)據(jù)反饋閉環(huán)。根據(jù)數(shù)據(jù)反饋閉環(huán),我們又把數(shù)據(jù)使用分成如下幾個層面來描述:
一、數(shù)據(jù)化
所謂存,其實就是大數(shù)據(jù)的采集與存儲,必須先有數(shù)據(jù),其實前幾篇已經(jīng)介紹過了。很多時候,如果我們連數(shù)據(jù)都沒有,大數(shù)據(jù)只能是空中樓閣。所以,一個想要做大數(shù)據(jù)的企業(yè),必須先想辦法擁有數(shù)據(jù),或者采集、爬取、購買數(shù)據(jù)。
關(guān)于通,前面也講過了,主要是兩個層面的問題:
其一是指數(shù)據(jù)的互通,比如一個企業(yè)內(nèi)部存在很多信息孤島,信息孤島之間必須打通,形成統(tǒng)一的大數(shù)據(jù)平臺。關(guān)于通,最好的辦法其實就是企業(yè)建立一個統(tǒng)一的大數(shù)據(jù)平臺,不管這個大數(shù)據(jù)平臺是基于私有云(如Hadoop生態(tài)的解決方案),還是基于公共云(如阿里云數(shù)加的解決方案),當(dāng)所有的數(shù)據(jù)上傳到這個大數(shù)據(jù)平臺,數(shù)據(jù)天然就打通了。
其二是數(shù)據(jù)的標(biāo)準(zhǔn),如果想讓不同的數(shù)據(jù)源可以相互關(guān)聯(lián),形成更大的效應(yīng),就跟我在上文講到的一樣,就得有數(shù)據(jù)標(biāo)準(zhǔn)。如上文所言,數(shù)據(jù)標(biāo)準(zhǔn)不僅僅可以指導(dǎo)ETL過程中的數(shù)據(jù)清洗,數(shù)據(jù)校驗,好的數(shù)據(jù)標(biāo)準(zhǔn)還可以使得無線的數(shù)據(jù)跟PC的數(shù)據(jù)相互關(guān)聯(lián)互通,甚至企業(yè)之間的數(shù)據(jù)關(guān)聯(lián)互通。
這些過程,我們可以把它叫做數(shù)據(jù)化的過程,也就是大數(shù)據(jù)的基本要素 -- 數(shù)據(jù)的形成。
二、算法
用,就是大數(shù)據(jù)的加工使用,指采用數(shù)據(jù)科技的相關(guān)技術(shù),對大數(shù)據(jù)進(jìn)行加工,分析,并最終創(chuàng)造商業(yè)價值的過程。這個過程中,最核心就是算法。我們提到算法時,往往也會談到引擎,僅僅提引擎一詞,更多想到的可能是汽車的發(fā)動機(jī)。汽車引擎不管多復(fù)雜,其實輸入輸出是很簡單的,需要的是汽油+空氣,輸出動力(汽油的能量)。大數(shù)據(jù)的引擎可能是一組算法的封裝,數(shù)據(jù)就是輸入的汽油,通過引擎的轉(zhuǎn)換,輸出數(shù)據(jù)中的能量,提供給更上層的數(shù)據(jù)產(chǎn)品或者服務(wù),從而產(chǎn)生商業(yè)價值。
算法也是“機(jī)器學(xué)習(xí)”的核心,機(jī)器學(xué)習(xí)又是”人工智能“的核心,是使計算機(jī)具有智能的根本途徑。在過去十年,機(jī)器學(xué)習(xí)促成了無人駕駛車、高效語音識別、精確網(wǎng)絡(luò)搜索及人類基因組認(rèn)知的大力發(fā)展。
如果你不去利用數(shù)據(jù),世界上的數(shù)據(jù)就不會有用。算法其實指的是如何在業(yè)務(wù)過程中有效拓展人為管理,利用數(shù)據(jù)。
從根本上來說,數(shù)據(jù)是不會說話的,只有數(shù)據(jù)沒有任何價值。如果擁有大量的數(shù)據(jù),而不知道怎么使用 ,阿里曾經(jīng)做過一個比喻,“坐在金山上啃饅頭”。大數(shù)據(jù)真正的價值在算法,算法決定行動。在不遠(yuǎn)的未來,“所有業(yè)務(wù)都將成為算法業(yè)務(wù)”,算法才是真正價值所在,世界上所有大規(guī)模的東西都將被數(shù)據(jù)和算法所管理。
DT時代的智能商業(yè)對算法提出了全新的要求:算法的迭代方向、參數(shù)工程等等,都必須與商業(yè)邏輯、機(jī)制設(shè)計、甚至是價值觀取向融合為一。當(dāng)算法迭代優(yōu)化時,決定其方向的不僅是數(shù)據(jù)和機(jī)器本身的特性,更包含了我們對商業(yè)本質(zhì)的理解、對人性的洞察和創(chuàng)造未來商業(yè)新樣貌的理想。 這就是我們稱算法為智能商業(yè)的“引擎”而非“工具”的關(guān)鍵理由,它是智能的核心。 基于數(shù)據(jù)和算法,完成“機(jī)器學(xué)習(xí)”,實現(xiàn)“人工智能”。
三、數(shù)據(jù)產(chǎn)品(或數(shù)據(jù)應(yīng)用)
把用戶,數(shù)據(jù)和算法巧妙地連接起來的,是數(shù)據(jù)產(chǎn)品(或數(shù)據(jù)應(yīng)用),這也是互聯(lián)網(wǎng)時代特別強(qiáng)調(diào)產(chǎn)品重要性的根本原因。因此,智能商業(yè)的成功,最關(guān)鍵的一步往往是一個極富想象力的創(chuàng)新產(chǎn)品,針對某個用戶問題,定義了全新的用戶體驗方式,同時啟動了數(shù)據(jù)智能的引擎,持續(xù)提升用戶體驗。
智能化數(shù)據(jù)產(chǎn)品的要求是非常高的,不僅僅是與最終用戶形成個性化,智能化的交互,有完好的用戶體驗與突破的技術(shù)創(chuàng)新之外,最重要的,同時需要再次記錄數(shù)據(jù),使得用戶反饋的閉環(huán)得以發(fā)生。
整個過程是自動的、智能的、可學(xué)習(xí)提升的,它是大數(shù)據(jù)時代的靈魂,是智能商業(yè)的根基。智能商業(yè)的核心特征就是能主動地了解用戶,通過學(xué)習(xí)不斷提升用戶體驗。智能商業(yè)的成功,最關(guān)鍵的一步往往是一個極富想象力的創(chuàng)新產(chǎn)品,針對某個用戶問題,定義了全新的用戶體驗方式,同時啟動了數(shù)據(jù)智能的引擎,持續(xù)提升用戶體驗。智能模塊和學(xué)習(xí)功能將成為應(yīng)用的大腦
比如螞蟻小貸,通過數(shù)據(jù)和產(chǎn)品的緊密融合,基于算法的數(shù)據(jù)智能實時發(fā)揮作用,最終能實現(xiàn)秒級放貸,這個是傳統(tǒng)的金融服務(wù)沒法想象的。同時,獲貸后的用戶產(chǎn)生的數(shù)據(jù),又被源源不斷的采集起來,作為未來更多判斷的基礎(chǔ)。
再比如搜索系統(tǒng),用戶的任何一次點(diǎn)擊行為,都被實時記錄并反饋到智能化的算法引擎,不僅優(yōu)化了你的搜索結(jié)果,而且優(yōu)化了任何搜索這個關(guān)鍵詞的人得到的搜索結(jié)果。
這樣的智能商業(yè),才是對傳統(tǒng)商業(yè)的顛覆,才是真正的“降維”攻擊,勝者一騎絕塵。
四、反饋閉環(huán)
上面已經(jīng)談到自動化、智能化、可學(xué)習(xí)提升的反饋閉環(huán),閉環(huán)的形成決定了智能化商業(yè)的形成,但是,閉環(huán)的效率決定了大數(shù)據(jù)的使用效率。所以說,一個好的大數(shù)據(jù)產(chǎn)品,不僅僅是有用戶反饋閉環(huán),而且需要一個高效的用戶反饋閉環(huán)。
用戶行為通過產(chǎn)品實時反饋到數(shù)據(jù)平臺,通過數(shù)據(jù)智能算法,優(yōu)化結(jié)果又通過數(shù)據(jù)產(chǎn)品實時提升用戶體驗,在這樣的反饋閉環(huán)中,數(shù)據(jù)既是高速流動的介質(zhì),又持續(xù)增值;算法既是推動反饋閉環(huán)運(yùn)轉(zhuǎn)的引擎,又持續(xù)優(yōu)化;產(chǎn)品既是反饋閉環(huán)的載體,又持續(xù)改進(jìn)功能,在為用戶提供更贊的產(chǎn)品體驗的同時,也促使數(shù)據(jù)反饋更低成本、更高效率地發(fā)生。
五,數(shù)據(jù)生態(tài)
DT時代將催化出大數(shù)據(jù)生態(tài)。DT時代的數(shù)據(jù)生態(tài),我從如下兩個方面來定義:
一、數(shù)據(jù)交換/交易市場
智能商業(yè)的基石就是數(shù)據(jù),作為智能商業(yè)的第一要務(wù),數(shù)據(jù)是最重要的。
數(shù)據(jù)作為生產(chǎn)資料,大數(shù)據(jù)時代的血液,好比汽車的汽油,沒有汽油,再精美高端的汽車也無法運(yùn)轉(zhuǎn)。而數(shù)據(jù)的來源往往是多方面的,未來一個企業(yè)所用到的數(shù)據(jù)往往不僅僅是自身的數(shù)據(jù),甚至是多個渠道交換、整合、購買過來的數(shù)據(jù)。對于“羊毛出在豬身上”的大數(shù)據(jù)商業(yè)形態(tài),數(shù)據(jù)一定是流動的,數(shù)據(jù)只有整合關(guān)聯(lián),才能發(fā)揮更大的價值。
但是數(shù)據(jù)要實現(xiàn)交換,交易,正如我上文所言,我們最終所必須解決的是法律法規(guī),數(shù)據(jù)標(biāo)準(zhǔn)等一系列問題。
二、算法經(jīng)濟(jì)/生態(tài)
Gartner分析認(rèn)為,算法將形成一個全球性的交易市場,就像當(dāng)年的App,催生出全新一代的專業(yè)技術(shù)初創(chuàng)企業(yè),并且革新機(jī)器與機(jī)器之間的交互方式。
同時,更多的數(shù)據(jù)將生成更好的模型和用戶體驗,進(jìn)而吸引更多的用戶以及更多的數(shù)據(jù),而這將導(dǎo)致儲存和計算數(shù)據(jù)的成本持續(xù)降低。
Gartner曾發(fā)表報告,對算法經(jīng)濟(jì)可能帶來的市場影響做出評估。
Gartner認(rèn)為,無可避免地,算法經(jīng)濟(jì)將創(chuàng)造一個全新的市場。人們可以對各種算法進(jìn)行買賣,為當(dāng)下的公司匯聚大量的額外收入,并催生出全新一代的專業(yè)技術(shù)初創(chuàng)企業(yè)。
想象這樣一個市場:數(shù)十億的算法都是可以買賣的,每一個算法代表的是一種軟件代碼,能解決一個或多個技術(shù)難題,或者從物聯(lián)網(wǎng)的指數(shù)級增長中創(chuàng)造一個新的機(jī)會。
算法是創(chuàng)造智能應(yīng)用的基石,是大數(shù)據(jù)的核心價值。
也就是說,多個機(jī)器學(xué)習(xí)算法可以結(jié)合起來成為更強(qiáng)大的算法,從而更好地分析數(shù)據(jù),充分挖掘數(shù)據(jù)里的價值。
在算法經(jīng)濟(jì)中,前沿的技術(shù)項目,無論是先進(jìn)的智能助理,還是能夠自動計算庫存的無人機(jī),最終都將落實成為實實在在的代碼,供人們交易和使用。
廣義的算法存在于大數(shù)據(jù)的整個閉環(huán)之中,從大數(shù)據(jù)平臺、ETL(數(shù)據(jù)采集,數(shù)據(jù)清洗,數(shù)據(jù)脫敏等)、數(shù)據(jù)加工、數(shù)據(jù)產(chǎn)品等的每一個層面都會有算法支持。算法可以直接交易,也可以包裝成產(chǎn)品、工具、服務(wù),甚至平臺來交易,最終形成大數(shù)據(jù)生態(tài)中的一個重要組成部分。
甚至有人認(rèn)為好的算法能夠擺脫很多公司對大數(shù)據(jù)的過度依賴。盡管數(shù)據(jù)在DT時代可能是最昂貴的生產(chǎn)資料,但若算法足夠強(qiáng)大,大數(shù)據(jù)并非必須。如遷移學(xué)習(xí)能讓計算機(jī)擺脫對大數(shù)據(jù)的嚴(yán)重依賴,從而讓人工智能不再只是“富人的游戲”。
正如App經(jīng)濟(jì)變革了人類與機(jī)器的交互方式一樣,我們將會看到,算法經(jīng)濟(jì)將會促進(jìn)下一代機(jī)器對機(jī)器互動演進(jìn)的巨大飛躍。
人們將會通過產(chǎn)品使用的算法來評價它的性能好壞。企業(yè)的競爭力也不僅僅在于大數(shù)據(jù),還要有能夠把數(shù)據(jù)轉(zhuǎn)換為實際應(yīng)用的算法。因此,CEO應(yīng)該關(guān)注公司有產(chǎn)權(quán)的算法,而不僅僅是大數(shù)據(jù)。
正在涌現(xiàn)的機(jī)器智能平臺可憑借“模型作為服務(wù)”的方式,托管預(yù)訓(xùn)練過的機(jī)器學(xué)習(xí)模型,從而令企業(yè)能夠更容易地開啟機(jī)器學(xué)習(xí),快速將其應(yīng)用從原型轉(zhuǎn)化成產(chǎn)品。當(dāng)企業(yè)們采用了微服務(wù)(microservice)發(fā)展范式后,接入并使用不同的機(jī)器學(xué)習(xí)模型和服務(wù)以提供特定功能的能力將變得越來越有價值。
所有的這一切,最終也離不開云計算,數(shù)據(jù)平臺天然就是基于云計算來實現(xiàn)。而數(shù)據(jù)交換,算法交易則需要一個商店,云端就是目前最好的商店。不管是數(shù)據(jù)的互通,還是基于云端預(yù)訓(xùn)練、托管的機(jī)器學(xué)習(xí)模型,將促使每個公司的數(shù)據(jù)產(chǎn)品都能大規(guī)模地利用算法智能。
六,數(shù)加平臺
2016年1月20日,阿里云在2016云棲大會上海峰會上宣布開放阿里巴巴十年的大數(shù)據(jù)能力,發(fā)布全球首個一站式大數(shù)據(jù)平臺“數(shù)加”。
這一平臺承載了阿里云“普惠大數(shù)據(jù)”的理想,即讓全球任何一個企業(yè)、個人都能用上大數(shù)據(jù)。數(shù)加平臺首批集中發(fā)布了20款產(chǎn)品,覆蓋數(shù)據(jù)采集、計算引擎、數(shù)據(jù)加工、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)應(yīng)用等數(shù)據(jù)生產(chǎn)全鏈條。
“這是一個人人都在談大數(shù)據(jù)的時代,但只有極少數(shù)人在用大數(shù)據(jù)。” 阿里云大數(shù)據(jù)事業(yè)部資深總監(jiān)徐常亮特別強(qiáng)調(diào)“這些技術(shù)至少領(lǐng)先業(yè)界三年”,在輸出自身大數(shù)據(jù)能力的同時,“數(shù)加”還向有數(shù)據(jù)開發(fā)能力的團(tuán)隊開放。這些團(tuán)隊可入駐“數(shù)加”,借助數(shù)加上的工具為各行業(yè)提供數(shù)據(jù)服務(wù)。“就像在淘寶開店一樣,只是他們售賣的是專業(yè)能力。”
那數(shù)加到底是什么呢?我們從如下幾個方面來分析一下:
一、數(shù)加的來世今生
我覺得阿里對數(shù)據(jù)的重視非常早,而且也是非常愿意投入的。
早在阿里云成立之前,應(yīng)該是06、07年左右,七公就組建了一只數(shù)據(jù)平臺部的團(tuán)隊,它就是數(shù)據(jù)事業(yè)部(CDO)的前身。在云端、數(shù)據(jù)魔方、淘寶時光機(jī)、淘寶指數(shù)、TCIF、阿里媽媽DMP、全景洞察等都是出自這個團(tuán)隊之手 ,這個團(tuán)隊專業(yè)解決淘寶早期數(shù)據(jù)倉庫、數(shù)據(jù)集市、以及數(shù)據(jù)分析相關(guān)的專業(yè)問題。
09年的時候,王堅來到阿里,講了云計算、大數(shù)據(jù)未來的愿景,可是當(dāng)時沒有幾個人能聽懂,但是,我覺得馬總還是很厲害的,他信了。然后,阿里提出了云計算、大數(shù)據(jù)相關(guān)戰(zhàn)略,阿里云也就在那時成立了。
數(shù)據(jù)平臺事業(yè)部最早使用的并不是現(xiàn)在在用的MaxCompute(原ODPS),而是Hadoop,原h(huán)adoop集群令名為云梯1,當(dāng)時阿里也在研發(fā)自己的計算平臺,就是原ODPS,并令名為云梯2。
云梯2在開始的時候,并不是很好用,不過,拿到了內(nèi)部一個很大的客戶,就是阿里金融的螞蟻小貸;旧弦部梢赃@么說,沒有螞蟻小貸的磨合,基本很難有現(xiàn)在的MaxCompute。
云梯1、云梯2在內(nèi)部爭吵了很長一段時間,后來,出于各方的考慮,公司決定,啟動登月項目,從云梯1全部遷移到云梯2。
不管是云梯1,還是云梯2,其實,都只是整個大數(shù)據(jù)技術(shù)生態(tài)系統(tǒng)中很小的一塊,也就是計算引擎那一塊,正如我上面所講的,一個屬于hadoop生態(tài)系統(tǒng),一個屬于阿里云自建的數(shù)加生態(tài)系統(tǒng)。
云梯1當(dāng)時在內(nèi)部使用也很廣泛,所有內(nèi)部的數(shù)據(jù)加工,數(shù)據(jù)應(yīng)用基本上都是基于云梯1的,而且,云梯1通過5K項目,成功使單集群的規(guī)模擴(kuò)展到了5000臺。而云梯2的生態(tài)是后來慢慢建立起來的,包括底層計算平臺,開發(fā)工具/組件,基于各自算法的計算引擎/服務(wù),以及最上層的各種數(shù)據(jù)應(yīng)用/產(chǎn)品,是在云梯1遷移到云梯2的過程中,這些工具,引擎,應(yīng)用才慢慢完善,統(tǒng)一。
當(dāng)然,現(xiàn)在阿里云的整個系統(tǒng),包括內(nèi)部系統(tǒng),都是應(yīng)用在數(shù)加的技術(shù)之上,這個也是阿里歷來的習(xí)慣,把內(nèi)部使用、驗證過的東西,提供給社會使用。這樣的好處在于與單純做產(chǎn)品的大數(shù)據(jù)公司相比,勝在有場景,有需求,成熟度更高。
二、數(shù)加平臺生態(tài)的組成
數(shù)加平臺生態(tài)
個人覺得,可以用如下幾個層面來描述整個數(shù)加生態(tài)體系:
1、數(shù)加底層技術(shù)平臺
主要包括:
Maxcompute(原名ODPS)是“數(shù)加”底層的計算引擎。有兩個維度可以看這個計算引擎的性能,1)6小時處理100PB數(shù)據(jù),相當(dāng)于1億部高清電影。2)單集群規(guī)模過萬臺,并支持多集群聯(lián)合計算。
Analytic DB是實時多維分析引擎,可以實現(xiàn)百億量級多維查詢只需100毫秒。阿里巴巴內(nèi)部很多面向海量互聯(lián)網(wǎng)用戶的產(chǎn)品的在線大數(shù)據(jù)查詢,很大程度上依賴于Analytic DB。
流計算(StreamCompute)具有低延時、高性能的特點(diǎn)。每秒查詢率可以達(dá)到千萬級,日均處理萬億條消息、PB量級的數(shù)據(jù)。
計算引擎之上,“數(shù)加”提供了最豐富的云端數(shù)據(jù)開發(fā)套件,開發(fā)者可一站式完成數(shù)據(jù)加工。這些產(chǎn)品包含:數(shù)據(jù)集成、數(shù)據(jù)開發(fā)、調(diào)度系統(tǒng)、數(shù)據(jù)管理、運(yùn)維視屏、數(shù)據(jù)質(zhì)量、任務(wù)監(jiān)控。
整體來看,大數(shù)據(jù)開發(fā)套件的優(yōu)勢包括:支持100人以上協(xié)同設(shè)計、開發(fā)、運(yùn)維;具有良好的擴(kuò)展性;提供各個產(chǎn)品功能模塊的Open API,可二次開發(fā);多個數(shù)據(jù)實例之間的數(shù)據(jù)授權(quán)機(jī)制,確保數(shù)據(jù)只能使用卻不可見;提供白屏化的運(yùn)維能力,以及字段級數(shù)據(jù)質(zhì)量監(jiān)控、機(jī)器預(yù)警、資源使用率監(jiān)控等功能,讓用戶更好的掌控自己的數(shù)據(jù)及數(shù)據(jù)任務(wù)。
計算引擎與大數(shù)據(jù)開發(fā)套件相互依賴,組成了數(shù)加的底層技術(shù)平臺,對應(yīng)到我上文提到的Hadoop技術(shù)平臺。
阿里云的主要目標(biāo)應(yīng)該是做好這個技術(shù)平臺,并將平臺的能力更多更快更好地開放出來,這一層才是阿里云大數(shù)據(jù)的核心競爭力。
2、數(shù)加應(yīng)用平臺生態(tài)體系
基于上面的技術(shù)平臺,阿里在數(shù)加上還開放了規(guī)則引擎、推薦引擎、文字識別、智能語音交互、DataV可視化等數(shù)據(jù)引擎、服務(wù)、產(chǎn)品。這些產(chǎn)品很多都是從阿里自身的業(yè)務(wù)中提煉出來的,可以直接提供給企業(yè)使用,并組合成各種不同的解決方案。
比如:
“數(shù)加”發(fā)布的機(jī)器學(xué)習(xí),可基于海量數(shù)據(jù)實現(xiàn)對用戶行為、行業(yè)走勢、天氣、交通等的預(yù)測。圖形化編程讓用戶無需編碼、只需用鼠標(biāo)拖拽標(biāo)準(zhǔn)化組件即可完成開發(fā)。產(chǎn)品還集成了阿里巴巴核心算法庫,包括特征工程、大規(guī)模機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等。
規(guī)則引擎是一款用于解決業(yè)務(wù)規(guī)則頻繁變化的在線服務(wù),可通過簡單組合預(yù)定義的條件因子編寫業(yè)務(wù)規(guī)則,并做出業(yè)務(wù)決策。比如,銀行會設(shè)置如果10分鐘內(nèi)用戶在兩個省份交易,則需要電話確認(rèn)。
推薦引擎是一款用于實時預(yù)測用戶對物品偏好的數(shù)據(jù)工具,它能夠幫助客戶發(fā)現(xiàn)眾多物品中用戶最感興趣什么。
文字識別提供自然場景下拍攝的圖片中英文文字檢測、識別以及常見的證件類檢測和識別。
智能語音交互基于語音和自然語言技術(shù)構(gòu)建的在線服務(wù),為智能手機(jī)、智能電視以及物聯(lián)網(wǎng)等產(chǎn)品提供“能聽、會說、懂你”式的智能人機(jī)交互體驗。
數(shù)加最終的目的,不是阿里云自己來研發(fā)所有這些數(shù)據(jù)服務(wù),重點(diǎn)是“數(shù)加”大數(shù)據(jù)平臺也將向有數(shù)據(jù)開發(fā)能力的團(tuán)隊開放。這些團(tuán)隊可入駐“數(shù)加”,借助數(shù)加上的工具為各行各業(yè)提供數(shù)據(jù)服務(wù)。阿里云計劃用3年時間吸引1000家合作伙伴入駐,共同分享1萬億的大數(shù)據(jù)蛋糕。
基于底層的技術(shù)平臺,上層開放則可以形成豐富的生態(tài) 。通過開放式的平臺,凝聚行業(yè)的力量,為更多的企業(yè)和個人提供大數(shù)據(jù)服務(wù),這就是普惠的時代。大到行業(yè)的數(shù)據(jù)分析,預(yù)測行業(yè)發(fā)展方向;小到我們每一個個體,都可以享受大數(shù)據(jù)的服務(wù),方便個人生活。
3、數(shù)加交易生態(tài)體系
基于技術(shù)平臺與應(yīng)用平臺,個人覺得,未來可以在數(shù)加上構(gòu)建一個大數(shù)據(jù)的交易市場,可以包括:
應(yīng)用交易:上文中,我重點(diǎn)描述了數(shù)據(jù)生態(tài)以及算法經(jīng)濟(jì),算法作為大數(shù)據(jù)時代的另外一個重要要素,未來也是可交易的;谒惴ǖ母鞣N引擎,服務(wù),應(yīng)用等,既然可以基于數(shù)加來開發(fā),就可以不僅僅是自己用,甚至作為一個公共的服務(wù)或者產(chǎn)品來出售。
數(shù)據(jù)交易:數(shù)據(jù)是大數(shù)據(jù)時代的重要基本要素之一,也是大數(shù)據(jù)時代的基礎(chǔ)生產(chǎn)資料,大數(shù)據(jù)時代的血液。作為如此重要的生產(chǎn)資料,必須流通才能發(fā)揮大數(shù)據(jù)最大的價值。數(shù)加通過多租戶,可用不可見,擔(dān)保交易等設(shè)計,未來可以解決數(shù)據(jù)交易上的各種問題。
當(dāng)然,如果要實現(xiàn)大數(shù)據(jù)的交易,必須先解決數(shù)據(jù)的隱私、安全、法律法規(guī)、監(jiān)管等問題。在這些問題沒解決之前,仍有很長的路需要嘗試。
三、為什么選擇數(shù)加
小企業(yè)不僅自身缺乏數(shù)據(jù),自建大數(shù)據(jù)平臺更是折騰不起,往往周期很長,成本非常之高。很多自建的大數(shù)據(jù)平臺又因為沒有經(jīng)過各種實戰(zhàn)的檢驗,沒有相應(yīng)開發(fā)工具或者工具偏少而出現(xiàn)各種問題。
不過數(shù)加的出現(xiàn)將有望改善這一現(xiàn)狀。
根據(jù)阿里云披露的測算數(shù)據(jù):自建Hadoop集群的成本是數(shù)加的3倍多,國外計算廠商AWS的EMR成本更是數(shù)加的5倍。
從運(yùn)算效率來看,去年10月28日,Sort Benchmark在官方網(wǎng)站公布了2015年排序競賽的最終成績。其中阿里云用377秒完成了100TB的數(shù)據(jù)排序,打破了此前Apache Spark創(chuàng)造的23.4分鐘紀(jì)錄。
在含金量最高的GraySort和MinuteSort兩個評測系統(tǒng)中,阿里云分別在通用和專用目的排序類別中創(chuàng)造了4 項世界紀(jì)錄。
數(shù)加承載了阿里巴巴EB級別的數(shù)據(jù)加工計算,經(jīng)歷了上萬名工程師的實戰(zhàn)檢驗。
借助大數(shù)據(jù)技術(shù),阿里巴巴取得了巨大的商業(yè)成功。通過對
電子商務(wù)平臺上的客戶行為進(jìn)行分析,誕生了螞蟻小貸、花唄、借唄;菜鳥網(wǎng)絡(luò)通過電子面單、物流云、菜鳥天地等數(shù)據(jù)產(chǎn)品,為快遞行業(yè)的升級提供技術(shù)方法。
可以看到,通過數(shù)加,企業(yè)能獲得的不僅僅是可以更方便、更便宜地使用各種開發(fā)工具。其實,比開發(fā)工具更重要的是未來大數(shù)據(jù)的生態(tài),在數(shù)加上面,他們可以很方便地獲取各種自己想要的數(shù)據(jù)與服務(wù)。
“數(shù)加”的發(fā)布顯然降低了大數(shù)據(jù)的應(yīng)用門檻。通過 “數(shù)加”,任何一個企業(yè)、個人都能極為方便地進(jìn)行大數(shù)據(jù)的開發(fā)和應(yīng)用,最起碼,從速度、成本、開發(fā)效率上,有很大提升。
四、數(shù)加需要面對的問題
1、基于公共云數(shù)加的安全問題
有人擔(dān)心阿里是否會偷看或利用這些數(shù)據(jù),其實就是不相信阿里云。當(dāng)然阿里云官方的回答是斬釘截鐵的:不會!
阿里云大數(shù)據(jù)事業(yè)部資深總監(jiān)徐常亮強(qiáng)調(diào),數(shù)據(jù)是客戶的寶貴資產(chǎn),任何云計算平臺都不能移作他用。阿里云將嚴(yán)格遵守去年7月份發(fā)起的《數(shù)據(jù)保護(hù)倡議書》,也希望全行業(yè)能夠自律,共同迎接大數(shù)據(jù)產(chǎn)業(yè)的爆發(fā)。
2、基于專有云數(shù)加的規(guī)模問題
如果企業(yè)實在擔(dān)心數(shù)據(jù)的安全問題,想要建立自己的專有云解決方案,那么目前,基于數(shù)加的解決方案尚且過于復(fù)雜,沒有大量預(yù)算,基本上沒有辦法實現(xiàn)專有云的解決方案,所以,對中小企業(yè)來說,采用基于專用云數(shù)加的解決方案是不現(xiàn)實的。
就我個人的看法來說,未來的趨勢,一定是公共云解決方案。
因為:
1,數(shù)據(jù)需要流動,互相關(guān)聯(lián)才有最大的價值,所以,數(shù)據(jù)一定要交換、交易,這個要靠公共云來實現(xiàn)。,
2,數(shù)據(jù)加工的工具、算法、產(chǎn)品等等,也是一個共享的生態(tài),不能指望所有的東西都由自己來研發(fā)。跟工業(yè)社會一樣,未來的大數(shù)據(jù)時代,是一個全球化分工的時代,不能指望自己的工廠解決所有的問題。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:從數(shù)據(jù)來源、數(shù)據(jù)生態(tài)、數(shù)據(jù)技術(shù)、數(shù)加平臺等方面,漫談阿里大數(shù)據(jù)
本文網(wǎng)址:http://www.ezxoed.cn/html/solutions/14019320145.html