你在數(shù)字方面很拿手?數(shù)據(jù)令你感到著迷?那么你聽(tīng)到的聲音是機(jī)會(huì)正在敲門。因?yàn)?ldquo;大數(shù)據(jù)時(shí)代”已經(jīng)降臨,在這一領(lǐng)域擁有專長(zhǎng)的人士正面臨著許多新的機(jī)會(huì)。李浩,作為一名剛剛從清華大學(xué)畢業(yè)的MBA,在今年年初被EMC搶聘,加入了該公司迅速增長(zhǎng)中的數(shù)據(jù)顧問(wèn)團(tuán)隊(duì)。EMC數(shù)據(jù)顧問(wèn)的職責(zé)是幫助企業(yè)弄明白數(shù)據(jù)爆炸背后的意義——網(wǎng)絡(luò)流量和社交網(wǎng)絡(luò)評(píng)論,以及監(jiān)控出貨量、供應(yīng)商和客戶的軟件和傳感器等——用來(lái)指導(dǎo)決策、削減成本和提高銷售額。
為了開(kāi)發(fā)大數(shù)據(jù),類似EMC這樣的企業(yè)將需要許多象李浩一樣的人。值得關(guān)注的是,這些IT新貴們——最初是在谷歌、IBM,現(xiàn)在是在Facebook、EMC——都精通于駕馭網(wǎng)絡(luò)數(shù)據(jù)(網(wǎng)絡(luò)搜索、帖子和信息等)與互聯(lián)網(wǎng)廣告之間的關(guān)系。這意味著,這些IT、互聯(lián)網(wǎng)企業(yè)也面臨著一些新的商業(yè)機(jī)會(huì)——大數(shù)據(jù)改變了數(shù)據(jù)行業(yè)的生態(tài)系統(tǒng)。
所謂大數(shù)據(jù)的生態(tài)系統(tǒng),就是數(shù)據(jù)的生存周期。數(shù)據(jù)從產(chǎn)生,到處理,再到價(jià)值提取,最后被消費(fèi)掉,這整個(gè)過(guò)程就構(gòu)成了大數(shù)據(jù)的生態(tài)系統(tǒng)。在這個(gè)生態(tài)系統(tǒng)中,無(wú)論是數(shù)據(jù)的存儲(chǔ)、數(shù)據(jù)的處理、數(shù)據(jù)的分享、數(shù)據(jù)的檢索、數(shù)據(jù)的分析,還是數(shù)據(jù)的可視化,都存在著不同的商業(yè)需求。需求的出現(xiàn)必然會(huì)導(dǎo)致創(chuàng)新的產(chǎn)生。所以,在每個(gè)步驟都有不少初創(chuàng)公司在深耕自己所在的領(lǐng)域,試圖通過(guò)新技術(shù)和新方法來(lái)實(shí)現(xiàn)新的商業(yè)模式。
百度:大數(shù)據(jù)時(shí)代的自主路線
數(shù)據(jù)充斥所帶來(lái)的影響遠(yuǎn)遠(yuǎn)超出了預(yù)想。
“生命中的一天”(Day in the Life)系列攝影作品的創(chuàng)作人里克·斯莫蘭(Rick Smolan)正計(jì)劃在今年晚些時(shí)候推出一個(gè)新項(xiàng)目,這個(gè)名為“大數(shù)據(jù)的人類臉孔”(The Human Face of Big Data)的項(xiàng)目將記錄數(shù)據(jù)的采集和使用。斯莫蘭是一名狂熱分子,他認(rèn)為“大數(shù)據(jù)”有成為“人性儀表盤”的潛力,也就是一種能幫助人類與貧窮、犯罪和污染等現(xiàn)象展開(kāi)斗爭(zhēng)的智能工具。
事實(shí)上,數(shù)據(jù)不僅僅正在變得更加可用,同時(shí)也正在變得更加容易被計(jì)算機(jī)所理解。“大數(shù)據(jù)”發(fā)展趨勢(shì)中所增加的大部分?jǐn)?shù)據(jù)都是在自然環(huán)境下產(chǎn)生的,比如說(shuō)網(wǎng)絡(luò)言論、圖片和視頻等不受控制的東西,以及來(lái)自于傳感器的數(shù)據(jù)等。這些是所謂的“非結(jié)構(gòu)化數(shù)據(jù)”,通常不能為傳統(tǒng)的數(shù)據(jù)庫(kù)所用。但是,旨在從互聯(lián)網(wǎng)時(shí)代非結(jié)構(gòu)化數(shù)據(jù)的龐大“寶藏”中獲得知識(shí)和洞察力的計(jì)算機(jī)工具正在迅速發(fā)展中。在這種工具發(fā)展的最前沿是迅速取得進(jìn)步的人工智能(AI)技術(shù),比如說(shuō)自然語(yǔ)言處理、模式識(shí)別和機(jī)器學(xué)習(xí)等。
這些人工智能技術(shù)能應(yīng)用于許多領(lǐng)域。舉例來(lái)說(shuō),國(guó)內(nèi)的搜索巨頭百度,其搜索和廣告業(yè)務(wù)及都利用了很多的人工智能技術(shù)。百度的這兩項(xiàng)業(yè)務(wù)都讓“大數(shù)據(jù)”時(shí)代的挑戰(zhàn)變得真實(shí)起來(lái),它們對(duì)數(shù)量龐大的數(shù)據(jù)進(jìn)行分析,并作出瞬時(shí)的決策。
數(shù)據(jù)洪流
作為互聯(lián)網(wǎng)公司,百度每天都要面對(duì)海量數(shù)據(jù)。其每天收集幾千億網(wǎng)頁(yè),系統(tǒng)每天都產(chǎn)生海量日志,其容量達(dá)到百PB級(jí),需要數(shù)萬(wàn)臺(tái)服務(wù)器存儲(chǔ),這還不算用戶在使用百度產(chǎn)品中自己生成的內(nèi)容(UGC)和百度客戶的數(shù)據(jù),這部分?jǐn)?shù)據(jù)加起來(lái)就有幾個(gè)PB,僅這些數(shù)據(jù)就比傳統(tǒng)企業(yè)的大上成千上萬(wàn)倍。并且隨著網(wǎng)頁(yè)資源增加和搜索質(zhì)量提升,網(wǎng)頁(yè)和超鏈數(shù)據(jù)將隨之急劇增加。
對(duì)此,百度技術(shù)總監(jiān)陳尚義表示,百度數(shù)據(jù)呈現(xiàn)海量、高增長(zhǎng),結(jié)構(gòu)化和非結(jié)構(gòu)化大量并存,記錄大小差距巨大,數(shù)據(jù)一致性強(qiáng)弱不一,數(shù)據(jù)冷熱不均,突發(fā)事件常導(dǎo)致數(shù)據(jù)訪問(wèn)波峰等特點(diǎn)。與此同時(shí),百度業(yè)務(wù)對(duì)數(shù)據(jù)存儲(chǔ)和處理提出極高要求。要求數(shù)據(jù)高可用、高可靠、高通量、高時(shí)效、高并發(fā)、高可擴(kuò)展(簡(jiǎn)稱“六高”),要求百度的數(shù)據(jù)存儲(chǔ)能力和處理能力必須以非常簡(jiǎn)單的方式獲得擴(kuò)容,以降低維護(hù)升級(jí)的代價(jià)。
按照陳尚義的說(shuō)法,面對(duì)這些特點(diǎn)和要求,百度必須開(kāi)發(fā)自己的大數(shù)據(jù)存儲(chǔ)系統(tǒng)。不過(guò),在百度最早上線數(shù)據(jù)存儲(chǔ)系統(tǒng)時(shí),類似Hadoop和HDFS等開(kāi)源系統(tǒng)還沒(méi)有發(fā)布,而且還由于開(kāi)源系統(tǒng)的性能受限、無(wú)法充分利用機(jī)器的各種資源尤其是新硬件(flash/SSD)資源為特定的訪問(wèn)模式做優(yōu)化、缺乏滿足工業(yè)界的穩(wěn)定性等諸多原因,百度不能使用開(kāi)源系統(tǒng)。不僅開(kāi)源系統(tǒng)的用不上,而且市場(chǎng)上也無(wú)現(xiàn)成商業(yè)化產(chǎn)品可供百度使用,因?yàn)槿魏我粋(gè)廠商都沒(méi)有如此海量、如此復(fù)雜的數(shù)據(jù)。
自主開(kāi)發(fā)
百度一開(kāi)始就自主開(kāi)發(fā)了大數(shù)據(jù)存儲(chǔ)系統(tǒng),用于存儲(chǔ)網(wǎng)頁(yè)和超鏈、客戶信息和用戶產(chǎn)品、系統(tǒng)日志等海量數(shù)據(jù),支持Table、Pipe、File和KV等數(shù)據(jù)類型,滿足百度業(yè)務(wù)的流式和觸發(fā)式計(jì)算、文件存儲(chǔ)和訪問(wèn)、低延遲、高并發(fā)的需求。在此基礎(chǔ)之上,百度還面向廣大網(wǎng)民推出云存儲(chǔ)系統(tǒng),在前不久發(fā)布的百度易手機(jī)上,每個(gè)用戶可擁有100G的免費(fèi)存儲(chǔ)空間。
陳尚義介紹,為了應(yīng)對(duì)上百PB的數(shù)據(jù),滿足諸多近乎苛刻的要求,百度作出了巨大努力,“開(kāi)發(fā)了網(wǎng)頁(yè)更新模型,將對(duì)磁盤的隨機(jī)寫轉(zhuǎn)化為批量的順序?qū),大大提高了?shù)據(jù)的寫入速度,縮短了網(wǎng)頁(yè)數(shù)據(jù)的更新周期,提高了搜索引擎等產(chǎn)品的時(shí)效性;對(duì)涉及數(shù)據(jù)存儲(chǔ)和訪問(wèn)的各個(gè)方面進(jìn)行了全局優(yōu)化;定制Flash,使存儲(chǔ)系統(tǒng)直接對(duì)Flash的多通道(Multiple Chanel)編程,既提高了并發(fā)性,又提高了存儲(chǔ)資源的容量;采取多副本存儲(chǔ),以提高系統(tǒng)的可靠性和可用性;創(chuàng)造性地開(kāi)發(fā)了自主知識(shí)產(chǎn)權(quán)的復(fù)制協(xié)議(Replication Protocol);采取數(shù)據(jù)分治策略,保證數(shù)據(jù)存儲(chǔ)的各個(gè)部件可以水平擴(kuò)展,即通過(guò)簡(jiǎn)單地增加服務(wù)器就可以達(dá)到擴(kuò)展的目的;采用拆片存儲(chǔ)技術(shù),避免單機(jī)存儲(chǔ)熱點(diǎn)記錄或大記錄所帶來(lái)的性能瓶頸;運(yùn)用局部更新大記錄的策略,對(duì)于大記錄分塊存儲(chǔ),只有修改了的塊才被更新,而不是對(duì)整個(gè)大文件都重寫;采用三層數(shù)據(jù)存儲(chǔ)模型,將熱點(diǎn)數(shù)據(jù)存放于內(nèi)存,較熱的數(shù)據(jù)存放于flash, “冷”數(shù)據(jù)存放于磁盤,針對(duì)數(shù)據(jù)訪問(wèn)的特性充分利用各種資源的優(yōu)勢(shì)。
陳尚義透露,未來(lái),百度還將開(kāi)發(fā)跨數(shù)據(jù)中心的存儲(chǔ)系統(tǒng),面臨帶寬、通信穩(wěn)定性所帶來(lái)的壓力;在數(shù)據(jù)量、吞吐量急劇增大的背景下,不斷提高時(shí)效性、一致性、減低延遲、提高并發(fā);在新的Flash/SSD硬件和萬(wàn)M網(wǎng)絡(luò)的引入、數(shù)據(jù)存儲(chǔ)和處理瓶頸發(fā)生轉(zhuǎn)移的情況下,百度原來(lái)積累的存儲(chǔ)體系將面臨變革。
亞馬遜:創(chuàng)新者的機(jī)會(huì)
面對(duì)“大數(shù)據(jù)”的洪流, 亞馬遜的成功不僅僅在于它的敏銳,更在于能夠把商業(yè)機(jī)會(huì)變成商業(yè)現(xiàn)實(shí)。規(guī)模擴(kuò)張之后,亞馬遜還一次次在模式上“無(wú)中生有”,培育出新增長(zhǎng)點(diǎn);這家公司何以能有效創(chuàng)新?不斷蛻變的幕后邏輯到底是什么?
數(shù)據(jù)改變了什么
一方面是,亞馬遜是大數(shù)據(jù)技術(shù)的受益者,另一方面亞馬遜把這種技術(shù)迅速產(chǎn)品化,并延伸成為了一系列服務(wù)的支撐力。
數(shù)據(jù)化運(yùn)營(yíng)是亞馬遜成功的秘訣之一,已經(jīng)得到了廣泛的認(rèn)同。事實(shí)證明,亞馬遜會(huì)用數(shù)據(jù)來(lái)為平臺(tái)上的商家提供服務(wù),比如在某天某個(gè)時(shí)間段,監(jiān)測(cè)到網(wǎng)球拍賣得不錯(cuò),亞馬遜會(huì)去搜索看哪些商家在賣網(wǎng)球拍,如果該商家還只是在線下,他們會(huì)主動(dòng)去問(wèn),你需不需要把業(yè)務(wù)搬到亞馬遜平臺(tái)上去?亞馬遜全球商戶服務(wù)高級(jí)副總裁Sebastian說(shuō),亞馬遜還會(huì)根據(jù)實(shí)時(shí)的銷售數(shù)據(jù),幫助商家制訂未來(lái)銷售計(jì)劃。
當(dāng)然,基于自身的特點(diǎn)創(chuàng)新,亞馬遜還是大數(shù)據(jù)和云計(jì)算的先行者,它推出的S3云服務(wù)也早已成為云端存儲(chǔ)的業(yè)界標(biāo)準(zhǔn)。通過(guò)易于使用的API,用戶可以很方便地將各種數(shù)據(jù)對(duì)象放在云端,然后再像使用水電一般按用量收費(fèi)。S3根據(jù)用戶所占用的存儲(chǔ)空間、請(qǐng)求數(shù)和數(shù)據(jù)流量進(jìn)行階梯定價(jià)收費(fèi)。同時(shí),S3還為對(duì)數(shù)據(jù)可靠性的要求并不高的用戶提供了更為便宜的去冗余存儲(chǔ)模式。S3服務(wù)是典型的付費(fèi)服務(wù)商業(yè)模式,增長(zhǎng)十分迅速。2010年四季度共有2620億個(gè)對(duì)象儲(chǔ)存在S3上,而2011年四季度這個(gè)數(shù)字已經(jīng)翻了一倍,達(dá)到5660億。更難得的是,Amazon S3的云服務(wù)真正讓許多創(chuàng)業(yè)公司享受到了云計(jì)算帶來(lái)的便捷。使用S3作為存儲(chǔ)支持的文件分享服務(wù)Dropbox進(jìn)行的最近一輪融資,估值高達(dá)80億美元,每天上傳的文件多達(dá)2億個(gè)。
數(shù)據(jù)至上
有很多的軼事證據(jù)表明,數(shù)據(jù)至上的思考方式將帶來(lái)很高的回報(bào)。沃爾瑪(WMT)和Kohl’s等零售商也已經(jīng)開(kāi)始對(duì)銷售額、定價(jià)以及經(jīng)濟(jì)學(xué)、人口統(tǒng)計(jì)學(xué)和天氣數(shù)據(jù)進(jìn)行分析,藉此在特定的連鎖店中選擇合適的上架產(chǎn)品,并基于這些分析來(lái)判定商品減價(jià)的時(shí)機(jī)。UPS等貨運(yùn)公司也正在對(duì)卡車交貨時(shí)間和交通模式等相關(guān)數(shù)據(jù)進(jìn)行分析,以此對(duì)其運(yùn)輸路線進(jìn)行微調(diào)。
從另一個(gè)角度來(lái)看,大數(shù)據(jù)為云計(jì)算大規(guī)模與分布式的計(jì)算能力提供了應(yīng)用的空間,解決了傳統(tǒng)計(jì)算機(jī)無(wú)法解決的問(wèn)題。同時(shí)這個(gè)領(lǐng)域的計(jì)算標(biāo)準(zhǔn)與軟件均剛剛起步,為全世界新型軟、硬件及應(yīng)用創(chuàng)新提供了前所未有的機(jī)會(huì)。這一點(diǎn),在寬帶資本CEO田溯寧那里得到了印證,他表示,“數(shù)據(jù)中心正在成為新時(shí)代的‘信息電廠’,成為知識(shí)經(jīng)濟(jì)的基礎(chǔ)設(shè)施。從海量數(shù)據(jù)中提取有價(jià)值的信息,數(shù)據(jù)分析使數(shù)據(jù)變得更有意義,并將影響政府、金融、零售、娛樂(lè)、媒體等各個(gè)領(lǐng)域,帶來(lái)革命性的變化”。
亞馬遜正在成為各種“信息電廠”鏈條上最重要的合作伙伴。最近,美國(guó)最大的共同基金公司Fidelity表示,他們將攜手亞馬遜在其網(wǎng)站上推出一個(gè)新的金融服務(wù)欄目,F(xiàn)idelity將成為“主要”的內(nèi)容贊助商。
亞馬遜公司發(fā)言人Craig Berman表示,這項(xiàng)合作是亞馬遜繼續(xù)擴(kuò)張其業(yè)務(wù)范圍的一個(gè)舉措。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:大數(shù)據(jù)下的生態(tài)系統(tǒng)
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/1083936580.html