數(shù)據(jù)充斥所帶來(lái)的影響遠(yuǎn)遠(yuǎn)超出了預(yù)想。
“生命中的一天”(Day in the Life)系列攝影作品的創(chuàng)作人里克·斯莫蘭(Rick Smolan)正計(jì)劃在今年晚些時(shí)候推出一個(gè)新項(xiàng)目,這個(gè)名為“大數(shù)據(jù)的人類臉孔”(The Human Face of Big Data)的項(xiàng)目將記錄數(shù)據(jù)的采集和使用。斯莫蘭是一名狂熱分子,他認(rèn)為“大數(shù)據(jù)”有成為“人性儀表盤”的潛力,也就是一種能幫助人類與貧窮、犯罪和污染等現(xiàn)象展開(kāi)斗爭(zhēng)的智能工具。
事實(shí)上,數(shù)據(jù)不僅僅正在變得更加可用,同時(shí)也正在變得更加容易被計(jì)算機(jī)所理解。“大數(shù)據(jù)”發(fā)展趨勢(shì)中所增加的大部分?jǐn)?shù)據(jù)都是在自然環(huán)境下產(chǎn)生的,比如說(shuō)網(wǎng)絡(luò)言論、圖片和視頻等不受控制的東西,以及來(lái)自于傳感器的數(shù)據(jù)等。這些是所謂的“非結(jié)構(gòu)化數(shù)據(jù)”,通常不能為傳統(tǒng)的數(shù)據(jù)庫(kù)所用。但是,旨在從互聯(lián)網(wǎng)時(shí)代非結(jié)構(gòu)化數(shù)據(jù)的龐大“寶藏”中獲得知識(shí)和洞察力的計(jì)算機(jī)工具正在迅速發(fā)展中。在這種工具發(fā)展的最前沿是迅速取得進(jìn)步的人工智能(AI)技術(shù),比如說(shuō)自然語(yǔ)言處理、模式識(shí)別和機(jī)器學(xué)習(xí)等。
這些人工智能技術(shù)能應(yīng)用于許多領(lǐng)域。舉例來(lái)說(shuō),國(guó)內(nèi)的搜索巨頭百度,其搜索和廣告業(yè)務(wù)及都利用了很多的人工智能技術(shù)。百度的這兩項(xiàng)業(yè)務(wù)都讓“大數(shù)據(jù)”時(shí)代的挑戰(zhàn)變得真實(shí)起來(lái),它們對(duì)數(shù)量龐大的數(shù)據(jù)進(jìn)行分析,并作出瞬時(shí)的決策。
數(shù)據(jù)洪流
作為互聯(lián)網(wǎng)公司,百度每天都要面對(duì)海量數(shù)據(jù)。其每天收集幾千億網(wǎng)頁(yè),系統(tǒng)每天都產(chǎn)生海量日志,其容量達(dá)到百PB級(jí),需要數(shù)萬(wàn)臺(tái)服務(wù)器存儲(chǔ),這還不算用戶在使用百度產(chǎn)品中自己生成的內(nèi)容(UGC)和百度客戶的數(shù)據(jù),這部分?jǐn)?shù)據(jù)加起來(lái)就有幾個(gè)PB,僅這些數(shù)據(jù)就比傳統(tǒng)企業(yè)的大上成千上萬(wàn)倍。并且隨著網(wǎng)頁(yè)資源增加和搜索質(zhì)量提升,網(wǎng)頁(yè)和超鏈數(shù)據(jù)將隨之急劇增加。
對(duì)此,百度技術(shù)總監(jiān)陳尚義表示,百度數(shù)據(jù)呈現(xiàn)海量、高增長(zhǎng),結(jié)構(gòu)化和非結(jié)構(gòu)化大量并存,記錄大小差距巨大,數(shù)據(jù)一致性強(qiáng)弱不一,數(shù)據(jù)冷熱不均,突發(fā)事件常導(dǎo)致數(shù)據(jù)訪問(wèn)波峰等特點(diǎn)。與此同時(shí),百度業(yè)務(wù)對(duì)數(shù)據(jù)存儲(chǔ)和處理提出極高要求。要求數(shù)據(jù)高可用、高可靠、高通量、高時(shí)效、高并發(fā)、高可擴(kuò)展(簡(jiǎn)稱“六高”),要求百度的數(shù)據(jù)存儲(chǔ)能力和處理能力必須以非常簡(jiǎn)單的方式獲得擴(kuò)容,以降低維護(hù)升級(jí)的代價(jià)。
按照陳尚義的說(shuō)法,面對(duì)這些特點(diǎn)和要求,百度必須開(kāi)發(fā)自己的大數(shù)據(jù)存儲(chǔ)系統(tǒng)。不過(guò),在百度最早上線數(shù)據(jù)存儲(chǔ)系統(tǒng)時(shí),類似Hadoop和HDFS等開(kāi)源系統(tǒng)還沒(méi)有發(fā)布,而且還由于開(kāi)源系統(tǒng)的性能受限、無(wú)法充分利用機(jī)器的各種資源尤其是新硬件(flash/SSD)資源為特定的訪問(wèn)模式做優(yōu)化、缺乏滿足工業(yè)界的穩(wěn)定性等諸多原因,百度不能使用開(kāi)源系統(tǒng)。不僅開(kāi)源系統(tǒng)的用不上,而且市場(chǎng)上也無(wú)現(xiàn)成商業(yè)化產(chǎn)品可供百度使用,因?yàn)槿魏我粋(gè)廠商都沒(méi)有如此海量、如此復(fù)雜的數(shù)據(jù)。
自主開(kāi)發(fā)
百度一開(kāi)始就自主開(kāi)發(fā)了大數(shù)據(jù)存儲(chǔ)系統(tǒng),用于存儲(chǔ)網(wǎng)頁(yè)和超鏈、客戶信息和用戶產(chǎn)品、系統(tǒng)日志等海量數(shù)據(jù),支持Table、Pipe、File和KV等數(shù)據(jù)類型,滿足百度業(yè)務(wù)的流式和觸發(fā)式計(jì)算、文件存儲(chǔ)和訪問(wèn)、低延遲、高并發(fā)的需求。在此基礎(chǔ)之上,百度還面向廣大網(wǎng)民推出云存儲(chǔ)系統(tǒng),在前不久發(fā)布的百度易手機(jī)上,每個(gè)用戶可擁有100G的免費(fèi)存儲(chǔ)空間。
陳尚義介紹,為了應(yīng)對(duì)上百PB的數(shù)據(jù),滿足諸多近乎苛刻的要求,百度作出了巨大努力,“開(kāi)發(fā)了網(wǎng)頁(yè)更新模型,將對(duì)磁盤的隨機(jī)寫轉(zhuǎn)化為批量的順序?qū)懀蟠筇岣吡藬?shù)據(jù)的寫入速度,縮短了網(wǎng)頁(yè)數(shù)據(jù)的更新周期,提高了搜索引擎等產(chǎn)品的時(shí)效性;對(duì)涉及數(shù)據(jù)存儲(chǔ)和訪問(wèn)的各個(gè)方面進(jìn)行了全局優(yōu)化;定制Flash,使存儲(chǔ)系統(tǒng)直接對(duì)Flash的多通道(Multiple Chanel)編程,既提高了并發(fā)性,又提高了存儲(chǔ)資源的容量;采取多副本存儲(chǔ),以提高系統(tǒng)的可靠性和可用性;創(chuàng)造性地開(kāi)發(fā)了自主知識(shí)產(chǎn)權(quán)的復(fù)制協(xié)議(Replication Protocol);采取數(shù)據(jù)分治策略,保證數(shù)據(jù)存儲(chǔ)的各個(gè)部件可以水平擴(kuò)展,即通過(guò)簡(jiǎn)單地增加服務(wù)器就可以達(dá)到擴(kuò)展的目的;采用拆片存儲(chǔ)技術(shù),避免單機(jī)存儲(chǔ)熱點(diǎn)記錄或大記錄所帶來(lái)的性能瓶頸;運(yùn)用局部更新大記錄的策略,對(duì)于大記錄分塊存儲(chǔ),只有修改了的塊才被更新,而不是對(duì)整個(gè)大文件都重寫;采用三層數(shù)據(jù)存儲(chǔ)模型,將熱點(diǎn)數(shù)據(jù)存放于內(nèi)存,較熱的數(shù)據(jù)存放于flash, “冷”數(shù)據(jù)存放于磁盤,針對(duì)數(shù)據(jù)訪問(wèn)的特性充分利用各種資源的優(yōu)勢(shì)。
陳尚義透露,未來(lái),百度還將開(kāi)發(fā)跨數(shù)據(jù)中心的存儲(chǔ)系統(tǒng),面臨帶寬、通信穩(wěn)定性所帶來(lái)的壓力;在數(shù)據(jù)量、吞吐量急劇增大的背景下,不斷提高時(shí)效性、一致性、減低延遲、提高并發(fā);在新的Flash/SSD硬件和萬(wàn)M網(wǎng)絡(luò)的引入、數(shù)據(jù)存儲(chǔ)和處理瓶頸發(fā)生轉(zhuǎn)移的情況下,百度原來(lái)積累的存儲(chǔ)體系將面臨變革。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:百度:大數(shù)據(jù)時(shí)代的自主路線
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/1083936078.html