1引言
大數(shù)據(jù)無(wú)疑是2012年科學(xué)技術(shù)領(lǐng)域最熱門(mén)的一個(gè)術(shù)語(yǔ)。在IT領(lǐng)域,它也是繼高性能計(jì)算機(jī)、互聯(lián)網(wǎng)、網(wǎng)格計(jì)算、云計(jì)算之后又一被大眾所關(guān)注的技術(shù)術(shù)語(yǔ)。從某種意義上而言,大數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)超出了技術(shù)范疇,變成一個(gè)賦予各種意義的流行詞。大數(shù)據(jù)這三個(gè)字本身傳遞的語(yǔ)義信息很有限,“大”和“數(shù)據(jù)”都是極其常用的詞,兩個(gè)詞組合起來(lái),字面上也沒(méi)有辦法直接表達(dá)出確切的特定含義。我們認(rèn)為,這正是大數(shù)據(jù)這個(gè)詞語(yǔ)的妙處所在,它使得不同領(lǐng)域、不同背景、不同身份的人可以用同一個(gè)術(shù)語(yǔ)來(lái)表達(dá)自己的思想。也就是說(shuō),不同的人可以從不同的角度有各自不同的解讀,加之媒體連篇累犢的報(bào)道使得原本就不甚清晰的概念變得更加撲朔迷離。但總的來(lái)說(shuō),它至少給人們傳遞了一個(gè)重要的信息,那就是,信息技術(shù)的發(fā)展由“計(jì)算”轉(zhuǎn)向了“數(shù)據(jù)”。長(zhǎng)期以來(lái),數(shù)據(jù)庫(kù)處于數(shù)據(jù)管理領(lǐng)域的重要地位,因此有必要從數(shù)據(jù)庫(kù)的角度對(duì)大數(shù)據(jù)以及相對(duì)應(yīng)的大數(shù)據(jù)研究進(jìn)行比較詳細(xì)的
解讀,厘清一些似是而非的概念,這就是我們撰寫(xiě)本文的口的所在。
在開(kāi)始從數(shù)據(jù)庫(kù)視角解讀之前,首先來(lái)看看其他專(zhuān)業(yè)人士群體對(duì)大數(shù)據(jù)的理解。談?wù)摯髷?shù)據(jù)的群體大約可以分為三類(lèi):第一類(lèi)是戰(zhàn)略科學(xué)家,包括科技管理專(zhuān)業(yè)人士和政府官員。這很容易理解,數(shù)據(jù)中蘊(yùn)含著無(wú)窮的價(jià)值,關(guān)乎社會(huì)經(jīng)濟(jì)和民生發(fā)展乃至國(guó)家安全,數(shù)據(jù)是重要的戰(zhàn)略資源,對(duì)數(shù)據(jù)的擁有以及對(duì)數(shù)據(jù)價(jià)值的有效開(kāi)發(fā)決定一個(gè)企業(yè)、一個(gè)機(jī)構(gòu)和一個(gè)國(guó)家的核心競(jìng)爭(zhēng)力。第二類(lèi)是IT產(chǎn)品提供商,包括技術(shù)和產(chǎn)品提供商,信息系統(tǒng)集成和解決力一案提供商,還有信息服務(wù)提供商。大數(shù)據(jù)是個(gè)很親民的詞語(yǔ),沒(méi)有拗口的發(fā)音和故弄玄虛的復(fù)雜語(yǔ)義,作為產(chǎn)品和服務(wù)的嶄新標(biāo)簽再合適不過(guò)。技術(shù)、產(chǎn)品和服務(wù)的演變是漸進(jìn)的,在這個(gè)追逐日新月異變化的時(shí)代,IT產(chǎn)品提供商往往喜歡為產(chǎn)品打上時(shí)髦的標(biāo)簽,在當(dāng)前,大數(shù)據(jù)是廠商們的不二選擇。在此之前,digital internet、 web,grid 、 cloud等都被他們用來(lái)做過(guò)標(biāo)簽。第三類(lèi)就是科技人員,主要是那些希望利用大數(shù)據(jù)使當(dāng)前從事的研究力一向取得新突破的科學(xué)研究和技術(shù)開(kāi)發(fā)的專(zhuān)業(yè)人士,F(xiàn)在的科學(xué)研究和實(shí)用技術(shù)絕大多數(shù)都是和數(shù)據(jù)直接或問(wèn)接相關(guān)的,把所從事的研究和開(kāi)發(fā)工作歸結(jié)到大數(shù)據(jù)范疇,不但可提高層次,賦予研究和開(kāi)發(fā)工作新的使命,也可以讓大眾更容易理解其意義。從這個(gè)意義上來(lái)說(shuō),大數(shù)據(jù)這個(gè)概念就像一把傘,可以把原本互不相交的概念罩在一起,形成一個(gè)新的概念。
我們把時(shí)問(wèn)回退到2012年底,僅從12月當(dāng)月媒體的相關(guān)報(bào)道就可略見(jiàn)一斑,了解大數(shù)據(jù)深入人心的程度。據(jù)2012年12月2日的參考消息報(bào)道,在美國(guó)的2012十大流行詞評(píng)比中,“大數(shù)據(jù)”名列第二,第一是美國(guó)人最為關(guān)心的政治事件“財(cái)政懸崖”。關(guān)于大數(shù)據(jù)的描述,翻譯好的原文是這樣的,“最簡(jiǎn)單講,這是用來(lái)形容如今產(chǎn)生的海量數(shù)據(jù)的 一種力一式,我們生活在大數(shù)據(jù)時(shí)代。具體一點(diǎn)來(lái)說(shuō),大數(shù)據(jù)所指的數(shù)據(jù)集既可以無(wú)邊無(wú)際得讓我們無(wú)從發(fā)掘有用的信息,也可以翔實(shí)全面得讓我們能做些全新的事情”。關(guān)于神州大地的大數(shù)據(jù)之熱難以詳述,僅通過(guò)當(dāng)月的兩則報(bào)道做以折射,據(jù)2012年12月14日光明日?qǐng)?bào)報(bào)道,陜西西咸新區(qū)規(guī)劃國(guó)內(nèi)首家大數(shù)據(jù)產(chǎn)業(yè)園。報(bào)道稱(chēng),為迎接大數(shù)據(jù)時(shí)代的到來(lái),推動(dòng)大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,陜西省西咸新區(qū)洋西新城規(guī)劃了國(guó)內(nèi)首個(gè)大數(shù)據(jù)處理與服務(wù)專(zhuān)業(yè)園區(qū),在全國(guó)率先舉起大數(shù)據(jù)產(chǎn)業(yè)旗幟。就在同一天,在我國(guó)改革最前沿的廣東省的2012廣東互聯(lián)網(wǎng)大會(huì)上,廣東省通信管理局副局長(zhǎng)蔡立志說(shuō)了一句讓現(xiàn)場(chǎng)與會(huì)觀眾振奮的話,“(廣東)省委省政府、各級(jí)市縣政府對(duì)于信息互聯(lián)網(wǎng)很重視,省政府層面也要成立大數(shù)據(jù)局”。2012年12月15日的羊城晚報(bào)對(duì)此事的報(bào)道引起了廣泛關(guān)注。
在這樣的背景下,我們想以開(kāi)放的態(tài)度,站在數(shù)據(jù)庫(kù)研究者的角度,從以下幾個(gè)力一面進(jìn)行大數(shù)據(jù)的解讀。首先討論大數(shù)據(jù)是個(gè)什么樣的概念,說(shuō)明它是如何誕生的,作為一個(gè)概念,它有什么樣的內(nèi)涵和外延。其次是討論與大數(shù)據(jù)相關(guān)的一些熱點(diǎn)問(wèn)題,比如說(shuō),云計(jì)算與大數(shù)據(jù)的關(guān)系,大數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的關(guān)系,NoSQI二與大數(shù)據(jù)管理技術(shù)等。我們還會(huì)重點(diǎn)回顧Hadoop的發(fā)展歷史,分析其技術(shù)本質(zhì),從而深入分析它在大數(shù)據(jù)管理中的貢獻(xiàn)和地位,說(shuō)明Hadoop只是大數(shù)據(jù)管理的一個(gè)成功案例,它和傳統(tǒng)數(shù)據(jù)庫(kù)一起為新形勢(shì)下的大數(shù)據(jù)管理提供了思路上的啟發(fā)。然后,通過(guò)對(duì)傳統(tǒng)數(shù)據(jù)庫(kù)發(fā)展歷史、根本口的以及發(fā)展成就的回顧,說(shuō)明大數(shù)據(jù)和數(shù)據(jù)庫(kù)的發(fā)展是一脈相承的,大數(shù)據(jù)研究是傳統(tǒng)數(shù)據(jù)庫(kù)回到起點(diǎn)后的重新出發(fā),這個(gè)原點(diǎn)就是文件系統(tǒng)。最后,陳述我們對(duì)于大數(shù)據(jù)研究的理解,分別針對(duì)Web數(shù)據(jù)、決策數(shù)據(jù)和科學(xué)數(shù)據(jù)三類(lèi)大數(shù)據(jù),說(shuō)明大數(shù)據(jù)研究是典型的應(yīng)用驅(qū)動(dòng)的,應(yīng)該根據(jù)現(xiàn)實(shí)的應(yīng)用需求確定可能的研究力一向和研究?jī)?nèi)容。結(jié)束語(yǔ)部分給出了一些關(guān)于大數(shù)據(jù)研究的觀點(diǎn)。
2大數(shù)據(jù)概述
2.1什么是大數(shù)據(jù)?
這是個(gè)很自然的問(wèn)題。從認(rèn)識(shí)論的觀點(diǎn)來(lái)看人們總喜歡用類(lèi)比的力一法來(lái)學(xué)習(xí),利用己有的一些概念來(lái)理解新的概念。海量數(shù)據(jù)(信息)是不是就是大數(shù)據(jù)?數(shù)據(jù)密集型計(jì)算所涉及的數(shù)據(jù)是不是就是大數(shù)據(jù)?非結(jié)構(gòu)化數(shù)據(jù)是不是就是大數(shù)據(jù)?在學(xué)界和業(yè)界都很受待見(jiàn)的“Hadoop +HDFS +Map/Reduce”是不是就代表了大數(shù)據(jù)技術(shù)的全部?還有,云計(jì)算和大數(shù)據(jù)有什么樣的關(guān)系?要回答這些問(wèn)題,我們就從大數(shù)據(jù)概念的誕生談起。
2. 2大數(shù)據(jù)概念的誕生
大數(shù)據(jù)概念的提出可以追溯到20年以前,但引起關(guān)注是近幾年的事情。2008年9月4日《自然》(Nature)組織了一個(gè)名為“Big Data”的專(zhuān)題。2009年7月O'Reilly Media出版社出版了一本名為"Beautiful Data',的書(shū)。2009年10月微軟為紀(jì)念2007年1月在舊金山灣區(qū)大海中失蹤的圖靈獎(jiǎng)獲得者Gray J,出版了一本名為“第四范式一數(shù)據(jù)密集的科學(xué)發(fā)現(xiàn)(The Fourth Paradigm-Data Intensive Scientific Discovery)"的著作。Gray J是數(shù)據(jù)庫(kù)領(lǐng)域獲得圖靈獎(jiǎng)的第三位科學(xué)家,他在事務(wù)處理領(lǐng)域做出了杰出的貢獻(xiàn),奠定了現(xiàn)代數(shù)據(jù)庫(kù)管理、系統(tǒng)理論和技術(shù)基礎(chǔ)。作為計(jì)算機(jī)科學(xué)家,Gray J生前在科學(xué)數(shù)據(jù)管理和分析力一面是開(kāi)拓者和先鋒:NASA的太空和海洋觀測(cè)數(shù)據(jù)系統(tǒng)是他領(lǐng)導(dǎo)設(shè)計(jì)的;主持了著名的全球射電望遠(yuǎn)鏡聯(lián)合觀測(cè)系統(tǒng)和外星生命探索系統(tǒng)的設(shè)計(jì)和實(shí)施;領(lǐng)導(dǎo)了谷歌公司的Google Earth系統(tǒng)的開(kāi)發(fā)和使用。這就是為什么在他2007年1月28日駕駛游艇前往Farallone島的途中毫無(wú)跡象的失蹤后,美國(guó)海岸警衛(wèi)隊(duì)在立即開(kāi)展了三天全面徹底專(zhuān)業(yè)的搜尋無(wú)果后宣布放棄,而NASA和Google還繼續(xù)用他們的系統(tǒng)進(jìn)行了長(zhǎng)達(dá)數(shù)月的搜尋。
在國(guó)際上,2011年2月11日發(fā)生的兩件事可以用來(lái)說(shuō)明大數(shù)據(jù)在當(dāng)前科學(xué)研究和信息服務(wù)中的重要性。這一天在美國(guó)出版的《科學(xué)》(Science)雜志刊登了一個(gè)名為數(shù)據(jù)處理(Dealing with Data)的專(zhuān)輯,《科學(xué)》還聯(lián)合《科學(xué)一信號(hào)傳導(dǎo)》(Science; Signaling)《科學(xué)一轉(zhuǎn)化醫(yī)學(xué)》( Science;Translational Medicine)和Science Career、推出相關(guān)專(zhuān)題,其主題是圍繞口前科學(xué)研究數(shù)據(jù)的爆炸式增長(zhǎng)展開(kāi)討論,說(shuō)明大數(shù)據(jù)對(duì)科學(xué)研究的重要性。也在這同一天,在美國(guó)很受歡迎的智力競(jìng)答節(jié)目“危險(xiǎn)邊緣(Jeopardy)”電視節(jié)口中IBM的“沃森”計(jì)算機(jī)以絕對(duì)優(yōu)勢(shì)戰(zhàn)勝兩名人類(lèi)頂級(jí)選手,這使得繼“深藍(lán)”計(jì)算機(jī)1997年戰(zhàn)勝人類(lèi)國(guó)際象棋大師加里·卡斯帕羅夫后再次引發(fā)關(guān)于機(jī)器能力的關(guān)注。和14年前的“深藍(lán)”相比,“沃森"除具有超群的計(jì)算能力外,更擁有超大規(guī)模的數(shù)據(jù)處理能力。
在學(xué)術(shù)界,2012年3月29日也是一個(gè)特殊的日子,在這一天,美國(guó)總統(tǒng)科技政策辦公室OSTP(Office of Science and Technology Policy)宣布了每年投資兩億美元的“大數(shù)據(jù)研究計(jì)劃(hig Data R&D Initiative)",這一整合了NSF, NIH等部門(mén)原有計(jì)劃的研究計(jì)劃在國(guó)際上產(chǎn)生了重大的影響。同一天,我國(guó)科技部發(fā)布的“‘十二五’國(guó)家科技計(jì)劃信息技術(shù)領(lǐng)域2013年度備選項(xiàng)口征集指南”把大數(shù)據(jù)研究(主要側(cè)重在存儲(chǔ)力一面)列在首位。美國(guó)大數(shù)據(jù)研究計(jì)劃的宣布使大數(shù)據(jù)熱達(dá)到一個(gè)高潮。
從以上的描述可以看出,大數(shù)據(jù)最初主要討論的是與科學(xué)發(fā)現(xiàn)有關(guān)的數(shù)據(jù),也就是我們說(shuō)的科學(xué)數(shù)據(jù),這也是為什么包括我國(guó)政府在內(nèi)的各國(guó)政府高度重視的原因所在。在當(dāng)前,國(guó)家問(wèn)的競(jìng)爭(zhēng)主要是科學(xué)技術(shù)的競(jìng)爭(zhēng),如果大數(shù)據(jù)研究的部署有助于提升科技能力,相信每個(gè)國(guó)家都會(huì)大力支持。但是,“大數(shù)據(jù)”發(fā)展至今,己經(jīng)超越了科學(xué)數(shù)據(jù)的范疇,成為一個(gè)時(shí)髦的術(shù)語(yǔ)(Buzzword),成為工業(yè)界與學(xué)術(shù)界共同關(guān)注的熱點(diǎn)。從另外一個(gè)角度來(lái)看,“大數(shù)據(jù)”很好地概括了當(dāng)前數(shù)據(jù)管理領(lǐng)域問(wèn)題的重要性和多樣性,說(shuō)明數(shù)據(jù)問(wèn)題在研究和應(yīng)用上具有空前的深度和廣度。也就可以說(shuō),大數(shù)據(jù)是個(gè)合適的傘(Umbrella),它有較廣的覆蓋面。大數(shù)據(jù)將信息技術(shù)的重點(diǎn)轉(zhuǎn)移到數(shù)據(jù)力一面,但己經(jīng)大大超越了傳統(tǒng)數(shù)據(jù)庫(kù)的理念。
2. 3大數(shù)據(jù)概念的內(nèi)涵和外延
大數(shù)據(jù)這一概念的內(nèi)涵可以用大數(shù)據(jù)的4V特點(diǎn):Volume、Variety、Velocity Veracity,來(lái)描述。第一個(gè)V是說(shuō)的數(shù)據(jù)量,從TB級(jí)別躍升到PB級(jí)別或更高的EB級(jí)別。第二個(gè)V的含義是數(shù)據(jù)類(lèi)型繁多,來(lái)源各異。來(lái)自網(wǎng)絡(luò)的網(wǎng)頁(yè)、日志、圖片,來(lái)自傳感器的監(jiān)測(cè)數(shù)據(jù)、視頻信號(hào)、地理位置信息,來(lái)自日常運(yùn)營(yíng)系統(tǒng)的各類(lèi)信息等等組成了一個(gè)大數(shù)據(jù)集。第三個(gè)V是講處理速度或是說(shuō)響應(yīng)速度。很多應(yīng)用提出了實(shí)時(shí)響應(yīng)的要求,或是實(shí)時(shí)反應(yīng)(Human Realtime)的要求,比如說(shuō)一些公共設(shè)施的安全監(jiān)測(cè)系統(tǒng)和服務(wù)系統(tǒng)的安全監(jiān)察系統(tǒng),就需要及時(shí)地反應(yīng)。第四個(gè)V是講數(shù)據(jù)的可信性和可用性,產(chǎn)生數(shù)據(jù)的技術(shù)手段和力一式越來(lái)越多,設(shè)備的準(zhǔn)確性、系統(tǒng)的一致性會(huì)對(duì)數(shù)據(jù)的質(zhì)量產(chǎn)生重要的影響,特別是各種UUC:(用戶(hù)生成內(nèi)容)的質(zhì)量問(wèn)題更加嚴(yán)重,如何保證數(shù)據(jù)的可用和可信至為關(guān)鍵。這些都是傳統(tǒng)的數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)時(shí)代沒(méi)有的問(wèn)題,這些特點(diǎn)決定了大數(shù)據(jù)的內(nèi)涵。
描述一個(gè)概念的外延往往是通過(guò)枚舉那些屬于這一概念的實(shí)例來(lái)進(jìn)行的?梢哉J(rèn)為,與應(yīng)用密切相關(guān)的各類(lèi)數(shù)據(jù)都屬于大數(shù)據(jù)范疇,大數(shù)據(jù)強(qiáng)調(diào)支持實(shí)際應(yīng)用所涉及到的多個(gè)來(lái)源且相互關(guān)聯(lián)的大量、高速、異構(gòu)數(shù)據(jù)。從生產(chǎn)生活中的用途來(lái)分,所涉及的生產(chǎn)數(shù)據(jù)、設(shè)計(jì)數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)是大數(shù)據(jù);用類(lèi)型來(lái)分,數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)、文件系統(tǒng)中的文本、多媒體數(shù)據(jù)、各種文檔數(shù)據(jù)也都是大數(shù)據(jù);大數(shù)據(jù)的例子還包括網(wǎng)絡(luò)日志、RFID數(shù)據(jù)、傳感器網(wǎng)絡(luò)數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、互聯(lián)網(wǎng)搜索索引、呼叫詳細(xì)記錄等。諸如天文學(xué)、大氣科學(xué)、基因組學(xué)、生物地球化學(xué)、生命科學(xué)和其他復(fù)雜或跨學(xué)科的科研實(shí)驗(yàn)和觀測(cè)數(shù)據(jù),軍事偵察、醫(yī)療記錄、攝影檔案、視頻檔案和大規(guī)模的電子商務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)都是大數(shù)據(jù)。物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、智能手機(jī)、平板電腦、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,無(wú)一不是數(shù)據(jù)來(lái)源或者承載的力一式。其實(shí),世界上凡是可以表達(dá)出來(lái)的信息都是數(shù)據(jù),當(dāng)為了一個(gè)具體的應(yīng)用而需要把大量的不同類(lèi)型、質(zhì)量各異的數(shù)據(jù)及時(shí)進(jìn)行處理時(shí),這些數(shù)據(jù)就進(jìn)入了大數(shù)據(jù)的范疇。
2. 4大數(shù)據(jù)的分類(lèi)
要討論上述種類(lèi)繁多的數(shù)據(jù),從認(rèn)識(shí)論的觀點(diǎn)出發(fā),首先就是要建立數(shù)據(jù)譜系,進(jìn)行分類(lèi)。對(duì)大數(shù)據(jù)進(jìn)行分類(lèi)很有必要,這是確保大家在討論同一目標(biāo)的前提。我們認(rèn)為,大數(shù)據(jù)大致可以分為三類(lèi):Web數(shù)據(jù)、決策數(shù)據(jù)和科學(xué)數(shù)據(jù)。顧名思義,Web數(shù)據(jù)是與Web相關(guān)的數(shù)據(jù),包括網(wǎng)頁(yè)、鏈接、日志等具體類(lèi)型,門(mén)戶(hù)網(wǎng)站、搜索引擎、社交網(wǎng)絡(luò)、電子商務(wù)等以Web形式呈現(xiàn)或以Web為載體的新型信息服務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)大多可以歸納為此類(lèi)型。決策數(shù)據(jù)主要指以前由傳統(tǒng)的數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)管理的數(shù)據(jù),也即商務(wù)智能(BI)數(shù)據(jù)?茖W(xué)數(shù)據(jù)是指各種科學(xué)活動(dòng)中所產(chǎn)生的數(shù)據(jù),包括科學(xué)實(shí)驗(yàn)數(shù)據(jù)、科學(xué)觀測(cè)數(shù)據(jù)、科學(xué)文獻(xiàn)數(shù)據(jù)、設(shè)計(jì)數(shù)據(jù)等等,非領(lǐng)域?qū)<译y以染指,即使IT專(zhuān)家自創(chuàng)一套,也很難得到領(lǐng)域?qū)<业恼J(rèn)可,
生物信息學(xué)就是一個(gè)例子。
按照以上分析,我們可以把大數(shù)據(jù)的分類(lèi)用圖1來(lái)示意。
圖1.大數(shù)據(jù)的分類(lèi)
就Web應(yīng)用而言,傳統(tǒng)的電子商務(wù)系統(tǒng)和搜索引擎應(yīng)用以及正在興起的社會(huì)網(wǎng)絡(luò)和社會(huì)計(jì)算是典型的“以數(shù)據(jù)為中心”的應(yīng)用。電子商務(wù)和搜索引擎廠商己經(jīng)經(jīng)過(guò)了早期的粗放式的、僅僅依靠創(chuàng)新的商業(yè)模式就取得成功的發(fā)展階段,他們的核心業(yè)務(wù)己經(jīng)變成了商品推薦、客戶(hù)關(guān)系管理、促銷(xiāo)策略設(shè)計(jì)、廣告關(guān)鍵字競(jìng)標(biāo)、廣告投放等。而這些業(yè)務(wù)完全依賴(lài)于海量的客戶(hù)行為數(shù)據(jù)以及Web內(nèi)容和結(jié)構(gòu)數(shù)據(jù)的分析。社會(huì)網(wǎng)絡(luò)和社會(huì)計(jì)算則是更加綜合性的應(yīng)用,交互性更強(qiáng),數(shù)據(jù)的產(chǎn)生和來(lái)源也更多。其成功的商業(yè)模式必然需要精細(xì)的快速的數(shù)據(jù)處理和分析。除了商業(yè)應(yīng)用外,社會(huì)網(wǎng)絡(luò)和社會(huì)分析對(duì)于政府把握民眾意愿、了解社會(huì)熱點(diǎn)問(wèn)題、改善管理、及時(shí)化解社會(huì)矛屑等具有重要的意義。
在商務(wù)智能力一面,隨著技術(shù)的進(jìn)步和理念的更新,大型數(shù)據(jù)中心的建設(shè)己被大型跨國(guó)跨地域企業(yè)、政府服務(wù)機(jī)構(gòu)提上議事日程。在我國(guó),中石油、中石化等大型企業(yè)以及各大銀行己有各自的數(shù)據(jù)中心。業(yè)界提供的服務(wù)計(jì)算和云計(jì)算架構(gòu)以及相應(yīng)的技術(shù)為大型數(shù)據(jù)中心的建設(shè)提供了技術(shù)途徑,政府或半政府的機(jī)構(gòu)為推進(jìn)中小型企業(yè)這一創(chuàng)新群體的發(fā)展也正著手建設(shè)公共的云計(jì)算數(shù)據(jù)平臺(tái),把中小型企業(yè)從繁重的信息管理中解脫出來(lái),以便他們降低成本,集中力量發(fā)展各自的主業(yè)。在我國(guó),物聯(lián)網(wǎng)技術(shù)的推廣應(yīng)用所帶動(dòng)的智能電網(wǎng)、智能交通、智能醫(yī)療保健等事業(yè)的發(fā)展依賴(lài)于大型數(shù)據(jù)中心和新型商務(wù)智能能力的建設(shè)。
針對(duì)科學(xué)研究,科學(xué)實(shí)驗(yàn)數(shù)據(jù)的共享以及跨地域的科學(xué)協(xié)作研究在互聯(lián)網(wǎng)時(shí)代己經(jīng)成為一個(gè)潮流。傳感器網(wǎng)絡(luò)等各種數(shù)字化科學(xué)數(shù)據(jù)采集手段的發(fā)展使得科學(xué)實(shí)驗(yàn)數(shù)據(jù)的產(chǎn)生更加便利、全面和及時(shí)。在互聯(lián)網(wǎng)環(huán)境下對(duì)海量的科學(xué)數(shù)據(jù)和科學(xué)文獻(xiàn)進(jìn)行集成和分析并支持協(xié)同合作研究是我們面臨的一個(gè)重要問(wèn)題。
大數(shù)據(jù)研究的顯著特征是它與應(yīng)用密切相關(guān)。我們用圖2來(lái)說(shuō)明大數(shù)據(jù)的應(yīng)用場(chǎng)景。
圖2.大數(shù)據(jù)的應(yīng)用
3與大數(shù)據(jù)相關(guān)的幾個(gè)熱點(diǎn)問(wèn)題
人們經(jīng)常會(huì)問(wèn),大數(shù)據(jù)是不是就是非結(jié)構(gòu)化數(shù)據(jù)?云計(jì)算與大數(shù)據(jù)有什么關(guān)系?NoSQL二是不是就是處理大數(shù)據(jù)的技術(shù)等等問(wèn)題。從認(rèn)識(shí)論的觀點(diǎn)來(lái)看,這是自然而然的問(wèn)題,通過(guò)與熟悉事物的比較來(lái)認(rèn)識(shí)陌生的事物是人們常用的學(xué)習(xí)力一法。這也是為什么不同知識(shí)背景的人對(duì)同一事物有不同認(rèn)識(shí)的原因所在。本節(jié)我們嘗試回答上面提到的這些問(wèn)題。
3. 1非結(jié)構(gòu)化數(shù)據(jù)與大數(shù)據(jù)
首先我們要弄清楚什么是非結(jié)構(gòu)化數(shù)據(jù)。個(gè)平凡的答案是:那些除了結(jié)構(gòu)化數(shù)據(jù)以外的數(shù)據(jù)就是非結(jié)構(gòu)化數(shù)據(jù)。這樣問(wèn)題又變成了,什么是結(jié)構(gòu)化數(shù)據(jù)?這便觸及到了數(shù)據(jù)庫(kù)的核心。
從某種意義上來(lái)說(shuō),結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)并無(wú)截然的界限,而是因?yàn)槿藗儗?duì)數(shù)據(jù)的認(rèn)識(shí)程度不同所致。數(shù)據(jù)本來(lái)就是對(duì)客觀事物的一種表達(dá)和表示,結(jié)構(gòu)化數(shù)據(jù)指的就是那些有組織的數(shù)據(jù),也就是那些表示可以按照某個(gè)模型組織起來(lái)的數(shù)據(jù)。所以說(shuō)結(jié)構(gòu)化數(shù)據(jù)就是數(shù)據(jù)可建模,通過(guò)數(shù)據(jù)建模進(jìn)行語(yǔ)義抽象,從而達(dá)到模型和實(shí)例分離的口的。在數(shù)據(jù)庫(kù)領(lǐng)域,這是一個(gè)基本理念,要有一個(gè)數(shù)據(jù)模型。數(shù)據(jù)庫(kù)人說(shuō)的數(shù)據(jù)模型不是泛泛而說(shuō)的那種模型,正如數(shù)據(jù)庫(kù)本身也不是泛泛的概念,它們都有獨(dú)特的含義和理論背景。數(shù)據(jù)庫(kù)中討論的數(shù)據(jù)模型由三部分組成,分別是數(shù)據(jù)結(jié)構(gòu)、操作符、完整性約束。數(shù)據(jù)結(jié)構(gòu)就是數(shù)據(jù)字面上的表示,或者說(shuō)詞法意義上的表示,數(shù)據(jù)的語(yǔ)義是通過(guò)數(shù)據(jù)結(jié)構(gòu)上可支持的操作符,以及這些數(shù)據(jù)結(jié)構(gòu)在變化過(guò)程中所需遵循的完整性約束來(lái)體現(xiàn)的。這在關(guān)系數(shù)據(jù)庫(kù)中體現(xiàn)得非常貼切。二維表結(jié)構(gòu)就是關(guān)系模型的數(shù)據(jù)結(jié)構(gòu),簡(jiǎn)單明了;關(guān)系代數(shù)操作就是二維表數(shù)據(jù)結(jié)構(gòu)上的操作符,一共有五個(gè)基本操作符,相當(dāng)于操作原語(yǔ),其他的所有復(fù)雜操作均可以由這五個(gè)基本操作組合完成,也就是通過(guò)構(gòu)建一個(gè)關(guān)系表達(dá)式來(lái)完成。關(guān)系數(shù)據(jù)模型中的完整性約束,除了我們所知道的實(shí)體完整性、參考完整性等可以命名的完整性以外,還有很多其他完整性,他們代表了數(shù)據(jù)庫(kù)實(shí)例在修改時(shí)要遵循的原則。實(shí)體完整性和參考完整性可以通過(guò)主鍵和外鍵的形式來(lái)說(shuō)明,其他類(lèi)型的完整性約束在關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)定義語(yǔ)言中可以通過(guò)斷言、觸發(fā)器的形式來(lái)說(shuō)明。關(guān)系數(shù)據(jù)庫(kù)中的范式理論和函數(shù)依賴(lài)也是關(guān)于完整性約束的,是一種很漂亮的語(yǔ)義抽象。函數(shù)依賴(lài)這一類(lèi)廣泛的完整性約束很大程度上通過(guò)數(shù)據(jù)庫(kù)模式設(shè)計(jì)來(lái)體現(xiàn),我們?cè)跀?shù)據(jù)設(shè)計(jì)中追求Royce-Codd范式和第三范式,其本質(zhì)就是當(dāng)
設(shè)計(jì)出的關(guān)系模式達(dá)到這些范式級(jí)別后,屬性問(wèn)的函數(shù)依賴(lài)關(guān)系就蘊(yùn)含在其中了,不需要再在數(shù)據(jù)定義語(yǔ)言中去顯式說(shuō)明。這是為什么說(shuō)關(guān)系數(shù)據(jù)模型優(yōu)美漂亮的一個(gè)重要原因。當(dāng)然,關(guān)系數(shù)據(jù)模型具備的集合論和一階謂詞邏輯數(shù)學(xué)基礎(chǔ)也是一個(gè)重要原因。
那么,為什么數(shù)據(jù)的結(jié)構(gòu)化如此重要?這個(gè)問(wèn)題就像為什么結(jié)構(gòu)化程序設(shè)計(jì)、強(qiáng)類(lèi)型程序設(shè)計(jì)語(yǔ)言很重要一樣。數(shù)據(jù)有了結(jié)構(gòu)以后,數(shù)據(jù)管理可以簡(jiǎn)單化,因?yàn)榻Y(jié)構(gòu)化數(shù)據(jù)雖然實(shí)例(相當(dāng)于關(guān)系數(shù)據(jù)庫(kù)中的Instance)很多,但往往容器(相當(dāng)于關(guān)系數(shù)據(jù)庫(kù)中的Schema)很少,通過(guò)模式(Schema)來(lái)管理大規(guī)模的數(shù)據(jù)要容易很多。此外,有了模式級(jí)別的元數(shù)據(jù),對(duì)于數(shù)據(jù)上的各種操作可以通過(guò)表達(dá)式等價(jià)的變換來(lái)進(jìn)行有效優(yōu)化,從而保證查詢(xún)處理的高效性,讓人們擺脫對(duì)數(shù)據(jù)庫(kù)內(nèi)部細(xì)節(jié)的了解。
相對(duì)數(shù)據(jù)庫(kù)中結(jié)構(gòu)化的數(shù)據(jù),有關(guān)非結(jié)構(gòu)化數(shù)據(jù)的研究也一直沒(méi)有停息過(guò)。數(shù)據(jù)抽取、數(shù)據(jù)抽象等都是在非結(jié)構(gòu)化數(shù)據(jù)上進(jìn)行語(yǔ)義抽象的嘗試。我們所熟悉的文本數(shù)據(jù)上的文本檢索系統(tǒng)(TRS) ,信息檢索(IR)、自然語(yǔ)言處理(NLP ),以及音頻、視頻、圖像等其他多媒體的處理力一法研究,都是長(zhǎng)期以來(lái)一直在非結(jié)構(gòu)化數(shù)據(jù)上的探索。我們耳熟能詳?shù)奶卣鬟x擇或特征抽取,也就是指在非結(jié)構(gòu)化數(shù)據(jù)上進(jìn)行語(yǔ)義抽取。所以,非結(jié)構(gòu)化數(shù)據(jù)對(duì)我們而言毫不陌生,并不是因?yàn)橛辛舜髷?shù)據(jù),大家才恍然大悟要開(kāi)始對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行研究。 突然之問(wèn)會(huì)有人覺(jué)得非結(jié)構(gòu)化數(shù)據(jù)特別重要,理由就是,有統(tǒng)計(jì)顯示我們這個(gè)世界上百分之八十的數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù),它們無(wú)法整齊劃一地存儲(chǔ)到結(jié)構(gòu)嚴(yán)格的表格行列中。值得提醒的是,很多事情都遵循所謂的80-20規(guī)則。應(yīng)用到大數(shù)據(jù)上面,得出的結(jié)論就是,百分之八十的非結(jié)構(gòu)化數(shù)據(jù)產(chǎn)生百分之二十的價(jià)值,而百分之二十的結(jié)構(gòu)化數(shù)據(jù)產(chǎn)生百分之八十的價(jià)值。這個(gè)現(xiàn)象有其合理性,它說(shuō)明了為什么人們把研究熱情轉(zhuǎn)向非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)產(chǎn)生了絕大部分的價(jià)值,但其價(jià)值幾乎挖掘殆盡。而絕大多數(shù)的非結(jié)構(gòu)化數(shù)據(jù)雖然只產(chǎn)生小部分的價(jià)值,卻還是一個(gè)有待深入挖掘的“金礦”。這里我們還想特別指出,非結(jié)構(gòu)化數(shù)據(jù)的長(zhǎng)尾現(xiàn)象。隨著非結(jié)構(gòu)化數(shù)據(jù)研究的深入,相信一部分非結(jié)構(gòu)化數(shù)據(jù)會(huì)被納或靠近結(jié)構(gòu)化數(shù)據(jù)范疇,從大量針對(duì)應(yīng)用問(wèn)題的解決力一案中抽象出非結(jié)構(gòu)化數(shù)據(jù)的組織模式、結(jié)構(gòu)和模型,這意味著其使用價(jià)值被允分挖掘;從技術(shù)上而言,就意味著管理這些非結(jié)構(gòu)化數(shù)據(jù)的理論和技術(shù)會(huì)趨向成熟。
我們用圖3表示非結(jié)構(gòu)化數(shù)據(jù)的長(zhǎng)尾現(xiàn)象,其中橫坐標(biāo)為數(shù)據(jù)量/非結(jié)構(gòu)化程度,縱坐標(biāo)為不低于該非結(jié)構(gòu)化程度的數(shù)據(jù)量產(chǎn)生的價(jià)值。非結(jié)構(gòu)化數(shù)據(jù)量在激增,人們對(duì)大數(shù)據(jù)的興趣也在日益濃厚。
圖3.非結(jié)構(gòu)化數(shù)據(jù)研究的長(zhǎng)尾現(xiàn)象
3. 2云計(jì)算與大數(shù)據(jù)
近幾年來(lái),云計(jì)算在我國(guó)的發(fā)展風(fēng)起云涌、方興未艾。從技術(shù)上而言,云計(jì)算被認(rèn)為是自計(jì)算機(jī)出現(xiàn)以來(lái),繼大型主機(jī)、個(gè)人電腦、互聯(lián)網(wǎng)之后信息技術(shù)領(lǐng)域的最新一次重大變革。 Amazon和Google是其始作俑者。隨著云計(jì)算技術(shù)的突破和應(yīng)用的推廣,我們可望實(shí)現(xiàn)一種嶄新的計(jì)算模式,進(jìn)而影響人們生產(chǎn)和生活的各個(gè)力一面。我國(guó)作為新興的發(fā)展中大國(guó),信息化作為倍增器,一直在經(jīng)濟(jì)和社會(huì)發(fā)展中起著重要的作用,尤其是在當(dāng)前經(jīng)濟(jì)轉(zhuǎn)型發(fā)展的關(guān)鍵時(shí)期,云計(jì)算作為新型信息化的手段和模式正在被創(chuàng)造性地應(yīng)用。政府部門(mén)、電信運(yùn)營(yíng)商、交通物流、科學(xué)研究、文化傳媒、醫(yī)療衛(wèi)生、教育培訓(xùn)等都己開(kāi)始嘗試用云計(jì)算的模式進(jìn)行信息化創(chuàng)新實(shí)踐。
雖然云計(jì)算和大數(shù)據(jù)是沿著不同道路發(fā)展而來(lái)的,兩者在技術(shù)和應(yīng)用上有著相輔相成的關(guān)系,云計(jì)算強(qiáng)調(diào)系統(tǒng)提供服務(wù)的力一式,它提供的服務(wù)離不開(kāi)它所能承載的大數(shù)據(jù);為了解決大數(shù)據(jù)的挑戰(zhàn),云計(jì)算架構(gòu)和模型是一個(gè)可行的力一案。云計(jì)算遭遇大數(shù)據(jù),這是時(shí)代發(fā)展的必然趨勢(shì)。
3. 3 NoSQL與大數(shù)據(jù)
NoSQI二運(yùn)動(dòng)近幾年風(fēng)頭正勁,它是在大數(shù)據(jù)概念風(fēng)靡之前就己經(jīng)出現(xiàn)的一個(gè)現(xiàn)象,可以看作是大數(shù)據(jù)風(fēng)暴的前奏。這場(chǎng)運(yùn)動(dòng)最終會(huì)對(duì)數(shù)據(jù)庫(kù)的發(fā)展產(chǎn)生什么樣的影響?NoSQI二會(huì)終結(jié)關(guān)系數(shù)據(jù)庫(kù)嗎?是否會(huì)有基于非關(guān)系型數(shù)據(jù)庫(kù)的廠商異軍突起,改變市場(chǎng)的格局呢?下面,我們?cè)囍卮疬@些問(wèn)題。
首先,NoSQL二是一個(gè)非常模糊的概念,泛指一切和傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)或關(guān)系—對(duì)象數(shù)據(jù)庫(kù)不同的技術(shù)。它包括了非關(guān)系數(shù)據(jù)模型(也被稱(chēng)為Norrschematic數(shù)據(jù)庫(kù)、非結(jié)構(gòu)化數(shù)據(jù)庫(kù)等等)、非ACID事務(wù)模型、分析型和搜索型應(yīng)用、大規(guī)模集群上的DBMS或類(lèi)DBMS實(shí)現(xiàn)等很多概念。No-SQL二和傳統(tǒng)RDBMS之問(wèn)可能更多的還是互補(bǔ)關(guān)系。RDBMS不適合一些新興的應(yīng)用,但在一些傳統(tǒng)領(lǐng)域,如金融、電信,仍然能很好地工作。No-SQL二的應(yīng)用口標(biāo)仍然很分散—不同的應(yīng)用對(duì)NoSQL二的不同技術(shù)有不同的需求。因此,現(xiàn)在我們對(duì)NoSQL, DBMS還很難給出一個(gè)完整的定義,很難說(shuō)這樣的DBMS能夠彌補(bǔ)所有RDBMS的不足、適用于所有RDBMS不適用的環(huán)境。從技術(shù)上看,通用的NoSQL, DBMS的實(shí)現(xiàn)也有很大的難度。但另一力一面,隨著應(yīng)用的發(fā)展,RDBMS不適用的環(huán)境正越來(lái)越多,這將是非關(guān)系型數(shù)據(jù)庫(kù)廠商的機(jī)會(huì)(但同時(shí)也是RDBMS發(fā)展的機(jī)會(huì))。當(dāng)然,這里還有很多技術(shù)以外的因素。
數(shù)據(jù)庫(kù)系統(tǒng)的先驅(qū),著名數(shù)據(jù)庫(kù)學(xué)者Stone-braker M教授對(duì)于NoSQL二有這樣的總結(jié):No-SQL二適用于非事務(wù)型和可交換(Commutative)的單記錄事務(wù)處理,但它不適用于新型OLTP應(yīng)用。因?yàn)橄到y(tǒng)類(lèi)型很多,應(yīng)該針對(duì)應(yīng)用選擇合適的系統(tǒng)。此外,NoSQL二系統(tǒng)的查詢(xún)語(yǔ)言與SQL二非常類(lèi)似。他承認(rèn)NoSQL二系統(tǒng)的成功,但也認(rèn)為N o-SQL二并不適用于所有應(yīng)用,不是大數(shù)據(jù)處理的全部技術(shù)。這正是新型面向在線事務(wù)處理OLTP應(yīng)用的數(shù)據(jù)庫(kù)(NewsQL,)的出發(fā)點(diǎn),NewsQL二代表 一類(lèi)現(xiàn)代RDBMS,旨在針對(duì)Web應(yīng)用中的OLTP工作負(fù)載提供NoSQL二系統(tǒng)所能達(dá)到的可擴(kuò)展性,而保持傳統(tǒng)單一節(jié)點(diǎn)數(shù)據(jù)庫(kù)系統(tǒng)的ACID事務(wù)特性。
3.4 Hadoop與大數(shù)據(jù)
Hadoop在處理網(wǎng)頁(yè)數(shù)據(jù)等力一面取得了巨大成功,經(jīng)過(guò)幾年的發(fā)展,從一門(mén)邊緣技術(shù)成長(zhǎng)為一種事實(shí)上的標(biāo)準(zhǔn),甚至在大數(shù)據(jù)領(lǐng)域出現(xiàn)言必稱(chēng)Hadoop的現(xiàn)象,Hadoop儼然成為了大數(shù)據(jù)的代名詞。我們有必要專(zhuān)門(mén)來(lái)回顧一下Hadoop的發(fā)展歷史和成功經(jīng)歷。21世紀(jì)初,谷歌公司的幾位年輕研究人員用廉價(jià)PC搭建了大型的MPP系統(tǒng),成功解決了搜索引擎所需要的大型文件系統(tǒng)的管理和操作問(wèn)題,隨后分別于2003年、2004年和2006年在操作系統(tǒng)兩個(gè)著名的學(xué)術(shù)會(huì)議SOSP和OSDI上發(fā)表了有關(guān)GFS (Google文件系統(tǒng))、Map/Reduce(編程環(huán)境)和BigTable(數(shù)據(jù)模型)的論文。
這三篇奠基性的論文促成了Hadoop的誕生。2004年,Cutting D和Cafarella M J根據(jù)Google Lab論文實(shí)施,取名Hadoopo Cloudera公司推出了Hadoop商用版(Apache開(kāi)源版)。2005年秋天,Hadoop由Apache作為L(zhǎng)ucene的子項(xiàng)口Notch的一部分正式引入。隨后在2006年3月Map/Reduce和Notch Distributed File System(NDFS )分別被納入Hadoop的項(xiàng)口中。到了2006年,Yahoo推出了WEB-scale Hadoop !。隨著應(yīng)用和開(kāi)發(fā)的深入,Hadoop形成了自身的生態(tài)圈。在0.20及以前的版本中,Hadoop Common包含HDFS、Map/Reduce和其他項(xiàng)口公共內(nèi)容,從0.21開(kāi)始HDFS和Map/Reduce成為獨(dú)立的子項(xiàng)口。Map/Reduce是分布式并行計(jì)算框架,是Hadoop的核心。HDFS所起的作用就是使得每個(gè)服務(wù)器必須具備對(duì)數(shù)據(jù)的訪問(wèn)能力,而Pig編程語(yǔ)言則簡(jiǎn)化了Hadoop常見(jiàn)的工作任務(wù),Pig可加載數(shù)據(jù)、表達(dá)轉(zhuǎn)換數(shù)據(jù)以及存儲(chǔ)最終結(jié)果。2006年,HBase ( BigTable)分布式列存儲(chǔ)數(shù)據(jù)庫(kù)成為Hadoop子項(xiàng)口,2010年5月升級(jí)為頂級(jí)Apache項(xiàng)口Hive (Facebook)數(shù)據(jù)倉(cāng)庫(kù)工具,它架構(gòu)在HDFS之上,增加靜態(tài)數(shù)據(jù)結(jié)構(gòu),力一便進(jìn)行數(shù)據(jù)分析查詢(xún),2008年9月成為Hadoop子項(xiàng)口。Zoo-keeper (Facebook)則是分布式鎖設(shè)施,它提供類(lèi)似Google Chubby的功能。Avro是一個(gè)新的數(shù)據(jù)序列化格式與傳輸工具,2010年5月成為頂級(jí)Apache項(xiàng)目。
Hadoop在數(shù)據(jù)管理中到底處于什么樣的地位?Hadoop實(shí)質(zhì)上是一個(gè)可以更容易開(kāi)發(fā)和存儲(chǔ)大規(guī)模數(shù)據(jù)的軟件平臺(tái),幫助用戶(hù)快速、低成本地實(shí)現(xiàn)大數(shù)據(jù)的存儲(chǔ)、管理及分析查詢(xún)。Hadoop由Map/Reduce和HDFS兩個(gè)關(guān)鍵部分構(gòu)成,Map/Reduce 可實(shí)現(xiàn)高性能分布式并行數(shù)據(jù)處理,HDFS提供可靠數(shù)據(jù)存儲(chǔ)服務(wù),低廉MPP高容錯(cuò)、高通量、可伸縮,用戶(hù)可在不了解分布式底層細(xì)節(jié)的情況下開(kāi)發(fā)分布式程序,允分利用MPP的能力。
隨著用戶(hù)對(duì)大數(shù)據(jù)存儲(chǔ)、管理和分析需求越來(lái)越迫切,傳統(tǒng)數(shù)據(jù)庫(kù)對(duì)非結(jié)構(gòu)化數(shù)據(jù)幾乎無(wú)能為力。利用傳統(tǒng)數(shù)據(jù)庫(kù)對(duì)大數(shù)據(jù)進(jìn)行處理時(shí),會(huì)面臨很多難以解決的問(wèn)題。首先是軟、硬件平臺(tái)的要求高,成本壓力大,并且成本和收益很難匹配。而同時(shí),用戶(hù)希望允分發(fā)掘和利用非結(jié)構(gòu)化數(shù)據(jù)背后的商業(yè)價(jià)值,能以更經(jīng)濟(jì)的力一式、更好的性能來(lái)處理數(shù)據(jù),從而推動(dòng)業(yè)務(wù)創(chuàng)新。
Hadoop在類(lèi)似搜索引擎的查詢(xún)并行化分析處理領(lǐng)域取得極大成功,其本質(zhì)是提供了一種針對(duì)大規(guī)模數(shù)據(jù)密集型應(yīng)用的編程范式(Programming Paradigm),使人們擺脫對(duì)于底層分布和并行的操作。它所基于的BigTable和HDFS是非常質(zhì)樸的數(shù)據(jù)模型和存儲(chǔ)系統(tǒng),適用領(lǐng)域有限。盡管它的成功為大數(shù)據(jù)研究打開(kāi)了思路,但絕不代表大數(shù)據(jù)技術(shù)的全部(僅是一個(gè)case)。它促使人們回到文件系統(tǒng)這一數(shù)據(jù)庫(kù)的起點(diǎn)來(lái)重新審視數(shù)據(jù)管理之口的。盡管Hadoop在處理網(wǎng)頁(yè)數(shù)據(jù)等力一面取得了巨大成功,但它有自身的弱點(diǎn),Hadoop是一個(gè)離線的、批量的數(shù)據(jù)處理系統(tǒng),而實(shí)時(shí)在線(嚴(yán)格事務(wù),高效分析)仍是數(shù)據(jù)庫(kù)的擅長(zhǎng)。從數(shù)據(jù)存儲(chǔ)的角度來(lái)看,HDFS專(zhuān)門(mén)針對(duì)大文件的存儲(chǔ),等待時(shí)間較長(zhǎng),無(wú)法做到很高速的隨即讀寫(xiě)。人們也曾探索過(guò)將Hadoop和數(shù)據(jù)庫(kù)結(jié)合起來(lái)應(yīng)對(duì)大數(shù)據(jù)的挑戰(zhàn),但這還不是口前企業(yè)中現(xiàn)實(shí)、經(jīng)濟(jì)的解決方案。
4從數(shù)據(jù)庫(kù)角度看大數(shù)據(jù)研究進(jìn)展與趨勢(shì)
4. 1數(shù)據(jù)庫(kù)發(fā)展回顧
大數(shù)據(jù)研究是數(shù)據(jù)庫(kù)回到文件系統(tǒng)這一原點(diǎn)后的重新出發(fā)。我們有必要站在更大尺度的時(shí)問(wèn)軸上來(lái)重新審視數(shù)據(jù)庫(kù)的輝煌發(fā)展歷史。
(1)數(shù)據(jù)庫(kù)的發(fā)展歷史。
1965年,數(shù)據(jù)庫(kù)領(lǐng)域第一個(gè)獲得圖靈獎(jiǎng)的計(jì)算機(jī)科學(xué)家Bachman C 發(fā)表了他的重要論文“Integrated Data Store",向世人介紹了世界上第一個(gè)數(shù)據(jù)庫(kù)系統(tǒng)IDS。這一事件標(biāo)志著數(shù)據(jù)庫(kù)的誕生。IBM公司1968年推出基于層次模型的數(shù)據(jù)庫(kù)系統(tǒng)IMS。那時(shí),數(shù)據(jù)庫(kù)概念基本形成,緊隨其后,數(shù)據(jù)系統(tǒng)語(yǔ)言會(huì)議CODASYL(研究COBOI二擴(kuò)展數(shù)據(jù)功能的會(huì)議)專(zhuān)門(mén)組織了一個(gè)數(shù)據(jù)庫(kù)工作組DBTU。在著名的DBTU報(bào)告中,定義了我們現(xiàn)在所熟悉的幾乎所有的數(shù)據(jù)庫(kù)相關(guān)概念。這個(gè)報(bào)告實(shí)際上是提出網(wǎng)狀數(shù)據(jù)模型,試圖克服IMS需要對(duì)數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)底層細(xì)節(jié)了解才能進(jìn)行數(shù)據(jù)訪問(wèn)的缺點(diǎn)。雖然這個(gè)報(bào)告中的網(wǎng)狀模型沒(méi)有廣泛地在數(shù)據(jù)庫(kù)系統(tǒng)產(chǎn)品中得到實(shí)現(xiàn),但它對(duì)現(xiàn)代數(shù)據(jù)庫(kù)系統(tǒng)體系結(jié)構(gòu)和概念的形成有著不可磨滅的貢獻(xiàn)。 1970年6月,當(dāng)時(shí)在IBM工作的Codd E F在CACM發(fā)表了關(guān)于關(guān)系數(shù)據(jù)庫(kù)模型的第一篇論文,由此,數(shù)據(jù)庫(kù)技術(shù)的發(fā)展進(jìn)入了一個(gè)嶄新的階段,數(shù)據(jù)庫(kù)系統(tǒng)的使用遍及信息化領(lǐng)域的
方方面面,并深刻地影響著人們的生活。
(2)數(shù)據(jù)庫(kù)的三大成就。
四十多年來(lái),數(shù)據(jù)庫(kù)領(lǐng)域具有里程碑意義的三大事件分別是關(guān)系數(shù)據(jù)模型的提出、查詢(xún)處理和優(yōu)化技術(shù)的發(fā)展、事務(wù)管理技術(shù)的進(jìn)步。關(guān)系數(shù)據(jù)庫(kù)因?yàn)槠淠P秃?jiǎn)單、理論完備,使得數(shù)據(jù)庫(kù)家喻戶(hù)曉,形成了數(shù)百億美元的市場(chǎng)。查詢(xún)優(yōu)化也是伴隨著關(guān)系數(shù)據(jù)庫(kù)而產(chǎn)生的。在關(guān)系數(shù)據(jù)庫(kù)以前,數(shù)據(jù)訪問(wèn)通過(guò)程序設(shè)計(jì)者在紛繁復(fù)雜的數(shù)據(jù)結(jié)構(gòu)中說(shuō)明訪問(wèn)路徑來(lái)完成,我們說(shuō)這是用戶(hù)導(dǎo)航式的數(shù)據(jù)訪問(wèn)。關(guān)系數(shù)據(jù)庫(kù)的優(yōu)點(diǎn)就在于用戶(hù)只需要說(shuō)明“想要什么”而不需要說(shuō)明“怎么做”,這里的“怎么做”就是數(shù)據(jù)結(jié)構(gòu)中的“導(dǎo)航”,用戶(hù)不管“導(dǎo)航”,系統(tǒng)就得負(fù)責(zé)。在IMS盛行的時(shí)代,最初實(shí)現(xiàn)的RDBMS效率很低,被譏笑為“Toy System"。這一局面得以改變,就是依靠查詢(xún)處理和優(yōu)化力一面的極大進(jìn)展而實(shí)現(xiàn)的。具體而言,就是通過(guò)訪問(wèn)路徑的優(yōu)化選擇保證CPU、存儲(chǔ)空問(wèn)和其他成本的性能優(yōu)化。在這其中,索引技術(shù)也舉足輕重,技術(shù)得到全面突破。在事務(wù)管理力一面,事務(wù)管理模型和事管理關(guān)鍵技術(shù)的突破,使得支持大量用戶(hù)并發(fā)訪問(wèn)成為現(xiàn)實(shí),并有效地支持了數(shù)據(jù)庫(kù)恢復(fù)和保護(hù)機(jī)制的實(shí)現(xiàn),從而把數(shù)據(jù)庫(kù)系統(tǒng)打造成一種全面、實(shí)用的系統(tǒng)。
4. 2數(shù)據(jù)庫(kù)技術(shù)面臨的挑戰(zhàn)
傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)在20世紀(jì)80年代己基本成熟,其標(biāo)志是產(chǎn)業(yè)的發(fā)展和壯大,特別是幾大數(shù)據(jù)庫(kù)廠商的出現(xiàn)。數(shù)據(jù)庫(kù)的概念深入人心,數(shù)據(jù)庫(kù)建設(shè)的重要性毋庸置疑。幾乎在同時(shí),數(shù)據(jù)庫(kù)領(lǐng)域自身以及實(shí)際應(yīng)用領(lǐng)域的專(zhuān)業(yè)人士允分意識(shí)到傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)的局限性。在關(guān)系數(shù)據(jù)庫(kù)理論基本完善之后,人們很快就開(kāi)始了對(duì)新型數(shù)據(jù)模型的探索,提出了二元數(shù)據(jù)模型、語(yǔ)義數(shù)據(jù)模型、圖數(shù)據(jù)模型、邏輯數(shù)據(jù)模型、面向?qū)ο髷?shù)據(jù)模型等等。實(shí)際應(yīng)用中的“材料單BOM(Bill of Material)”問(wèn)題、傳遞閉包問(wèn)題也是經(jīng)典數(shù)據(jù)庫(kù)技術(shù)無(wú)法解決的。值得一提的是,演繹數(shù)據(jù)庫(kù)和面向?qū)ο髷?shù)據(jù)庫(kù)的研究定程度上增強(qiáng)了傳統(tǒng)數(shù)據(jù)庫(kù)的能力。
除數(shù)據(jù)模型和以上提到的具體應(yīng)用問(wèn)題以外,數(shù)據(jù)庫(kù)面臨更多更大的挑戰(zhàn)。舉例來(lái)說(shuō),數(shù)據(jù)的OLAP要求能快速多粒度地從歷史和現(xiàn)實(shí)數(shù)據(jù)中分析出對(duì)決策有幫助的結(jié)果,這和數(shù)據(jù)庫(kù)系統(tǒng)所擅長(zhǎng)支持的在線事務(wù)處理(OLTP)應(yīng)用差別很大。數(shù)據(jù)倉(cāng)庫(kù)技術(shù)就是針對(duì)這類(lèi)應(yīng)用提出來(lái)的,幾年來(lái)取得長(zhǎng)足的進(jìn)步。另一個(gè)例子是數(shù)據(jù)流應(yīng)用,現(xiàn)實(shí)中不是所有的數(shù)據(jù)都需要保存在數(shù)據(jù)庫(kù)系統(tǒng)中然后再進(jìn)行處理的,譬如,檢測(cè)或監(jiān)控系統(tǒng)采集的數(shù)據(jù),很多是不需要或無(wú)法全部保存下來(lái)再進(jìn)行分析處理,一是數(shù)量太大、保存意義不大,二是現(xiàn)實(shí)應(yīng)用
中需要及時(shí)反應(yīng)(報(bào)警或報(bào)告),不容先存入數(shù)據(jù)庫(kù)中然后再來(lái)分析。21世紀(jì)初開(kāi)始興起的數(shù)據(jù)流技術(shù)就是用來(lái)解決這一類(lèi)應(yīng)用問(wèn)題的。數(shù)據(jù)流在其他領(lǐng)域也被稱(chēng)為實(shí)時(shí)復(fù)雜事件處理技術(shù)CEP。再一個(gè)例子就更容易理解,廣泛而言,數(shù)據(jù)庫(kù)是來(lái)管理數(shù)據(jù)的,所有有數(shù)據(jù)的地力一就應(yīng)該有數(shù)據(jù)庫(kù)。Web是典型的有大量數(shù)據(jù)的地力一,科學(xué)實(shí)驗(yàn)數(shù)據(jù)也一樣。數(shù)據(jù)庫(kù)如何來(lái)管理這些數(shù)據(jù)是一個(gè)挑戰(zhàn)。這些場(chǎng)合的數(shù)據(jù)具有如下特點(diǎn):數(shù)據(jù)量大、數(shù)據(jù)結(jié)構(gòu)復(fù)雜、數(shù)據(jù)來(lái)源多樣,還有就是這些數(shù)據(jù)的用戶(hù)群規(guī)模大、需求各異。針對(duì)這些應(yīng)用,人們深入研究了XML/RDF半結(jié)構(gòu)化數(shù)據(jù)管理技術(shù)、智能數(shù)據(jù)集成、按列存儲(chǔ)數(shù)據(jù)管理、分布式高可靠的存儲(chǔ)和并行計(jì)算技術(shù),提出了相應(yīng)的解決方案。
4. 3大數(shù)據(jù)研究的問(wèn)題與難點(diǎn)
數(shù)據(jù)庫(kù)領(lǐng)域面臨的挑戰(zhàn)正是大數(shù)據(jù)研究的起點(diǎn)。從這個(gè)意義上來(lái)說(shuō),大數(shù)據(jù)是傳統(tǒng)數(shù)據(jù)在“V"維度上的擴(kuò)展,大數(shù)據(jù)應(yīng)用是傳統(tǒng)數(shù)據(jù)庫(kù)應(yīng)用的自然延伸,大數(shù)據(jù)技術(shù)是傳統(tǒng)數(shù)據(jù)管理技術(shù)的自然發(fā)展。
從數(shù)據(jù)庫(kù)工作者的角度看大數(shù)據(jù)的研究,我們認(rèn)為,大數(shù)據(jù)的基礎(chǔ)研究主要包括:(1)大數(shù)據(jù)分類(lèi)學(xué);(2)大數(shù)據(jù)全生命周期管理;(3)大數(shù)據(jù)質(zhì)量管理。應(yīng)用是引發(fā)大數(shù)據(jù)概念的根源,大數(shù)據(jù)的基礎(chǔ)研究包括從數(shù)據(jù)本身、應(yīng)用需求和計(jì)算環(huán)境等多個(gè)維度研究大數(shù)據(jù)的分類(lèi)、共性特點(diǎn)以及數(shù)據(jù)資源化管理的相關(guān)理論和力一法。研究思路和力一法可參考和借鑒圖書(shū)情報(bào)學(xué)科的興起和發(fā)展歷史。由于大數(shù)據(jù)是個(gè)覆蓋面很廣的概念,除了要研究大數(shù)據(jù)的共性特點(diǎn)外,還很有必要從數(shù)據(jù)來(lái)源、數(shù)據(jù)類(lèi)型、數(shù)據(jù)應(yīng)用等角度全面綜合分析,研究大數(shù)據(jù)的分類(lèi);大數(shù)據(jù)概念的一個(gè)很重要的內(nèi)涵就是數(shù)據(jù)的共享和使用,Data Curation(暫譯為:數(shù)據(jù)監(jiān)護(hù))指的就是研究數(shù)據(jù)從產(chǎn)生、標(biāo)注、存儲(chǔ)、共享和使用等全生命周期的數(shù)據(jù)管理和維護(hù),這類(lèi)似于圖書(shū)館的作用;大數(shù)據(jù)因?yàn)楣蚕砗褪褂枚l(fā)數(shù)據(jù)的加工和衍生結(jié)果,數(shù)據(jù)溯源(Data Provenance)和數(shù)據(jù)世系(Data Lineage)研究旨在保證數(shù)據(jù)使用的質(zhì)量;由于大數(shù)據(jù)的共享應(yīng)用特點(diǎn),訪問(wèn)用戶(hù)的不確定性和服務(wù)提供者之問(wèn)的數(shù)據(jù)共享,使得大數(shù)據(jù)的存儲(chǔ)和訪問(wèn)不同于傳統(tǒng)的處于可信域的數(shù)據(jù)的存儲(chǔ)和訪問(wèn),特別是針對(duì)不同社交網(wǎng)絡(luò)中用戶(hù)身份標(biāo)識(shí)信息等敏感數(shù)據(jù)的安全訪問(wèn)控制研究,是保證大數(shù)據(jù)安全應(yīng)用的前提條件之一。
大數(shù)據(jù)研究的主要技術(shù)難點(diǎn)包括:(1)大數(shù)據(jù)語(yǔ)義建模;(2)大數(shù)據(jù)分析功能/性能均衡;(3)支撐大數(shù)據(jù)處理的硬件/存儲(chǔ)體系結(jié)構(gòu)。大數(shù)據(jù)的基本特點(diǎn)是數(shù)量巨大、來(lái)源各異、結(jié)構(gòu)復(fù)雜,還有就是很多具體應(yīng)用要求響應(yīng)時(shí)問(wèn)很短。針對(duì)數(shù)據(jù)來(lái)源多樣以及數(shù)據(jù)結(jié)構(gòu)復(fù)雜的特點(diǎn),數(shù)據(jù)建模不僅要考慮單一來(lái)源、單一類(lèi)型數(shù)據(jù)的語(yǔ)義抽象,而且還要考慮不同類(lèi)型、不同來(lái)源數(shù)據(jù)問(wèn)的聯(lián)系。傳統(tǒng)的語(yǔ)義數(shù)據(jù)模型的己有成果存在許多值得借鑒的地力一,但時(shí)下所面臨的數(shù)據(jù)建模的復(fù)雜程度是前所未有的,必須深入分析具體應(yīng)用需求、做精致的剪裁,才有可能提出有效的在限定應(yīng)用范圍內(nèi)適用的數(shù)據(jù)模型。對(duì)大數(shù)據(jù)進(jìn)行分析處理,發(fā)現(xiàn)其中蘊(yùn)含的知識(shí),從而理解和使用數(shù)據(jù)、支持以數(shù)據(jù)為核心的應(yīng)用,是大數(shù)據(jù)研究的重要任務(wù),隨著大數(shù)據(jù)的興起,云計(jì)算也正在進(jìn)入以“分析即服務(wù)AaaS(Analysis as a Service)”為主要口標(biāo)的Cloud 2. 0時(shí)代。云計(jì)算和NoSQI二技術(shù)與平臺(tái),為數(shù)據(jù)分析任務(wù)提供了數(shù)據(jù)訪問(wèn)的基礎(chǔ),并且可有效克服由于數(shù)據(jù)規(guī)模和異構(gòu)性而引起的訪問(wèn)瓶頸。針對(duì)數(shù)據(jù)量大和響應(yīng)時(shí)問(wèn)短的特點(diǎn),首要的問(wèn)題是在數(shù)據(jù)管理和分析的功能和性能上進(jìn)行仔細(xì)的權(quán)衡,擯棄傳統(tǒng)數(shù)據(jù)庫(kù)管理系統(tǒng)圍繞記賬(Billing)和訂票(Booking)需求實(shí)現(xiàn)的額外開(kāi)銷(xiāo)巨大的OLTP功能,有選擇地高效實(shí)現(xiàn)那些與業(yè)務(wù)密切相關(guān)的關(guān)鍵的數(shù)據(jù)分析功能,在性能上比現(xiàn)有的數(shù)據(jù)倉(cāng)庫(kù)或OLAP系統(tǒng)有極大的提升,以解決類(lèi)似實(shí)時(shí)商務(wù)智能的需求。另一方面,如何利用計(jì)算機(jī)系統(tǒng)硬件和系統(tǒng)技術(shù)的發(fā)展,特別是存儲(chǔ)系統(tǒng)以及計(jì)算機(jī)系統(tǒng)體系結(jié)構(gòu)的發(fā)展來(lái)支持新的應(yīng)用形勢(shì)下大數(shù)據(jù)的管理和分析,是一個(gè)具有挑戰(zhàn)性的、很有前景的研究課題。" Hadoop、HDFS、 Map/Reduce”模式在Google和Yahoo。的Web應(yīng)用中有成功的實(shí)現(xiàn),但這種探索還很初步,能支持的功能也很有限。“內(nèi)存計(jì)算+列存儲(chǔ)”模式在商務(wù)智能應(yīng)用的探索正在興起,面臨的問(wèn)題還包括功能完善和性能改善,內(nèi)存計(jì)算系統(tǒng)的可靠性保障以及輔助決策支持所需要的基本數(shù)據(jù)分析功能的基準(zhǔn)測(cè)試是一些需要深入研究的課題,還包括為支持實(shí)現(xiàn)這類(lèi)應(yīng)用專(zhuān)門(mén)設(shè)計(jì)的高可靠、具有新穎存儲(chǔ)結(jié)構(gòu)的MPP集群計(jì)算機(jī)系統(tǒng)。針對(duì)科學(xué)實(shí)驗(yàn)和科學(xué)觀測(cè)中的大數(shù)據(jù)管理問(wèn)題,數(shù)據(jù)建模和數(shù)據(jù)使用是與應(yīng)用領(lǐng)域密切相關(guān)的,己有的關(guān)于科學(xué)和統(tǒng)計(jì)數(shù)據(jù)庫(kù)的研究成果是一筆寶貴的財(cái)富,新的應(yīng)用需求和計(jì)算平臺(tái)也為這力一面的研究提供了嶄新的研究視角。
4. 4大數(shù)據(jù)示范應(yīng)用
當(dāng)前大數(shù)據(jù)的示范應(yīng)用主要包括:(1)社交媒體數(shù)據(jù)分析;(2)互聯(lián)網(wǎng)廣告;(3)基于位置的服務(wù);(4)實(shí)時(shí)商務(wù)智能。大數(shù)據(jù)概念的產(chǎn)生以及大數(shù)據(jù)研究的興起是典型的應(yīng)用驅(qū)動(dòng)的。大數(shù)據(jù)分析是大數(shù)據(jù)研究的重要任務(wù),其應(yīng)用可以分為面向消費(fèi)者和面向企業(yè)兩大類(lèi)。與Web相關(guān)的應(yīng)用主要是面向消費(fèi)者的,商務(wù)智能應(yīng)用是面向企業(yè)的。指導(dǎo)這兩類(lèi)技術(shù)研發(fā)的基本思想是有所差別的。面向消費(fèi)者的數(shù)據(jù)分析必須依托于新型的信息服務(wù),這些服務(wù)吸引消費(fèi)者,產(chǎn)生互聯(lián)網(wǎng)流量,數(shù)據(jù)分析的主要口的是將這些流量變成信息服務(wù)提供者的商業(yè)利潤(rùn),前三類(lèi)應(yīng)用屬于這一性質(zhì)。其基本思路是:信息服務(wù)系統(tǒng)為在線用戶(hù)提供個(gè)性化的產(chǎn)品推薦或廣告,從而實(shí)現(xiàn)第三方付費(fèi)的商業(yè)模式。這一類(lèi)數(shù)據(jù)分析涉及用戶(hù)信息(包括動(dòng)態(tài)的用戶(hù)行為和協(xié)同行為等)、媒體頁(yè)面信息、產(chǎn)品信息等,數(shù)據(jù)和計(jì)算量都很大,要求的響應(yīng)時(shí)問(wèn)通常在微秒級(jí)。伴隨著當(dāng)前風(fēng)起云涌的各類(lèi)新型Web應(yīng)用,這力一面的數(shù)據(jù)分析應(yīng)用有很大的發(fā)展空問(wèn)和很多的發(fā)展機(jī)遇。面向企業(yè)或機(jī)構(gòu)的數(shù)據(jù)分析應(yīng)用,所涉及的應(yīng)用主體與傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)的客戶(hù)類(lèi)似,主要是大型企事業(yè)單位,他們對(duì)系統(tǒng)的可靠性以及數(shù)據(jù)分析系統(tǒng)的平臺(tái)獨(dú)立性有較高的要求。以往的輔助決策商務(wù)智能系統(tǒng)要么架構(gòu)在運(yùn)營(yíng)數(shù)據(jù)庫(kù)之上,性能受到影響,要么自成體系,軟硬件捆綁,難以自主完成硬件升級(jí)和功能定制,數(shù)據(jù)分析系統(tǒng)的封閉性長(zhǎng)期以來(lái)己成為很多企事業(yè)單位信息系統(tǒng)成本上的一個(gè)負(fù)擔(dān)和單位業(yè)務(wù)發(fā)展上的一個(gè)制約瓶頸。當(dāng)前是這力一面系統(tǒng)研發(fā)和推廣應(yīng)用的一個(gè)很好時(shí)機(jī)。
5結(jié)束語(yǔ)
大數(shù)據(jù)是一個(gè)籠統(tǒng)的概念,與應(yīng)用密切相關(guān),離開(kāi)應(yīng)用談大數(shù)據(jù)研究現(xiàn)在還為時(shí)過(guò)早,應(yīng)該分類(lèi)研究Web數(shù)據(jù)/決策數(shù)據(jù)/科學(xué)數(shù)據(jù)。要想抽象出大數(shù)據(jù)研究的共性科學(xué)問(wèn)題,應(yīng)該首先限定應(yīng)用領(lǐng)域,只有對(duì)具體的應(yīng)用有全面深入的理解才有可能在更高層面抽象出共性的科學(xué)和技術(shù)問(wèn)題,也才有可能發(fā)展出具有特色的大數(shù)據(jù)技術(shù)和系統(tǒng),進(jìn)而推動(dòng)大數(shù)據(jù)管理理論的發(fā)展。大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)庫(kù)在研究理念和力一法學(xué)上是一脈相承的,從特定應(yīng)用到技術(shù)力一案,到理論和模型,再到系統(tǒng)和產(chǎn)品,這也是數(shù)據(jù)庫(kù)發(fā)展歷史及輝煌成就給予我們對(duì)大數(shù)據(jù)研究的啟示。但是,僅僅使用數(shù)據(jù)庫(kù)技術(shù)研究大數(shù)據(jù)是不夠的,大數(shù)據(jù)的研究需要多學(xué)科的交叉,需要計(jì)算機(jī)科學(xué)、機(jī)器學(xué)習(xí)、計(jì)算數(shù)學(xué)、統(tǒng)計(jì)學(xué)、管理科學(xué)等多學(xué)科的合作。聚焦應(yīng)用場(chǎng)景和研究?jī)?nèi)容,具體化技術(shù)路線,明確研究口標(biāo),從而切實(shí)抓住大數(shù)據(jù)時(shí)代給我們從事相關(guān)研究和開(kāi)發(fā)的技術(shù)人員帶來(lái)的難得機(jī)遇。我們現(xiàn)在正處在這個(gè)機(jī)遇的時(shí)
問(wèn)窗口,但時(shí)問(wèn)窗口不會(huì)永遠(yuǎn)敞開(kāi)。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴(lài)品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:從數(shù)據(jù)庫(kù)視角解讀大數(shù)據(jù)的研究進(jìn)展與趨勢(shì)
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/10825915933.html