大數(shù)據(jù)是當(dāng)前很熱的一個(gè)詞。這幾年來,
云計(jì)算、繼而大數(shù)據(jù),成了整個(gè)社會(huì)的熱點(diǎn),不管什么,都要帶上“大數(shù)據(jù)”三個(gè)字才顯得時(shí)髦。大數(shù)據(jù)究竟是什么東西?有哪些相關(guān)技術(shù)?對普通人的生活會(huì)有怎樣的影響?我們來一步步弄清這些問題。
一、基本概念
在講什么是大數(shù)據(jù)之前,我們首先需要厘清幾個(gè)基本概念。
1.數(shù)據(jù)
關(guān)于數(shù)據(jù)的定義,大概沒有一個(gè)權(quán)威版本。為方便,此處使用一個(gè)簡單的工作定義:數(shù)據(jù)是可以獲取和存儲(chǔ)的信息。
直觀而言,表達(dá)某種客觀事實(shí)的數(shù)值是最容易被人們識(shí)別的數(shù)據(jù)(因?yàn)槟鞘?ldquo;數(shù)”)。但實(shí)際上,人類的一切語言文字、圖形圖畫、音像記錄,所有感官可以察覺的事物,只要能被記下來,能夠查詢到,就都是數(shù)據(jù)(data)。
不過數(shù)值是所有數(shù)據(jù)中最容易被處理的一種,許多和數(shù)據(jù)相關(guān)的概念,例如下面的數(shù)據(jù)可視化和數(shù)據(jù)分析,最早是立足于數(shù)值數(shù)據(jù)的。
傳統(tǒng)意義上的數(shù)據(jù)一詞,尤其是相對于今天的“大數(shù)據(jù)”的“小數(shù)據(jù)”,主要指的就是數(shù)值數(shù)據(jù),甚至在很多情況下專指統(tǒng)計(jì)數(shù)值數(shù)據(jù)。這些數(shù)值數(shù)據(jù)用來描述某種客觀事物的屬性。
2.數(shù)據(jù)可視化
對應(yīng)英語的data visulization(或可譯為數(shù)據(jù)展示),指通過圖表將若干數(shù)字以直觀的方式呈現(xiàn)給讀者。比如非常常見的餅圖、柱狀圖、走勢圖、熱點(diǎn)圖、K線等等,目前以二維展示為主,不過越來越多的三維圖像和動(dòng)態(tài)圖也被用來展示數(shù)據(jù)。
3.數(shù)據(jù)分析
這一概念狹義上,指統(tǒng)計(jì)分析,即通過統(tǒng)計(jì)學(xué)手段,從數(shù)據(jù)中精煉對現(xiàn)實(shí)的描述。例如:針對以關(guān)系型數(shù)據(jù)庫中以table形式存儲(chǔ)的數(shù)據(jù),按照某些指定的列進(jìn)行分組,然后計(jì)算不同組的均值、方差、分布等。再以可視化的方式講這些計(jì)算結(jié)果呈現(xiàn)出來。目前很多文章中提及的數(shù)據(jù)分析,其實(shí)是包括數(shù)據(jù)可視化的。
4.數(shù)據(jù)挖掘
這個(gè)概念的定義也是眾說紛紜,落到實(shí)際,主要是在傳統(tǒng)統(tǒng)計(jì)學(xué)的基礎(chǔ)上,結(jié)合機(jī)器學(xué)習(xí)的算法,對數(shù)據(jù)進(jìn)行更深層次的分析,并從中獲取一些傳統(tǒng)統(tǒng)計(jì)學(xué)方法無法提供的Insights(比如預(yù)測)。
簡單而言:針對某個(gè)特定問題構(gòu)建一個(gè)數(shù)學(xué)模型(可以把這個(gè)模型想象成一個(gè)或多個(gè)公式),其中包含一些具體取值未知的參數(shù)。我們將收集到的相關(guān)領(lǐng)域的若干數(shù)據(jù)(這些數(shù)據(jù)稱為訓(xùn)練數(shù)據(jù))代入模型,通過運(yùn)算(運(yùn)算過程稱為訓(xùn)練),得出那些參數(shù)的值。然后再用這個(gè)已經(jīng)確定了參數(shù)的模型,去計(jì)算一些全新的數(shù)據(jù),得出相應(yīng)結(jié)果。這一過程叫做機(jī)器學(xué)習(xí)。
機(jī)器學(xué)習(xí)的算法紛繁復(fù)雜,最常用的主要有回歸分析、關(guān)聯(lián)規(guī)則、分類、聚類、神經(jīng)網(wǎng)絡(luò)、決策樹等。
二、大數(shù)據(jù)和大數(shù)據(jù)分析
大數(shù)據(jù)首先是數(shù)據(jù),其次,它是具備了某些特征的數(shù)據(jù)。目前公認(rèn)的特征有四個(gè):Volumne,Velocity,Variety,和Value,簡稱4V.
1.Volume:大量。就目前技術(shù)而言,至少TB級(jí)別以下不能成大數(shù)據(jù)。
2.Velocity:高速。1TB的數(shù)據(jù),十分鐘處理完,叫大數(shù)據(jù),一年處理完,就不能算“大”了。
3.Variety:多樣。就內(nèi)容而言,大數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)不局限數(shù)值,文字、圖片、語音、圖像,一切在網(wǎng)絡(luò)上可以傳輸顯示的信息,都屬于此列。從結(jié)構(gòu)而言,和存儲(chǔ)在數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)不同,當(dāng)前的大數(shù)據(jù)主要指半結(jié)構(gòu)化和非結(jié)構(gòu)化的信息,比如機(jī)器生成信息(各種日志)、自然語言等。
4. Value:價(jià)值。如果不能從中提取出價(jià)值,不能通過挖掘、分析,得到指導(dǎo)業(yè)務(wù)的insights,那這些數(shù)據(jù)也就沒什么用。不過現(xiàn)在還有另外一種提法:只要是數(shù)據(jù)就都有用,能不能獲得價(jià)值,是分析人員的能力問題。
大數(shù)據(jù)分析,顧名思義,就是將前述的數(shù)據(jù)可視化、數(shù)據(jù)分析、數(shù)據(jù)挖掘等方法作用到大數(shù)據(jù)之上。
從某種意義上講,大數(shù)據(jù)可謂機(jī)器學(xué)習(xí)的福音,很多原有的簡單粗糙的機(jī)器學(xué)習(xí)模型,僅僅因?yàn)橛?xùn)練數(shù)據(jù)量級(jí)的增加就大幅提高了準(zhǔn)確性。還有一些模型則因?yàn)闇?zhǔn)確性隨著數(shù)據(jù)量增加而增加的勢頭尤其明顯,得以脫離默默無聞而被廣泛使用。
另一方面,大數(shù)據(jù)分析對于運(yùn)算量的需求激增,原有的基于單機(jī)的運(yùn)算技術(shù)顯然已經(jīng)不能滿足需求,這就催生了一些列新技術(shù)。
三、大數(shù)據(jù)技術(shù)
抽象而言,各種大數(shù)據(jù)技術(shù)無外乎分布式存儲(chǔ) + 并行計(jì)算。具體體現(xiàn)為各種分布式文件系統(tǒng)和建立在其上的并行運(yùn)算框架。這些軟件程序都部署在多個(gè)相互連通、統(tǒng)一管理的物理或虛擬運(yùn)算節(jié)點(diǎn)之上,形成集群(cluster)。因此不妨說,云計(jì)算是大數(shù)據(jù)的基礎(chǔ)。
下面介紹幾種當(dāng)前比較流行的大數(shù)據(jù)技術(shù):
1.Hadoop
Hadoop無疑是當(dāng)前最知名的大數(shù)據(jù)技術(shù)了。
2003年到2004年間,Google發(fā)布了關(guān)于GFS、MapReduce和BigTable三篇技術(shù)論文(這幾篇論文成為了后來云計(jì)算、大數(shù)據(jù)領(lǐng)域發(fā)展的重要基石)。當(dāng)時(shí)一位因公司倒閉賦閑在家的程序員Doug Cutting根據(jù)前兩篇論文,開發(fā)出了一個(gè)簡化的山寨版GFS – HDFS,以及基于其的MapReduce計(jì)算框架,這就是Hadoop最初版本。后來Cutting被Yahoo雇傭,得以依賴Yahoo的資源改進(jìn)Hadoop,并將其貢獻(xiàn)給了Apache開源社區(qū)。
簡單描述Hadoop原理:數(shù)據(jù)分布式存儲(chǔ),運(yùn)算程序被發(fā)派到各個(gè)數(shù)據(jù)節(jié)點(diǎn)進(jìn)行分別運(yùn)算(Map),再將各個(gè)節(jié)點(diǎn)的運(yùn)算結(jié)果進(jìn)行合并歸一(Reduce),生成最終結(jié)果。相對于動(dòng)輒TB級(jí)別的數(shù)據(jù),計(jì)算程序一般在KB – MB的量級(jí),這種移動(dòng)計(jì)算不移動(dòng)數(shù)據(jù)的設(shè)計(jì)節(jié)約了大量網(wǎng)絡(luò)帶寬和時(shí)間,并使得運(yùn)算過程可以充分并行化。
在其誕生后的近10年里,Hadoop憑借其簡單、易用、高效、免費(fèi)、社區(qū)支持豐富等特征成為眾多企業(yè)云計(jì)算、大數(shù)據(jù)實(shí)施的首選。
2.Storm
Hadoop雖好,卻有其“死穴”.其一:它的運(yùn)算模式是批處理。這對于許多有實(shí)時(shí)性要求的業(yè)務(wù)就無法做到很好的支持。因此,Twitter推出了他們自己的基于流的運(yùn)算框架--Storm.不同于Hadoop一次性處理所有數(shù)據(jù)并得出統(tǒng)一結(jié)果的作業(yè)(job),Storm對源源導(dǎo)入的數(shù)據(jù)流進(jìn)行持續(xù)不斷的處理,隨時(shí)得出增量結(jié)果。
3.Spark
Hadoop的另一個(gè)致命弱點(diǎn)是:它的所有中間結(jié)果都需要進(jìn)行硬盤存儲(chǔ),I/O消耗巨大,這就使得它很不適合多次迭代的運(yùn)算。而大多數(shù)機(jī)器學(xué)習(xí)算法,恰恰要求大量迭代運(yùn)算。
2010年開始,UC Berkeley AMP Lab開始研發(fā)分布式運(yùn)算的中間過程全部內(nèi)存存儲(chǔ)的Spark框架,由此在迭代計(jì)算上大大提高了效率。也因此成為了Hadoop的強(qiáng)有力競爭者。
4.NoSQL 數(shù)據(jù)庫
NoSQL數(shù)據(jù)庫可以泛指非關(guān)系型數(shù)據(jù)庫,不過一般用來指稱那些建立在分布式文件系統(tǒng)(例如HDFS)之上,基于key-value對的數(shù)據(jù)管理系統(tǒng)。
相對于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,NoSQL數(shù)據(jù)庫中存儲(chǔ)的數(shù)據(jù)無需主鍵和嚴(yán)格定義的schema.于是,大量半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)可以在未經(jīng)清洗的情況下直接進(jìn)行存儲(chǔ)。這一點(diǎn)滿足了處理大量、高速、多樣的大數(shù)據(jù)的需求。當(dāng)前比較流行的NoSQL數(shù)據(jù)庫有MongoDB,Redis,Cassandra,HBase等。
NoSQL并不是沒有SQL,而是不僅僅有(not only)SQL的意思。為了兼容之前許多運(yùn)行在關(guān)系型數(shù)據(jù)庫上的業(yè)務(wù)邏輯,有很多在NoSQL數(shù)據(jù)庫上運(yùn)行SQL的工具涌現(xiàn)出來,最典型的例如Hive和Pig,它們將用戶的SQL語句轉(zhuǎn)化成MapReduce作業(yè),在Hadoop上運(yùn)行。
四、和數(shù)據(jù)、大數(shù)據(jù)相關(guān)的職位
和數(shù)據(jù)、數(shù)據(jù)分析相關(guān)的職位有不少,大都不是新生事物。
1.有一個(gè)歷史悠久的職位叫“統(tǒng)計(jì)”.一般的農(nóng)村生產(chǎn)隊(duì)都有統(tǒng)計(jì)員,工廠也有專門的統(tǒng)計(jì)職位。比如一個(gè)工廠里,每個(gè)車間每天都要上報(bào)各種原材料的使用、耗損情況、產(chǎn)品成品數(shù),廢品數(shù)等。這些數(shù)字被匯總給統(tǒng)計(jì)人員,統(tǒng)計(jì)員會(huì)做一個(gè)表格,說明某日、月、年的成品率、成品數(shù)等等概念。雖然看起來不夠in,但實(shí)際上他們做的數(shù)據(jù)收集整理展示的工作,從根本上和現(xiàn)在的數(shù)據(jù)分析師是同理的。
2.另一個(gè)相對摩登一點(diǎn)的職位,叫做BI (business intelligence)。這個(gè)職位,其實(shí)和傳統(tǒng)工廠的統(tǒng)計(jì)差別不大,如果說有差別,就是差在數(shù)據(jù)展示上。BI都被要求使用軟件工具對數(shù)據(jù)進(jìn)行整理和展示。比如,某大型生產(chǎn)型企業(yè)的BI,他的工作是統(tǒng)計(jì)該企業(yè)各種產(chǎn)品在各個(gè)地區(qū)的銷售信息。他每天從拿到各個(gè)銷售網(wǎng)點(diǎn)提交的excel表,把其中數(shù)據(jù)導(dǎo)出到數(shù)據(jù)庫里,進(jìn)行一些SQL查詢,然后用可視化工具將結(jié)果生成圖形表格提交給業(yè)務(wù)人員參考。
3.還有兩個(gè)職位,一個(gè)叫做數(shù)據(jù)分析師(data analyst),另一個(gè)叫數(shù)據(jù)科學(xué)家(data scientist)。這兩個(gè)職位,在有些機(jī)構(gòu)組織中,職責(zé)不同;在另一些地方,職責(zé)相同,或相似,但級(jí)別不同。對于職責(zé)不同的地方,一般數(shù)據(jù)科學(xué)家要使用機(jī)器學(xué)習(xí)的算法,而數(shù)據(jù)分析師則專注在統(tǒng)計(jì)。
目前數(shù)據(jù)科學(xué)家這個(gè)詞一般都和大數(shù)據(jù)綁定在一起,包括在美國,似乎一提data scientist就是做大數(shù)據(jù)的,但是實(shí)際上未必,很多有 data scientist 頭銜的人,也確實(shí)在工作中大量應(yīng)用機(jī)器學(xué)習(xí)算法,但是,他們處理的并不是大數(shù)據(jù),很可能只是幾十萬,幾百萬量級(jí)的數(shù)據(jù)庫記錄。
4.(大)數(shù)據(jù)工程師(data engineer/big data engineer)。這個(gè)職位更偏重于數(shù)據(jù)本身的處理,即大規(guī)模(TB/PB級(jí)別)數(shù)據(jù)的提取、遷移、抽取和清洗。數(shù)據(jù)工程師也可以進(jìn)行數(shù)據(jù)挖掘工作,或者協(xié)助數(shù)據(jù)科學(xué)家實(shí)現(xiàn)算法。
5.數(shù)據(jù)質(zhì)量(data quality)。擔(dān)任這個(gè)職位的,是保證各層級(jí)數(shù)據(jù)完整性和準(zhǔn)確性的人員。他們負(fù)責(zé)制定數(shù)據(jù)完整性和準(zhǔn)確性標(biāo)準(zhǔn),設(shè)計(jì)檢測方法并實(shí)施檢測。
上述這些職位,主要指IT產(chǎn)業(yè)內(nèi)的職位,其他還有一些在研究機(jī)構(gòu)或者大公司研究部門進(jìn)行算法優(yōu)化和研究的人員,以及另一些相對低端的,手工清洗數(shù)據(jù)的勞動(dòng)者(例如:在數(shù)據(jù)庫時(shí)代,手工錄入數(shù)據(jù)到數(shù)據(jù)庫的人),就都不計(jì)入此列了。
五、大數(shù)據(jù)的影響
大數(shù)據(jù)概念的興起正在對我們的社會(huì)產(chǎn)生多方面的影響:
1.定量分析
因“大數(shù)據(jù)”而使得人們開始關(guān)注“數(shù)據(jù)”,可謂最首要的影響。尤其對于國內(nèi)而言,越來越多的決策者開始重視數(shù)據(jù)的力量,會(huì)在決斷同時(shí)參考各類統(tǒng)計(jì)、分析報(bào)表,而不再是憑直覺拍腦袋。
2.從必然到相關(guān)
相對于傳統(tǒng)的小數(shù)據(jù)統(tǒng)計(jì),大數(shù)據(jù)更關(guān)注與發(fā)現(xiàn)事物之間的相關(guān)性,而非因果關(guān)系。人類歷經(jīng)百萬年基于數(shù)據(jù)貧乏的現(xiàn)狀而形成的“因?yàn)?hellip;…所以……”的思維習(xí)慣,在大數(shù)據(jù)時(shí)代,是否會(huì)向“……有關(guān)聯(lián)……”轉(zhuǎn)變?
3.信息安全
以今日的技術(shù),一個(gè)人的個(gè)人信息、網(wǎng)頁瀏覽記錄、購物記錄、對圖書影片等內(nèi)容的偏好,在瀏覽不同頁面時(shí)的行為習(xí)慣,如此種種,都可以輕易被商家或某些機(jī)構(gòu)獲取。在大數(shù)據(jù)的籠罩之下,每個(gè)人都將無所遁形。那么,對于每個(gè)人本該擁有的隱私權(quán),該如何保護(hù)?
新技術(shù)解決了許多之前無法解決的問題,然而,新生事物也帶來了新的問題。像所有技術(shù)一樣,大數(shù)據(jù)也是一把 “雙刃劍”.能否用其利除其弊,有賴于全社會(huì)的共同努力。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:大數(shù)據(jù)基本概念及技術(shù)
本文網(wǎng)址:http://www.ezxoed.cn/html/support/11121818106.html