一、基本概念
在講什么是大數(shù)據(jù)之前,我們首先需要厘清幾個基本概念。
1.數(shù)據(jù)
關(guān)于數(shù)據(jù)的定義,大概沒有一個權(quán)威版本。為方便,此處使用一個簡單的工作定義:數(shù)據(jù)是可以獲取和存儲的信息。
直觀而言,表達某種客觀事實的數(shù)值是最容易被人們識別的數(shù)據(jù)(因為那是“數(shù)”)。但實際上,人類的一切語言文字、圖形圖畫、音像記錄,所有感官可以察覺的事物,只要能被記下來,能夠查詢到,就都是數(shù)據(jù)(data)。
不過數(shù)值是所有數(shù)據(jù)中最容易被處理的一種,許多和數(shù)據(jù)相關(guān)的概念,例如下面的數(shù)據(jù)可視化和數(shù)據(jù)分析,最早是立足于數(shù)值數(shù)據(jù)的。
傳統(tǒng)意義上的數(shù)據(jù)一詞,尤其是相對于今天的“大數(shù)據(jù)”的“小數(shù)據(jù)”,主要指的就是數(shù)值數(shù)據(jù),甚至在很多情況下專指統(tǒng)計數(shù)值數(shù)據(jù)。這些數(shù)值數(shù)據(jù)用來描述某種客觀事物的屬性。
2.數(shù)據(jù)可視化
對應(yīng)英語的data visulization(或可譯為數(shù)據(jù)展示),指通過圖表將若干數(shù)字以直觀的方式呈現(xiàn)給讀者。比如非常常見的餅圖、柱狀圖、走勢圖、熱點圖、K線等等,目前以二維展示為主,不過越來越多的三維圖像和動態(tài)圖也被用來展示數(shù)據(jù)。
3.數(shù)據(jù)分析
這一概念狹義上,指統(tǒng)計分析,即通過統(tǒng)計學手段,從數(shù)據(jù)中精煉對現(xiàn)實的描述。例如:針對以關(guān)系型數(shù)據(jù)庫中以table形式存儲的數(shù)據(jù),按照某些指定的列進行分組,然后計算不同組的均值、方差、分布等。再以可視化的方式講這些計算結(jié)果呈現(xiàn)出來。目前很多文章中提及的數(shù)據(jù)分析,其實是包括數(shù)據(jù)可視化的。
4.數(shù)據(jù)挖掘
這個概念的定義也是眾說紛紜,落到實際,主要是在傳統(tǒng)統(tǒng)計學的基礎(chǔ)上,結(jié)合機器學習的算法,對數(shù)據(jù)進行更深層次的分析,并從中獲取一些傳統(tǒng)統(tǒng)計學方法無法提供的Insights(比如預(yù)測)。
簡單而言:針對某個特定問題構(gòu)建一個數(shù)學模型(可以把這個模型想象成一個或多個公式),其中包含一些具體取值未知的參數(shù)。我們將收集到的相關(guān)領(lǐng)域的若干數(shù)據(jù)(這些數(shù)據(jù)稱為訓練數(shù)據(jù))代入模型,通過運算(運算過程稱為訓練),得出那些參數(shù)的值。然后再用這個已經(jīng)確定了參數(shù)的模型,去計算一些全新的數(shù)據(jù),得出相應(yīng)結(jié)果。這一過程叫做機器學習。
機器學習的算法紛繁復(fù)雜,最常用的主要有回歸分析、關(guān)聯(lián)規(guī)則、分類、聚類、神經(jīng)網(wǎng)絡(luò)、決策樹等。
二、大數(shù)據(jù)和大數(shù)據(jù)分析
大數(shù)據(jù)首先是數(shù)據(jù),其次,它是具備了某些特征的數(shù)據(jù)。目前公認的特征有四個:Volumne,Velocity,Variety,和Value,簡稱4V.
1.Volume:大量。就目前技術(shù)而言,至少TB級別以下不能成大數(shù)據(jù)。
2.Velocity:高速。1TB的數(shù)據(jù),十分鐘處理完,叫大數(shù)據(jù),一年處理完,就不能算“大”了。
3.Variety:多樣。就內(nèi)容而言,大數(shù)據(jù)已經(jīng)遠遠不局限數(shù)值,文字、圖片、語音、圖像,一切在網(wǎng)絡(luò)上可以傳輸顯示的信息,都屬于此列。從結(jié)構(gòu)而言,和存儲在數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)不同,當前的大數(shù)據(jù)主要指半結(jié)構(gòu)化和非結(jié)構(gòu)化的信息,比如機器生成信息(各種日志)、自然語言等。
4. Value:價值。如果不能從中提取出價值,不能通過挖掘、分析,得到指導(dǎo)業(yè)務(wù)的insights,那這些數(shù)據(jù)也就沒什么用。不過現(xiàn)在還有另外一種提法:只要是數(shù)據(jù)就都有用,能不能獲得價值,是分析人員的能力問題。
大數(shù)據(jù)分析,顧名思義,就是將前述的數(shù)據(jù)可視化、數(shù)據(jù)分析、數(shù)據(jù)挖掘等方法作用到大數(shù)據(jù)之上。
從某種意義上講,大數(shù)據(jù)可謂機器學習的福音,很多原有的簡單粗糙的機器學習模型,僅僅因為訓練數(shù)據(jù)量級的增加就大幅提高了準確性。還有一些模型則因為準確性隨著數(shù)據(jù)量增加而增加的勢頭尤其明顯,得以脫離默默無聞而被廣泛使用。
另一方面,大數(shù)據(jù)分析對于運算量的需求激增,原有的基于單機的運算技術(shù)顯然已經(jīng)不能滿足需求,這就催生了一些列新技術(shù)。
三、大數(shù)據(jù)技術(shù)
抽象而言,各種大數(shù)據(jù)技術(shù)無外乎分布式存儲 + 并行計算。具體體現(xiàn)為各種分布式文件系統(tǒng)和建立在其上的并行運算框架。這些軟件程序都部署在多個相互連通、統(tǒng)一管理的物理或虛擬運算節(jié)點之上,形成集群(cluster)。因此不妨說,
云計算是大數(shù)據(jù)的基礎(chǔ)。
下面介紹幾種當前比較流行的大數(shù)據(jù)技術(shù):
1.Hadoop
Hadoop無疑是當前最知名的大數(shù)據(jù)技術(shù)了。
2003年到2004年間,Google發(fā)布了關(guān)于GFS、MapReduce和BigTable三篇技術(shù)論文(這幾篇論文成為了后來云計算、大數(shù)據(jù)領(lǐng)域發(fā)展的重要基石)。當時一位因公司倒閉賦閑在家的程序員Doug Cutting根據(jù)前兩篇論文,開發(fā)出了一個簡化的山寨版GFS – HDFS,以及基于其的MapReduce計算框架,這就是Hadoop最初版本。后來Cutting被Yahoo雇傭,得以依賴Yahoo的資源改進Hadoop,并將其貢獻給了Apache開源社區(qū)。
簡單描述Hadoop原理:數(shù)據(jù)分布式存儲,運算程序被發(fā)派到各個數(shù)據(jù)節(jié)點進行分別運算(Map),再將各個節(jié)點的運算結(jié)果進行合并歸一(Reduce),生成最終結(jié)果。相對于動輒TB級別的數(shù)據(jù),計算程序一般在KB – MB的量級,這種移動計算不移動數(shù)據(jù)的設(shè)計節(jié)約了大量網(wǎng)絡(luò)帶寬和時間,并使得運算過程可以充分并行化。
在其誕生后的近10年里,Hadoop憑借其簡單、易用、高效、免費、社區(qū)支持豐富等特征成為眾多企業(yè)云計算、大數(shù)據(jù)實施的首選。
2.Storm
Hadoop雖好,卻有其“死穴”.其一:它的運算模式是批處理。這對于許多有實時性要求的業(yè)務(wù)就無法做到很好的支持。因此,Twitter推出了他們自己的基于流的運算框架--Storm.不同于Hadoop一次性處理所有數(shù)據(jù)并得出統(tǒng)一結(jié)果的作業(yè)(job),Storm對源源導(dǎo)入的數(shù)據(jù)流進行持續(xù)不斷的處理,隨時得出增量結(jié)果。
3.Spark
Hadoop的另一個致命弱點是:它的所有中間結(jié)果都需要進行硬盤存儲,I/O消耗巨大,這就使得它很不適合多次迭代的運算。而大多數(shù)機器學習算法,恰恰要求大量迭代運算。
2010年開始,UC Berkeley AMP Lab開始研發(fā)分布式運算的中間過程全部內(nèi)存存儲的Spark框架,由此在迭代計算上大大提高了效率。也因此成為了Hadoop的強有力競爭者。
4.NoSQL 數(shù)據(jù)庫
NoSQL數(shù)據(jù)庫可以泛指非關(guān)系型數(shù)據(jù)庫,不過一般用來指稱那些建立在分布式文件系統(tǒng)(例如HDFS)之上,基于key-value對的數(shù)據(jù)管理系統(tǒng)。
相對于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,NoSQL數(shù)據(jù)庫中存儲的數(shù)據(jù)無需主鍵和嚴格定義的schema.于是,大量半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)可以在未經(jīng)清洗的情況下直接進行存儲。這一點滿足了處理大量、高速、多樣的大數(shù)據(jù)的需求。當前比較流行的NoSQL數(shù)據(jù)庫有MongoDB,Redis,Cassandra,HBase等。
NoSQL并不是沒有SQL,而是不僅僅有(not only)SQL的意思。為了兼容之前許多運行在關(guān)系型數(shù)據(jù)庫上的業(yè)務(wù)邏輯,有很多在NoSQL數(shù)據(jù)庫上運行SQL的工具涌現(xiàn)出來,最典型的例如Hive和Pig,它們將用戶的SQL語句轉(zhuǎn)化成MapReduce作業(yè),在Hadoop上運行。
四、和數(shù)據(jù)、大數(shù)據(jù)相關(guān)的職位
和數(shù)據(jù)、數(shù)據(jù)分析相關(guān)的職位有不少,大都不是新生事物。
1.有一個歷史悠久的職位叫“統(tǒng)計”.一般的農(nóng)村生產(chǎn)隊都有統(tǒng)計員,工廠也有專門的統(tǒng)計職位。比如一個工廠里,每個車間每天都要上報各種原材料的使用、耗損情況、產(chǎn)品成品數(shù),廢品數(shù)等。這些數(shù)字被匯總給統(tǒng)計人員,統(tǒng)計員會做一個表格,說明某日、月、年的成品率、成品數(shù)等等概念。雖然看起來不夠in,但實際上他們做的數(shù)據(jù)收集整理展示的工作,從根本上和現(xiàn)在的數(shù)據(jù)分析師是同理的。
2.另一個相對摩登一點的職位,叫做BI (business intelligence)。這個職位,其實和傳統(tǒng)工廠的統(tǒng)計差別不大,如果說有差別,就是差在數(shù)據(jù)展示上。BI都被要求使用軟件工具對數(shù)據(jù)進行整理和展示。比如,某大型生產(chǎn)型企業(yè)的BI,他的工作是統(tǒng)計該企業(yè)各種產(chǎn)品在各個地區(qū)的銷售信息。他每天從拿到各個銷售網(wǎng)點提交的excel表,把其中數(shù)據(jù)導(dǎo)出到數(shù)據(jù)庫里,進行一些SQL查詢,然后用可視化工具將結(jié)果生成圖形表格提交給業(yè)務(wù)人員參考。
3.還有兩個職位,一個叫做數(shù)據(jù)分析師(data analyst),另一個叫數(shù)據(jù)科學家(data scientist)。這兩個職位,在有些機構(gòu)組織中,職責不同;在另一些地方,職責相同,或相似,但級別不同。對于職責不同的地方,一般數(shù)據(jù)科學家要使用機器學習的算法,而數(shù)據(jù)分析師則專注在統(tǒng)計。
目前數(shù)據(jù)科學家這個詞一般都和大數(shù)據(jù)綁定在一起,包括在美國,似乎一提data scientist就是做大數(shù)據(jù)的,但是實際上未必,很多有 data scientist 頭銜的人,也確實在工作中大量應(yīng)用機器學習算法,但是,他們處理的并不是大數(shù)據(jù),很可能只是幾十萬,幾百萬量級的數(shù)據(jù)庫記錄。
4.(大)數(shù)據(jù)工程師(data engineer/big data engineer)。這個職位更偏重于數(shù)據(jù)本身的處理,即大規(guī)模(TB/PB級別)數(shù)據(jù)的提取、遷移、抽取和清洗。數(shù)據(jù)工程師也可以進行數(shù)據(jù)挖掘工作,或者協(xié)助數(shù)據(jù)科學家實現(xiàn)算法。
5.數(shù)據(jù)質(zhì)量(data quality)。擔任這個職位的,是保證各層級數(shù)據(jù)完整性和準確性的人員。他們負責制定數(shù)據(jù)完整性和準確性標準,設(shè)計檢測方法并實施檢測。
上述這些職位,主要指IT產(chǎn)業(yè)內(nèi)的職位,其他還有一些在研究機構(gòu)或者大公司研究部門進行算法優(yōu)化和研究的人員,以及另一些相對低端的,手工清洗數(shù)據(jù)的勞動者(例如:在數(shù)據(jù)庫時代,手工錄入數(shù)據(jù)到數(shù)據(jù)庫的人),就都不計入此列了。
五、大數(shù)據(jù)的影響
大數(shù)據(jù)概念的興起正在對我們的社會產(chǎn)生多方面的影響:
1.定量分析
因“大數(shù)據(jù)”而使得人們開始關(guān)注“數(shù)據(jù)”,可謂最首要的影響。尤其對于國內(nèi)而言,越來越多的決策者開始重視數(shù)據(jù)的力量,會在決斷同時參考各類統(tǒng)計、分析報表,而不再是憑直覺拍腦袋。
2.從必然到相關(guān)
相對于傳統(tǒng)的小數(shù)據(jù)統(tǒng)計,大數(shù)據(jù)更關(guān)注與發(fā)現(xiàn)事物之間的相關(guān)性,而非因果關(guān)系。人類歷經(jīng)百萬年基于數(shù)據(jù)貧乏的現(xiàn)狀而形成的“因為……所以……”的思維習慣,在大數(shù)據(jù)時代,是否會向“……有關(guān)聯(lián)……”轉(zhuǎn)變?
3.信息安全
以今日的技術(shù),一個人的個人信息、網(wǎng)頁瀏覽記錄、購物記錄、對圖書影片等內(nèi)容的偏好,在瀏覽不同頁面時的行為習慣,如此種種,都可以輕易被商家或某些機構(gòu)獲取。在大數(shù)據(jù)的籠罩之下,每個人都將無所遁形。那么,對于每個人本該擁有的隱私權(quán),該如何保護?
新技術(shù)解決了許多之前無法解決的問題,然而,新生事物也帶來了新的問題。像所有技術(shù)一樣,大數(shù)據(jù)也是一把 “雙刃劍”.能否用其利除其弊,有賴于全社會的共同努力。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標題:大數(shù)據(jù)基本概念及技術(shù)淺析
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/10839717444.html