| 當前位置：拓步ERP資訊網(wǎng) >>管理咨詢 >>CIO技術(shù)專欄 >>CIO云計算

大數(shù)據(jù)基本概念及技術(shù)淺析

發(fā)布日期：2014-12-10 11:40:09 來源：www.ezxoed.cn 編輯：拓步ERP資訊網(wǎng) 瀏覽：評論

摘要：大數(shù)據(jù)是當前很熱的一個詞。這幾年來，云計算、繼而大數(shù)據(jù)，成了整個社會的熱點，不管什么，都要帶上“大數(shù)據(jù)”三個字才顯得時髦。大數(shù)據(jù)究竟是什么東西？有哪些相關(guān)技術(shù)？對普通人的生活會有怎樣的影響？我們來一步步弄清這些問題。 原標題：大數(shù)據(jù)基本概念及技術(shù)淺析 原作者：發(fā)表時間：2014/12/10 李燁來源：CIO時代網(wǎng)

　　一、基本概念

　　在講什么是大數(shù)據(jù)之前，我們首先需要厘清幾個基本概念。

　　1.數(shù)據(jù)

　　關(guān)于數(shù)據(jù)的定義，大概沒有一個權(quán)威版本。為方便，此處使用一個簡單的工作定義：數(shù)據(jù)是可以獲取和存儲的信息。

　　直觀而言，表達某種客觀事實的數(shù)值是最容易被人們識別的數(shù)據(jù)（因為那是“數(shù)”）。但實際上，人類的一切語言文字、圖形圖畫、音像記錄，所有感官可以察覺的事物，只要能被記下來，能夠查詢到，就都是數(shù)據(jù)（data）。

　　不過數(shù)值是所有數(shù)據(jù)中最容易被處理的一種，許多和數(shù)據(jù)相關(guān)的概念，例如下面的數(shù)據(jù)可視化和數(shù)據(jù)分析，最早是立足于數(shù)值數(shù)據(jù)的。

　　傳統(tǒng)意義上的數(shù)據(jù)一詞，尤其是相對于今天的“大數(shù)據(jù)”的“小數(shù)據(jù)”,主要指的就是數(shù)值數(shù)據(jù)，甚至在很多情況下專指統(tǒng)計數(shù)值數(shù)據(jù)。這些數(shù)值數(shù)據(jù)用來描述某種客觀事物的屬性。

　　2.數(shù)據(jù)可視化

　　對應(yīng)英語的data visulization（或可譯為數(shù)據(jù)展示），指通過圖表將若干數(shù)字以直觀的方式呈現(xiàn)給讀者。比如非常常見的餅圖、柱狀圖、走勢圖、熱點圖、K線等等，目前以二維展示為主，不過越來越多的三維圖像和動態(tài)圖也被用來展示數(shù)據(jù)。

　　3.數(shù)據(jù)分析

　　這一概念狹義上，指統(tǒng)計分析，即通過統(tǒng)計學手段，從數(shù)據(jù)中精煉對現(xiàn)實的描述。例如：針對以關(guān)系型數(shù)據(jù)庫中以table形式存儲的數(shù)據(jù)，按照某些指定的列進行分組，然后計算不同組的均值、方差、分布等。再以可視化的方式講這些計算結(jié)果呈現(xiàn)出來。目前很多文章中提及的數(shù)據(jù)分析，其實是包括數(shù)據(jù)可視化的。

　　4.數(shù)據(jù)挖掘

　　這個概念的定義也是眾說紛紜，落到實際，主要是在傳統(tǒng)統(tǒng)計學的基礎(chǔ)上，結(jié)合機器學習的算法，對數(shù)據(jù)進行更深層次的分析，并從中獲取一些傳統(tǒng)統(tǒng)計學方法無法提供的Insights（比如預(yù)測）。

　　簡單而言：針對某個特定問題構(gòu)建一個數(shù)學模型（可以把這個模型想象成一個或多個公式），其中包含一些具體取值未知的參數(shù)。我們將收集到的相關(guān)領(lǐng)域的若干數(shù)據(jù)（這些數(shù)據(jù)稱為訓練數(shù)據(jù)）代入模型，通過運算（運算過程稱為訓練），得出那些參數(shù)的值。然后再用這個已經(jīng)確定了參數(shù)的模型，去計算一些全新的數(shù)據(jù)，得出相應(yīng)結(jié)果。這一過程叫做機器學習。

　　機器學習的算法紛繁復(fù)雜，最常用的主要有回歸分析、關(guān)聯(lián)規(guī)則、分類、聚類、神經(jīng)網(wǎng)絡(luò)、決策樹等。

　　二、大數(shù)據(jù)和大數(shù)據(jù)分析

　　大數(shù)據(jù)首先是數(shù)據(jù)，其次，它是具備了某些特征的數(shù)據(jù)。目前公認的特征有四個：Volumne,Velocity,Variety,和Value,簡稱4V.

　　1.Volume:大量。就目前技術(shù)而言，至少TB級別以下不能成大數(shù)據(jù)。

　　2.Velocity:高速。1TB的數(shù)據(jù)，十分鐘處理完，叫大數(shù)據(jù)，一年處理完，就不能算“大”了。

　　3.Variety:多樣。就內(nèi)容而言，大數(shù)據(jù)已經(jīng)遠遠不局限數(shù)值，文字、圖片、語音、圖像，一切在網(wǎng)絡(luò)上可以傳輸顯示的信息，都屬于此列。從結(jié)構(gòu)而言，和存儲在數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)不同，當前的大數(shù)據(jù)主要指半結(jié)構(gòu)化和非結(jié)構(gòu)化的信息，比如機器生成信息（各種日志）、自然語言等。

　　4. Value:價值。如果不能從中提取出價值，不能通過挖掘、分析，得到指導(dǎo)業(yè)務(wù)的insights,那這些數(shù)據(jù)也就沒什么用。不過現(xiàn)在還有另外一種提法：只要是數(shù)據(jù)就都有用，能不能獲得價值，是分析人員的能力問題。

　　大數(shù)據(jù)分析，顧名思義，就是將前述的數(shù)據(jù)可視化、數(shù)據(jù)分析、數(shù)據(jù)挖掘等方法作用到大數(shù)據(jù)之上。

　　從某種意義上講，大數(shù)據(jù)可謂機器學習的福音，很多原有的簡單粗糙的機器學習模型，僅僅因為訓練數(shù)據(jù)量級的增加就大幅提高了準確性。還有一些模型則因為準確性隨著數(shù)據(jù)量增加而增加的勢頭尤其明顯，得以脫離默默無聞而被廣泛使用。

　　另一方面，大數(shù)據(jù)分析對于運算量的需求激增，原有的基于單機的運算技術(shù)顯然已經(jīng)不能滿足需求，這就催生了一些列新技術(shù)。

　　三、大數(shù)據(jù)技術(shù)

　　抽象而言，各種大數(shù)據(jù)技術(shù)無外乎分布式存儲 + 并行計算。具體體現(xiàn)為各種分布式文件系統(tǒng)和建立在其上的并行運算框架。這些軟件程序都部署在多個相互連通、統(tǒng)一管理的物理或虛擬運算節(jié)點之上，形成集群（cluster）。因此不妨說，云計算是大數(shù)據(jù)的基礎(chǔ)。

　　下面介紹幾種當前比較流行的大數(shù)據(jù)技術(shù)：

　　1.Hadoop

　　Hadoop無疑是當前最知名的大數(shù)據(jù)技術(shù)了。

　　2003年到2004年間，Google發(fā)布了關(guān)于GFS、MapReduce和BigTable三篇技術(shù)論文（這幾篇論文成為了后來云計算、大數(shù)據(jù)領(lǐng)域發(fā)展的重要基石）。當時一位因公司倒閉賦閑在家的程序員Doug Cutting根據(jù)前兩篇論文，開發(fā)出了一個簡化的山寨版GFS – HDFS,以及基于其的MapReduce計算框架，這就是Hadoop最初版本。后來Cutting被Yahoo雇傭，得以依賴Yahoo的資源改進Hadoop,并將其貢獻給了Apache開源社區(qū)。

　　簡單描述Hadoop原理：數(shù)據(jù)分布式存儲，運算程序被發(fā)派到各個數(shù)據(jù)節(jié)點進行分別運算（Map），再將各個節(jié)點的運算結(jié)果進行合并歸一（Reduce），生成最終結(jié)果。相對于動輒TB級別的數(shù)據(jù)，計算程序一般在KB – MB的量級，這種移動計算不移動數(shù)據(jù)的設(shè)計節(jié)約了大量網(wǎng)絡(luò)帶寬和時間，并使得運算過程可以充分并行化。

　　在其誕生后的近10年里，Hadoop憑借其簡單、易用、高效、免費、社區(qū)支持豐富等特征成為眾多企業(yè)云計算、大數(shù)據(jù)實施的首選。

　　2.Storm

　　Hadoop雖好，卻有其“死穴”.其一：它的運算模式是批處理。這對于許多有實時性要求的業(yè)務(wù)就無法做到很好的支持。因此，Twitter推出了他們自己的基于流的運算框架--Storm.不同于Hadoop一次性處理所有數(shù)據(jù)并得出統(tǒng)一結(jié)果的作業(yè)（job），Storm對源源導(dǎo)入的數(shù)據(jù)流進行持續(xù)不斷的處理，隨時得出增量結(jié)果。

　　3.Spark

　　Hadoop的另一個致命弱點是：它的所有中間結(jié)果都需要進行硬盤存儲，I/O消耗巨大，這就使得它很不適合多次迭代的運算。而大多數(shù)機器學習算法，恰恰要求大量迭代運算。

　　2010年開始，UC Berkeley AMP Lab開始研發(fā)分布式運算的中間過程全部內(nèi)存存儲的Spark框架，由此在迭代計算上大大提高了效率。也因此成為了Hadoop的強有力競爭者。

　　4.NoSQL 數(shù)據(jù)庫

　　NoSQL數(shù)據(jù)庫可以泛指非關(guān)系型數(shù)據(jù)庫，不過一般用來指稱那些建立在分布式文件系統(tǒng)（例如HDFS）之上，基于key-value對的數(shù)據(jù)管理系統(tǒng)。

　　相對于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫，NoSQL數(shù)據(jù)庫中存儲的數(shù)據(jù)無需主鍵和嚴格定義的schema.于是，大量半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)可以在未經(jīng)清洗的情況下直接進行存儲。這一點滿足了處理大量、高速、多樣的大數(shù)據(jù)的需求。當前比較流行的NoSQL數(shù)據(jù)庫有MongoDB,Redis,Cassandra,HBase等。

　　NoSQL并不是沒有SQL,而是不僅僅有（not only）SQL的意思。為了兼容之前許多運行在關(guān)系型數(shù)據(jù)庫上的業(yè)務(wù)邏輯，有很多在NoSQL數(shù)據(jù)庫上運行SQL的工具涌現(xiàn)出來，最典型的例如Hive和Pig,它們將用戶的SQL語句轉(zhuǎn)化成MapReduce作業(yè)，在Hadoop上運行。

　　四、和數(shù)據(jù)、大數(shù)據(jù)相關(guān)的職位

　　和數(shù)據(jù)、數(shù)據(jù)分析相關(guān)的職位有不少，大都不是新生事物。

　　1.有一個歷史悠久的職位叫“統(tǒng)計”.一般的農(nóng)村生產(chǎn)隊都有統(tǒng)計員，工廠也有專門的統(tǒng)計職位。比如一個工廠里，每個車間每天都要上報各種原材料的使用、耗損情況、產(chǎn)品成品數(shù)，廢品數(shù)等。這些數(shù)字被匯總給統(tǒng)計人員，統(tǒng)計員會做一個表格，說明某日、月、年的成品率、成品數(shù)等等概念。雖然看起來不夠in,但實際上他們做的數(shù)據(jù)收集整理展示的工作，從根本上和現(xiàn)在的數(shù)據(jù)分析師是同理的。

　　2.另一個相對摩登一點的職位，叫做BI （business intelligence）。這個職位，其實和傳統(tǒng)工廠的統(tǒng)計差別不大，如果說有差別，就是差在數(shù)據(jù)展示上。BI都被要求使用軟件工具對數(shù)據(jù)進行整理和展示。比如，某大型生產(chǎn)型企業(yè)的BI,他的工作是統(tǒng)計該企業(yè)各種產(chǎn)品在各個地區(qū)的銷售信息。他每天從拿到各個銷售網(wǎng)點提交的excel表，把其中數(shù)據(jù)導(dǎo)出到數(shù)據(jù)庫里，進行一些SQL查詢，然后用可視化工具將結(jié)果生成圖形表格提交給業(yè)務(wù)人員參考。

　　3.還有兩個職位，一個叫做數(shù)據(jù)分析師（data analyst），另一個叫數(shù)據(jù)科學家（data scientist）。這兩個職位，在有些機構(gòu)組織中，職責不同；在另一些地方，職責相同，或相似，但級別不同。對于職責不同的地方，一般數(shù)據(jù)科學家要使用機器學習的算法，而數(shù)據(jù)分析師則專注在統(tǒng)計。

　　目前數(shù)據(jù)科學家這個詞一般都和大數(shù)據(jù)綁定在一起，包括在美國，似乎一提data scientist就是做大數(shù)據(jù)的，但是實際上未必，很多有 data scientist 頭銜的人，也確實在工作中大量應(yīng)用機器學習算法，但是，他們處理的并不是大數(shù)據(jù)，很可能只是幾十萬，幾百萬量級的數(shù)據(jù)庫記錄。

　　4.（大）數(shù)據(jù)工程師（data engineer/big data engineer）。這個職位更偏重于數(shù)據(jù)本身的處理，即大規(guī)模（TB/PB級別）數(shù)據(jù)的提取、遷移、抽取和清洗。數(shù)據(jù)工程師也可以進行數(shù)據(jù)挖掘工作，或者協(xié)助數(shù)據(jù)科學家實現(xiàn)算法。

　　5.數(shù)據(jù)質(zhì)量（data quality）。擔任這個職位的，是保證各層級數(shù)據(jù)完整性和準確性的人員。他們負責制定數(shù)據(jù)完整性和準確性標準，設(shè)計檢測方法并實施檢測。

　　上述這些職位，主要指IT產(chǎn)業(yè)內(nèi)的職位，其他還有一些在研究機構(gòu)或者大公司研究部門進行算法優(yōu)化和研究的人員，以及另一些相對低端的，手工清洗數(shù)據(jù)的勞動者（例如：在數(shù)據(jù)庫時代，手工錄入數(shù)據(jù)到數(shù)據(jù)庫的人），就都不計入此列了。

　　五、大數(shù)據(jù)的影響

　　大數(shù)據(jù)概念的興起正在對我們的社會產(chǎn)生多方面的影響：

　　1.定量分析

　　因“大數(shù)據(jù)”而使得人們開始關(guān)注“數(shù)據(jù)”,可謂最首要的影響。尤其對于國內(nèi)而言，越來越多的決策者開始重視數(shù)據(jù)的力量，會在決斷同時參考各類統(tǒng)計、分析報表，而不再是憑直覺拍腦袋。

　　2.從必然到相關(guān)

　　相對于傳統(tǒng)的小數(shù)據(jù)統(tǒng)計，大數(shù)據(jù)更關(guān)注與發(fā)現(xiàn)事物之間的相關(guān)性，而非因果關(guān)系。人類歷經(jīng)百萬年基于數(shù)據(jù)貧乏的現(xiàn)狀而形成的“因為……所以……”的思維習慣，在大數(shù)據(jù)時代，是否會向“……有關(guān)聯(lián)……”轉(zhuǎn)變？

　　3.信息安全

　　以今日的技術(shù)，一個人的個人信息、網(wǎng)頁瀏覽記錄、購物記錄、對圖書影片等內(nèi)容的偏好，在瀏覽不同頁面時的行為習慣，如此種種，都可以輕易被商家或某些機構(gòu)獲取。在大數(shù)據(jù)的籠罩之下，每個人都將無所遁形。那么，對于每個人本該擁有的隱私權(quán)，該如何保護？

　　新技術(shù)解決了許多之前無法解決的問題，然而，新生事物也帶來了新的問題。像所有技術(shù)一樣，大數(shù)據(jù)也是一把 “雙刃劍”.能否用其利除其弊，有賴于全社會的共同努力。

核心關(guān)注：拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用，蘊涵了豐富的ERP管理思想，集成了ERP軟件業(yè)務(wù)管理理念，功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理，全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域，是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。

轉(zhuǎn)載請注明出處：拓步ERP資訊網(wǎng)http://www.ezxoed.cn/

本文標題：大數(shù)據(jù)基本概念及技術(shù)淺析

本文網(wǎng)址：http://www.ezxoed.cn/html/consultation/10839717444.html

關(guān)鍵詞標簽： 大數(shù)據(jù)基本概念及技術(shù)淺析,大數(shù)據(jù) 大數(shù)據(jù)概念大數(shù)據(jù)技術(shù),ERP,ERP系統(tǒng),ERP軟件,ERP系統(tǒng)軟件,ERP管理系統(tǒng),ERP管理軟件,進銷存軟件,財務(wù)軟件,倉庫管理軟件,生產(chǎn)管理軟件,企業(yè)管理軟件,拓步,拓步ERP,拓步軟件,免費ERP,免費ERP軟件,免費ERP系統(tǒng),ERP軟件免費下載,ERP系統(tǒng)免費下載,免費ERP軟件下載,免費進銷存軟件,免費進銷存,免費財務(wù)軟件,免費倉庫管理軟件,免費下載,

本文轉(zhuǎn)自：e-works制造業(yè)信息化門戶網(wǎng)

本文來源于互聯(lián)網(wǎng)，拓步ERP資訊網(wǎng)本著傳播知識、有益學習和研究的目的進行的轉(zhuǎn)載，為網(wǎng)友免費提供，并盡力標明作者與出處，如有著作權(quán)人或出版方提出異議，本站將立即刪除。如果您對文章轉(zhuǎn)載有任何疑問請告之我們，以便我們及時糾正。聯(lián)系方式：QQ：10877846 Tel：0755-26405298。

上一篇：企業(yè)如何布局于新互聯(lián)網(wǎng)時代

下一篇：云計算，有錢任性就可以嗎？

相關(guān)文章

管理咨詢

拓步ERP系統(tǒng)軟件平臺11.5專業(yè)版v10.1.2...

拓步ERP系統(tǒng)軟件平臺11.5標..

金蝶KIS財務(wù)軟件標準版V8.1..

金蝶KIS財務(wù)軟件迷你版V8.1..

金蝶KIS工業(yè)貿(mào)易專業(yè)版V12...

SQL2000 4in1 ISO..

MSDE2000 SP4 簡體中..

金蝶KIS商貿(mào)高級版V4.0|破..

金蝶KIS財務(wù)軟件行政事業(yè)版V9..

金蝶KIS零售版V4.1|破解版..

熱門培訓視頻

拓步ERP系統(tǒng)平臺庫存管理系統(tǒng)培訓視頻教材

拓步ERP系統(tǒng)平臺客戶端安裝培訓..

拓步ERP財務(wù)管理系統(tǒng)培訓視頻

拓步ERP系統(tǒng)平臺數(shù)據(jù)庫安裝培訓..

拓步ERP系統(tǒng)平臺通用操作培訓視..

拓步ERP系統(tǒng)平臺采購管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺考勤管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺財務(wù)報表系統(tǒng)培..

拓步ERP系統(tǒng)平臺財務(wù)總帳系統(tǒng)培..

拓步ERP系統(tǒng)平臺應(yīng)收帳款系統(tǒng)培..

熱門電子圖書

拓步ERP財務(wù)管理系統(tǒng)電子圖書

熱門管理軟件

拓步ERP系統(tǒng)管理軟件介紹

拓步ERP平臺系列旗艦版

拓步ERP生產(chǎn)系列標準版（進銷存..

拓步ERP業(yè)務(wù)系列倉存版（倉庫管..

拓步ERP平臺系列標準版

拓步ERP財務(wù)系列迷你版（財務(wù)管..

拓步ERP條碼系列業(yè)務(wù)標準版（條..

拓步ERP平臺系列企業(yè)版

拓步ERP平臺系列專業(yè)版

拓步ERP行業(yè)系列電子行業(yè)版


	ERP新聞動態(tài) 拓步新聞行業(yè)新聞關(guān)注產(chǎn)品觀點縱橫企業(yè)管理企業(yè)應(yīng)用

	ERP解決方案按ERP應(yīng)用行業(yè)分類按ERP企業(yè)規(guī)模分類按ERP管理領(lǐng)域分類按ERP軟件功能分類按ERP系統(tǒng)特性分類用友ERP解決方案金蝶ERP解決方案易飛ERP解決方案速達ERP解決方案其他ERP解決方案

	ERP顧問咨詢 ERP管理咨詢 ERP戰(zhàn)略診斷 ERP流程分析 ERP流程優(yōu)化 ERP風險分析 ERP可行性研究 ERP整體規(guī)劃 ERP選型招標 ERP實施監(jiān)理 ERP評審驗收 ERP績效評價 ERP基礎(chǔ)知識 ERP課程培訓 ERP培訓教育 ERP視頻教材

	CIO技術(shù)專欄 CIO企業(yè)應(yīng)用 CIO網(wǎng)絡(luò)通信 CIO信息安全 CIO基礎(chǔ)設(shè)施 CIO云計算

	ERP技術(shù)支持技術(shù)支持知識庫常見問題資料庫在線學習資料庫日常辦公資料庫企業(yè)管理知識庫

	ERP系統(tǒng)價格拓步ERP系統(tǒng)價格體系拓步EIS軟件價格體系合作品牌ERP價格體系技術(shù)支持服務(wù)價格體系

	合作品牌用友UFIDA 金蝶KingDee 神州數(shù)碼Digital 速達SuperData 拓步ERP系統(tǒng)成功案例

	代理加盟合作聯(lián)盟策略代理合作指南代理聯(lián)盟前景聯(lián)盟技術(shù)支持快速搜索ERP軟件資訊

	關(guān)于拓步公司介紹公司愿景企業(yè)文化誠聘英才聯(lián)系我們在線留言在線訂購意向下載體驗登記

2021色婷婷综合久久久_国产亚洲午夜高清国产亚洲_亚洲开心婷婷中文字幕_亚洲国产中文精品字幕第一页_国产综合免费视频

ERP顧問咨詢

ERP原理知識

ERP實施培訓

CIO技術(shù)專欄

CIO企業(yè)應(yīng)用

CIO網(wǎng)絡(luò)通信

CIO信息安全

CIO基礎(chǔ)設(shè)施

CIO云計算

即時聯(lián)系

服務(wù)熱線

快捷互動

猜您喜歡