大數(shù)據(jù)是諸多計算技術的融合。從大的方面來分,大數(shù)據(jù)技術與研究主要分為大數(shù)據(jù)基礎理論、大數(shù)據(jù)關鍵技術和系統(tǒng)、大數(shù)據(jù)應用以及大數(shù)據(jù)信息資源庫等幾個重要方面。
從信息系統(tǒng)的角度來看,大數(shù)據(jù)處理是一個涉及整個軟硬件系統(tǒng)各個層面的綜合性信息處理技術。從信息系統(tǒng)角度可將大數(shù)據(jù)處理分為基礎設施層、系統(tǒng)軟件層、并行化算法層以及應用層。圖1-12所示是從信息處理系統(tǒng)角度所看到的大數(shù)據(jù)技術的主要技術層面和技術內(nèi)容。
大數(shù)據(jù)主要技術層面和技術內(nèi)容
1、基礎設施層
基礎設施層主要提供大數(shù)據(jù)分布存儲和并行計算的硬件基礎設施和平臺。目前大數(shù)據(jù)處理通用化的硬件設施是基于普通商用服務器的集群,在有特殊的數(shù)據(jù)處 理需要時,這種通用化的集群也可以結合其他類型的并行計算設施一起工作,如基于眾核的并行處理系統(tǒng)(如GPU或者Intel新近推出的MIC),形成一種 混合式的大數(shù)據(jù)并行處理構架和硬件平臺。此外,隨著云計算技術的發(fā)展,也可以與云計算資源管理和平臺結合,在云計算平臺上部署大數(shù)據(jù)基礎設施,運用云計算 平臺中的虛擬化和彈性資源調度技術,為大數(shù)據(jù)處理提供可伸縮的計算資源和基礎設施。
2、系統(tǒng)軟件層
在系統(tǒng)軟件層,需要考慮大數(shù)據(jù)的存儲管理和并行化計算系統(tǒng)軟件。
(1)分布式文件系統(tǒng)與數(shù)據(jù)查詢管理系統(tǒng)
大數(shù)據(jù)處理首先面臨的是如何解決大數(shù)據(jù)的存儲管理問題。為了提供巨大的數(shù)據(jù)存儲能力,人們的普遍共識是,利用分布式存儲技術和系統(tǒng)提供可擴展的大數(shù)據(jù)存儲能力。
首先需要有一個底層的分布式文件系統(tǒng),以可擴展的方式支持對大規(guī)模數(shù)據(jù)文件的有效存儲管理。但文件系統(tǒng)主要是以文件方式提供一個最基礎性的大數(shù)據(jù)存 儲方式,其缺少結構化/半結構化數(shù)據(jù)的存儲管理和訪問能力,而且其編程接口對于很多應用來說還是太底層了。傳統(tǒng)的數(shù)據(jù)庫技術主要適用于規(guī)模相對較小的結構 化數(shù)據(jù)的存儲管理和查詢,當數(shù)據(jù)規(guī)模增大或者要處理很多非結構化或半結構化數(shù)據(jù)時,傳統(tǒng)數(shù)據(jù)庫技術和系統(tǒng)將難以勝任,F(xiàn)實世界中的大數(shù)據(jù)不僅數(shù)據(jù)量大,而 且具有多樣化的形態(tài)特征。據(jù)統(tǒng)計,現(xiàn)實世界80%的數(shù)據(jù)都是非結構化或半結構化的。因此,系統(tǒng)軟件層還需要研究解決大數(shù)據(jù)的存儲管理和查詢問題。由于 SQL不太適用于非結構化/半結構化數(shù)據(jù)的管理查詢,因此,人們提出了一種NoSQL的數(shù)據(jù)管理查詢模式。但是,人們發(fā)現(xiàn),最理想的還是能提供統(tǒng)一的數(shù)據(jù) 管理查詢方法,能對付各種不同類型的數(shù)據(jù)的查詢管理。為此,人們進一步提出了NewSQL的概念和技術。
(2)大數(shù)據(jù)并行計算模式和系統(tǒng)
解決了大數(shù)據(jù)的存儲問題后,進一步面臨的問題是,如何能快速有效地完成大規(guī)模數(shù)據(jù)的計算。大數(shù)據(jù)的數(shù)據(jù)規(guī)模之大,使得現(xiàn)有的串行計算方法難以在可接 受的時間里快速完成大數(shù)據(jù)的處理和計算。為了提高大數(shù)據(jù)處理的效率,需要使用大數(shù)據(jù)并行計算模型和框架來支撐大數(shù)據(jù)的計算處理。目前最主流的大數(shù)據(jù)并行計 算和框架是Hadoop MapReduce技術。與此同時,近年來人們開始研究并提供不同的大數(shù)據(jù)計算模型和方法,包括高實時低延遲要求的流式計算,具有復雜數(shù)據(jù)關系的圖計算, 面向基本數(shù)據(jù)管理的查詢分析類計算,以及面向復雜數(shù)據(jù)分析挖掘的迭代和交互計算等。在大多數(shù)場景下,由于數(shù)據(jù)量巨大,大數(shù)據(jù)處理通常很難達到實時或低延遲 響應。為了解決這個問題,近年來,人們提出了內(nèi)存計算的概念和方法,盡可能利用大內(nèi)存完成大數(shù)據(jù)的計算處理,以實現(xiàn)盡可能高的實時或低延遲響應。目前 Spark已成為一個具有很大發(fā)展前景的新的大數(shù)據(jù)計算系統(tǒng)和平臺,正受到工業(yè)界和學術界的廣泛關注,有望成為與Hadoop并存的一種新的計算系統(tǒng)和平 臺。
3、并行化算法層
基于以上的基礎設施層和系統(tǒng)軟件層,為了完成大數(shù)據(jù)的并行化處理,進一步需要考慮的問題是,如何能對各種大數(shù)據(jù)處理所需要的分析挖掘算法進行并行化設計。
大數(shù)據(jù)分析挖掘算法大多最終會歸結到基礎性的機器學習和數(shù)據(jù)挖掘算法上來。然而,面向大數(shù)據(jù)處理時,絕大多數(shù)現(xiàn)有的串行化機器學習和數(shù)據(jù)挖掘算法都難以在可接受的時間內(nèi)有效完成大數(shù)據(jù)處理,因此,這些已有的機器學習和數(shù)據(jù)挖掘算法都需要進行并行化的設計和改造。
除此以外,還需要考慮很多更貼近上層具體應用和領域問題的應用層算法,例如,社會網(wǎng)絡分析、分析推薦、商業(yè)智能分析、Web搜索與挖掘、媒體分析檢 索、自然語言理解與分析、語義分析與檢索、可視化分析等,雖然這些算法最終大都會歸結到底層的機器學習和數(shù)據(jù)挖掘算法上,但它們本身會涉及到很多高層的特 定算法問題,所有這些高層算法本身在面向大數(shù)據(jù)處理時也需要考慮如何進行并行化算法設計。
4、應用層
基于上述三個層面,可以構建各種行業(yè)或領域的大數(shù)據(jù)應用系統(tǒng)。大數(shù)據(jù)應用系統(tǒng)首先需要提供和使用各種大數(shù)據(jù)應用開發(fā)運行環(huán)境與工具;進一步,大數(shù)據(jù) 應用開發(fā)的一個特別問題是,需要有應用領域的專家歸納行業(yè)應用問題和需求、構建行業(yè)應用和業(yè)務模型,這些模型往往需要專門的領域知識,沒有應用行業(yè)領域專 家的配合,單純的計算機專業(yè)專業(yè)技術人員往往會無能為力,難以下手。只有在領域專家清晰構建了應用問題和業(yè)務模型后,計算機專業(yè)人員才能順利完成應用系統(tǒng) 的設計與開發(fā)。行業(yè)大數(shù)據(jù)分析和價值發(fā)現(xiàn)會涉及到很多復雜的行業(yè)和領域專業(yè)知識,這一特征在今天的大數(shù)據(jù)時代比以往任何時候都更為突出,這就是為什么我們 在大數(shù)據(jù)研究原則中明確提出,大數(shù)據(jù)的研究應用需要以應用需求為導向、領域交叉為橋梁,從實際行業(yè)應用問題和需求出發(fā),由行業(yè)和領域專家與計算機技術人員 相互配合和協(xié)同,以完成大數(shù)據(jù)行業(yè)應用的開發(fā)。
核心關注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務領域、行業(yè)應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領域的管理,全面涵蓋了企業(yè)關注ERP管理系統(tǒng)的核心領域,是眾多中小企業(yè)信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標題:大數(shù)據(jù)的主要技術層面和技術內(nèi)容
本文網(wǎng)址:http://www.ezxoed.cn/html/support/11121516364.html