近年來,大數(shù)據(jù)處理與分析已經(jīng)成為全球性問題,引起歐美各國政府和產(chǎn)業(yè)界高度重視,美國政府于2012年3月率先發(fā)布了《大數(shù)據(jù)研究與發(fā)展計劃》,Google, Amazon、Facebook、IBM、EMC、SAP等國際領(lǐng)先互聯(lián)網(wǎng)和仃公司都在相關(guān)技術(shù)領(lǐng)域和應(yīng)用進行布局,力圖在大數(shù)據(jù)產(chǎn)業(yè)浪潮中搶得先機。
隨著我國經(jīng)濟社會信息化和自動化水平不斷提高,在政府管理、公共服務(wù)、科學(xué)研究、商業(yè)應(yīng)用等許多領(lǐng)域也而臨大數(shù)據(jù)問題,亞需各種有針對性和經(jīng)濟有效的解決方案,快速提升我國在大數(shù)據(jù)領(lǐng)域的整體實力和國際競爭力。
木文結(jié)合中國科學(xué)院戰(zhàn)略性技術(shù)先導(dǎo)專項“而向感知中國的新一代信息技術(shù)”中“海云數(shù)據(jù)系統(tǒng)”的研制實踐,提出基于互聯(lián)網(wǎng)和數(shù)據(jù)中心、而向服務(wù)的大數(shù)據(jù)分析平臺解決方案,以滿足日益增長的用戶需求,為我國開展大數(shù)據(jù)分析技術(shù)的研究和實踐提供借鑒和參考。
一、大數(shù)據(jù)技術(shù)發(fā)展現(xiàn)狀
大數(shù)據(jù)時代來臨,工業(yè)界是技術(shù)爭霸的主戰(zhàn)場。全球大數(shù)據(jù)產(chǎn)業(yè)界針對大數(shù)據(jù)特有的海量、非結(jié)構(gòu)化、關(guān)系復(fù)雜、動態(tài)時變等特性以及不斷涌現(xiàn)的各種新型應(yīng)用需求,圍繞海量復(fù)雜數(shù)據(jù)的存儲、管理、整合、處理、分析、展現(xiàn)、應(yīng)用等主要環(huán)節(jié),已經(jīng)形成了新的大數(shù)據(jù)產(chǎn)業(yè)體系。
從發(fā)展路線角度看,業(yè)界將大數(shù)據(jù)產(chǎn)業(yè)劃分為三大陣營:一類是以IB M、微軟、惠普、ORACLE,EM C等為代表的傳統(tǒng)仃領(lǐng)導(dǎo)廠商,通過“硬件十軟件十?dāng)?shù)據(jù)”整體解決方案向用戶提供以平臺為核心的完備的基礎(chǔ)架構(gòu)與服務(wù),并通過密集地并購大數(shù)據(jù)分析企業(yè),以迅速增強和擴展在大數(shù)據(jù)分析領(lǐng)域的實力和市場份額;一類是以SA S, SPSS等為代表的專業(yè)商務(wù)智能公司,專注于智能數(shù)據(jù)分析;還有一類是以G oogle,Am azon, Facebook等互聯(lián)網(wǎng)公司為代表,基于自身的應(yīng)用平臺、龐大用戶群和海量用戶信息,提供精準營銷和個性化推薦等商業(yè)活動。以上三大陣營各有特點和優(yōu)勢,形成了大數(shù)據(jù)時代三足鼎立的格局。
1.招體平臺解決方案廠向
以IB M、微軟、惠普、ORACLE, EMC等為代表的傳統(tǒng)IT巨頭,通過“硬件+軟件+數(shù)據(jù)”的整體平臺向用戶提供大數(shù)據(jù)一站式解決方案。IBM在過去幾年連續(xù)投入160億美元,收購了30多家與大數(shù)據(jù)相關(guān)的企業(yè),初步實現(xiàn)了大數(shù)據(jù)行業(yè)應(yīng)用的布局。目前IBM在軟件架構(gòu)層而,收購了商務(wù)智能軟件供應(yīng)商Cognos、統(tǒng)計分析軟件SPSS、數(shù)據(jù)庫分析供應(yīng)商Netezza。結(jié)合IBM的DB2數(shù)據(jù)庫,推出了支持Apache Hadoop的Info Sphere BigIn sights軟件,支持大數(shù)據(jù)的應(yīng)用。在硬件架構(gòu)層而,IBM發(fā)布了集成了刀片服務(wù)器、存儲、網(wǎng)絡(luò)設(shè)備及相應(yīng)軟件系統(tǒng)的大數(shù)據(jù)一體機Pure Data,提供數(shù)據(jù)倉庫、和數(shù)據(jù)分析等功能。
為了應(yīng)對行業(yè)競爭,數(shù)據(jù)庫龍頭企業(yè)ORACLE推出了0racle大數(shù)據(jù)一體機。該一體機集成了0racle Exalogic中間件云服務(wù)器, 0racle Exadata數(shù)據(jù)庫云服務(wù)器和0racle Exalytics商務(wù)智能云服務(wù)器形成了ORACLE企業(yè)級端到端大數(shù)據(jù)的產(chǎn)品線。
通過收購 Vertica 公司,惠普推出針對大數(shù)據(jù)的Vertica 6.1 數(shù)據(jù)分析平臺,突破了傳統(tǒng)數(shù)據(jù)倉庫和數(shù)據(jù)庫無法實現(xiàn)縱向擴展的瓶頸。在大數(shù)據(jù)管理方面,Vertica 信息優(yōu)化平臺實現(xiàn)高速度、高性能、高可擴展,通過內(nèi)嵌 R 語言包實現(xiàn)了分析功能。Vertica 數(shù)據(jù)分析平臺以軟件的形式存在,可以加載在不同的計算資源上運行,包括一體機,同構(gòu)或異構(gòu)的硬件集群,甚至是公有云環(huán)境。
存儲服務(wù)器廠商 EMC 依托其 Greenplum 數(shù)據(jù)庫推出了第一款 Greenplum 一體機產(chǎn)品(Appliance),對原有的EMC硬件和Greenplum 軟件進行了整合。Greenplum 采用不同于Oracle,DB2等數(shù)據(jù)庫產(chǎn)品的shared-nothing 大規(guī)模并行處理(Massive Parallel Process,MPP) 架構(gòu),特別適用于大數(shù)據(jù)分析場景,可以通過增加節(jié)點方式進行橫向擴展,從而有效控制成本和性能。Greenplum 包含支持結(jié)構(gòu)化數(shù)據(jù)處理的 Greenplum Database 和非結(jié)構(gòu)化數(shù)據(jù)處理的Greenplum HD (Hadoop)。
整體平臺解決方案廠商依靠自身原有的軟件、硬件或技術(shù)優(yōu)勢,通過收購及整合不同公司的產(chǎn)品線,實現(xiàn)對大數(shù)據(jù)各個領(lǐng)域的覆蓋。但是這種堆砌式的系統(tǒng)整合,并不能徹底的突破大數(shù)據(jù)分析的瓶頸。只有通過對自身產(chǎn)品和技術(shù)的原始創(chuàng)新,才能實現(xiàn)對大數(shù)據(jù)處理問題的徹底解決。
2. 商務(wù)智能專業(yè)廠商
以 SAS、Teradata、Hyperion、Business Objects、Cognos、SPSS 等為代表的商務(wù)智能專業(yè)廠商長期專注于智能數(shù)據(jù)分析領(lǐng)域,具有技術(shù)實力強、產(chǎn)品線豐富、深刻理解傳統(tǒng)行業(yè)(如銀行、電信、零售)應(yīng)用需求等優(yōu)勢。近年來,隨著大數(shù)據(jù)分析競爭日趨激烈,該類廠商成為傳統(tǒng) IT 巨頭的爭奪焦點,早在 2007年至 2009 年,Oracle、SAP、IBM 等 IT 巨頭就已完成對商務(wù)智能前四大廠商 Hyperion、Business Objects、Cognos、SPSS 的并購。
商務(wù)智能專業(yè)廠商在大數(shù)據(jù)時代的發(fā)力點在結(jié)構(gòu)化數(shù)據(jù)處理。在大數(shù)據(jù)時代,這些廠商開始加大在高可擴展計算、非結(jié)構(gòu)化數(shù)據(jù)處理、以及與業(yè)務(wù)運營集成的實時處理(即操作型商務(wù)智能)等方面的投入和創(chuàng)新。例如,SAS 在 2012 年推出了基于內(nèi)存計算的高性能數(shù)據(jù)分析方案,核心部件包括:SAS 高性能分析服務(wù)器、SAS 可視化分析和 SAS DataFlux 數(shù)據(jù)流處
理引擎。SAS 高性能分析服務(wù)器采用庫內(nèi)分析和內(nèi)存計算兩種解決方案。庫內(nèi)分析技術(shù)在數(shù)據(jù)庫內(nèi)實現(xiàn)分析的過程,用戶過去開發(fā)的 SAS 程序可以直接移植使用,而且這樣的分析過程無需提取數(shù)據(jù),避免了數(shù)據(jù)傳輸?shù)念~外開銷,分析能力極大地提高。內(nèi)存計算技術(shù)則利用大內(nèi)存服務(wù)器的優(yōu)勢,減少數(shù)據(jù)從硬盤加載到內(nèi)存的機會,把數(shù)據(jù)和分析程序直接放置在內(nèi)存中執(zhí)行,特別適合具有迭代和嵌套模式的分析算法,極大地提高了建模處理的速度。除此之外,SAS 公司最新推出的高性能分析解決方案還采用了“SAS Visual Analytics”技術(shù),即可視化分析,讓用戶及時地查看分析結(jié)果。
Teradata 公司針對大數(shù)據(jù)處理提出了統(tǒng)一數(shù)據(jù)架構(gòu) (Teradata Unified Data Architecture,UDA)下的 Aster 大數(shù)據(jù)分析平臺該平臺繼承了Teradata公司統(tǒng)一數(shù)據(jù)架構(gòu)在數(shù)據(jù)管理方面的優(yōu)勢,它與大數(shù)據(jù)的收集、處理等工作緊密相連,為企業(yè)提供一個完善的數(shù)據(jù)源。UDA 通過 Hadoop 實現(xiàn)數(shù)據(jù)存儲管理,通過 Aster 實現(xiàn)數(shù)據(jù)探索和分析,通過 Teradata實現(xiàn)統(tǒng)
一的數(shù)據(jù)架構(gòu),將存儲、分析與整合相互結(jié)合,實現(xiàn)大數(shù)據(jù)價值的一個完整的閉環(huán)。
商務(wù)智能專業(yè)廠商(如 SAS、Teradata)憑借在數(shù)據(jù)分析領(lǐng)域的長期積累,在大數(shù)據(jù)的分析建模方面仍然處于行業(yè)領(lǐng)導(dǎo)地位。但是,這些產(chǎn)品的大數(shù)據(jù)處理能力往往依賴于高性能服務(wù)器的處理能力,雖然他們也在向 Hadoop 等分布式平臺遷移,但是實際的效果還有待觀察。
3. 互聯(lián)網(wǎng)公司
大型的互聯(lián)網(wǎng)巨頭,如國外的 Google、Facebook、Amazon,國內(nèi)的阿里巴巴、百度、騰訊等,基于自身海量的用戶信息和互聯(lián)網(wǎng)處理平臺,依托大數(shù)據(jù)提供精準營銷和個性化廣告推介等商業(yè)活動。十年前,Google發(fā)表的 GFS(Google File System)、MapReduce、和 BigTable論文催生了大數(shù)據(jù)處理的事實標準Hadoop。目前,Google 通過自身開發(fā)的 Caffeine平臺,直接將索引放置在分布式數(shù)據(jù)庫 BigTable 上。Google 還向用戶提供了大數(shù)據(jù)的虛擬服務(wù)器業(yè)務(wù),用戶可以把數(shù)據(jù)上傳到 Google,采用 Google 提供的BigQuery和 Google Compute Engine等服務(wù)和基礎(chǔ)設(shè)施完成數(shù)據(jù)查詢和分析。
Facebook 目前運行著世界上最大的 Hadoop 服務(wù)器集群,存儲的數(shù)據(jù)超過了 100PB,每30 分鐘可以處理的數(shù)據(jù)超過了 105TB。然而,爆炸式增長的數(shù)據(jù)使Facebook 的 Hadoop 服務(wù)器集群難以承受,出現(xiàn)數(shù)據(jù)雪崩問題 (avalanche of data)。為此,F(xiàn)acebook 開發(fā)出兩種全新軟件平臺處理大數(shù)據(jù)的挑戰(zhàn),第一種叫做“Corona ( 日冕 )”,它可以實現(xiàn)在數(shù)目龐大的
Hadoop 服務(wù)器之間運行大量的任務(wù),并且不用擔(dān)心軟件錯誤會導(dǎo)致整個服務(wù)器集群出現(xiàn)崩潰。第二種叫做“Prism ( 棱鏡 )”,它實現(xiàn)了不同地域服務(wù)器的數(shù)據(jù)自動復(fù)制和傳輸,使 Facebook 遍布全球數(shù)據(jù)中心的Hadoop 服務(wù)器集群的數(shù)據(jù)得到同步,形成更加龐大的Hadoop 數(shù)據(jù)集群。
云計算服務(wù)提供商 Amazon 推出了 Amazon 彈性MapReduce(Amazon Elastic MapReduce)。彈性MapReduce 是一項能夠迅速擴展的 Web 服務(wù),運行在亞馬遜彈性計算云(Amazon EC2)和亞馬遜簡單存儲服務(wù)平臺上(Amazon S3)上。作為業(yè)界領(lǐng)先的云計算服務(wù)提供商,Amazon 提供網(wǎng)頁檢索、日志分析、數(shù)據(jù)挖掘、金融建模等數(shù)據(jù)密集型的任務(wù)需要的彈性云服務(wù),動態(tài)地滿足用戶對于計算資源的需求。
相對于國外互聯(lián)網(wǎng)企業(yè)在大數(shù)據(jù)技術(shù)上的不斷創(chuàng)新,國內(nèi)互聯(lián)網(wǎng)企業(yè)主要在大數(shù)據(jù)應(yīng)用模式上創(chuàng)新。阿里巴巴利用旗下淘寶網(wǎng)的歷史交易數(shù)據(jù),推出了“淘寶指數(shù)”,相對于國外互聯(lián)網(wǎng)企業(yè)在大數(shù)據(jù)技術(shù)上的不斷創(chuàng)新,國內(nèi)互聯(lián)網(wǎng)企業(yè)主要在大數(shù)據(jù)應(yīng)用模式上創(chuàng)新。阿里巴巴利用旗下淘寶網(wǎng)的歷史交易數(shù)據(jù),推出了“淘寶指數(shù)”,商家可以參考該指數(shù)指導(dǎo)生產(chǎn)、制定價格和控制庫存。百度面對大數(shù)據(jù)時代企業(yè)需求,從數(shù)據(jù)、工具及應(yīng)用三個層面規(guī)劃大數(shù)據(jù)時代的企業(yè)戰(zhàn)略。騰訊利用自身強大的社會網(wǎng)絡(luò)通訊平臺資源,通過大數(shù)據(jù)技術(shù)挖掘社會網(wǎng)絡(luò)中的商業(yè)價值,實現(xiàn)了不同產(chǎn)品營銷平臺,為用戶推薦感興趣的產(chǎn)品和內(nèi)容。
綜上所述,當(dāng)前的大數(shù)據(jù)技術(shù)領(lǐng)域以產(chǎn)業(yè)引領(lǐng)為主,在大數(shù)據(jù)集中的領(lǐng)域推出相應(yīng)的產(chǎn)品和服務(wù)。學(xué)術(shù)界主要圍繞其中的難點問題展開基礎(chǔ)性研究。目前,圍繞大數(shù)據(jù)的科學(xué)研究、技術(shù)創(chuàng)新、系統(tǒng)開發(fā)和實際應(yīng)用剛剛起步,無論產(chǎn)業(yè)界還是學(xué)術(shù)界,正處在群雄并起的“大數(shù)據(jù)春秋時期”。可以預(yù)計,在未來五至十年,大數(shù)據(jù)領(lǐng)域?qū)l(fā)展成若干核心團隊、公司、典型應(yīng)用的“大數(shù)據(jù)戰(zhàn)國時代”。
二、大數(shù)據(jù)分析平臺體系架構(gòu)
大數(shù)據(jù)沒有一個明確的定義,是一個相對的概念,取決于當(dāng)前所具有的數(shù)據(jù)處理能力。如果一個用戶所面對的數(shù)據(jù)超出該用戶所擁有的數(shù)據(jù)存儲、處理和分析的能力,致使該用戶不能有效地利用數(shù)據(jù),該用戶就面對大數(shù)據(jù)問題。在大數(shù)據(jù)時代,個人、企業(yè)和機構(gòu)都會面臨大數(shù)據(jù)的問題。建設(shè)面向服務(wù)的大數(shù)據(jù)平臺,為眾多的中小企業(yè)和個人用戶提供大數(shù)據(jù)處理和分析的能力,將成為大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的重要方向。
面向服務(wù)的大數(shù)據(jù)分析平臺以區(qū)域性智能數(shù)據(jù)中心及高速互聯(lián)網(wǎng)為基礎(chǔ)設(shè)施,以互聯(lián)網(wǎng)服務(wù)體系為架構(gòu),以大數(shù)據(jù)存儲、處理、挖掘和交互式可視化分析等關(guān)鍵技術(shù)為支撐,通過多樣化移動智能終端及移動互聯(lián)網(wǎng)為用戶提供數(shù)據(jù)存儲、管理及分析服務(wù)。
大數(shù)據(jù)分析平臺的拓撲架構(gòu)如圖 1 所示。其中部署在多個地方的智能數(shù)據(jù)中心提供大數(shù)據(jù)存儲及計算平臺,通過平臺服務(wù)器提供系統(tǒng)調(diào)用功能。門戶服務(wù)中心將整合所有的智能數(shù)據(jù)中心存儲和計算資源,并通過 web 應(yīng)用服務(wù)器和 Open API 服務(wù)器以 web 調(diào)用和Open API 調(diào)用的方式提供大數(shù)據(jù)存儲、管理及挖掘服務(wù)。終端用戶利用移動智能終端通過互聯(lián)網(wǎng)訪問門戶服務(wù)中心,使用其提供的大數(shù)據(jù)存儲、管理及挖掘服務(wù)。
圖1.大數(shù)據(jù)分析平臺拓撲示意圖
大數(shù)據(jù)分析平臺的系統(tǒng)架構(gòu)如圖 2 所示。系統(tǒng)包含 3 個層次:平臺層為整個大數(shù)據(jù)分析平臺提供基礎(chǔ)平臺支持;功能層提供基本的大數(shù)據(jù)存儲和挖掘功能;服務(wù)層為用戶提供基于互聯(lián)網(wǎng)的大數(shù)據(jù)服務(wù)。具體包括:
圖2.大數(shù)據(jù)分析平臺系統(tǒng)架構(gòu)
(1)平臺層:為大數(shù)據(jù)存儲和挖掘提供大數(shù)據(jù)存儲和計算平臺,為多區(qū)域智能中心的分析架構(gòu)提供多數(shù)據(jù)中心調(diào)度引擎;
(2)功能層:為大數(shù)據(jù)存儲和挖掘提供大數(shù)據(jù)集成、存儲、管理和挖掘功能;
(3)服務(wù)層:基于 Web 和 Open API 技術(shù)提供大數(shù)據(jù)服務(wù)。
三、大數(shù)據(jù)分析平臺關(guān)鍵技術(shù)
建設(shè)面向服務(wù)的大數(shù)據(jù)分析平臺,需要研究和開發(fā)一系列關(guān)鍵技術(shù)(如圖 3 所示),主要包括:
圖3.大數(shù)據(jù)分析平臺關(guān)鍵技術(shù)
1. 平臺層
(1)大數(shù)據(jù)分布式存儲系統(tǒng):針對數(shù)據(jù)不斷增長的挑戰(zhàn),需要研究大規(guī)模、非結(jié)構(gòu)化數(shù)據(jù)的存儲問題,突破大數(shù)據(jù)的存儲、管理和高效訪問關(guān)鍵技術(shù),當(dāng)前需要構(gòu)建至少 PB 級存儲能力的大數(shù)據(jù)平臺才能滿足一般的科研和應(yīng)用需求。
(2)分布式數(shù)據(jù)挖掘運行時系統(tǒng):針對大數(shù)據(jù)挖掘算法運行的挑戰(zhàn),突破 MapReduce 技術(shù)的局限,研究有效支持迭代、遞歸、層次及集成機制的海量數(shù)據(jù)挖掘編程模型和運行時系統(tǒng),構(gòu)建大數(shù)據(jù)運行時系統(tǒng)。
(3)智能數(shù)據(jù)中心聯(lián)合調(diào)度技術(shù):針對大數(shù)據(jù)存儲和挖掘的挑戰(zhàn),研究多數(shù)據(jù)中心的智能聯(lián)合調(diào)度、負載均衡技術(shù),整合多個數(shù)據(jù)中心的存儲和計算資源,構(gòu)建基于多智能中心的大數(shù)據(jù)服務(wù)平臺。
2. 功能層
(1)高可擴展性大數(shù)據(jù)挖掘算法:針對大數(shù)據(jù)挖掘的挑戰(zhàn),研究基于云計算的分布式大數(shù)據(jù)處理與挖掘算法,構(gòu)建高可擴展的大數(shù)據(jù)處理與挖掘算法庫,實現(xiàn) TB 級數(shù)據(jù)的建模能力。
(2)大數(shù)據(jù)安全與隱私保護技術(shù):針對數(shù)據(jù)挖掘“軟件即服務(wù)”(SaaS)模式的需求,研究開發(fā)數(shù)據(jù)挖掘在云環(huán)境下的隱私保護、數(shù)據(jù)審計和節(jié)點數(shù)據(jù)挖掘技術(shù),確保大數(shù)據(jù)挖掘過程中的數(shù)據(jù)安全,保證用戶的隱私不被泄露。
(3)分布式工作流引擎:針對大數(shù)據(jù)挖掘分布式調(diào)度的挑戰(zhàn),研究基于云計算的分布式工作流調(diào)度、負載均衡技術(shù),構(gòu)建高效分布式工作流執(zhí)行引擎。
(4)交互式可視化分析技術(shù):針對傳統(tǒng)分析方法交互性和可理解性不足的問題,研究啟發(fā)式、人機交互、可視化數(shù)據(jù)挖掘新技術(shù),實現(xiàn)大數(shù)據(jù)挖掘的高度人機交互功能。
3. 服務(wù)層
(1)基于 Web 的大數(shù)據(jù)挖掘技術(shù):突破傳統(tǒng)的基于單機軟件的數(shù)據(jù)挖掘技術(shù),創(chuàng)新基于 Web 的大數(shù)據(jù)挖掘方法和流程,實現(xiàn)易于使用的基于 Web 的大數(shù)據(jù)挖掘技術(shù),構(gòu)建基于 Web 的大數(shù)據(jù)分析環(huán)境。
(2)基于 Open API 的大數(shù)據(jù)挖掘技術(shù):突破傳統(tǒng)的基于軟件的數(shù)據(jù)挖掘技術(shù),創(chuàng)新基于 Open API 的大數(shù)據(jù)挖掘方法,研究大數(shù)據(jù)挖掘開放接口、開放流程,構(gòu)建基于 Open API 的大數(shù)據(jù)分析模式。
為廣大用戶提供大數(shù)據(jù)處理和分析的服務(wù)功能,大數(shù)據(jù)分析平臺要突破傳統(tǒng)的基于軟件和高端服務(wù)器的數(shù)據(jù)挖掘傳統(tǒng)技術(shù)體系,采用基于云計算的大數(shù)據(jù)存儲和處理架構(gòu)、分布式數(shù)據(jù)挖掘算法和基于互聯(lián)網(wǎng)的大數(shù)據(jù)存儲、處理和挖掘服務(wù)模式。實現(xiàn)這一目標需要做如下創(chuàng)新:
(1)系統(tǒng)架構(gòu)創(chuàng)新:突破傳統(tǒng)的基于軟件和高端服務(wù)器的數(shù)據(jù)挖掘技術(shù)體系,研發(fā)基于互聯(lián)網(wǎng)和云計算的大數(shù)據(jù)存儲、處理和挖掘的數(shù)據(jù)中心系統(tǒng)架構(gòu),支持多用戶、多任務(wù)的大數(shù)據(jù)分析環(huán)境;
(2)服務(wù)模式創(chuàng)新:突破傳統(tǒng)的一次性軟件銷售或軟件租賃的高價格解決方案,創(chuàng)新基于互聯(lián)網(wǎng)的大數(shù)據(jù)存儲、處理和分析服務(wù)模式,為用戶提供按需、廉價的大數(shù)據(jù)存儲、處理和分析服務(wù);
(3)使用模式創(chuàng)新:突破傳統(tǒng)的使用單機軟件的方式,創(chuàng)新基于互聯(lián)網(wǎng)的大數(shù)據(jù)存儲、管理和分析服務(wù),提供多終端(臺式機、筆記本、平板電腦、手機等)、多途徑(瀏覽器訪問,Open API 調(diào)用等)的用戶使用模式。
四、大數(shù)據(jù)分析平臺應(yīng)用與產(chǎn)業(yè)化
商業(yè)應(yīng)用是大數(shù)據(jù)分析平臺的發(fā)展目標。隨著我國企業(yè)信息化程度和水平不斷提高,越來越多的企業(yè)需要大數(shù)據(jù)分析的能力以提高競爭力。在互聯(lián)網(wǎng)、電子商務(wù)、金融、電信、零售、物流等數(shù)據(jù)驅(qū)動型行業(yè),客戶分群、客戶行為分析、客戶關(guān)系管理、市場營銷、廣告投放、業(yè)務(wù)優(yōu)化、風(fēng)險管理等企業(yè)核心業(yè)務(wù)越來越依賴于對數(shù)據(jù)的有效分析與挖掘。正如在《大數(shù)據(jù):國家選擇與產(chǎn)業(yè)方向》一書中所說,“大數(shù)據(jù)時代公司的價值,與其擁有的數(shù)字資產(chǎn)的規(guī)模、活性成正比,與其解釋、運用數(shù)據(jù)的能力成正比”。因此,如何從海量業(yè)務(wù)數(shù)據(jù)中挖掘有價值的信息和知識,從而指導(dǎo)商業(yè)運營與決策、提高企業(yè)運營效率和盈利能力,成為每個企業(yè)都將面臨的重要挑戰(zhàn)。
大數(shù)據(jù)分析平臺基于分布式海量數(shù)據(jù)存儲與計算環(huán)境,提供圖形化交互式數(shù)據(jù)處理和分析工具,豐富的數(shù)據(jù)分析與挖掘算法,以及交互式可視化分析工具,通過互聯(lián)網(wǎng)服務(wù)方式向用戶提供服務(wù)。這種系統(tǒng)實現(xiàn)策略不僅符合大數(shù)據(jù)應(yīng)用的發(fā)展趨勢,同時也滿足中小企業(yè)和個人用戶對于數(shù)據(jù)分析系統(tǒng)的可用性、時效性和低成本等方面的要求。
目前,在大數(shù)據(jù)處理與分析領(lǐng)域,國際上三支主要力量在不斷地競爭與融合,即大型互聯(lián)網(wǎng)公司(如Google、Amazon)、 傳 統(tǒng) 商 務(wù) 智 能 公 司( 如 SAS、SPSS)和傳統(tǒng) IT 公司(如 IBM、ORACLE、SAP)。三方從各自優(yōu)勢出發(fā),不斷增強針對大數(shù)據(jù)的分析智能性、計算擴展性和非結(jié)構(gòu)化數(shù)據(jù)處理能力。盡管一些公司在上述領(lǐng)域取得突破并搶得市場先機,但國際大數(shù)據(jù)產(chǎn)業(yè)整體上仍然處于起步階段,據(jù) IDC 公司預(yù)測未來 5 年大數(shù)據(jù)分析產(chǎn)業(yè)年增長率高達 9.8%,到 2016年全球產(chǎn)業(yè)規(guī)模將超過 500 億美元。同時,越來越多的大數(shù)據(jù)創(chuàng)新公司不斷涌現(xiàn)并發(fā)展迅速,也證明了該領(lǐng)域蘊含著巨大的發(fā)展?jié)摿蛷V闊的市場前景。
大數(shù)據(jù)分析平臺所采用的技術(shù)路線和應(yīng)用模式融合了智能分析技術(shù)、高可擴展計算技術(shù)、非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)和軟件即服務(wù)(SaaS)應(yīng)用模式,符合當(dāng)前國際大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展趨勢和產(chǎn)業(yè)化應(yīng)用要求。一方面,系統(tǒng)通過互聯(lián)網(wǎng)服務(wù)方式向用戶提供高可用、高易用和一站式的海量數(shù)據(jù)分析服務(wù),可有效降低企業(yè)應(yīng)用門檻和成本,通過專業(yè)化服務(wù)外包滿足企業(yè)個性化需求。另一方面,由于是開放架構(gòu)的系統(tǒng)平臺,商業(yè)用戶和其他軟件提供商可通過系統(tǒng)提供的互聯(lián)網(wǎng)服務(wù)開發(fā)接口(Open API)開發(fā)面向行業(yè)商務(wù)智能應(yīng)用的解決方案,孵化新型咨詢公司、軟件公司和信息服務(wù)公司,有助于形成以平臺為核心的大數(shù)據(jù)分析產(chǎn)業(yè)生態(tài)環(huán)境。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標題:面向服務(wù)的大數(shù)據(jù)分析平臺解決方案
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/10819915961.html