1 引言
云計算是一種新型的業(yè)務(wù)交付模式,同時也是新型的IT基礎(chǔ)設(shè)施管理方法。通過新型的業(yè)務(wù)交付模式,用戶將通過網(wǎng)絡(luò)充分利用優(yōu)化的硬件、軟件和網(wǎng)絡(luò)資源,并以此為基礎(chǔ)提供創(chuàng)新的業(yè)務(wù)服務(wù)。新型的IT基礎(chǔ)設(shè)施管理方法讓IT部門可以把海量資源作為一個統(tǒng)一的大資源進(jìn)行管理,支持IT部門在大量增加資源的同時無需顯著增加相應(yīng)的人員進(jìn)行維護(hù)和管理。
2 云計算相關(guān)技術(shù)
(1)虛擬化
虛擬化可以大幅度提高組織過程中資源和應(yīng)用程序的效率和可用性。虛擬化把物理資源和最終呈現(xiàn)給用戶的資源進(jìn)行了分離,實(shí)際上是一個替代過程,在具有統(tǒng)一良好架構(gòu)設(shè)計的物理資源上創(chuàng)建出多個替代資源(即虛擬資源),替代資源和物理資源具有相同的接口和功能,對用戶來說虛擬資源具備與物理資源相同的使用功能,同時還可以有不同的屬性,如價格、容量、可調(diào)整性等。
(2)自動化部署
云計算的一個核心思想是通過自動化的方式盡可能地簡化任務(wù),使得用戶可以通過自助服務(wù)方式快捷地獲取所需的資源和能力。部署是基礎(chǔ)設(shè)施管理中十分重要,也是需要花費(fèi)很大工作量的一部分,包括操作系統(tǒng)、中間件和應(yīng)用等不同層次的部署。自動化部署可提供簡化流程,用戶提出申請后由自動化部署平臺根據(jù)調(diào)度和預(yù)約自動完成相應(yīng)的部署,因此用戶只需花十幾分鐘,甚至幾分鐘就可以得到一個完整的環(huán)境,極大地提高了工作效率。
(3)應(yīng)用規(guī)模擴(kuò)展
云計算提供了一個巨大的資源池,而應(yīng)用的使用又有不同的負(fù)載周期,根據(jù)負(fù)載對應(yīng)用的資源進(jìn)行動態(tài)伸縮可以顯著提高資源的有效利用率,即高負(fù)載時動態(tài)擴(kuò)展資源,低負(fù)載時釋放多余的資源,這就是應(yīng)用規(guī)模擴(kuò)展技術(shù)所解決的問題。該技術(shù)以應(yīng)用為基本單位,為不同的應(yīng)用架構(gòu)設(shè)定不同的集群類型,每一種集群類型都有特定的擴(kuò)展方式,然后通過監(jiān)控負(fù)載的動態(tài)變化,自動為應(yīng)用集群增加或者減少資源。
(4)分布式文件系統(tǒng)
分布式存儲的目標(biāo)是利用云環(huán)境中多臺服務(wù)器的存儲資源來滿足單臺服務(wù)器所不能滿足的存儲需求。其特征是,存儲資源能夠被抽象表示和統(tǒng)一管理,并且能夠保證數(shù)據(jù)讀寫與操作的安全性、可靠性等各方面的要求。
云計算催生了一些優(yōu)秀的分布式文件系統(tǒng)和云存儲服務(wù)。最典型的云平臺分布式文件系統(tǒng)是Googie的GFS(Coogle file system)和開源的Hadoop。這兩種可伸縮的分布式文件系統(tǒng)利用容錯和故障恢復(fù)機(jī)制,有效地克服了單節(jié)點(diǎn)故障導(dǎo)致的系統(tǒng)故障,實(shí)現(xiàn)了大規(guī)模海量級的文件存儲。
以Hadoop文件系統(tǒng)為例,Hadoop文件系統(tǒng)(HDFS)是一個運(yùn)行在普通硬件之上的分布式文件系統(tǒng),它和現(xiàn)有的分布式文件系統(tǒng)有著很多相似性。然而,與其他分布式文件系統(tǒng)的區(qū)別也是很明顯的:HDFS是高容錯性的?梢圆渴鹪诘统杀镜挠布希琀DFS高吞吐量地對應(yīng)用程序進(jìn)行數(shù)據(jù)訪問,它適合大數(shù)據(jù)集的應(yīng)用程序,HDFS放開一些POSIX的需求去實(shí)現(xiàn)流式地訪問文件數(shù)據(jù)。一個HDFS集群由一個管理文件系統(tǒng)元數(shù)據(jù)的Name Node和存儲實(shí)際數(shù)據(jù)的一些Data Node組成。
(5)分布式數(shù)據(jù)庫與非結(jié)構(gòu)化數(shù)據(jù)存儲
在分布式文件系統(tǒng)上.典型的存儲海量結(jié)構(gòu)化數(shù)據(jù)的分布式存儲系統(tǒng)包括Google的BigTable、開源的HBase等。這些系統(tǒng)可將非結(jié)構(gòu)化數(shù)據(jù)(如網(wǎng)頁等)存儲為分布式的、多維的、有序的圖。
以HBase為例。HBase是一個分布式的、面向列的開源數(shù)據(jù)庫。HBase是Apache的Hadoop項(xiàng)目的子項(xiàng)目,HBase在Hadoop上提供了類似于Bigtable的能力。HBase不同于一般的關(guān)系數(shù)據(jù)庫。它是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。另一個不同是,HBase基于列的而不是基于行的模式。HBase使用和Bigtable非常相似的數(shù)據(jù)模型。用戶存儲數(shù)據(jù)行在一個表里。一個數(shù)據(jù)行擁有一個可選擇的鍵和任意數(shù)量的列。表是疏松存儲的,因此用戶可以給行定義各種不同的列。HBase主要用于需要隨機(jī)訪問,實(shí)時讀寫大數(shù)據(jù)。在系統(tǒng)架構(gòu)上,HBase分成Master與Region Server兩部份。Master負(fù)責(zé)告知client對一個表訪問時,應(yīng)該轉(zhuǎn)向哪臺Region Server,而Region Server就是實(shí)際上提供數(shù)據(jù)的節(jié)點(diǎn)。
(6)分布式計算
基于云平臺的最典型的分布式計算模式是MapReduce編程模型。MapReduce將大型任務(wù)分成很多細(xì)粒度的子任務(wù),這些子任務(wù)分布式在多個計算節(jié)點(diǎn)上進(jìn)行調(diào)度和計算,從而在云平臺上獲得對海量數(shù)據(jù)的處理能力。概念“Map(映射)”和“Reduce(化簡)”的主要思想都是從函數(shù)式編程語言里借來的,還有從矢量編程語言里借來的特性。當(dāng)前的軟件實(shí)現(xiàn)是指定一個Map(映射)函數(shù),用來把一組鍵值對映射成一組新的鍵值對,指定并發(fā)的Reduce(化簡)函數(shù),用來保證所有映射的鍵值對中的每一個共享相同的鍵組。簡單說來,一個映射函數(shù)就是對一些獨(dú)立元素組成概念列表的每一個元素進(jìn)行指定的操作。事實(shí)上,每個元素都是被獨(dú)立操作的,而原始列表沒有被更改,因?yàn)檫@里創(chuàng)建了一個新的列表來保存新的答案。也就是說,Map操作是可以高度并行的,這對高性能要求的應(yīng)用以及并行計算領(lǐng)域的需求非常有用。Reduce操作指的是對一個列表的元素進(jìn)行適當(dāng)?shù)暮喜。雖然它不如映射函數(shù)那么并行,但是因?yàn)榛喛偸怯幸粋簡單的答案,大規(guī)模的運(yùn)算相對獨(dú)立,所以化簡函數(shù)在高度并行環(huán)境下也很有用。
3 應(yīng)用分析
3.1 問題和現(xiàn)狀
對于EDC和業(yè)務(wù)支撐系統(tǒng)而言,大量的業(yè)務(wù)涉及數(shù)據(jù)分析和商業(yè)智能。如上海電信的相關(guān)系統(tǒng)按大類可劃分為BSS、MSS、OSS、EDI等;按具體應(yīng)用系統(tǒng)則分為計費(fèi)、CRM、DW、綜合結(jié)算、網(wǎng)廳、OA、ERP、門戶、EDW、全息視圖、計費(fèi)分析、營銷分析、資源管理、綜合保障、綜合報警等。彼此獨(dú)立的系統(tǒng)占用了大量的硬件資源。由于資源彼此隔離,服務(wù)器的平均利用率非常低。由于生產(chǎn)要求,月初出賬注要是報表)期,計算扎堆嚴(yán)重,資源又明顯不足。
通過對電信EDC和業(yè)務(wù)支撐系統(tǒng)的分析,我們可以總結(jié)出以下幾個業(yè)務(wù)特性。
(1)高性能計算的需求
數(shù)據(jù)量大、運(yùn)算量大的系統(tǒng)如計費(fèi)、CRM、EDW等對高性能計算有需求。四川電信的數(shù)據(jù)分析都架構(gòu)在小型機(jī)上,CPU資源仍然不夠。雖然有一系列擴(kuò)容優(yōu)化計劃,但計算與資源一直有矛盾。上海電信的EDA/WS部門也面臨針對海量數(shù)據(jù)做分析報表的壓力,由于計算資源分離,不能共享,資源利用率低下,目前主要通過不斷擴(kuò)容來應(yīng)對壓力。
(2)時間窗口問題需求
數(shù)據(jù)分析的一個突出問題是時間窗口,這在上海電信和四川電信都很突出。由于生產(chǎn)要求,月初出賬(主要是報表)期,計算扎堆嚴(yán)重,資源明顯不足。目前的主要對策是,對于階段性以及突發(fā)性的作業(yè)需求進(jìn)行動態(tài)調(diào)整以滿足作業(yè)對計算能力的要求。即:對于重要業(yè)務(wù)需預(yù)留資源,對于其他業(yè)務(wù)則進(jìn)行調(diào)度管理;在出賬前,根據(jù)資源需要,停掉低優(yōu)先級的計算,從而滿足高優(yōu)先級計算的需求。然而,在時間窗口之外,計算資源又相對空閑。
云計算在數(shù)據(jù)分析與商業(yè)智能分析中有兩種應(yīng)用模式。
為電信內(nèi)部EDC和業(yè)務(wù)支撐系統(tǒng)提供數(shù)據(jù)分析和商業(yè)智能業(yè)務(wù),實(shí)現(xiàn)傳統(tǒng)數(shù)據(jù)分析與商業(yè)智能應(yīng)用的云化。要實(shí)現(xiàn)此類應(yīng)用模式需要完成以下工作:利用虛擬化和自動化等云計算關(guān)鍵技術(shù)整合現(xiàn)有硬件資源;部署云模式數(shù)據(jù)分析與商業(yè)智能平臺;遵照云模式選擇性地重構(gòu)現(xiàn)有業(yè)務(wù)系統(tǒng)中用到的數(shù)據(jù)分析與商業(yè)智能服務(wù);將上述用戶任務(wù)調(diào)度到云平臺上進(jìn)行計算,獲得云模式帶來的好處。
采用云模式開發(fā)新的數(shù)據(jù)分析與商業(yè)智能服務(wù)。實(shí)現(xiàn)企業(yè)數(shù)據(jù)分析云。要實(shí)現(xiàn)此類業(yè)務(wù)應(yīng)用模式需要依托整合共享的硬件資源,在云模式數(shù)據(jù)分析與商業(yè)智能平臺上開發(fā)新的服務(wù),以支持各類新興的應(yīng)用模式和需求(如:移動社交網(wǎng)絡(luò),基于客戶社交網(wǎng)絡(luò)的客戶價值發(fā)現(xiàn)和營銷;客戶分群,基于用戶地理位置和軌跡的信息服務(wù)和廣告推送等)。
3.2 典型的應(yīng)用場景
本節(jié)闡述幾個典型的利用數(shù)據(jù)分析和商業(yè)智能云平臺的新數(shù)據(jù)分析業(yè)務(wù),包括客戶流失分析、客戶社群發(fā)現(xiàn)、客戶多重身份識別,客戶價值發(fā)掘。上述典型應(yīng)用涵蓋了云模式數(shù)據(jù)分析與商業(yè)智能平臺提供的數(shù)據(jù)挖掘和社會網(wǎng)絡(luò)分析功能。然而,該平臺并不僅限于支持以上業(yè)務(wù),傳統(tǒng)的各類數(shù)據(jù)分析業(yè)務(wù)均可通過定制化開發(fā),移植到該平臺上。
(1)客戶流失分析
針對當(dāng)前中國電信C網(wǎng)客戶流失嚴(yán)重的現(xiàn)象,利用云數(shù)據(jù)分析平臺提供的CHAID(chisquared automatic interaction detector)等客戶分群算法,將客戶劃分為“穩(wěn)定客戶”和“潛在流失客戶”,從而可以讓中國電信將營銷資金投入到挽留“潛在流失客戶”上,有效地提高營銷資金的使用效率。
經(jīng)過清洗和預(yù)處理的客戶數(shù)據(jù)會被提交給這個應(yīng)用并加以分析。分析過程包括CHAID模型的建立和評估兩個步驟。評估結(jié)果會以預(yù)測準(zhǔn)確度和LIFT兩個指標(biāo)的形式展現(xiàn)。
(2)客戶社群發(fā)現(xiàn)
針對性營銷不僅需要了解單個顧客的特征,更需要識別和理解顧客形成的各種社群。如識別家庭用戶形成的社群結(jié)構(gòu),對于特定種類的業(yè)務(wù)營銷會有很大的幫助。然而,傳統(tǒng)的統(tǒng)計方法往往只對代表社群規(guī)模的一些簡單指標(biāo)進(jìn)行統(tǒng)計和比較,無法分析客戶社群內(nèi)在結(jié)構(gòu)的差異。
利用云平臺BI算法庫中的連通分量、K-core和極大團(tuán)等算法,可深入分析客戶社群的組成,發(fā)現(xiàn)具有商業(yè)價值的特殊結(jié)構(gòu)。如:K-core和極大團(tuán)算法分析一個網(wǎng)絡(luò)社區(qū),可以通過分析結(jié)果發(fā)現(xiàn),不同社群的內(nèi)部聯(lián)系緊密程度的差異是否很大:K-core算法可以獲得清晰的坍縮序列,極大團(tuán)算法進(jìn)而發(fā)現(xiàn)了該社群內(nèi)部一些聯(lián)系緊密的小團(tuán)體。
(3)客戶多重身份識別
在各類客戶分析應(yīng)用中,往往需要識別單一客戶的多重身份。如在電信網(wǎng)中需要識別重入網(wǎng)客戶,在廣告營銷管理中需要識別虛假好評。云平臺算法庫提供的個體中心網(wǎng)和極大團(tuán)等算法,可以輔助識別用戶的多重身份。
電信網(wǎng)中的重入網(wǎng)客戶識別。利用網(wǎng)絡(luò)分析算法庫提供的個體中心網(wǎng)算法,可以計算得到每個客戶的朋友以及朋友之間的聯(lián)系,這一信息可以被看作是該客戶的社會關(guān)系指紋。將這一分析工具與時態(tài)分析等工具相結(jié)合,可以有效地判斷一個客戶是否是該運(yùn)營商過去某個用戶再入網(wǎng)的身份。
虛假好評,馬甲的識別。云平臺網(wǎng)絡(luò)分析算法庫提供的極大團(tuán)等社群發(fā)現(xiàn)算法可以識別客戶社群中一些有趣的小團(tuán)體。以網(wǎng)絡(luò)社區(qū)數(shù)據(jù)為例,可發(fā)現(xiàn)一些包含兩個用戶的強(qiáng)極大團(tuán)實(shí)際上是一些用戶的多個身份。
(4)客戶價值發(fā)現(xiàn)
傳統(tǒng)的客戶價值分析方法往往將客戶看作是一個個獨(dú)立的個體,依據(jù)客戶的統(tǒng)計屬性來判斷客戶的價值。然而,統(tǒng)計屬性并非有效表征客戶價值。利用云平臺社會網(wǎng)絡(luò)分析pagerank和HITS等算法,可分析客戶在社會網(wǎng)絡(luò)中的位置對其價值的影響,從而有效挖掘出價值客戶。
3.3 分布式技術(shù)模型
數(shù)據(jù)分析和商業(yè)智能云平臺的技術(shù)架構(gòu)如圖1所示。
圖1 技術(shù)模型
由以下4層結(jié)構(gòu)組成:
·數(shù)據(jù)分析與商業(yè)智能的應(yīng)用;
·數(shù)據(jù)分析中間件(算法庫和工具);
·云模式分布式并行計算框架;
·云模式分布式文件系統(tǒng)和特定主題的數(shù)據(jù)模型。
前述功能模型中的4個具體分析應(yīng)用歸屬于應(yīng)用層。平臺未來將要支持的各種應(yīng)用層業(yè)務(wù)邏輯也在這層定制化開發(fā)。
(1)數(shù)據(jù)分析中間件
這層中間件是架構(gòu)在Hadoop之上,遵照MapReduce計算模型開發(fā)的一系列算法庫和工具。為支持現(xiàn)有各種數(shù)據(jù)分析和商業(yè)智能應(yīng)用,本層應(yīng)至少包含統(tǒng)計查詢、社會網(wǎng)絡(luò)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)的算法庫和工具。此外,隨著云模式數(shù)據(jù)分析與商、業(yè)智能平臺及其應(yīng)用的發(fā)展,本層的算法庫和工具也將不斷得到豐富和完善。
圖2展現(xiàn)了一個典型的數(shù)據(jù)分析和商業(yè)智能應(yīng)用流程,包括問題定義、數(shù)據(jù)收集、數(shù)據(jù)分析、決策、行動/監(jiān)控/學(xué)習(xí)及其迭代過程。
圖2 一個典型的數(shù)據(jù)分析和商業(yè)智能應(yīng)用流程
云模式數(shù)據(jù)分析與商業(yè)智能平臺所提供的算法庫和工具將為應(yīng)用提供數(shù)據(jù)分析和決策兩個環(huán)節(jié)的支持。依托下層的Hadoop MapReduce分布式并行計算框架和Hadoop分布式文件系統(tǒng),本層中間件適合處理滿足下列特征的數(shù)據(jù)。
·非結(jié)構(gòu)化或半結(jié)構(gòu)化源數(shù)據(jù),如CDR、短信日志等。
·大規(guī)模數(shù)據(jù)集。
·快速增長的數(shù)據(jù)集(如每日更新的手機(jī)用戶的通話日志)。
本層中間件與傳統(tǒng)數(shù)據(jù)分析與商業(yè)智能中間件相比,其特點(diǎn)在于:
·針對海量數(shù)據(jù)提供高性價比的計算分析;
·依附于最通用的云計算平臺(Hadoop)上,可有效地與其他云計算中間件進(jìn)行協(xié)調(diào)整合;
·快捷地支持各種類型的商業(yè)智能解決方案的開發(fā)和部署;
·依托MapReduce編程模型,可以有效地建立協(xié)作式的分析知識庫。
(2)云模式分布式并行計算框架
基于云平臺的最典型的分布式計算模型是MapReduce編程模型,這也是本平臺首選的分布式并行計算模型。MapReduce將大型任務(wù)分成很多細(xì)粒度的子任務(wù),這些子任務(wù)分布式且并行地在多個計算節(jié)點(diǎn)上進(jìn)行調(diào)度和計算,從而在云平臺上獲得對海量數(shù)據(jù)的處理能力。概念“Map(映射)”和“Reduce(化簡)”的主要思想都是從函數(shù)式編程語言里借鑒來的。
遵照MapReduce編程模型。數(shù)據(jù)分析與商業(yè)智能算法庫的開發(fā)者可以編寫一個Map(映射)函數(shù),用來把一組鍵值對映射成一組新的鍵值對,還可以編寫一個Reduce(化簡)函數(shù)。用來處理Map函數(shù)產(chǎn)生的鍵值對中的共享相同的鍵的所有鍵值對。簡單說來,一個映射函數(shù)就是對一些獨(dú)立元素組成概念上列表的每一個元素進(jìn)行指定的操作。事實(shí)上,每個元素都是被獨(dú)立操作的,而原始列表沒有被更改,因?yàn)檫@里將創(chuàng)建一個新的列表來保存操作的結(jié)果。因此,Map操作是可以高度并行的,這對有高性能要求的應(yīng)用以及并行計算領(lǐng)域的需求非常有用。Reduce操作則是對一個列表的元素進(jìn)行適當(dāng)?shù)暮喜。雖然不如Map函數(shù)那么并行,但是因?yàn)橛性S多的運(yùn)算中用到的化簡都有簡單的輸入和化簡結(jié)果。所以Reduce函數(shù)在高度并行環(huán)境下往往也很有用。
目前,存在的MapReduce分布式并行計算框架實(shí)現(xiàn)有幾種,其中最主要的是Apache Hadoop MapReduce。已經(jīng)形成了成熟活躍的開發(fā)和用戶社群。這也是本平臺首選的依托方案。在Apache Hadoop MapReduce中,Map操作和Reduce操作的執(zhí)行被包裹為任務(wù)(task),而任務(wù)又以MapReduce對的形式被包裹為作業(yè)(job),負(fù)責(zé)在Hadoop集群節(jié)點(diǎn)上安排任務(wù)執(zhí)行的軟件被稱作TaskTracker。通常在每個計算節(jié)點(diǎn)上部署一個。負(fù)責(zé)在集群范圍內(nèi)調(diào)度作業(yè)和任務(wù)執(zhí)行的軟件被稱作JobTracker,通常在Hadoop集群內(nèi)挑選獨(dú)立的機(jī)器來部署。
(3)特定主題的數(shù)據(jù)模型
盡管MapReduce分布式并行編程模型對底層數(shù)據(jù)存儲并無硬性的要求,但是,為了最好地利用該模型帶來的伸縮性優(yōu)勢,往往需要采用分布式文件系統(tǒng)作為輸入數(shù)據(jù)、中間結(jié)果以及輸出數(shù)據(jù)的載體。
在Apache Hadoop套件中,這樣的分布式文件系統(tǒng)就是Hadoop分布式文件系統(tǒng)(hadoop distributed file system,HDFS)。這也是本平臺首選的分布式文件系統(tǒng)方案之一。該系統(tǒng)利用Hadoop集群中各個節(jié)點(diǎn)的本地磁盤來存放數(shù)據(jù)文件,可以在普通的硬件平臺上實(shí)現(xiàn)可靠的數(shù)據(jù)存儲。
對外部客戶機(jī)而言,HDFS就像一個傳統(tǒng)的分級文件系統(tǒng),可以創(chuàng)建、刪除、移動或重命名文件等。但是HDFS的架構(gòu)是基于一組特定的節(jié)點(diǎn)構(gòu)建的,這是由它自身的特點(diǎn)決定的。這些節(jié)點(diǎn)包括:NameNode負(fù)責(zé)在HDFS內(nèi)部提供元數(shù)據(jù)服務(wù);DataNode負(fù)責(zé)為HDFS提供存儲塊。Hadoop集群往往包含一個NameNode和大量DataNode。DataNode通常以機(jī)架的形式組織,機(jī)架之間通過交換機(jī)實(shí)現(xiàn)連接。Hadoop HDFS和Hadoop MapReduce的一個假設(shè)是機(jī)架內(nèi)部節(jié)點(diǎn)之間的傳輸速度和延遲都好于機(jī)架間。
4 實(shí)現(xiàn)步驟
從傳統(tǒng)的數(shù)據(jù)分析與商業(yè)智能分析模式向基于云計算的數(shù)據(jù)分析云的進(jìn)化是電信數(shù)據(jù)分析的終級目標(biāo)。轉(zhuǎn)型過程應(yīng)該從資源整合與平臺虛擬化著手,分步引入虛擬化高級功能和云計算概念。
(1)資源整合與點(diǎn)應(yīng)用
以現(xiàn)有的數(shù)據(jù)分析與商業(yè)智能分析系統(tǒng)為基礎(chǔ),進(jìn)行資源整合,實(shí)現(xiàn)物理資源的虛擬化。通過虛擬化技術(shù)實(shí)現(xiàn)資源池化和資源動態(tài)擴(kuò)展等功能,實(shí)現(xiàn)基礎(chǔ)平臺與應(yīng)用平臺的擴(kuò)展。目前,實(shí)現(xiàn)虛擬化的產(chǎn)品有很多,其中以Vmware、微軟、ctrix的虛擬化產(chǎn)品為主流。
依托基礎(chǔ)平臺與應(yīng)用擴(kuò)展平臺,實(shí)現(xiàn)數(shù)據(jù)分析和商業(yè)智能平臺的快速部署和資源動態(tài)擴(kuò)展。
在此基礎(chǔ)上,借助平臺快速部署功能和系統(tǒng)無縫移置功能,選擇性地開發(fā)和部署一批數(shù)據(jù)分析和商業(yè)智能應(yīng)用。
(2)平臺擴(kuò)展和應(yīng)用推廣
在整合的基礎(chǔ)上擴(kuò)展平臺,開發(fā)和部署更多的云模式數(shù)據(jù)分析和商業(yè)智能應(yīng)用,同EDW、ODS和其他現(xiàn)有BI平臺集成。
(3)平臺開放和自主演化
這個階段的平臺建設(shè)目標(biāo)是標(biāo)準(zhǔn)化云模式數(shù)據(jù)分析和商業(yè)智能應(yīng)用的開發(fā)接口和運(yùn)行時接口,提供較為完善的開發(fā)套件,鼓勵和吸引合作伙伴共同豐富平臺和應(yīng)用的功能。
5 難點(diǎn)和風(fēng)險
在數(shù)據(jù)分析與商業(yè)智能分析中應(yīng)用云計算技術(shù),能提高數(shù)據(jù)分析的效率,讓企業(yè)更加能適應(yīng)快速變化的市場,為快速推出新的產(chǎn)品提供數(shù)據(jù)依據(jù),但是云計算也存在一些難點(diǎn)和風(fēng)險。
(1)產(chǎn)品選擇問題
服務(wù)器虛擬化技術(shù)和產(chǎn)品沒有統(tǒng)一的標(biāo)準(zhǔn)平臺和開放協(xié)議,業(yè)內(nèi)服務(wù)器虛擬化產(chǎn)品良莠不齊,選擇不合適的產(chǎn)品會帶來嚴(yán)重的投資風(fēng)險。而且服務(wù)器虛擬化軟件價格不菲,短期、小范圍內(nèi)的應(yīng)用難見效益。
(2)可靠性問題
由于在一臺服務(wù)器上運(yùn)行多個重要的應(yīng)用程序和數(shù)據(jù)庫,虛擬化的IT環(huán)境比大型計算機(jī)和微型計算機(jī)環(huán)境更容易遭到災(zāi)難性崩潰的破壞,因?yàn)樗鼈冇型瑯蛹械馁Y源,但是,硬件的可靠性不同。
(3)數(shù)據(jù)安全問題
數(shù)據(jù)是企業(yè)的生命,數(shù)據(jù)的丟失和泄露對電信來說是不容忽視的風(fēng)險。云計算帶來便利的同時,也給數(shù)據(jù)帶來了風(fēng)險。
(4)環(huán)境的復(fù)雜化
虛擬化的本質(zhì)是應(yīng)用只與虛擬層交互,而與真正的硬件隔離。在造成便利的同時,也造成了風(fēng)險。軟件和硬件之間被切斷聯(lián)系將導(dǎo)致安全人員看不到設(shè)備背后發(fā)生的風(fēng)險,服務(wù)器環(huán)境變得更加不同定、復(fù)雜,安全人員最終失去硬件本身提供的穩(wěn)定性。當(dāng)應(yīng)用出現(xiàn)故障時,需要精確定位是硬件還是軟件故障,在虛擬化世界中,這將是一項(xiàng)復(fù)雜而冗長的工作。
6 結(jié)束語
中國電信實(shí)現(xiàn)數(shù)據(jù)云之后,可以快速搭建一個數(shù)據(jù)分析云計算平臺。這個過程將通過管理平臺自動化實(shí)現(xiàn)。數(shù)據(jù)分析云的擴(kuò)展性。保證各類平臺都可以參與到云計算中。參與平臺的機(jī)器可以是資源池的閑置機(jī)器,也可擴(kuò)展到非生產(chǎn)環(huán)境的機(jī)器,如開發(fā)測試資源池,甚至辦公機(jī)器。數(shù)據(jù)分析云具有靈活彈性,因此各類機(jī)器可選擇空閑時段加入云平臺,如辦公機(jī)器可在夜間空閑時段加入云分析。白天仍進(jìn)行各自任務(wù)。靈活地加入與退出并不中斷云計算本身。數(shù)據(jù)分析云具有高可靠性,即使出現(xiàn)一些機(jī)器的臨時故障。云平臺能夠自動檢測和適應(yīng),并不中斷云平臺分析與計算。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:云計算在電信數(shù)據(jù)與商業(yè)智能分析中的應(yīng)用研究
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/1083975603.html