近年來,隨著信息系統(tǒng)數(shù)量的快速增長,傳統(tǒng)基于B/S或C/S結(jié)構(gòu)的信息系統(tǒng)數(shù)據(jù)采集分析系統(tǒng)已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足眾多數(shù)據(jù)同時(shí)查詢、存取海量檢測信息,以及快速從中對系統(tǒng)數(shù)據(jù)采集分析的基本訴求。而云計(jì)算作為多種計(jì)算機(jī)與網(wǎng)絡(luò)技術(shù)發(fā)展融合的產(chǎn)物,具有高效、廉價(jià)、容錯(cuò)、易部署和擴(kuò)展等特點(diǎn),能夠從根本上解決傳統(tǒng)車輛檢測系統(tǒng)面臨的諸多問題。本文將從云計(jì)算三個(gè)層次的服務(wù)模式出發(fā),采用Hadoop開源云計(jì)算平臺以及并行數(shù)據(jù)流系綜分類挖掘算法對原有系統(tǒng)進(jìn)行改造,設(shè)計(jì)出信息系統(tǒng)數(shù)據(jù)采集分析系統(tǒng),為云計(jì)算系統(tǒng)的部署和實(shí)施提供了實(shí)例參考。
1、相關(guān)知識
云計(jì)算是分布式計(jì)算、并行計(jì)算和網(wǎng)格計(jì)算的發(fā)展,是這些計(jì)算機(jī)科學(xué)技術(shù)的商業(yè)表現(xiàn)形式。它將計(jì)算任務(wù)分布在大量計(jì)算機(jī)構(gòu)成的資源池上,使各種應(yīng)用系統(tǒng)能夠根據(jù)需要獲取計(jì)算能力、存儲空間和各種軟件服到引。根據(jù)云計(jì)算提供服務(wù)的層次可將它的服務(wù)模式分為3種即IaaS基礎(chǔ)設(shè)施即服務(wù)、PaaS平臺即服務(wù)、SaaS軟件即服務(wù)。
Hadoop云計(jì)算框架是由Apache基金會設(shè)計(jì)的開源分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下開發(fā)分布式程序,這樣就可以充分利用集群的能力進(jìn)行高速運(yùn)算和存儲,從技術(shù)層面上,Hadoop由兩項(xiàng)關(guān)鍵服務(wù)構(gòu)成:采用Hadoop分布式文件系統(tǒng)(HDFS)的可靠數(shù)據(jù)存儲服務(wù),以及利用一種叫做MapReduce技術(shù)的高性能并行數(shù)據(jù)處理服務(wù)。
2、系統(tǒng)的研究與設(shè)計(jì)
云計(jì)算系統(tǒng)提供服務(wù)是以IaaS、Paas、SaaS3種模式進(jìn)行,本文的設(shè)計(jì)思路是以Hadoop平臺提供的HDFS、MapReduce分別對應(yīng)laas、PaaS,并且由SOA體系架構(gòu)中的web服務(wù)技術(shù)提供SaaS服務(wù)。系統(tǒng)總體架構(gòu)如圖1所示:
圖 1 云計(jì)算檢測系統(tǒng)總體設(shè)計(jì)
2.1 IaaS
經(jīng)過現(xiàn)場勘察,現(xiàn)有的信息系統(tǒng)數(shù)據(jù)采集分析系統(tǒng)是基于B/S結(jié)構(gòu)的,利用一臺運(yùn)行Oracle數(shù)據(jù)庫的IBM P6-550服務(wù)器作為數(shù)據(jù)中心,一臺DELL PowerEdge SCl425服務(wù)器用作數(shù)據(jù)的備份和系統(tǒng)繁忙時(shí)分流,其它集群服務(wù)器提供決策支持、實(shí)時(shí)視頻監(jiān)控、安全接入驗(yàn)證等服務(wù)。這種系統(tǒng)架構(gòu)的弊端在于:當(dāng)檢測高峰時(shí)段來臨,大量信息系統(tǒng)產(chǎn)生的數(shù)據(jù)需要同時(shí)讀寫、查詢與傳輸,這對于數(shù)據(jù)中心和專用網(wǎng)絡(luò)的壓力顯然是巨大的,且極易產(chǎn)生系統(tǒng)癱瘓、讀寫錯(cuò)誤等事故。
為滿足系統(tǒng)要求,本文選取HDFS作為底層基礎(chǔ)設(shè)施服務(wù),利用其高容錯(cuò)性、快速訪問及傳輸數(shù)據(jù)的特點(diǎn),將其部署在電網(wǎng)信息中心服務(wù)器集群之上,具體方案參照HDFS指南如圖2所示:
圖 2 HDFS部署示意圖
我們選取集群當(dāng)中一臺中心服務(wù)器作為NameNode節(jié)點(diǎn),負(fù)責(zé)保存以及管理元數(shù)據(jù),執(zhí)行文件系統(tǒng)的namespace操作和客戶端對數(shù)據(jù)的訪問。其余集群服務(wù)器作為DataNode節(jié)點(diǎn),僅需要管理各自節(jié)點(diǎn)上的block數(shù)據(jù)塊并等待NameNode節(jié)點(diǎn)的指示完成打開、關(guān)閉、復(fù)制、刪除等等數(shù)據(jù)操作即可。這樣做不但降低了數(shù)據(jù)中心的負(fù)擔(dān),也可以更加合理的利用集群中的剩余計(jì)算及存儲資源,從而提高了數(shù)據(jù)處理效率,增強(qiáng)r數(shù)據(jù)的容錯(cuò)性。
2.2 PaaS
云計(jì)算系統(tǒng)最核心的技術(shù)是并行汁算,為了能夠讓用戶更方便地獲取云服務(wù),Hadoop云計(jì)算平臺采用了開源的Google MapReduce計(jì)算模型提供PaaS服務(wù)。
由于原有的信息系統(tǒng)很大程度上依賴于人工從檢測數(shù)據(jù)上判斷系統(tǒng)是否符合標(biāo)準(zhǔn),再由工作人員將結(jié)果錄入系統(tǒng)傳回中心服務(wù)器數(shù)據(jù)庫。這樣不但浪費(fèi)了大量的人力物力,而且檢測結(jié)果的準(zhǔn)確性和可信性也會隨之大打折扣。
通過分析,系統(tǒng)信息具有海量、快速到達(dá)等數(shù)據(jù)流特征,采用數(shù)據(jù)流分類挖掘算法自動(dòng)將被測信息系統(tǒng)分為合格與不合格兩類是可行的。
分類器系綜算法采用訓(xùn)練一系列分類器,根據(jù)其在待分類數(shù)據(jù)上的分類準(zhǔn)確率作為權(quán)值,并保留權(quán)值最高的n個(gè)分類器,最終加權(quán)投票做出決策。Wang等人在文獻(xiàn)中不但證明了系綜分類在提高分類精度方面的有效性,還同時(shí)提出的基于動(dòng)態(tài)權(quán)重的數(shù)據(jù)流系綜分類算法,但執(zhí)行效率遠(yuǎn)不能滿足多檢測線并行檢測的實(shí)際問題。為此,引入Hadoop云計(jì)算平臺中的MapReduce編程模型并行優(yōu)化基于權(quán)重的數(shù)據(jù)流系綜分類算法,自動(dòng)完成輔助決策任務(wù)。
算法的執(zhí)行流程為:
(1)將采集的系統(tǒng)信息數(shù)據(jù)流采樣作為訓(xùn)練數(shù)據(jù)并劃分成規(guī)模相當(dāng)?shù)膎個(gè)數(shù)據(jù)塊。
(2)并行在這n個(gè)塊上訓(xùn)練出n個(gè)基分類器,對每個(gè)塊做格式化操作解析出<keyl,valuel>對,在此處<keyl,valuel>等價(jià)于<Block,Classifier>,其中Block為塊號,Classifier為基礎(chǔ)分類器。
(3)啟用Master分配進(jìn)程將n個(gè)訓(xùn)練數(shù)據(jù)塊分別發(fā)送至分配了Map任務(wù)的n個(gè)結(jié)點(diǎn),并將新到的待分類數(shù)據(jù)塊放入公共資源池。每個(gè)分配了Map任務(wù)的節(jié)點(diǎn)收到<Block,Classifier>后,并行計(jì)算各自的分類器在待分類數(shù)據(jù)塊上的MSEr(出錯(cuò)門限值)、MSEt(均方誤差)以及權(quán)值w=MSEr-MSE,,同時(shí)產(chǎn)生中問鍵值對<Classifier,w>(注:Classifier為分類器名稱,w為權(quán)值)
(4)最后由分配了Reduce任務(wù)的節(jié)點(diǎn)接收步驟(3)中產(chǎn)生的<Classifier,w>鍵值對,并調(diào)用加權(quán)投票算法得到用于分類的最優(yōu)分類器。
由上述的算法分析可知,算法采用多數(shù)據(jù)塊并行產(chǎn)生分類器,故算法的時(shí)間復(fù)雜度僅為原算法的l/n,大大縮短了自動(dòng)決策的處理時(shí)間,提升了效率。
雖然算法對于信息系統(tǒng)數(shù)據(jù)流的分類精度很高,但實(shí)際應(yīng)用中需要輔助決策能夠達(dá)到極小的分類出錯(cuò)率,故本文設(shè)計(jì)了單獨(dú)的數(shù)據(jù)重分類進(jìn)程。當(dāng)數(shù)據(jù)流存入數(shù)據(jù)中心數(shù)據(jù)庫時(shí),利用靜態(tài)數(shù)據(jù)分類挖掘算法離線多遍掃描數(shù)據(jù)來驗(yàn)證決策的正確性。
2.3 SaaS
云計(jì)算作為新一代計(jì)算技術(shù),它的服務(wù)交付模式也與以往有很大不同。在SaaS這一層次,系統(tǒng)需要按照用戶需求提供相應(yīng)的服務(wù)模式,也就是說將服務(wù)遍布于云內(nèi)形成服務(wù)集群。而由web服務(wù)構(gòu)建的SOA服務(wù)體系架構(gòu),有利于整合技術(shù)平臺、統(tǒng)一技術(shù)標(biāo)準(zhǔn),符合SaaS服務(wù)模式的內(nèi)在邏輯和基本訴求。本文設(shè)計(jì)的SaaS服務(wù)層次是以web服務(wù)作為基本技術(shù),采用SOAP協(xié)議在web服務(wù)之間傳遞XML格式的檢測信息,同時(shí)由wsdl描述web服務(wù)的接口,并提供服務(wù)之間的調(diào)用方法。構(gòu)建SOA服務(wù)體系架構(gòu)示意圖如圖3所示:
圖 3 SOA服務(wù)體系架構(gòu)
參照上圖,流程表述如下:
(1)無論是監(jiān)查主機(jī)還是監(jiān)測主機(jī)都要先將經(jīng)過MD5加密認(rèn)證的用戶名以及密碼以SOAP協(xié)議封裝,并通過總線云提供的WSDL接口找到身份安全認(rèn)證服務(wù)WSDL接口將消息傳遞進(jìn)去。身份安全認(rèn)證服務(wù)解封裝后根據(jù)用戶類別賦予用戶相應(yīng)的權(quán)限,許可訪問云系統(tǒng)。
(2)當(dāng)監(jiān)測主機(jī)接收到設(shè)備傳同的數(shù)據(jù)后,將監(jiān)測數(shù)據(jù)和存儲控制命令以xml格式存儲并封裝在SOAP協(xié)議中,通過云服務(wù)總線wsdl接口傳送到數(shù)據(jù)操作服務(wù)wsdl接口,并由數(shù)據(jù)操作服務(wù)將消息解封裝并提取xml中的數(shù)據(jù)進(jìn)行存儲操作。
(3)監(jiān)測主機(jī)發(fā)出以SOAP協(xié)議封裝的自動(dòng)輔助決策請求,通過云服務(wù)總線的中轉(zhuǎn)將消息轉(zhuǎn)發(fā)給輔助決策服務(wù)。接到請求后,輔助決策服務(wù)通過云服務(wù)總線向數(shù)據(jù)操作服務(wù)發(fā)送提取監(jiān)測數(shù)據(jù)操作請求(SOAP協(xié)議封裝的消息),數(shù)據(jù)操作服務(wù)提供相應(yīng)服務(wù)并以xml格式化數(shù)據(jù)傳給輔助決策服務(wù),最后由輔助決策服務(wù)將系綜分類結(jié)果傳回監(jiān)測主機(jī)。
(4)監(jiān)測主機(jī)接收到所有預(yù)打印數(shù)據(jù)后,將數(shù)據(jù)xml格式化通過云服務(wù)總線傳給自助打印服務(wù),自助打印服務(wù)提取數(shù)據(jù),經(jīng)過表格標(biāo)準(zhǔn)化、餃驗(yàn)、備份,添加打印控制命令,傳回監(jiān)測主機(jī)實(shí)施打印結(jié)果.
(5)監(jiān)察主機(jī)可以通過云服務(wù)總線監(jiān)察整個(gè)云服務(wù)的行個(gè)方面,并擁有修改、增添、終止個(gè)服務(wù)的權(quán)限。
3、實(shí)例應(yīng)用與分析
為了驗(yàn)汪設(shè)計(jì)方案的實(shí)際應(yīng)用效果,本文以某電網(wǎng)信息數(shù)據(jù)采集分析系統(tǒng)為例,將數(shù)據(jù)分析采集服務(wù)平穩(wěn)移植到云計(jì)算平臺卜,并對云服務(wù)檢測系統(tǒng)進(jìn)行了實(shí)地部署和分析。
3.1系統(tǒng)開發(fā)軟硬件配置
本文采用MyEclipse8.0作為開發(fā)平臺,利用其自帶的Xfire構(gòu)建web服務(wù),在WebSphere Application Server 5.0上發(fā)布服務(wù)形成云服務(wù)總線。云計(jì)算平臺運(yùn)行近期比較穩(wěn)定的Hadoop 0.20.0版本,用MapReduce編程模型改進(jìn)MOA中提供的基于權(quán)重的數(shù)據(jù)流系綜分類算法。底層運(yùn)行Oracle數(shù)據(jù)庫提供數(shù)據(jù)服務(wù)。
硬件方面原系統(tǒng)采用10臺服務(wù)器集群的方案,其中中心服務(wù)器采用IBM P6-550基本配置為:2個(gè)3.5GHZPOWER6處理器、8G DDR2內(nèi)存以及2個(gè)146G SCSI接口硬盤,其余為戴爾、聯(lián)想等品牌服務(wù)器。
4、總結(jié)
本文提出了基于云計(jì)算理論的信息系統(tǒng)數(shù)據(jù)采集分析系統(tǒng),能夠?qū)⒃朴?jì)算和自動(dòng)化檢測技術(shù)相結(jié)合,為自動(dòng)化檢測平臺提供高效、準(zhǔn)確、安全、靈活的解決方案,為云計(jì)算平臺的研究提供了現(xiàn)實(shí)依據(jù)。目前該采集分析系統(tǒng)已成功運(yùn)行于電網(wǎng)系統(tǒng)信息采集工作中并得到用戶的認(rèn)可,旺明其具有極高的推廣應(yīng)用價(jià)值。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:基于云計(jì)算的數(shù)據(jù)采集分析系統(tǒng)
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/10839715897.html