隨著計算機和信息時代的迅猛發(fā)展,人類收集、存儲和訪問數(shù)據(jù)的能力大大增強,快速增長的海量數(shù)據(jù)集已經(jīng)遠遠超出了人類的理解能力,傳統(tǒng)的數(shù)據(jù)分析工具已經(jīng)不能解決這些問題。為了解決海量數(shù)據(jù)的存儲、組織,并從中找出有價值的知識這些問題,出現(xiàn)了數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)。
信息化系統(tǒng)在企事業(yè)單位的迅速普及,各單位信息系統(tǒng)產(chǎn)生了大量的數(shù)據(jù)信息。如何處理已經(jīng)過期的大量數(shù)據(jù)成了一個難題,現(xiàn)在各單位的處理這些數(shù)據(jù)一般有三種做法:簡單的刪除、備份后再刪除、建立一個數(shù)據(jù)倉庫系統(tǒng),將數(shù)據(jù)保存到數(shù)據(jù)倉庫中,F(xiàn)在各單位也已經(jīng)認識到歷史業(yè)務數(shù)據(jù)是非常有用的,可以綜合利用這些數(shù)據(jù)建立分析模型,從中挖掘出有價值的知識,幫助決策者做出正確的決策。目前,大多數(shù)企業(yè)都不是缺數(shù)據(jù),比較難解決的問題是海量數(shù)據(jù)如何處理,商務智能在這種背景下應運而生。
數(shù)據(jù)挖掘可以對數(shù)據(jù)進行自動分類和聚類,找出數(shù)據(jù)中的趨勢和異常,根據(jù)這些因素來預測,在海量的數(shù)據(jù)挖掘出有價值的知識,使數(shù)據(jù)真正發(fā)揮作用。數(shù)據(jù)挖掘在商務智能解決方案的體系中占據(jù)著重要的地位。
1.相關(guān)概念
1.1 網(wǎng)格
網(wǎng)格是把整個因特網(wǎng)整合成一臺巨大的超級計算機,實現(xiàn)計算資源、存儲資源、數(shù)據(jù)資源、信息資源、知識資源、專家資源的全面共享。當然,網(wǎng)格并不一定非要這么大,我們也可以構(gòu)造地區(qū)性的網(wǎng)格,如中關(guān)村科技園區(qū)網(wǎng)格、企事業(yè)內(nèi)部網(wǎng)格、局域網(wǎng)網(wǎng)格、甚至家庭網(wǎng)格和個人網(wǎng)格。事實上,網(wǎng)格的根本特征是資源共享而不是它的規(guī)模。它應用到不同領域又叫計算網(wǎng)格、信息網(wǎng)格、知識網(wǎng)格、服務網(wǎng)格等。
網(wǎng)格具有以下四點優(yōu)勢:
(1)資源共享,消除資源孤島:網(wǎng)格能夠提供資源共享,它能消除信息孤島、實現(xiàn)應用程序的互連互通。網(wǎng)格與計算機網(wǎng)絡不同,計算機網(wǎng)絡實現(xiàn)的是一種硬件的連通,而網(wǎng)格能實現(xiàn)應用層面的連通。
(2)協(xié)同工作:網(wǎng)格第二個特點是協(xié)同工作,很多網(wǎng)格結(jié)點可以共同處理一個項目。
(3)通用開放標準,非集中控制,非平凡服務質(zhì)量:這是Ian Foster最近提出的網(wǎng)格檢驗標準。網(wǎng)格是基于國際的開放技術(shù)標準,這跟以前很多行業(yè)、部門或者公司推出的軟件產(chǎn)品不一樣。
(4)動態(tài)功能,高度可擴展性:網(wǎng)格可以提供動態(tài)的服務,能夠適應變化。同時網(wǎng)格并非限制性的,它實現(xiàn)了高度的可擴展性。
1.2 商務智能
商務智能的概念最早由Gartner Group于1996年提出,當時將商務智能定義為一類由數(shù)據(jù)倉庫、查詢報表、聯(lián)機分析、數(shù)據(jù)挖掘、數(shù)據(jù)備份和恢復等部分組成的,以幫助企業(yè)進行決策的技術(shù)。到目前為止,關(guān)于商務智能還沒有一個準確的定義,但可以從知識論、數(shù)據(jù)分析、信息系統(tǒng)和方法論四種不同視角來解釋商務智能,即認為商務智能是綜合利用知識管理的理論、信息分析和系統(tǒng)分析的工具,以及設計科學的方法論構(gòu)建的一個人機智能系統(tǒng)。其目的是在商務中進行成功利用基于IT的商務應用機會為企業(yè)獲取成功的決策支持。它的主要功能就是提供一系列信息分析方法、不同視角的信息與知識呈現(xiàn)功能(各種視圖、報表和鏈接)、智能的技術(shù)和評價工具等來支持管理人員決策進化的一個智能集成系統(tǒng)。
商務智能的功能主要有:
(1)數(shù)據(jù)管理方面包括數(shù)據(jù)的獲取、選擇、轉(zhuǎn)換、集成能力;從原來數(shù)據(jù)中發(fā)現(xiàn)知識的能力;對大量數(shù)據(jù)高效存儲與維護能力。
(2)數(shù)據(jù)分析方面包括具備OLAP、OLTP、Legacy等多種數(shù)據(jù)分析能力;終端信息查詢和報告生成能力。
(3)決策支持方面包括具備數(shù)據(jù)對比分析與趨勢預測能力。
(4)企業(yè)優(yōu)化方面包括輔助企業(yè)建模能力。
2.關(guān)鍵技術(shù)
隨著商務智能的研究和應用的不斷深入,商務智能技術(shù)已經(jīng)有了一個公認的流程框架(如圖1所示),一般的商務智能系統(tǒng)構(gòu)造基本上都根據(jù)這個框架設計開發(fā)。
圖1 商務智能技術(shù)流程圖
2.1 數(shù)據(jù)抽取ETL
ETL過程是進行數(shù)據(jù)的抽取、轉(zhuǎn)換和“凈化提煉”處理的過程。要對從多個不同業(yè)務數(shù)據(jù)庫抽取的數(shù)據(jù),進行數(shù)據(jù)項名稱的統(tǒng)一、位數(shù)的統(tǒng)一、編碼的統(tǒng)一和形式的統(tǒng)一,消除重復數(shù)據(jù)。
ETL工具包括數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)清洗和數(shù)據(jù)加載。在構(gòu)建數(shù)據(jù)庫的過程中,外部數(shù)據(jù)源所提供的數(shù)據(jù)并不都是有用的,有些數(shù)據(jù)對決策并不能提供支持,同時,外部數(shù)據(jù)源中的數(shù)據(jù)冗余的現(xiàn)象也很普遍,以主題的需求為依據(jù),對數(shù)據(jù)源的內(nèi)容進行有目的的選擇,這一過程被稱為“數(shù)據(jù)抽取”。數(shù)據(jù)轉(zhuǎn)換是把數(shù)據(jù)倉庫的不同格式的外部數(shù)據(jù)源對其格式進行轉(zhuǎn)換處理,統(tǒng)一格式。數(shù)據(jù)倉庫的外部數(shù)據(jù)源所提供的數(shù)據(jù)內(nèi)容并不一定都是好的,有些數(shù)據(jù)是有缺陷的,在數(shù)據(jù)倉庫的各數(shù)據(jù)源之間,其內(nèi)容也存在著不一致的現(xiàn)象。為了不讓這些缺陷數(shù)據(jù)影響數(shù)據(jù)倉庫的分析結(jié)果,要采取各種有效的措施,將錯誤的、不一致的數(shù)據(jù)在進入數(shù)據(jù)倉庫之前予以更正或刪除,以免影響DSS決策正確性,這一過程稱為“數(shù)據(jù)清洗”。把清洗后的數(shù)據(jù)裝入數(shù)據(jù)倉庫的過程稱為數(shù)據(jù)裝載。數(shù)據(jù)裝載要綜合考慮經(jīng)營分析需求,對不同業(yè)務系統(tǒng)的數(shù)據(jù)采用不同的加載周期,但必須保持同一時間業(yè)務數(shù)據(jù)的完整性和一致性。
網(wǎng)格商務智能平臺的ETL模塊主要解決的問題有以下幾個:
(1)ETL功能全部以子模塊的形式提供。每一個ETL子模塊對應于一種類型數(shù)據(jù)源的ETL功能,對于新的數(shù)據(jù)源類型,只要在系統(tǒng)中添加相應的ETL子模塊。
(2)常用的ETL子模塊是JDBC數(shù)據(jù)源的抽取模塊。
(3)系統(tǒng)要包含一些常見的JDBC驅(qū)動。
(4)將每一個數(shù)據(jù)源構(gòu)建一個數(shù)據(jù)類型映射,將該數(shù)據(jù)源的每個數(shù)據(jù)類型映射到網(wǎng)格商務智能平臺內(nèi)部數(shù)據(jù)類型上。
(5)網(wǎng)格商務智能平臺內(nèi)部數(shù)據(jù)類型使用JDBC標準數(shù)據(jù)類型。
2.2 數(shù)據(jù)倉庫
在眾多的數(shù)據(jù)倉庫定義中,公認的是W.H.Inmon的定義,W.H.Inmon對數(shù)據(jù)倉庫的定義是在《Buildingthe Data Warehouse》一書中提出的。他將數(shù)據(jù)倉庫定義為:一個面向主題、集成的、非易失的、非時變的數(shù)據(jù)集合,用于支持管理決策的過程。
一般地,數(shù)據(jù)倉庫具有四個主要特征:
(1)面向主題性。面向主題是數(shù)據(jù)倉庫中數(shù)據(jù)組織的最基本原則。一般來講,一個數(shù)據(jù)倉庫中可以有若干個主題,一個主題可以分解成若干個子主題,這樣逐層分解從而構(gòu)成一個主題層次。數(shù)據(jù)倉庫的創(chuàng)建、使用都是圍繞主題實現(xiàn)的,所以,必須了解如何按照決策分析來抽取主題,所抽取出的主題應該包括哪些數(shù)據(jù)內(nèi)容,這些數(shù)據(jù)內(nèi)容應該如何組織。
(2)集成性。數(shù)據(jù)倉庫中數(shù)據(jù)的集成性,是指在構(gòu)建數(shù)據(jù)倉庫的過程中,多個外部數(shù)據(jù)源內(nèi)格式不同、定義各異的數(shù)據(jù),按指定的策略經(jīng)過抽取、清洗、轉(zhuǎn)換等一系列處理,最終構(gòu)成一個有機的整體。
(3)非易失性。數(shù)據(jù)倉庫的非易失性是指數(shù)據(jù)倉庫的用戶進行分析處理時不進行更新操作,一旦數(shù)據(jù)進入數(shù)據(jù)倉庫以后,就會保持一個相當長的時間,但并不是說在數(shù)據(jù)倉庫的整個生存周期中數(shù)據(jù)集是不變的。數(shù)據(jù)的非易失性可以保證不同的用戶在不同的時間查詢、分析相同的問題時,獲得同一結(jié)果。
(4)時變性。數(shù)據(jù)的時變性是指數(shù)據(jù)倉庫的內(nèi)容隨時間的變化而不斷的得到增補、更新。當然數(shù)據(jù)倉庫不能頻繁地更新數(shù)據(jù),但為了保證決策分析的正確性,更新是必要的。
2.3 OLAP
OLAP(聯(lián)機分析處理)是針對特定問題的聯(lián)機數(shù)據(jù)訪問和分析。通過很多種可能的觀察形式對已經(jīng)轉(zhuǎn)換的信息進行快速、穩(wěn)定一致的交互性的存取,允許管理決策人員對數(shù)據(jù)進入深入觀察。OLAP是一種軟件技術(shù),它使分析人員能夠迅速、一致、交互地從各個方面觀察信息,以達到深入理解數(shù)據(jù)的目的。
OLAP的原則是快速性、可分析性、共享性、多維性、信息性?焖傩允侵赶到y(tǒng)應當使用各種技術(shù),盡量提高對最終用戶的響應速度?煞治鲂灾赶到y(tǒng)應對與用戶及應用相關(guān)的任何業(yè)務邏輯進行統(tǒng)計分析,這一分析過程不用編程而且要盡量利用已有的綜合路徑以及統(tǒng)計公式,分析類型應包括時間序列分析、成本分配、貨幣兌換、非過程化建模、多維結(jié)構(gòu)的隨機變化等與應用相關(guān)的特征。共享性指多個用戶存取數(shù)據(jù)時,系統(tǒng)應保證安全性。尤其是當存在多個用戶向OLAP服務器寫數(shù)據(jù)時,系統(tǒng)應在適當粒度上加更新鎖。多維性是OLAP應用的實質(zhì),OLAP系統(tǒng)必須提供數(shù)據(jù)的多維概念視圖。信息性指在OLAP系統(tǒng)中給出的不再是散亂的數(shù)據(jù),而是能夠?qū)刖哂兄笇б饬x的信息。
2.4 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的過程。簡單地說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或挖掘知識。
數(shù)據(jù)挖掘的分析方法可以分直接數(shù)據(jù)挖掘和間接數(shù)據(jù)挖掘兩類。直接數(shù)據(jù)挖掘的目標是利用可用的數(shù)據(jù)建立一個模型,這個模型對剩余的數(shù)據(jù)進行描述,包括分類、估值和預言等分析方法。在間接數(shù)據(jù)挖掘的目標中,沒有選出某一具體的變量并用模型進行描述,而是在所有的變量中建立起某種關(guān)系,如相關(guān)性分組或關(guān)聯(lián)規(guī)則、聚集、描述和可視化及復雜數(shù)據(jù)類型的挖掘,如文本、網(wǎng)頁、圖形圖像、音視頻和空間數(shù)據(jù)等。
2.5 網(wǎng)格商務
網(wǎng)格商務是在網(wǎng)格環(huán)境下開展的商務活動,其中的網(wǎng)格計算環(huán)境主要是指各種網(wǎng)格應用,包括數(shù)據(jù)網(wǎng)格、設備網(wǎng)格、信息服務網(wǎng)格、知識網(wǎng)格和遠程沉浸網(wǎng)格等方面的應用。從應用服務層面上講,網(wǎng)格商務是由網(wǎng)格計算環(huán)境創(chuàng)造的、超越時間和空間約束的、以透明的服務方式和極快的速度實現(xiàn)的商品交換。網(wǎng)格商務應該是網(wǎng)格化的購銷市場,使用網(wǎng)格應用和服務完成商品購買和服務。總的來說,網(wǎng)格商務是指網(wǎng)格計算技術(shù)在經(jīng)濟、管理和商務等領域應用,對企業(yè)的組織形式、盈利模式、營銷戰(zhàn)略和知識管理等方面發(fā)生重大變化的全新商務模式,是具有商業(yè)活動能力的實體,為提高商務活動效率,通過透明的外包應用服務,在一定的商務規(guī)則下,充分利用網(wǎng)格技術(shù)在商務領域中的應用,來實現(xiàn)資源的全面共享,以提高企業(yè)核心競爭力,最終完成商品交易服務的一種貿(mào)易形式。
3.技術(shù)難點
3.1 ETL抽取的多樣化
ETL抽取的對象是各種各樣的數(shù)據(jù)源,包括文件、關(guān)系數(shù)據(jù)庫、嵌入式數(shù)據(jù)庫等各種形式。這些數(shù)據(jù)源產(chǎn)品的特性都各不相同,而對其支持軟件也不能支持所有的數(shù)據(jù)庫功能。即使比較成熟的有幾十萬行代碼的開源ETL工具,也不能解決系統(tǒng)所需要的全部功能。
這里采用數(shù)據(jù)源分層架構(gòu)的方法,把任務逐層分解,把大任務盡量分解成為比較容易解決的小任務,構(gòu)造了一個具有基本功能的高度可擴展的框架。
3.2 Web Service參數(shù)映射
Web Service的一個大特點就是高度的跨平臺性。不同的操作系統(tǒng)上不同語言開發(fā)的應用程序,只有通過Web Service的協(xié)議就可以實現(xiàn)互相通信。不同語言開發(fā)的應用之間的通信是通過將語言類映射為Web Service標準類來實現(xiàn)的。而Web Service的標準類一般是高級語言集合的子集,因此一些高級語言如Java中的對象無法完全映射為Web Service標準類型的,即使映射成為Web Service標準類型,在.NET開發(fā)的程序中也無法正常讀取。所以說Web Service的跨平臺性也只是某些限制條件下的跨平臺。
這里采用Java語言的類型序列化技術(shù),將Java語言的對象序列化到二進制編碼中,然后通過Web Service傳輸二進制字編碼,在網(wǎng)絡的另一端將二進制編碼再解碼為Java對象,這種方法成功地解決了Web Service參數(shù)映射問題。
4.基于網(wǎng)格的商務智能體系結(jié)構(gòu)
基于網(wǎng)格的商務智能體系結(jié)構(gòu)設計為三層,底層為數(shù)據(jù)模型層,中間為控制服務層,上層為客戶端視圖層。數(shù)據(jù)模型層是系統(tǒng)的數(shù)據(jù)建模底層,以數(shù)據(jù)庫軟件為基礎構(gòu)造數(shù)據(jù)倉庫、聯(lián)機在線分析處理、數(shù)據(jù)挖掘;控制服務層把要解決的業(yè)務邏輯封裝為若干個子系統(tǒng),并基于Web Services技術(shù)構(gòu)建網(wǎng)格服務平臺,供客戶端調(diào)用數(shù)據(jù)挖掘服務;客戶端視圖層提供C/S架構(gòu)客戶端視圖、B/S架構(gòu)網(wǎng)絡瀏覽器視圖、移動終端瀏覽視圖以及第三方擴展軟件的視圖。架構(gòu)的系統(tǒng)具有的功能組件如圖2所示。
圖2 基于網(wǎng)格的商務智能系統(tǒng)功能組件圖
5.結(jié)束語
本文介紹了基于數(shù)據(jù)網(wǎng)格的商務智能應用。結(jié)合網(wǎng)格技術(shù)、商務智能、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘等技術(shù),提出了基于數(shù)據(jù)網(wǎng)格的商務智能應用的體系結(jié)構(gòu)。這種結(jié)構(gòu)將數(shù)據(jù)網(wǎng)格服務與商務智能系統(tǒng)緊密結(jié)合起來,有效地解決了商務智能應用程序?qū)Ψ植际疆悩?gòu)數(shù)據(jù)庫進行統(tǒng)一操作的問題,極大地擴展了數(shù)據(jù)網(wǎng)格的應用領域和商務智能的有效性。隨著數(shù)據(jù)網(wǎng)格和商務智能技術(shù)的不斷提高,基于數(shù)據(jù)網(wǎng)格的商務智能將會得到廣泛的應用。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務領域、行業(yè)應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領域,是眾多中小企業(yè)信息化建設首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標題:基于網(wǎng)格的商務智能研究
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/1081946287.html