商業(yè)智能的概念
Gartner Group與1996年最早提出商業(yè)智能(Business Intelligence)的概念,當(dāng)時(shí)將商業(yè)智能定義為一系列的概念和方法,通過(guò)應(yīng)用基于事實(shí)的支持系統(tǒng)來(lái)輔助商業(yè)決策的制定。商業(yè)智能技術(shù)提供使企業(yè)迅速分析數(shù)據(jù)的技術(shù)和方法,包括收集、管理和分析數(shù)據(jù),將這些數(shù)據(jù)轉(zhuǎn)化為有用的信息,然后分發(fā)到企業(yè)各處。
商業(yè)智能以數(shù)據(jù)庫(kù)技術(shù)為支撐,包括數(shù)據(jù)提取、轉(zhuǎn)換和加載(ETL),聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘和商業(yè)模型等,其發(fā)展先后經(jīng)歷了事務(wù)處理系統(tǒng)(TPS)、高級(jí)管理人員信息系統(tǒng)(EIS)、管理信息系統(tǒng)(MIS)以及決策支持系統(tǒng)(DSS)等階段,最終成為企業(yè)商業(yè)智能。
對(duì)商業(yè)智能目前還沒(méi)有準(zhǔn)確的定義,不同的組織給出了不同的理解。Data Warehouse Institute認(rèn)為“商業(yè)智能是將數(shù)據(jù)轉(zhuǎn)換成知識(shí)并將知識(shí)應(yīng)用到商業(yè)行為上的一個(gè)過(guò)程"。
GartnerGroup認(rèn)為“商業(yè)智能是將數(shù)據(jù)轉(zhuǎn)換成信息的過(guò)程,然后通過(guò)發(fā)現(xiàn)將信息轉(zhuǎn)化為知識(shí)"。
IBM則認(rèn)為商業(yè)智能是指一種能力:通過(guò)智能地使用數(shù)據(jù)財(cái)產(chǎn)來(lái)制定更好的商務(wù)決策。
以上從不同的角度給出了商業(yè)智能的定義,但都沒(méi)有闡述其本質(zhì)。商業(yè)智能被認(rèn)為是將數(shù)據(jù)轉(zhuǎn)化為知識(shí),幫助企業(yè)做出業(yè)務(wù)決策的工具。為此目的,引需要利用數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)機(jī)分析處理(OLAP)工具和數(shù)據(jù)挖掘等技術(shù)。從技術(shù)上講商業(yè)智能只是以上技術(shù)的綜合運(yùn)用,所以商業(yè)智能應(yīng)該被看成是一種解決方案,商業(yè)智能的關(guān)鍵是從許多不同的企業(yè)運(yùn)作系統(tǒng)數(shù)據(jù)庫(kù)中提取出有用的數(shù)據(jù)并經(jīng)過(guò)抽取(Extraction)、轉(zhuǎn)換(Transformation)和裝載(Load),合并到企業(yè)數(shù)據(jù)倉(cāng)庫(kù)里,從而得到企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的總體視圖,并利用適當(dāng)?shù)牟樵兒头治龉ぞ、?shù)據(jù)挖掘工具、OLAP工具等對(duì)其進(jìn)行分析和處理,將數(shù)據(jù)展示出的知識(shí)展現(xiàn)給決策者,決策過(guò)程提供支持。
商業(yè)智能的研究?jī)?nèi)容
商業(yè)智能的研究主要集中在三個(gè)方面:支撐技術(shù)的研究、體系結(jié)構(gòu)的研究、應(yīng)用系統(tǒng)的研究。
(1)支撐技術(shù)的研究。商業(yè)智能是一個(gè)跨學(xué)科領(lǐng)域,主要借助兩大學(xué)科的成果,一是計(jì)算機(jī)技術(shù),其中關(guān)鍵是數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和數(shù)據(jù)分析以及數(shù)據(jù)挖掘技術(shù);另一個(gè)是企業(yè)管理方面的進(jìn)展。計(jì)算機(jī)技術(shù)為商業(yè)智能系統(tǒng)能夠提供技術(shù)支撐;企業(yè)管理理論為商業(yè)智能系統(tǒng)提供業(yè)務(wù)動(dòng)力。
(2)體系結(jié)構(gòu)的研究。一般認(rèn)為商業(yè)智能系統(tǒng)主要包括數(shù)據(jù)預(yù)處理、建立數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)分析及數(shù)據(jù)展現(xiàn)四個(gè)主要階段,而數(shù)據(jù)倉(cāng)庫(kù)、OLAP和數(shù)據(jù)挖掘技術(shù)是商業(yè)智能的三大關(guān)鍵技術(shù)。一般認(rèn)為商業(yè)智能(BI)系統(tǒng)的架構(gòu)。
(3)應(yīng)用系統(tǒng)的研究。各個(gè)應(yīng)用領(lǐng)域所面臨的決策問(wèn)題的分析是應(yīng)用系統(tǒng)的研究的重點(diǎn)。商業(yè)智能被應(yīng)用到企業(yè)運(yùn)營(yíng)過(guò)程的各個(gè)領(lǐng)域,并且已經(jīng)形成其特有體系。對(duì)一般企業(yè)來(lái)說(shuō),商業(yè)智能可以實(shí)現(xiàn)以下作用:幫助企業(yè)了解本身的運(yùn)營(yíng)推動(dòng)力和異常情況,協(xié)助用戶清楚產(chǎn)品未來(lái)趨勢(shì);衡量績(jī)效指標(biāo),追蹤并管理企業(yè)運(yùn)行的關(guān)鍵性能指標(biāo);改善和加強(qiáng)客戶關(guān)系;掌握各種商務(wù)信息挖掘利潤(rùn)增長(zhǎng)點(diǎn)。
商業(yè)智能的實(shí)施步驟
商業(yè)智能系統(tǒng)的實(shí)旌涉及企業(yè)運(yùn)作管理、信息系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)、業(yè)務(wù)數(shù)據(jù)分析、數(shù)據(jù)挖掘等知識(shí)。即需要選擇合適的商業(yè)智能工具,還必須按照正確的步驟實(shí)施,商業(yè)智能項(xiàng)目可分為以下步驟。
(1)需求分析:需求分析是商業(yè)智能實(shí)施的第一步,必須明確定義企業(yè)對(duì)商業(yè)智能的期望和需求,包括分析的主題,查看的角度(維度),業(yè)務(wù)需求和用戶的要求等。
(2)數(shù)據(jù)倉(cāng)庫(kù)建模:通過(guò)需求分析,將企業(yè)中的數(shù)據(jù)按照主題歸類,建立企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型和物理模型,并設(shè)計(jì)Bl系統(tǒng)的架構(gòu)。
(3)數(shù)據(jù)抽。必須將數(shù)據(jù)從業(yè)務(wù)數(shù)據(jù)庫(kù)加載到數(shù)據(jù)倉(cāng)庫(kù)中, 并在加載過(guò)程中進(jìn)行轉(zhuǎn)換、清洗,以保證數(shù)據(jù)的正確性和可用性。
(4)業(yè)務(wù)系統(tǒng)的開發(fā):主要是根據(jù)業(yè)務(wù)需求,對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行各種數(shù)據(jù)分析和展示,主要包括多維數(shù)據(jù)OLAP分析和數(shù)據(jù)挖掘,以及建立商業(yè)智能分析報(bào)表系統(tǒng)及門戶。
(5)系統(tǒng)改進(jìn)和完善: 根據(jù)系統(tǒng)使用情況和用戶反饋信息,對(duì)商業(yè)智能系統(tǒng)按照上述步驟對(duì)系統(tǒng)進(jìn)行重構(gòu)或完善。
商業(yè)智能的發(fā)展趨勢(shì)
從應(yīng)用和技術(shù)需求上看,商業(yè)智能的發(fā)展趨勢(shì)可以歸納為以下方面。功能上具有可配置性、靈活性、可變化性。BI系統(tǒng)的使用范圍從特定部門到企業(yè)所有用戶,其業(yè)務(wù)多樣化,需求格式不同,展示方式也各有變化,對(duì)BI系統(tǒng)在配置和靈活上提出了要求。
解決方案更開放、可擴(kuò)展、可定制。BI系統(tǒng)在原有方案基礎(chǔ),根據(jù)企業(yè)的獨(dú)特需求,增加個(gè)性化設(shè)置的接口和擴(kuò)展特性,使系統(tǒng)更加靈活而且擴(kuò)大了使用范圍。
從單獨(dú)的商業(yè)智能向嵌入式商業(yè)智能發(fā)展。即把商業(yè)智能組件嵌入到企業(yè)現(xiàn)有的應(yīng)用系統(tǒng)中,使事務(wù)處理系統(tǒng)具有商業(yè)智能的分析特性。如SAP的ERP就嵌套了Business Objiect的商業(yè)智能產(chǎn)品,其它公司也有類似的合并,這是商業(yè)智能應(yīng)用的一大趨勢(shì)。
從傳統(tǒng)功能向增強(qiáng)型功能轉(zhuǎn)變。商業(yè)智能增強(qiáng)功能是相對(duì)于SOL查詢來(lái)說(shuō)的,而企業(yè)建模、多維數(shù)據(jù)處理、數(shù)據(jù)挖掘以及數(shù)據(jù)預(yù)測(cè)等功能可以提高系統(tǒng)的可用性和智能性,通常被看作BI系統(tǒng)的增強(qiáng)功能。
從市場(chǎng)前景來(lái)看,商業(yè)智能將面臨BI提供商的合并;從戰(zhàn)略型商業(yè)智能向操作性或?qū)崟r(shí)性商業(yè)智能轉(zhuǎn)換;以及更加智能和成熟的分析工具和展現(xiàn)工具等改變。
一、數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)倉(cāng)庫(kù)是商業(yè)智能系統(tǒng)的基礎(chǔ),以往的數(shù)據(jù)庫(kù)系統(tǒng)主要用于事務(wù)處理,很難或無(wú)法實(shí)現(xiàn)分析處理。近年來(lái),越來(lái)越多的數(shù)據(jù)分析與決策信息支持在被企業(yè)所重視,數(shù)據(jù)倉(cāng)庫(kù)技術(shù)應(yīng)運(yùn)而生。
數(shù)據(jù)倉(cāng)庫(kù)的定義
目前對(duì)于數(shù)據(jù)倉(cāng)庫(kù)還沒(méi)有統(tǒng)一的定義,被稱為數(shù)據(jù)倉(cāng)庫(kù)之父的BillInmon在其著作《(Building the Data Warehouse))一書中給出的定義被廣泛接受:數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)是一個(gè)面向主題的(Subject Oriented)、集成的(Integrated)、相對(duì)穩(wěn)定的(Non.Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。
可以從兩個(gè)層面對(duì)數(shù)據(jù)倉(cāng)庫(kù)的概念進(jìn)行理解,首先數(shù)據(jù)倉(cāng)庫(kù)是面向分析處理的,主要用來(lái)支持決策制定;再者數(shù)據(jù)倉(cāng)庫(kù)包含歷史數(shù)據(jù),是對(duì)多個(gè)異構(gòu)的數(shù)據(jù)源數(shù)據(jù)按照主題的集成,它的數(shù)據(jù)相對(duì)固定,不會(huì)經(jīng)常改動(dòng)。
數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)
面向主題、集成、相對(duì)穩(wěn)定、反映歷史變化是對(duì)數(shù)據(jù)倉(cāng)庫(kù)的定義,也是對(duì)數(shù)據(jù)倉(cāng)庫(kù)特點(diǎn)的描述,下面分別解釋它們的含義。
(1)面向主題的:數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)都是按照一定的業(yè)務(wù)主題進(jìn)行組織的,面向主題體現(xiàn)在數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)中,而且還包含在業(yè)務(wù)數(shù)據(jù)分析和存儲(chǔ)上。
(2)集成的:數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)來(lái)自各個(gè)不同的分散數(shù)據(jù)庫(kù)中,它并不是對(duì)源數(shù)據(jù)庫(kù)數(shù)據(jù)的簡(jiǎn)單拷貝,而是按照劃分好的主題和數(shù)據(jù)分析要求,經(jīng)過(guò)數(shù)據(jù)抽取、清理、匯總和整理等步驟,消除源數(shù)據(jù)中的錯(cuò)誤和不一致數(shù)據(jù),保證數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的正確性和可用性,所以它是整合集成的。
(3)相對(duì)穩(wěn)定的:數(shù)據(jù)倉(cāng)庫(kù)的穩(wěn)定性體現(xiàn)在它的非易失性上,由于數(shù)據(jù)倉(cāng)庫(kù)是面向分析的,其中的數(shù)據(jù)是從業(yè)務(wù)數(shù)據(jù)中加載過(guò)來(lái)的歷史數(shù)據(jù),所進(jìn)行的主要操作是查詢和分析,供決策分析使用,所以其修改和刪除操作很少,只需要定期的增量加載,所以具有相對(duì)穩(wěn)定特征。
(4)反映歷史變化:數(shù)據(jù)倉(cāng)庫(kù)必須能夠不斷地捕捉業(yè)務(wù)系統(tǒng)中的變化數(shù)據(jù),記錄企業(yè)生產(chǎn)過(guò)程的各個(gè)階段的信息,以滿足決策分析的需要,所以必須實(shí)時(shí)地把新變化的業(yè)務(wù)數(shù)據(jù)追加到數(shù)據(jù)倉(cāng)庫(kù)中去,通過(guò)數(shù)據(jù)隨時(shí)問(wèn)變化的研究和分析,可以對(duì)企業(yè)的發(fā)展歷程和未來(lái)趨勢(shì)做出定量分析和預(yù)測(cè)。
可見(jiàn)數(shù)據(jù)倉(cāng)庫(kù)與業(yè)務(wù)數(shù)據(jù)庫(kù)的不同之處體現(xiàn)在:數(shù)據(jù)庫(kù)是面向事務(wù)的設(shè)計(jì),數(shù)倉(cāng)庫(kù)是面向主題設(shè)計(jì)的;數(shù)據(jù)庫(kù)一般存儲(chǔ)在線交易數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的一般是歷史數(shù)據(jù); 數(shù)據(jù)庫(kù)設(shè)計(jì)是盡量避免冗余,一般采用符合范式的規(guī)則來(lái)設(shè)計(jì),數(shù)據(jù)倉(cāng)庫(kù)在設(shè)計(jì)是有意引入冗余,采用反范式的方式來(lái)設(shè)計(jì); 數(shù)據(jù)庫(kù)是為捕獲數(shù)據(jù)而設(shè)計(jì),數(shù)據(jù)倉(cāng)庫(kù)是為分析數(shù)據(jù)而設(shè)計(jì),它的兩個(gè)基本的元素是維表和事實(shí)表。
數(shù)據(jù)倉(cāng)庫(kù)與BI
關(guān)于數(shù)據(jù)倉(cāng)庫(kù)和商業(yè)智能的關(guān)系,在業(yè)界還存在一些分歧。有人從數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的角度考慮,認(rèn)為數(shù)據(jù)倉(cāng)庫(kù)包含了從原始數(shù)據(jù)提取到用于見(jiàn)到的軟件和應(yīng)的所有內(nèi)容。它和商業(yè)智能的創(chuàng)建步驟和目的都是一致的,它們沒(méi)有本質(zhì)的區(qū)別,可以看作是一回事。還有人從靜態(tài)的角度看待數(shù)據(jù)倉(cāng)庫(kù),認(rèn)為數(shù)據(jù)倉(cāng)庫(kù)僅僅是集中式的高度規(guī)范化的數(shù)據(jù)存儲(chǔ),它只是為商業(yè)智能提供數(shù)據(jù)支持。不管是數(shù)據(jù)倉(cāng)庫(kù)還是商業(yè)智能,都是應(yīng)業(yè)務(wù)分析需要而產(chǎn)生的,它們都不可能脫離業(yè)務(wù)邏輯分析和業(yè)務(wù)維度分析而存在。兩者是相互存在,互為條件的。不存在脫離商業(yè)智能分析的數(shù)據(jù)倉(cāng)庫(kù),也不存在沒(méi)有數(shù)據(jù)倉(cāng)庫(kù)支持的商業(yè)智能。如果從商業(yè)智能的角度考慮,通常認(rèn)為數(shù)據(jù)倉(cāng)庫(kù)為商業(yè)智能的一部分,它和聯(lián)機(jī)分析處理以及數(shù)據(jù)挖掘被定義為商業(yè)智能的三個(gè)關(guān)鍵技術(shù)。從這個(gè)角度看,在商業(yè)智能系統(tǒng)中所指的數(shù)據(jù)倉(cāng)庫(kù),是數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建和填充的過(guò)程,沒(méi)有包括其分析功能,它為商業(yè)智能系統(tǒng)提供數(shù)據(jù)基礎(chǔ)。
二、數(shù)據(jù)抽取、轉(zhuǎn)換和加載(ETL)
ETL概念及作用
ETL是數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform)、裝載(Load)的縮寫,是完成數(shù)據(jù)從數(shù)據(jù)源向目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)轉(zhuǎn)化的過(guò)程,抽取是將數(shù)據(jù)從各種原始的業(yè)務(wù)系統(tǒng)中讀取出來(lái),這是所有工作的前提。轉(zhuǎn)換是按照預(yù)先設(shè)計(jì)好的規(guī)則將抽取的數(shù)據(jù)進(jìn)行轉(zhuǎn)換、清洗,以及處理一些冗余、歧義的數(shù)據(jù),使本來(lái)異構(gòu)的數(shù)據(jù)格式能統(tǒng)一起來(lái)。裝載是將轉(zhuǎn)換完的數(shù)據(jù)按計(jì)劃增量或全部的導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù)中。ETL是數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘以及商業(yè)智能等技術(shù)的基石。
ETL是Bl/DW(Business Intelligence)的核心和靈魂,它在商業(yè)智能系統(tǒng)中占據(jù)舉足輕重的作用。在整個(gè)BI項(xiàng)目中最難部分是用戶需求分析和模型設(shè)計(jì),而ETL規(guī)則設(shè)計(jì)和實(shí)施則是工作量最大的,約占整個(gè)項(xiàng)目的60%~80%?梢(jiàn)ETL的重要性,ETL設(shè)計(jì)的正確性和合理性,直接影響整個(gè)BI項(xiàng)目的效率和質(zhì)量。
數(shù)據(jù)清洗和轉(zhuǎn)換
ETL過(guò)程中最復(fù)雜的是數(shù)據(jù)清洗和轉(zhuǎn)換,它通常是與業(yè)務(wù)需要和后期的數(shù)據(jù)分析和數(shù)據(jù)挖掘直接相關(guān)的,也是BI項(xiàng)目中資源密集程度最高的步驟。數(shù)據(jù)清洗的目的是除去數(shù)據(jù)中的“噪聲(noise)”和不相關(guān)的信息。數(shù)據(jù)轉(zhuǎn)換的目的是將源數(shù)據(jù)的數(shù)據(jù)值與類型轉(zhuǎn)換為同一的格式。數(shù)據(jù)清洗和轉(zhuǎn)換通常包括以下處理。
數(shù)據(jù)類型的轉(zhuǎn)換:這是數(shù)據(jù)轉(zhuǎn)換中最簡(jiǎn)單的任務(wù),由需要通常將布爾類型轉(zhuǎn)換為整數(shù)類型;或連續(xù)的數(shù)據(jù)類型根據(jù)一定原則轉(zhuǎn)變?yōu)殡x散的值;對(duì)數(shù)據(jù)進(jìn)行歸一化等。
數(shù)據(jù)分組:有時(shí)可能有許多不同的值(狀態(tài))出現(xiàn)在離散列中,為了減少模型的復(fù)雜性需要把這些值分組,例如職業(yè)可能有幾十種不同的值,如軟件工程師、電子工程師、硬件工程師、顧問(wèn)等,我們可以用一個(gè)“工程師’’來(lái)對(duì)其進(jìn)行歸納,以減少模型的復(fù)雜度。
數(shù)據(jù)聚集:聚集計(jì)算的結(jié)果是根據(jù)用戶可能的查詢預(yù)先計(jì)算好的匯總數(shù)據(jù)。比如希望通過(guò)每個(gè)客戶的詳細(xì)通話記錄對(duì)客戶進(jìn)行細(xì)分,派生出呼叫次數(shù)和平均通話時(shí)間等屬性列。
離群點(diǎn)的處理:離群點(diǎn)稱為孤立點(diǎn),是數(shù)據(jù)集中的異常事例,這些事例是少數(shù)的情況,但卻影響一般數(shù)據(jù)分析模型的準(zhǔn)確性,需要對(duì)它們單獨(dú)進(jìn)行處理。通常情況是直接刪除這些孤立點(diǎn),對(duì)正常數(shù)據(jù)進(jìn)行建模。但有時(shí)候?qū)@些點(diǎn)的分析卻有非常重要的意義,比如信用卡欺詐檢測(cè)和網(wǎng)絡(luò)入侵檢測(cè)等。
缺失值處理:從不同數(shù)據(jù)源集成過(guò)來(lái)的數(shù)據(jù),由于多方面原因存在很多的缺失的數(shù)據(jù),這些空值的存在嚴(yán)重影響了正常的數(shù)據(jù)分析工作,必須對(duì)其進(jìn)行處理。目前有一些方法來(lái)處理這種問(wèn)題,利用平均值代替或者用常見(jiàn)的值代替或者直接產(chǎn)出帶空值的記錄,無(wú)論使用怎么的方法,都必須看實(shí)際業(yè)務(wù)對(duì)數(shù)據(jù)的要求和對(duì)模型準(zhǔn)確性的要求程度。
還有其它的數(shù)據(jù)清洗和轉(zhuǎn)換任務(wù),在具體操作中,我們需要使用相應(yīng)的工具來(lái)解決業(yè)務(wù)問(wèn)題,確保數(shù)據(jù)的正確性及可用性。
ETL的挑戰(zhàn)
ETL系統(tǒng)是一個(gè)復(fù)雜的系統(tǒng)工程,雖然ETL已經(jīng)進(jìn)入實(shí)用階段,但還有許多阻礙其應(yīng)用的情況。主要體現(xiàn)在異構(gòu)數(shù)據(jù)源的結(jié)構(gòu)差別和數(shù)據(jù)源數(shù)據(jù)質(zhì)量方面。ETL的各個(gè)數(shù)據(jù)源位于不同的網(wǎng)絡(luò)和操作系統(tǒng),在數(shù)據(jù)格式定義,數(shù)據(jù)結(jié)構(gòu)和接口方面都存在很大差異,給數(shù)據(jù)提取工作帶來(lái)很多的麻煩。而且現(xiàn)有不同數(shù)據(jù)庫(kù)系統(tǒng)存在無(wú)法解決的臟數(shù)據(jù),包括命名格式不規(guī)范,濫用縮寫詞、慣用語(yǔ)、數(shù)據(jù)錄入錯(cuò)誤、數(shù)據(jù)重復(fù)、數(shù)據(jù)丟失、單位尺度不一致等。其中對(duì)數(shù)據(jù)集成和清洗影響最大的是以下問(wèn)題。
(1)數(shù)據(jù)冗余不一致。數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)時(shí)可能從方便或效率方面的考慮,將一種數(shù)據(jù)分別保存在不同的地方別進(jìn)行維護(hù),數(shù)據(jù)的修改得不到及時(shí)的反饋和統(tǒng)一,造成了數(shù)據(jù)之間的不一致,及增加了數(shù)據(jù)冗余度,也很難分辨數(shù)據(jù)的正誤。
(2)數(shù)據(jù)關(guān)聯(lián)錯(cuò)誤。由于數(shù)據(jù)庫(kù)設(shè)計(jì)的不合理,很多情況下會(huì)存在數(shù)據(jù)之間的關(guān)聯(lián)和依賴,包括屬性關(guān)聯(lián)即兩個(gè)屬性分別可以由對(duì)方推導(dǎo)計(jì)算出來(lái),或?qū)嶓w關(guān)聯(lián)即實(shí)體間使用關(guān)聯(lián)屬性來(lái)關(guān)聯(lián)連接。這種設(shè)計(jì)方式會(huì)產(chǎn)生數(shù)據(jù)之間的不一致、實(shí)體關(guān)聯(lián)性丟失甚至出現(xiàn)實(shí)體關(guān)聯(lián)錯(cuò)誤。
(3)數(shù)據(jù)本身錯(cuò)誤。由于在數(shù)據(jù)庫(kù)設(shè)計(jì)時(shí)沒(méi)有進(jìn)行數(shù)據(jù)的約束設(shè)計(jì),或者用戶輸入數(shù)據(jù)時(shí)的個(gè)人疏忽等原因造成數(shù)據(jù)源中存在不滿足要求的數(shù)據(jù)以上問(wèn)題給ETL的設(shè)計(jì)和實(shí)施增加了不同程度的困難,有時(shí)只有犧牲數(shù)據(jù)的準(zhǔn)確性來(lái)達(dá)到系統(tǒng)效率和項(xiàng)目進(jìn)度的要求。解決這些問(wèn)題,還需要加強(qiáng)企業(yè)工作過(guò)程的規(guī)范化管理,改善企業(yè)的數(shù)據(jù)庫(kù)結(jié)構(gòu)等,隨著企業(yè)信息化水平的提高,這些困擾ETL實(shí)施的問(wèn)題會(huì)逐漸得到改善和解決。
三、 聯(lián)機(jī)分析處理(OLAP)
OLAP的理解
OLAP是Online Analytic Process(聯(lián)機(jī)分析處理)的縮寫,E.ECodd于1 993年首次提出這個(gè)概念。從字面上看OLAP是對(duì)聯(lián)機(jī)數(shù)據(jù)訪問(wèn)和分析,它是為了滿足更高效地進(jìn)行多維分析的需求而產(chǎn)生的。OLAP的主要功能是根據(jù)用戶所選擇的分析,從多個(gè)角度(維)度對(duì)信息進(jìn)行快速、一致、穩(wěn)定地交互訪問(wèn),使用戶可以在短時(shí)間內(nèi)從各種不同的角度審視業(yè)務(wù)的經(jīng)營(yíng)情況。OLAP是一種技術(shù),它最大的特點(diǎn)是其機(jī)動(dòng)性和快速性。OLAP技術(shù)是彌補(bǔ)關(guān)系數(shù)據(jù)庫(kù)在統(tǒng)計(jì)及綜合查詢分析方面的不足,迎合人們對(duì)數(shù)據(jù)的復(fù)雜查詢和對(duì)于數(shù)據(jù)分類別及層次等高級(jí)分析需求而產(chǎn)生的,能在短時(shí)間內(nèi)響應(yīng)非專業(yè)人員的復(fù)雜查詢。可以利用OLM)技術(shù)從多種角度對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行多方面的匯總統(tǒng)計(jì)計(jì)算,還可以利用數(shù)據(jù)挖掘技術(shù)自動(dòng)發(fā)現(xiàn)其中隱含的有用理解了OLAP與OLTP的區(qū)別,也就對(duì)OLAP的特點(diǎn),功能和使用方式有了感性的認(rèn)識(shí),OLAP作為一種分析和存儲(chǔ)技術(shù),表現(xiàn)出它獨(dú)特的優(yōu)勢(shì)。隨著數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展,數(shù)據(jù)倉(cāng)庫(kù)(DW)系統(tǒng)正成為新的決策管理系統(tǒng)解決方案。DW系統(tǒng)以O(shè)LAP為核心,但包括更為廣泛的內(nèi)容。
OLAP操作
OLAP的目標(biāo)是滿足決策支持或者滿足在多維環(huán)境下特定的查詢和報(bào)表需求,它展現(xiàn)在用戶面前的是一幅幅多維視圖,它的技術(shù)核心是“維"這個(gè)概念。0LAP的多維分析操作有鉆取、切片和切塊以及旋轉(zhuǎn)等。鉆取是在維的層次上進(jìn)行向上或向下的查看來(lái)改變分析粒度的查詢。它包括向下鉆取(Drill.down)和向上鉆取(Drill.up)/上卷(Roll.up)。Drill.up是在某一維上將低層次的細(xì)節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù),或者減少維數(shù);而Drill—down則相反,它從匯總數(shù)據(jù)深入到細(xì)節(jié)數(shù)據(jù)進(jìn)行觀察或增加新維。切片和切塊是在先固定一些維度上選擇的屬性值,然后查看度量值在其它維度上的變化。如果其它的維有一個(gè)則是切片;有兩個(gè)以上則是切塊。旋轉(zhuǎn)是變換維的顯示位置,即在表格中重新安排維的放置。
OLAP的分類
OLAP是以數(shù)據(jù)存在為前提的,按照數(shù)據(jù)的存儲(chǔ)格式可以分為以下幾種。
(1)關(guān)系OLAP又稱ROLAP使用關(guān)系或擴(kuò)充關(guān)系DBMS存放并管理數(shù)據(jù)倉(cāng)庫(kù),采用基于稀疏矩陣表示方法的星形結(jié)構(gòu)或雪花結(jié)構(gòu)存儲(chǔ)多維數(shù)據(jù),數(shù)據(jù)檢索比MOLAP低效。
(2)多維OLAP又稱MOLAP是基于多維數(shù)據(jù)庫(kù)來(lái)實(shí)現(xiàn)的,其數(shù)據(jù)存儲(chǔ)采用多維方陣或矩陣方式,數(shù)據(jù)檢索高效,是為直接支持多維查詢分析處理而設(shè)計(jì)的結(jié)構(gòu)。
(3)混合OLAP又稱HOLAP是結(jié)合ROLAP和MOLAP技術(shù),在MOLAP立方體中存儲(chǔ)高級(jí)別的聚集,在ROLAP中存儲(chǔ)低級(jí)別的聚集。
(4)桌面OLAP指沒(méi)有自己的數(shù)據(jù)存儲(chǔ)庫(kù),把用戶的查詢翻譯為對(duì)數(shù)據(jù)源的查詢,然后再把結(jié)果合成返回給用戶。
(5)客戶OLAP是相對(duì)于Server OLAP而言的,客戶OLAP把部分?jǐn)?shù)據(jù)下載到本地,為用戶提供本地的多維分析。
在商業(yè)智能系統(tǒng)中都是在數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)上建立OLAP,所以一般是對(duì)關(guān)系OLAP,多維OLAP和混合OLAP的討論和使用。
四、數(shù)據(jù)挖掘
數(shù)據(jù)挖掘的定義
關(guān)于數(shù)據(jù)挖掘(Date Mining),目前沒(méi)有統(tǒng)一的定義,不同的學(xué)者或機(jī)構(gòu)按照自己的理解分別給出不同的說(shuō)法。簡(jiǎn)單的說(shuō),數(shù)據(jù)挖掘就是指從大量數(shù)據(jù)中提取或“挖掘"知識(shí)。我們擁有海量的數(shù)據(jù),卻苦于信息缺乏,數(shù)據(jù)挖掘借用從礦石或沙子中挖掘黃金之意,是指從大量數(shù)據(jù)中自動(dòng)地發(fā)現(xiàn)有趣的模式和有價(jià)值的信息,其中數(shù)據(jù)可以存放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或者其它信息系統(tǒng)中有價(jià)值的信息的過(guò)程。
與數(shù)據(jù)挖掘關(guān)系密切的的一詞是數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)即KDD(KnowledgeDiscovery in Database),它是從大量的、隨機(jī)的、有噪聲的、不完全的、模糊的數(shù)據(jù)中,提取潛在的有用的信息和知識(shí),這些知識(shí)是隱藏在其中的規(guī)律,不容易被人發(fā)現(xiàn)和識(shí)別㈨。有許多文獻(xiàn)把數(shù)據(jù)挖掘和IED視為同義詞,認(rèn)為它們是一回事,但大多數(shù)人支持?jǐn)?shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)過(guò)程的的一個(gè)基本步驟這樣的說(shuō)法。知識(shí)發(fā)現(xiàn)是將未加工的數(shù)據(jù)轉(zhuǎn)換為有用信息的整個(gè)過(guò)程,它包括一些列的轉(zhuǎn)換步驟,從數(shù)據(jù)的預(yù)處理到數(shù)據(jù)挖掘結(jié)果的后處理。圖2—2給出了知識(shí)發(fā)現(xiàn)的過(guò)程及它與數(shù)據(jù)挖掘的關(guān)系。
在商業(yè)智能系統(tǒng)中談數(shù)據(jù)挖掘,是指在以整理好的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)進(jìn)行的特定業(yè)務(wù)數(shù)據(jù)的挖掘,它注重?cái)?shù)據(jù)挖掘算法的應(yīng)用和挖掘結(jié)構(gòu)的展示。由于是在數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上,還注重算法的效率和掃描數(shù)據(jù)庫(kù)次數(shù)等方面。數(shù)據(jù)挖掘技術(shù)涉及到數(shù)據(jù)庫(kù)技術(shù)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析、可視化、信息科學(xué)等多種技術(shù)。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:詳析商業(yè)智能BI(ERP)及其關(guān)鍵技術(shù)
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/10820610270.html