1.引言
商業(yè)智能(Business Intelligence,BI)的概念最早于1996年由加特納集團(Gartner Group)提出,并對商業(yè)智能做如下的定義:商業(yè)智能描述了一系列的概念和方法,輔助商業(yè)決策的制定是通過基于事實的支持系統(tǒng)所提供的,商業(yè)智能技術(shù)為企業(yè)迅速分析數(shù)據(jù)提供技術(shù)和方法,包括收集、管理和分析數(shù)據(jù),并將這些數(shù)據(jù)轉(zhuǎn)化為有用的信息,然后分發(fā)到企業(yè)各處。
2.商業(yè)智能(B1)系統(tǒng)中數(shù)據(jù)的理解與處理
2.1 數(shù)據(jù)抽取(ETL)技術(shù)
商業(yè)智能可以看成是一種解決方案。關(guān)鍵在于從許多來自不同的企業(yè)運作系統(tǒng)的數(shù)據(jù)中提取出有用的數(shù)據(jù)并進行清理,以保證數(shù)據(jù)的正確性,然后經(jīng)過抽取(Extraction)、轉(zhuǎn)換(Transformation)和裝載(LOAd),即ETL過程,合并到一個企業(yè)級的數(shù)據(jù)倉庫里,從而得到企業(yè)數(shù)據(jù)的一個全局視圖,在此基礎(chǔ)上利用合適的查詢和分析工具、數(shù)據(jù)挖掘工具、OLAP工具等對其進行分析和處理,最后將知識呈現(xiàn)給管理者,為管理者的決策過程提供支持。從BI的技術(shù)框架圖中,可以看出整個BI系統(tǒng)中,涉及數(shù)據(jù)處理的關(guān)鍵是數(shù)據(jù)源到數(shù)據(jù)倉庫中的ETL部分,ETL過程的成功與否決定了數(shù)據(jù)倉庫數(shù)據(jù)的正確性和可用性。
數(shù)據(jù)抽取(ETL,data extraction,transformation and loading),是對數(shù)據(jù)進行抽取、清洗、轉(zhuǎn)換和整合的過程,是數(shù)據(jù)進入數(shù)據(jù)倉庫的入口。通過ETL的過程,數(shù)據(jù)從聯(lián)機事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機的數(shù)據(jù)存儲介質(zhì)中導(dǎo)入到數(shù)據(jù)倉庫。
在數(shù)據(jù)抽取階段以下幾點值得注意:
2.1.1 數(shù)據(jù)的有效性檢查
為避免數(shù)據(jù)冗余,要認識到數(shù)據(jù)裝入數(shù)據(jù)倉庫之前,應(yīng)該對數(shù)據(jù)進行有效性檢查,這是很重要的。如果沒有進行數(shù)據(jù)的有效性檢查,就有可能破壞依賴于數(shù)據(jù)倉庫的商務(wù)分析的完整性,幫助檢查數(shù)據(jù)的有效性的最好方法是源系統(tǒng)專家。源系統(tǒng)專家包括具有技術(shù)專業(yè)知識和非技術(shù)知識的人士。
2.1.2 數(shù)據(jù)的清洗和轉(zhuǎn)換
由于數(shù)據(jù)抽取中的數(shù)據(jù)是來源于業(yè)務(wù)系統(tǒng)中的業(yè)務(wù)數(shù)據(jù),難免會存在各種原因所導(dǎo)致的臟數(shù)據(jù),例如數(shù)據(jù)不在給定的界限之內(nèi)或?qū)τ趯嶋H業(yè)務(wù)來說毫無意義的數(shù)據(jù)。這些數(shù)據(jù)就是數(shù)據(jù)清洗的對象。清除數(shù)據(jù)包括對那些在給定范圍之外的數(shù)據(jù)采取糾正和舍去等措施。
同樣,由于數(shù)據(jù)倉庫中的數(shù)據(jù)來自于多種業(yè)務(wù)數(shù)據(jù)源,這些數(shù)據(jù)源可能是在不同的硬件平臺上,使用不同的操作系統(tǒng)的,又或者是屬于不同的業(yè)務(wù)系統(tǒng)。因而這些數(shù)據(jù)的存儲格式各不相同,或者相同的數(shù)據(jù)具有不同業(yè)務(wù)含義。而數(shù)據(jù)的轉(zhuǎn)換正是為了解決這一問題而必須進行的數(shù)據(jù)抽取步驟。
2.1.3 數(shù)據(jù)的聚合與分割
由于數(shù)據(jù)倉庫中數(shù)據(jù)的來源是不同的業(yè)務(wù)系統(tǒng)數(shù)據(jù),而各個系統(tǒng)對數(shù)據(jù)存儲的粒度(粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細化或綜合程度的級別)各不相同。而數(shù)據(jù)倉庫中同一分析主題中數(shù)據(jù)的粒度必須是統(tǒng)一的,所以,為了保證數(shù)據(jù)粒度的一致性,必須對原有數(shù)據(jù)進行聚合(匯總)或分割(細化)。
2.1.4 數(shù)據(jù)安全性
數(shù)據(jù)的抽取必非一個完全的技術(shù)問題,往往牽涉整個企業(yè)中各個不同部門中數(shù)據(jù)的共享。那么數(shù)據(jù)共享中的權(quán)限等安全問題也就是數(shù)據(jù)抽取中必須要認真對待的問題。如何保證數(shù)據(jù)抽取中和數(shù)據(jù)集中后的限制與共享往往需要業(yè)務(wù)人員的配合和介入,不能將該問題當(dāng)作單純的技術(shù)問題來對待,而必須進行周密的考慮和計劃。
2.2 ETL轉(zhuǎn)換過程中的數(shù)據(jù)處理
ETL過程最復(fù)雜的部分就是T,這個轉(zhuǎn)換過程從對數(shù)據(jù)源的整個宏觀處理可分:
2.2.1 大表和小表關(guān)聯(lián)
這種處理在數(shù)據(jù)清洗過程是很常見的,例如從數(shù)據(jù)源到ODS階段,如果數(shù)據(jù)倉庫采用維度建模,而且維度基本采用代理鍵的話,必然存在代碼到此鍵值的轉(zhuǎn)換。如果用SQL實現(xiàn),必然需要將一個大表和一堆小表都Join起來,當(dāng)然如果使用ETL工具的話,一般都是先將小表讀入內(nèi)存中再處理。這種情況,輸出數(shù)據(jù)的粒度和大表一樣。
2.2.2 大表和大表關(guān)聯(lián)
大表之間的關(guān)聯(lián)存在最大的問題就是性能和穩(wěn)定性,對于海量數(shù)據(jù)來說,必須有優(yōu)化的方法來處理他們的關(guān)聯(lián),另外,對于大數(shù)據(jù)的處理無疑會占用太多的系統(tǒng)資源,出錯的幾率非常大,如何做到有效錯誤恢復(fù)也是個問題。對于這種情況,盡量將大表拆分成適度的稍小一點的表,形成大小交的類型。這類情況的輸出數(shù)據(jù)粒度和主表一樣。
2.2.3 聚集
數(shù)據(jù)倉庫中重要的任務(wù)就是沉淀數(shù)據(jù),聚集是必不可少的操作,它是粗化數(shù)據(jù)粒度的過程。聚集本身其實很簡單,就是類似SQL中Group by的操作,選取特定字段(維度),對度量字段再使用某種聚集函數(shù)。但是對于大數(shù)據(jù)量情況下,聚集算法的優(yōu)化仍是探究的一個課題。
3.結(jié)語
數(shù)據(jù)抽取(ETL)技術(shù)是商業(yè)智能的四大關(guān)鍵技術(shù)之一,ETL技術(shù)是商業(yè)智能得以實施的一個基礎(chǔ)性的技術(shù),它與元數(shù)據(jù)管理相結(jié)合,提供對不同數(shù)據(jù)源的數(shù)據(jù)進行抽取,轉(zhuǎn)換,清洗,加載的功能,集成和凈化來自于多個不同系統(tǒng)的數(shù)據(jù),然后將之載入物理數(shù)據(jù)庫中。限于多方面的原因,本文在數(shù)據(jù)的理解與處理方面未能詳盡的說明,希望能和同行一起共同探討。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:談商業(yè)智能(BI)系統(tǒng)中數(shù)據(jù)的理解與處理
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/1082064826.html