1. 引言
隨著管理信息系統(tǒng)的廣泛應(yīng)用和逐趨完善, 相應(yīng)的信息數(shù)據(jù)量也得到了快速增長, 人們所擁有的數(shù)據(jù)已經(jīng)達(dá)到了極大的豐富。同時, 隨著數(shù)據(jù)庫技術(shù)應(yīng)用的發(fā)展, 用戶對于數(shù)據(jù)的應(yīng)用提出了更高的要求, 用戶己不僅僅滿足于對事務(wù)處理的電子化與自動化, 還希望能夠更多的對于數(shù)據(jù)進(jìn)行分析、統(tǒng)計、趨勢預(yù)測, 從而對于管理決策提供支持。由此, 數(shù)據(jù)倉庫及相關(guān)技術(shù)應(yīng)運而生。
2. 相關(guān)概念
2.1 數(shù)據(jù)倉庫(Data Warehouse,DW)
W.H.Inmon 在他所著的《Building the Data Warehouse》一書中, 他給數(shù)據(jù)倉庫作出的定義是: 數(shù)據(jù)倉庫就是面向主題的、集成的、不可更新的、不同時間的數(shù)據(jù)集合, 用以支持經(jīng)營管理中的決策制訂過程。數(shù)據(jù)倉庫的構(gòu)建是一個處理過程, 該過程從歷史的角度組織和存儲數(shù)據(jù), 并能集成地進(jìn)行數(shù)據(jù)分析。
數(shù)據(jù)倉庫系統(tǒng)由數(shù)據(jù)倉庫、數(shù)據(jù)倉庫管理系統(tǒng)、數(shù)據(jù)倉庫工具三個部分組成。在整個系統(tǒng)中, DW居于核心地位, 是信息挖掘的基礎(chǔ);數(shù)據(jù)倉庫管理系統(tǒng)負(fù)責(zé)管理整個系統(tǒng)的運作;數(shù)據(jù)倉庫工具則是整個系統(tǒng)發(fā)揮作用的關(guān)鍵, 包含用于完成實際決策問題所需的各種查詢檢索工具、多維數(shù)據(jù)的OLAP 分析工具、數(shù)據(jù)挖掘DM工具等, 以實現(xiàn)決策支持的各種要求。
2.2 聯(lián)機(jī)分析處理(Online Analytical Processing,OLAP)
OLAP 是一種重要的數(shù)據(jù)分析工具。OLAP 的概念最早是由關(guān)系數(shù)據(jù)庫之父E.F. Codd 于1993 年提出的, 他認(rèn)為聯(lián)機(jī)事務(wù)處理OLTP(Online Transactional Processing) 己不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要, 因此他提出了多維數(shù)據(jù)庫和多維分析的概念, 即OLAP 的概念[2]。OLAP 是針對多維數(shù)據(jù)集的數(shù)據(jù)處理過程, 它使分析人員、管理人員或執(zhí)行人員能夠從多種角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的, 能夠真正為用戶所理解的并真實反映企業(yè)維持性的信息進(jìn)行快速、一致、交互地存取, 從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù), 其目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報表需求。
2.3 數(shù)據(jù)挖掘(Data Mining,DM)
1995 年, 在美國計算機(jī)年會(ACM) 上, 提出了數(shù)據(jù)挖掘的概念。從商業(yè)角度看, 數(shù)據(jù)挖掘技術(shù)是一種新的商業(yè)信息處理技術(shù), 它把人們對數(shù)據(jù)的應(yīng)用從低層次的聯(lián)機(jī)查詢操作, 提高到?jīng)Q策支持; 從技術(shù)角度看, 數(shù)據(jù)挖掘就是從真實的、大量的、不完全的、有噪聲的、模糊的和隨機(jī)應(yīng)用的數(shù)據(jù)中, 提取隱含在其中的、人們事先不知道的、但卻是潛在有用的信息和知識的一個過程。
3. 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘、OLAP 之間的關(guān)系
3.1 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘之間的關(guān)系
數(shù)據(jù)倉庫和數(shù)據(jù)挖掘都是從20 世紀(jì)90 年代中期發(fā)展起來的新技術(shù), 數(shù)據(jù)倉庫由數(shù)據(jù)庫演變而來, 而數(shù)據(jù)挖掘則是從人工智能的機(jī)器學(xué)習(xí)演變而來, 是一種知識發(fā)現(xiàn)技術(shù), 它負(fù)責(zé)從豐富的數(shù)據(jù)中發(fā)現(xiàn)有價值的模型。二者的關(guān)系總結(jié)為:
1、數(shù)據(jù)倉庫系統(tǒng)的數(shù)據(jù)可以作為數(shù)據(jù)挖掘的數(shù)據(jù)源因為數(shù)據(jù)倉庫系統(tǒng)已經(jīng)按照主題將數(shù)據(jù)進(jìn)行了集成、清理、轉(zhuǎn)換, 因此數(shù)據(jù)倉庫系統(tǒng)能夠滿足數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)環(huán)境的要求, 可以直接作為數(shù)據(jù)挖掘的數(shù)據(jù)源。如果將數(shù)據(jù)倉庫和數(shù)據(jù)挖掘緊密聯(lián)系在一起, 將獲得更好的結(jié)果, 同時能大大提高數(shù)據(jù)挖掘的工作效率。
2、數(shù)據(jù)挖掘的數(shù)據(jù)源不一定必須是數(shù)據(jù)倉庫系統(tǒng)作為數(shù)據(jù)挖掘的數(shù)據(jù)源不一定必須是數(shù)據(jù)倉庫。它可以是任何數(shù)據(jù)文件或格式, 但必須事先進(jìn)行數(shù)據(jù)預(yù)處理, 處理成適合數(shù)據(jù)挖掘的數(shù)據(jù)。數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘的關(guān)鍵步驟, 并占有數(shù)據(jù)挖掘全過程工作量的很大比重。
雖然數(shù)據(jù)倉庫和數(shù)據(jù)挖掘是兩項不同的技術(shù), 但是它們又有共同之處, 兩者都是從數(shù)據(jù)庫的基礎(chǔ)上發(fā)展起來的, 它們都是決策支持新技術(shù)。數(shù)據(jù)倉庫利用綜合數(shù)據(jù)得到宏觀信息, 利用歷史數(shù)據(jù)進(jìn)行預(yù)測; 而數(shù)據(jù)挖掘是從數(shù)據(jù)庫中挖掘知識, 也用于決策分析。雖然數(shù)據(jù)倉庫和數(shù)據(jù)挖掘支持決策分析的方式不同, 但是它們可以結(jié)合起來, 提高決策分析的能力。
3.2 數(shù)據(jù)倉庫與OLAP 的關(guān)系
建立數(shù)據(jù)倉庫的目的是為了支持管理中的決策制定過程,OLAP 作為一種多維查詢和分析工具, 是數(shù)據(jù)倉庫功能的自然擴(kuò)展, 也是數(shù)據(jù)倉庫中的大容量數(shù)據(jù)得以有效利用的重要保障。
在數(shù)據(jù)倉庫中, OLAP 和數(shù)據(jù)倉庫是密不可分的, 但是兩者具有不同的概念。數(shù)據(jù)倉庫是一個包含企業(yè)歷史數(shù)據(jù)的大規(guī)模數(shù)據(jù)庫, 這些歷史數(shù)據(jù)主要用于對企業(yè)的經(jīng)營決策提供分析和
支持。而OLAP 技術(shù)則利用數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行聯(lián)機(jī)分析,OLAP 利用多維數(shù)據(jù)集和數(shù)據(jù)聚集技術(shù)對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行組織和匯總, 用聯(lián)機(jī)分析和可視化工具對這些數(shù)據(jù)迅速進(jìn)行評價, 將復(fù)雜的分析查詢結(jié)果快速地返回用戶。
隨著數(shù)據(jù)倉庫的發(fā)展, OLAP 也得到了迅猛的發(fā)展。數(shù)據(jù)倉庫側(cè)重于存儲和管理面向決策主題的數(shù)據(jù), 而OLAP 的一個主要特點是多維數(shù)據(jù)分析, 這與數(shù)據(jù)倉庫的多維數(shù)據(jù)組織正好形成相互結(jié)合、相互補充的關(guān)系。因此, OLAP 技術(shù)與數(shù)據(jù)倉庫的結(jié)合可以較好地解決傳統(tǒng)決策支持系統(tǒng)既需要處理大量數(shù)據(jù)又需要進(jìn)行大量數(shù)值計算的問題, 進(jìn)而滿足決策支持或多維環(huán)境特定的查詢和報表需求。
3.3 數(shù)據(jù)挖掘與OLAP 的關(guān)系
數(shù)據(jù)挖掘與OLAP 都是數(shù)據(jù)庫( 數(shù)據(jù)倉庫) 的分析工具, 但兩者之間有著明顯的區(qū)別。前者是挖掘型的, 后者是驗證型的。前者建立在各種數(shù)據(jù)源的基礎(chǔ)上, 重在發(fā)現(xiàn)隱藏在數(shù)據(jù)深層次的對人們有用的模式并做出有效的預(yù)測性分析, 一般并不過多考慮執(zhí)行效率和響應(yīng)速度[4]; 后者建立在多維視圖的基礎(chǔ)之上,強(qiáng)調(diào)執(zhí)行效率和對用戶命令的及時響應(yīng), 而且其直接數(shù)據(jù)源一般是數(shù)據(jù)倉庫。
數(shù)據(jù)挖掘能自動地發(fā)現(xiàn)隱藏在大量數(shù)據(jù)中的隱含模式, 它與其他分析型工具最大的不同在于它的分析過程是自動的。一個成熟的數(shù)據(jù)挖掘系統(tǒng)除了具有良好的核心的技術(shù)外, 還應(yīng)該
具有開放性的結(jié)構(gòu), 友好的用戶接口。數(shù)據(jù)挖掘的用戶不必提出確切的問題, 而只需挖掘工具去挖掘隱藏的模式并預(yù)測未來的趨勢, 這樣更有利于發(fā)現(xiàn)未知的事實。
OLAP 是一種自上而下、不斷深入的分析工具, 由用戶提出問題或假設(shè), OLAP 負(fù)責(zé)從上至下深入地提取出關(guān)于該問題的詳細(xì)信息, 并以可視化的方式呈現(xiàn)給用戶。與數(shù)據(jù)挖掘相比, OLAP 更多地依靠用戶輸入問題和假設(shè), 但用戶先入為主的局限性可能會限制問題和假設(shè)的范圍, 從而影響最終的結(jié)論。因此, 作為驗證型分析工具, OLAP 更需要對用戶需求有全面而深入的了解。
顯然, 從對數(shù)據(jù)分析的深度來看, OLAP 位于較淺的層次,而數(shù)據(jù)挖掘所處的位置則較深, 數(shù)據(jù)挖掘可以發(fā)現(xiàn)OLAP 所不能發(fā)現(xiàn)的更為復(fù)雜而細(xì)致的信息。盡管數(shù)據(jù)挖掘與OLAP 存在著上面的差異, 但作為數(shù)據(jù)倉庫系統(tǒng)的工具層的組成部分, 兩者是相輔相成的。
4. 結(jié)束語
數(shù)據(jù)倉庫和數(shù)據(jù)挖掘、OLAP 雖然是三種不同的信息技術(shù),但其目標(biāo)卻都是輔助決策, 所以它們之間又存在著千絲萬縷的聯(lián)系。數(shù)據(jù)倉庫擁有豐富的數(shù)據(jù), 但只有通過OLAP 和數(shù)據(jù)挖掘才能使數(shù)據(jù)變成有價值的信息, 才能體現(xiàn)出數(shù)據(jù)倉庫的輔助決策功能, 否則永遠(yuǎn)都是數(shù)據(jù)豐富、信息匱乏; 反之, 盡管OLAP 和數(shù)據(jù)挖掘并不一定要建立在數(shù)據(jù)倉庫的基礎(chǔ)之上, 但數(shù)據(jù)倉庫卻能提高兩者的工作效率, 讓兩者有更大的發(fā)展空間。
同為數(shù)據(jù)分析工具的數(shù)據(jù)挖掘與OLAP, 隨著OLAP 的發(fā)展, 兩者的界限正在逐漸模糊, 因為越來越多的OLAP 廠商將數(shù)據(jù)挖掘的方法融入他們的產(chǎn)品中, 這可能是OLAP 產(chǎn)品的一個發(fā)展方向。在整個決策分析系統(tǒng)中, OLAP 與數(shù)據(jù)挖掘以及其他分析工具由于內(nèi)在技術(shù)以及適用范圍的不同, 必須協(xié)調(diào)使用才能發(fā)揮最佳的作用。OLAP 與數(shù)據(jù)挖掘各有所長, 如果能將二者結(jié)合起來, 發(fā)展一個建立在OLAP 和數(shù)據(jù)挖掘基礎(chǔ)上的新的挖掘技術(shù), 將更能適應(yīng)實際的需要。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:數(shù)據(jù)倉庫、數(shù)據(jù)挖掘及OLAP 之兩兩關(guān)系
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/10820616298.html