數(shù)據(jù)倉(cāng)庫(kù)技術(shù)是近年來(lái)出現(xiàn)的、發(fā)展迅速的一種技術(shù), 它通過(guò)把企業(yè)大量的歷史數(shù)據(jù)整理集中到一個(gè)中央倉(cāng)庫(kù)中, 將數(shù)據(jù)加以分析并呈現(xiàn)給用戶來(lái)支持管理者的決策。數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)整合式的、面向主題的、歷史性的以及只讀性的數(shù)據(jù)集合,其主要目的是提供給企業(yè)管理者作為管理決策的參考依據(jù)。數(shù)據(jù)挖掘技術(shù)作為基于機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)等領(lǐng)域而發(fā)展起來(lái)的從數(shù)據(jù)中獲取知識(shí)的技術(shù)也越來(lái)越得到人們的青睞。數(shù)據(jù)倉(cāng)庫(kù)使得人們只花很短的時(shí)間就能夠從大量的歷史數(shù)據(jù)中查詢出所需的數(shù)據(jù), 而數(shù)據(jù)挖掘則可以從這些數(shù)據(jù)中發(fā)現(xiàn)和預(yù)測(cè)出有價(jià)值的信息, 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)使我們從全新的視角認(rèn)識(shí)了數(shù)據(jù)的價(jià)值。然而, 從目前的情況看, 在中國(guó)數(shù)據(jù)倉(cāng)庫(kù)推廣還處于起步階段, 其應(yīng)用所取得的成績(jī)遠(yuǎn)不如商家們“炒作”得那么輝煌, 仍然存在許多不成熟因素, 如計(jì)算機(jī)應(yīng)用水平較低、數(shù)據(jù)保存和管理不完善、人才缺乏、沒(méi)有真正適合行業(yè)特點(diǎn)的應(yīng)用技術(shù)等 。但不管怎么說(shuō), 數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用對(duì)于中國(guó)企業(yè)未來(lái)加入國(guó)際競(jìng)爭(zhēng)有著不可替代的作用。
1 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘
數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的( Sub ject O riented)、集成的( In teg ra te)、相對(duì)穩(wěn)定的( Non-Vo latile) 、反映歷史變化( Time Variant) 的數(shù)據(jù)集合, 用于支持管理決策。對(duì)于數(shù)據(jù)倉(cāng)庫(kù)的概念我們可以從兩個(gè)層次予以理解: ①數(shù)據(jù)倉(cāng)庫(kù)用于支持決策,面向分析型數(shù)據(jù)處理, 它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫(kù); ②數(shù)據(jù)倉(cāng)庫(kù)是對(duì)多個(gè)異構(gòu)數(shù)據(jù)源的有效集成, 集成后按照主題進(jìn)行了重組, 并包含歷史數(shù)據(jù), 而且存放在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)一般不再修改。企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)是以現(xiàn)有企業(yè)業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為基礎(chǔ)。數(shù)據(jù)倉(cāng)庫(kù)不是靜態(tài)的概念, 只有把信息及時(shí)交給需要這些信息的使用者, 供他們作出改善其業(yè)務(wù)經(jīng)營(yíng)的決策, 信息才能發(fā)揮作用, 信息才有意義。而把信息加以整理、歸納和重組, 并及時(shí)提供給相應(yīng)的管理決策人員是數(shù)據(jù)倉(cāng)庫(kù)的根本任務(wù)。
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識(shí)的過(guò)程。原始數(shù)據(jù)可以是結(jié)構(gòu)化的, 如關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù), 也可以是半結(jié)構(gòu)化的, 如文本、圖形、圖像數(shù)據(jù), 甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)學(xué)的, 也可以是非數(shù)學(xué)的; 可以是演繹的, 也可以是歸納的。發(fā)現(xiàn)了的知識(shí)可以被用于信息管理、查詢優(yōu)化、決策支持、過(guò)程控制等, 還可以用于數(shù)據(jù)自身的維護(hù)。因此, 數(shù)據(jù)挖掘是一門廣義的交叉學(xué)科, 它匯聚了不同領(lǐng)域的研究者, 尤其是數(shù)據(jù)庫(kù)、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等方面的學(xué)者和工程技術(shù)人員。
特別要指出的是, 數(shù)據(jù)挖掘技術(shù)從一開(kāi)始就是面向應(yīng)用的。例如加拿大BC 省電話公司要求加拿大Sim on Fraser大學(xué)KDD研究組, 根據(jù)其擁有十多年的客戶數(shù)據(jù), 總結(jié)、分析并提出新的電話收費(fèi)和管理辦法, 制定既有利于公司又有利于客戶的優(yōu)惠政策。這樣一來(lái), 就把人們對(duì)數(shù)據(jù)的應(yīng)用從低層次的末端查詢操作提高到為各級(jí)經(jīng)營(yíng)決策者提供決策支持。
2 構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的基本方法
2.1 數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)
數(shù)據(jù)倉(cāng)庫(kù)從多個(gè)信息源中獲取原始數(shù)據(jù), 經(jīng)過(guò)整理加工后存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)的內(nèi)部數(shù)據(jù)庫(kù)。通過(guò)數(shù)據(jù)倉(cāng)庫(kù)訪問(wèn)工具, 向數(shù)據(jù)倉(cāng)庫(kù)的用戶提供統(tǒng)一、協(xié)調(diào)和集成的信息環(huán)境, 支持企業(yè)全局決策過(guò)程和對(duì)企業(yè)經(jīng)營(yíng)管理的深入綜合分析。整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是一個(gè)包含四個(gè)層次的體系結(jié)構(gòu), 如圖1所示。
(1)數(shù)據(jù)源是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的基礎(chǔ), 是整個(gè)系統(tǒng)的數(shù)據(jù)源泉, 通常包括企業(yè)內(nèi)部信息和外部信息。
(2)數(shù)據(jù)的存儲(chǔ)與管理是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的核心。數(shù)據(jù)倉(cāng)庫(kù)按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)和部門級(jí)數(shù)據(jù)倉(cāng)庫(kù)(通常稱為數(shù)據(jù)集市)。
(3) OLAP( On-L ine Analytical Process ing )服務(wù)器對(duì)分析需要的數(shù)據(jù)進(jìn)行有效集成, 按多維模型予以組織, 以便進(jìn)行多角度、多層次的分析, 并發(fā)現(xiàn)趨勢(shì)。
(4)前端工具主要包括各種報(bào)表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市的應(yīng)用開(kāi)發(fā)工具。
2.2 構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的方法
目前有兩種構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的方法: 自頂向下和自底向上。自頂向下開(kāi)發(fā)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)是從總體上把握整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的規(guī)模、粒度的級(jí)別和元數(shù)據(jù)管理, 是一種系統(tǒng)的解決方法, 并能
夠最大限度地減少集成問(wèn)題。然而, 它費(fèi)用高, 需要長(zhǎng)時(shí)間開(kāi)發(fā), 并且缺乏靈活性, 因?yàn)檎麄(gè)組織的共同數(shù)據(jù)模型達(dá)到一致是很困難的。自底向上設(shè)計(jì)、開(kāi)發(fā)、部署獨(dú)立的數(shù)據(jù)集市提供了靈活性, 花費(fèi)低, 并能夠得到快速的投資回報(bào)。但存在的問(wèn)題是將分散的數(shù)據(jù)集市集成, 形成一個(gè)一致的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)并不容易。構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的流程如下:
(1)啟動(dòng)工程。建立開(kāi)發(fā)數(shù)據(jù)倉(cāng)庫(kù)工程的目標(biāo)及制定工程計(jì)劃, 建立技術(shù)環(huán)境, 選擇實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)的軟硬件資源, 包括開(kāi)發(fā)平臺(tái)、DBMS、開(kāi)發(fā)工具、終端訪問(wèn)工具。
(2)設(shè)計(jì)主題進(jìn)行數(shù)據(jù)建模。根據(jù)決策需要確定主題, 選擇數(shù)據(jù)源, 對(duì)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)進(jìn)行邏輯結(jié)構(gòu)設(shè)計(jì)。
(3)設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)庫(kù);谟脩舻男枨, 著重于某個(gè)主題, 開(kāi)發(fā)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)的物理存儲(chǔ)結(jié)構(gòu), 即設(shè)計(jì)多維數(shù)據(jù)結(jié)構(gòu)的事實(shí)表和維表。
(4)轉(zhuǎn)換程序。實(shí)現(xiàn)從源系統(tǒng)中抽取數(shù)據(jù)、清理數(shù)據(jù)、一致性格式化數(shù)據(jù)、綜合數(shù)據(jù)、裝載數(shù)據(jù)等過(guò)程的設(shè)計(jì)和編碼。
(5)管理元數(shù)據(jù)。定義元數(shù)據(jù), 即表示、定義數(shù)據(jù)的意義及系統(tǒng)各組成部分之間的關(guān)系。元數(shù)據(jù)包括關(guān)鍵字、屬性、數(shù)據(jù)描述、物理數(shù)據(jù)結(jié)構(gòu)、源數(shù)據(jù)結(jié)構(gòu)、映射及轉(zhuǎn)換機(jī)制、綜合算法、代碼、安全要求等。
(6)開(kāi)發(fā)用戶決策的數(shù)據(jù)分析工具。建立結(jié)構(gòu)化的決策支持查詢, 實(shí)現(xiàn)和使用數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)分析工具, 包括優(yōu)化查詢工具、C /S工具、OLAP工具及數(shù)據(jù)挖掘工具等, 通過(guò)分析工具實(shí)現(xiàn)決策支持要求。
(7)管理數(shù)據(jù)倉(cāng)庫(kù)環(huán)境。數(shù)據(jù)倉(cāng)庫(kù)必須像其他系統(tǒng)一樣進(jìn)行管理, 包括質(zhì)量檢測(cè), 管理決策支持工具及應(yīng)用程序, 定期進(jìn)行數(shù)據(jù)更新, 使數(shù)據(jù)倉(cāng)庫(kù)能正常運(yùn)行。
2.3 數(shù)據(jù)模式
最流行的數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)模型是多維數(shù)據(jù)模型, 這種模型可以以星型模式( Star Schema)、雪花模式( Snow flake Schema)或事實(shí)星座模式形式存在。
星型模式是目前普遍使用的實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)結(jié)構(gòu)。它通過(guò)使用一個(gè)包含主題的事實(shí)表和多個(gè)包含事實(shí)的非正規(guī)化描述的維度表來(lái)執(zhí)行典型的決策支持查詢。星型模式是一種關(guān)系型數(shù)據(jù)庫(kù)結(jié)構(gòu), 模式的中間是事實(shí)表, 周圍是維度表, 數(shù)據(jù)在事實(shí)表中維護(hù), 維度數(shù)據(jù)在維度表中維護(hù)。每個(gè)維度表通過(guò)一個(gè)關(guān)鍵字(在某些情況下是主鍵)與事實(shí)表關(guān)聯(lián)。
圖2.星型模式與雪花模式
雪花模式是星型模式的一種擴(kuò)展模式。從圖2可以看出,它與星型模式的不同在于維度表。在雪花模式中, 維度表被分解成與事實(shí)表直接關(guān)聯(lián)的主維度表和與主維度表關(guān)聯(lián)的次維度表, 次維度表與事實(shí)表間接關(guān)聯(lián)。這種模式用大量的冗余維度數(shù)據(jù)進(jìn)行設(shè)計(jì), 通過(guò)減少讀磁盤的數(shù)量來(lái)提高查詢性能。
3 數(shù)據(jù)挖掘?qū)嵗?/span>
數(shù)據(jù)挖掘客戶端工具采用Visual Basic 6. 0, 后臺(tái)數(shù)據(jù)庫(kù)是MS SQL Server, 利用SQL Server中的Analysis Services進(jìn)行數(shù)據(jù)挖掘。本實(shí)例根據(jù)電信手機(jī)銷售記錄中的顧客信息, 利用決策樹(shù)算法建立模型對(duì)顧客的信譽(yù)度進(jìn)行分類, 這樣可以對(duì)新顧客的信譽(yù)度進(jìn)行預(yù)測(cè), 在以后的繳費(fèi)等服務(wù)中就可以根據(jù)顧客的信譽(yù)度提供相關(guān)的支持。實(shí)例使用了銷售表、顧客表、手機(jī)信息表、時(shí)間表、員工信息表、服務(wù)信息表等, 數(shù)據(jù)模式為星型模式。建立多維數(shù)據(jù)集Sales, 選擇銷售表為事實(shí)表, 建立時(shí)間、產(chǎn)品、顧客維度, 并為顧客維度設(shè)置成員屬性, 如圖3所示。
系統(tǒng)實(shí)現(xiàn)過(guò)程如下:
首先從包含數(shù)據(jù)源的業(yè)務(wù)數(shù)據(jù)中進(jìn)行數(shù)據(jù)抽取, 對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)一致性的協(xié)調(diào)、格式化處理及必要的轉(zhuǎn)換, 然后將數(shù)據(jù)加載進(jìn)數(shù)據(jù)倉(cāng)庫(kù)。在ODBC 數(shù)據(jù)源管理器中設(shè)置和源數(shù)據(jù)的連接, 連接數(shù)據(jù)源命名為phone。在Ana lysisM anage r中新建數(shù)據(jù)庫(kù), 取名為手機(jī), 右擊“手機(jī)數(shù)據(jù)庫(kù)”選擇新數(shù)據(jù)源為其建立連接, 選擇“phone”。
在OLAP挖掘模型編輯器中, 可以使用編輯器編輯模型屬性或者瀏覽其結(jié)果。決策樹(shù)顯示于右窗格中, 其中包括四個(gè)窗格。中間的“ 內(nèi)容詳情”窗格顯示焦點(diǎn)所在的)決策樹(shù)部分;“內(nèi)容選擇區(qū)”窗格顯示樹(shù)的完整視圖, 該窗格可以將焦點(diǎn)設(shè)置到樹(shù)的其他部分; 其他的兩個(gè)窗格分別是“特性”窗格(特性信息可以用“合計(jì)”選項(xiàng)卡以數(shù)值方式查看或者用“直方圖”選項(xiàng)卡以圖形方式查看) 和與焦點(diǎn)所在節(jié)點(diǎn)相關(guān)聯(lián)的“節(jié)點(diǎn)路徑”區(qū)域。
樹(shù)的級(jí)別由顧客的收入決定, 根據(jù)決策樹(shù)算法的特點(diǎn)可知, 顧客收入是決定其信譽(yù)度的最重要屬性。顏色代表“事例”的密度, 顏色越深的節(jié)點(diǎn)中包含的事例就越多。由特性窗體的記錄可以看出信譽(yù)度“一般”與“好”的事例數(shù)及其可能性。在右下角的“ 樹(shù)顏色基于”字段中選擇“ 好”, 該樹(shù)將顯示另一種顏色模式。可以看出顧客收入大于1 500 元的節(jié)點(diǎn)的密度遠(yuǎn)遠(yuǎn)高于0 ~ 1 500 元的節(jié)點(diǎn)?梢(jiàn)在信譽(yù)度好的事例中, 收入大于1 500元的顧客遠(yuǎn)多于0~ 1 500元的。
4 結(jié)束語(yǔ)
目前, 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘已成為一個(gè)炙手可熱的行業(yè)。僅在美國(guó)就有數(shù)百家公司從事數(shù)據(jù)挖掘相關(guān)產(chǎn)品的研發(fā); 在歐美數(shù)據(jù)挖掘技術(shù)已廣泛用在銀行、金融服務(wù)、電信和零售批發(fā)部門; 但從目前國(guó)內(nèi)情況看, 數(shù)據(jù)倉(cāng)庫(kù)推廣還處于起步階段, 其應(yīng)用仍然存在許多不成熟因素。由于數(shù)據(jù)挖掘是一種具有廣泛應(yīng)用的多學(xué)科交叉技術(shù), 數(shù)據(jù)挖掘的一般性原理與針對(duì)特定領(lǐng)域需要的有效數(shù)據(jù)挖掘工具之間還存在不小的距離, 給數(shù)據(jù)挖掘提出了許多挑戰(zhàn)性的課題, 如生物、醫(yī)學(xué)等特定應(yīng)用領(lǐng)域的探索;W eb挖掘?qū)⒊蔀閿?shù)據(jù)挖掘中一個(gè)最為重要和繁榮的子領(lǐng)域; 可伸縮的數(shù)據(jù)挖掘方法; 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)和W eb 數(shù)據(jù)庫(kù)系統(tǒng)的集成; 數(shù)據(jù)挖掘語(yǔ)言的標(biāo)準(zhǔn)化; 可視化數(shù)據(jù)挖掘; 數(shù)據(jù)挖掘中的隱私保護(hù)與信息安全等, 都是值得我們進(jìn)一步研究的課題。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/10819916312.html