1 數(shù)據(jù)倉庫(DW)
1.1 數(shù)據(jù)倉庫定義
數(shù)據(jù)倉庫之父Bill Inmon在1991年出版的“Building the Data Warehouse”一書中所提出的定義被廣泛接受:數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策(Decision Making Support)。
對于數(shù)據(jù)倉庫的概念我們可以從兩個層次予以理解,首先,數(shù)據(jù)倉庫用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;其次,數(shù)據(jù)倉庫是對多個異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。
1.2 數(shù)據(jù)倉庫特點
1、面向主題。操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進行組織。主題是一個抽象的概念,是指用戶使用數(shù)據(jù)倉庫進行決策時所關(guān)心的重點方面,一個主題通常與多個操作型信息系統(tǒng)相關(guān)。
2、集成的。面向事務(wù)處理的操作型數(shù)據(jù)庫通常與某些特定的應(yīng)用相關(guān),數(shù)據(jù)庫之間相互獨立,并且往往是異構(gòu)的。而數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個企業(yè)的一致的全局信息。
3、相對穩(wěn)定的。操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實時更新,數(shù)據(jù)根據(jù)需要及時發(fā)生變化。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個數(shù)據(jù)進入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
4、反映歷史變化。操作型數(shù)據(jù)庫主要關(guān)心當(dāng)前某一個時間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時點(如開始應(yīng)用數(shù)據(jù)倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。
企業(yè)數(shù)據(jù)倉庫的建設(shè),是以現(xiàn)有企業(yè)業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為基礎(chǔ)。數(shù)據(jù)倉庫不是靜態(tài)的概念,只有把信息及時交給需要這些信息的使用者,供他們做出改善其業(yè)務(wù)經(jīng)營的決策,信息才能發(fā)揮作用,信息才有意義。而把信息加以整理歸納和重組,并及時提供給相應(yīng)的管理決策人員,是數(shù)據(jù)倉庫的根本任務(wù)。因此,從產(chǎn)業(yè)界的角度看,數(shù)據(jù)倉庫建設(shè)是一個工程,也是一個過程。
1.3 數(shù)據(jù)倉庫體系結(jié)構(gòu):
一般來說,大公司或企業(yè)內(nèi)存在著各種各樣的信息系統(tǒng),這些應(yīng)用驅(qū)動的操作型信息系統(tǒng)為企業(yè)不同的業(yè)務(wù)系統(tǒng)服務(wù),具有不同接口和不同的數(shù)據(jù)表示方法,互相孤立。利用數(shù)據(jù)倉庫技術(shù)可以動態(tài)地將各個異構(gòu)系統(tǒng)中的數(shù)據(jù)抽取集成到一起,進行清洗、轉(zhuǎn)換等處理之后加載到數(shù)據(jù)倉庫中,通過周期性的刷新,為用戶提供一個統(tǒng)一的干凈的數(shù)據(jù)視圖,為數(shù)據(jù)分析提供一個高質(zhì)量的數(shù)據(jù)源。整個數(shù)據(jù)倉庫系統(tǒng)是一個包含四個層次的體系結(jié)構(gòu),具體由圖1表示。
圖1 數(shù)據(jù)倉庫系統(tǒng)架構(gòu)圖
數(shù)據(jù)源:是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),是整個系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包括存放于RDBMS中的各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。外部信息包括各類法律法規(guī)、市場信息和競爭對手的信息等等;
數(shù)據(jù)的存儲與管理:是整個數(shù)據(jù)倉庫系統(tǒng)的核心。數(shù)據(jù)倉庫的真正關(guān)鍵是數(shù)據(jù)的存儲和管理。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫,同時也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。要決定采用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫的核心,則需要從數(shù)據(jù)倉庫的技術(shù)特點著手分析。針對現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進行抽取、清理,并有效集成,按照主題進行組織。數(shù)據(jù)倉庫按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級數(shù)據(jù)倉庫和部門級數(shù)據(jù)倉庫(通常稱為“數(shù)據(jù)集市”)。
OLAP服務(wù)器:對分析需要的數(shù)據(jù)進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。其具體實現(xiàn)可以分為:ROLAP、MOLAP和HOLAP。ROLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在RDBMS之中;MOLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫中;HOLAP基本數(shù)據(jù)存放于RDBMS之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫中。
前端工具:主要包括各種報表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應(yīng)用丌發(fā)工具。其中數(shù)據(jù)分析工具主要針對OLAP服務(wù)器,報表工具、數(shù)據(jù)挖掘工具主要針對數(shù)據(jù)倉庫。
數(shù)據(jù)倉庫不會是一個完善的提供戰(zhàn)略信息的軟件或者硬件產(chǎn)品,而是一個用戶可以從中找到戰(zhàn)略信息的計算環(huán)境。在這個環(huán)境中,用戶可以通過與數(shù)據(jù)的直接接觸來做出更好的決策。它是一個以用戶為中心的環(huán)境。
1.4 數(shù)據(jù)倉庫的功能
一般來說,大公司或企業(yè)內(nèi)存在著各種各樣的信息系統(tǒng),這些應(yīng)用驅(qū)動的操作型信息系統(tǒng)為企業(yè)不同的業(yè)務(wù)系統(tǒng)服務(wù),具有不同接口和不同的數(shù)據(jù)表示方法,互相孤立。利用數(shù)據(jù)倉庫技術(shù)可以動態(tài)地將各個異構(gòu)系統(tǒng)中的數(shù)據(jù)抽取集成到一起,進行清洗、轉(zhuǎn)換等處理之后加載到數(shù)據(jù)倉庫中,通過周期性的刷新,為用戶提供一個統(tǒng)一的干凈的數(shù)據(jù)視圖,為數(shù)據(jù)分析提供一個高質(zhì)量的數(shù)據(jù)源。就其在商業(yè)智能過程中的作用而言,數(shù)據(jù)倉庫具有以下功能:
1、數(shù)據(jù)建模;2、數(shù)據(jù)抽取;3、數(shù)據(jù)轉(zhuǎn)換;4、數(shù)據(jù)裝載;5、數(shù)據(jù)清洗檢驗;6、查詢和報表;7、OLAP;8、內(nèi)部的中間件;9、自身的管理維護。
2 聯(lián)機分析處理(OLAP)
2.1 聯(lián)機分析處理(OLAP)定義
對于數(shù)據(jù)倉庫中的數(shù)據(jù),可以使用一些增強的查詢和報表工具進行復(fù)雜的查詢和即時的報表制作,可以利用OLAP技術(shù)從多種角度對業(yè)務(wù)數(shù)據(jù)進行多方面的匯總統(tǒng)計計算,還可以利用數(shù)據(jù)挖掘技術(shù)自動發(fā)現(xiàn)其中隱含的有用信息。
聯(lián)機分析處理(OLAP)最早由Arbor軟件公司的E.F.Codd于1993年提出,他在《為分析型用戶提供OLAP工具:信息技術(shù)的新需求》首次區(qū)分了面向事務(wù)處理的OLTP系統(tǒng)和面向分析處理的OLAP系統(tǒng),并為OLAP確定了諸如多維概念視圖、透明性、存取能力等12條規(guī)則。這些規(guī)則可概括為業(yè)務(wù)應(yīng)用和技術(shù)應(yīng)用這兩類。其中多維概念視圖,以多角度觀察數(shù)據(jù)的方式方便了業(yè)務(wù)類用戶帶著解決問題的假設(shè)以及自己解決問題的邏輯推理的思維過程,也就是說,OLAP分析提供了用戶在演繹型思考中前提、邏輯兩個步驟中所需的幫助,因此它有助于提高用戶分析結(jié)果的準確性?梢,OLAP分析工具是綜合分析層次的工具之一。
2.2 OLTP和OLAP的比較
當(dāng)今的數(shù)據(jù)處理大致可以分成兩大類:聯(lián)機事務(wù)處理OLTP(on-line transaction processing)、聯(lián)機分析處理OLAP(On-Line Analytical Processing)。OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應(yīng)用,主要是基本的、日常的事務(wù)處理。OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。圖2列出了OLTP與OLAP之間的比較。
圖2 OLTP與OLAP的比較
OLAP是使分析人員、管理人員或執(zhí)行人員能夠從多角度對信息進行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。OLAP的目標是滿足決策支持或者滿足在多維環(huán)境下特定的查詢和報表需求,它的技術(shù)核心是“維”這個概念。
“維”是人們觀察客觀世界的角度,是一種高層次的類型劃分!熬S”一般包含著層次關(guān)系,這種層次關(guān)系有時會相當(dāng)復(fù)雜。通過把一個實體的多項重要的屬性定義為多個維(dimension),使用戶能對不同維上的數(shù)據(jù)進行比較。因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。
OLAP分析中要理解變量、維、維層次、維的取值、維的分類等主要術(shù)語。變量指從現(xiàn)實系統(tǒng)中抽象出來用于描述數(shù)據(jù)的實際含義:維是與某一事件相關(guān)的因素在關(guān)系模型的抽象。如客戶打電話,含客戶、時間、地點、業(yè)務(wù)提供商、業(yè)務(wù)類型等這些與客戶打電話相關(guān)聯(lián)緊密的內(nèi)容;維的層次性是人們觀察數(shù)據(jù)細致程度不同造成的,即數(shù)據(jù)的綜合程度不同導(dǎo)致不同的維層次,如時間維中以年、以月、以日為單位即形成了不同的維層次。它的目的滿足業(yè)務(wù)類用戶思考問題時逐層深入的需求:維的取值,也稱為維的成員;維的分類是對維取值的劃分。目的是為了在不同的類別間進行比較。如銷售可分為暢銷、不暢銷、平銷,移動業(yè)務(wù)類型可以分為通話、短信、游戲等。一個實際的系統(tǒng)中,維分類和維層次常常同時存在。事實是指不同維度在某一取值下的交叉點,它是對事件的度量。例如,××公司電視機4月份銷售800臺。其中800臺是事實。一般來說數(shù)量和金額常作為事實。
2.3 聯(lián)機分析處理(OLAP)的基本多維分析操作
OLAP的一個重要特點是主要通過多維的交互式方式對數(shù)據(jù)進行分析,這與數(shù)據(jù)倉庫的多維數(shù)據(jù)組織正好形成相互結(jié)合、相互補充的關(guān)系。這些基本多維分析操作包括切片(切塊)、鉆取、旋轉(zhuǎn)等,便于用戶從不同維度查詢和分析有關(guān)數(shù)據(jù)。
(1)切片和切塊
通過切片、切塊功能,用戶可以對數(shù)據(jù)進行過濾,專注于某一方面的問題,例如,用戶通過拖拽的方式很容易的得到諸如“××地區(qū)2008年的銷售情況”這樣的數(shù)據(jù)。
(2)鉆取
鉆取包含向下鉆取和向上鉆取操作,鉆取的深度與維所劃分的層次相對應(yīng)。向下鉆取是通過對某一行匯總數(shù)據(jù)進行細分來分析數(shù)據(jù)。例如,用戶分析“各地區(qū)、城市的銷售情況”時,可以對某一個城市的銷售額細分為各個年度的銷售額,對某一年度的銷售額,可以繼續(xù)細分為各個季度的銷售額。通過鉆取的功能,使用戶對數(shù)據(jù)能更深入了解,更容易發(fā)現(xiàn)問題,做出正確的決策。
向上鉆取是指自動生成匯總行的分析方法。通過向?qū)У姆绞,用戶可以定義分析因素的匯總行,例如對于各地區(qū)各年度的銷售情況,可以生成地區(qū)與年度的合計行,也可以生成地區(qū)或者年度的合計行。
(3)旋轉(zhuǎn)
旋轉(zhuǎn),也稱數(shù)據(jù)轉(zhuǎn)軸,就是改變維度的位置關(guān)系,如將行與列互換,或者將某一個行維移動到列維中。為了方便用戶更直觀的查看分析數(shù)據(jù),應(yīng)該支持數(shù)據(jù)的旋轉(zhuǎn)功能,可從不同的視角來查看數(shù)據(jù)。對于一些數(shù)據(jù),通過旋轉(zhuǎn)功能,看起來可以更加直觀,例如時間序列分析中,各地區(qū)各年度的增長量情況,把年份作為旋轉(zhuǎn)維度,則同一地區(qū)不同年度的數(shù)據(jù)以及增長量將在一行顯示,看起來更容易理解。
OLAP分析中的多維分析充分體現(xiàn)為用戶對某一個事實以多種角度展開分析。比如××公司電視機4月份銷售800臺,若以負責(zé)××地區(qū)的銷售經(jīng)理這一業(yè)務(wù)類角色來分析,他可以從時間維(如每日)、地區(qū)維(××地區(qū)的各個區(qū)縣、各個區(qū)縣的各個銷售點)、品牌維(不同品牌、規(guī)格的電視機)、銷售人員維(不同點上的銷售員)等等維度以切片方式分別來分析,也可以綜合起來作切塊比較,也可以通鉆取方式進行深入分析。
目前,常見的OLAP主要有基于多維數(shù)據(jù)庫的MOLAP及基于關(guān)系數(shù)據(jù)庫的ROLAP。在數(shù)據(jù)倉庫應(yīng)用中,聯(lián)機分析處理應(yīng)用一般是數(shù)據(jù)倉庫應(yīng)用的前端工具,同時,聯(lián)機分析處理工具還可以同數(shù)據(jù)挖掘工具、統(tǒng)計分析工具配合使用,增強決策分析功能。
3 數(shù)據(jù)挖掘(DM)
3.1 數(shù)據(jù)挖掘定義
進入二十一世紀以來,隨著科學(xué)技術(shù)飛速的發(fā)展,經(jīng)濟和社會都取得了極大的進步,與此同時,在各個領(lǐng)域產(chǎn)生了大量的數(shù)據(jù),如人類對太空的探索,銀行每天的巨額交易數(shù)掘。顯然在這些數(shù)據(jù)中豐富的信息,如何處理這些數(shù)據(jù)得到有益的信息,人們進行了有益的探索。計算機技術(shù)的迅速發(fā)展使得處理數(shù)據(jù)成為可能,這就推動了數(shù)據(jù)庫技術(shù)的極大發(fā)展,但是面對不斷增加如潮水般的數(shù)據(jù),人們不再滿足于數(shù)據(jù)庫的查詢功能,提出了深層次問題:能不能從數(shù)據(jù)中提取信息或者知識為決策服務(wù)。就數(shù)據(jù)庫技術(shù)而言已經(jīng)顯得無能為力了,同樣,傳統(tǒng)的統(tǒng)計技術(shù)也面臨了極大的挑戰(zhàn)。這就急需有新的方法來處理這些海量般的數(shù)據(jù)。于是,人們結(jié)合統(tǒng)計學(xué)、數(shù)據(jù)庫、機器學(xué)習(xí)等技術(shù),提出數(shù)據(jù)挖掘來解決這一難題。
數(shù)據(jù)挖掘的歷史雖然較短,但從20世紀90年代以來,它的發(fā)展速度很快,加之它是多學(xué)科綜合的產(chǎn)物,目前還沒有一個完整的定義,人們提出了多種數(shù)據(jù)挖掘的定義,例如:SAS研究所(1997):“在大量相關(guān)數(shù)據(jù)基礎(chǔ)之上進行數(shù)據(jù)探索和建立相關(guān)模型的先進方法”。Hand et al(2000):“數(shù)據(jù)挖掘就是在大型數(shù)據(jù)庫中尋找有意義、有價值信息的過程”確切地說,數(shù)據(jù)挖掘(Data Mining),又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),是指從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的、未知的、非平凡的及有潛在應(yīng)用價值的信息或模式,它是數(shù)據(jù)庫研究中的一個很有應(yīng)用價值的新領(lǐng)域,融合了數(shù)據(jù)庫、人工智能、機器學(xué)習(xí)、統(tǒng)計學(xué)等多個領(lǐng)域的理論和技術(shù)。
3.2 數(shù)據(jù)挖掘的主要功能
數(shù)據(jù)挖掘綜合了各個學(xué)科技術(shù),有很多的功能,當(dāng)前的主要功能如下:
1、數(shù)據(jù)總結(jié):繼承于數(shù)據(jù)分析中的統(tǒng)計分析。數(shù)據(jù)總結(jié)目的是對數(shù)據(jù)進行濃縮,給出它的緊湊描述。傳統(tǒng)統(tǒng)計方法如求和值、平均值、方差值等都是有效方法。另外還可以用直方圖、餅狀圖等圖形方式表示這些值。廣義上講,多維分析也可以歸入這一類。
2、分類:目的是構(gòu)造一個分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個。要構(gòu)造分類器,需要有一個訓(xùn)練樣本數(shù)據(jù)集作為輸入。訓(xùn)練集由一組數(shù)據(jù)庫記錄或元組構(gòu)成,每個元組是一個由有關(guān)字段(又稱屬性或特征)值組成的特征向量,此外,訓(xùn)練樣本還有一個類別標記。一個具體樣本的形式可表示為:(v1,v2,...,vn;c),其中vi表示字段值,c表示類別。
例如:銀行部門根據(jù)以前的數(shù)據(jù)將客戶分成了不同的類別,現(xiàn)在就可以根據(jù)這些來區(qū)分新申請貸款的客戶,以采取相應(yīng)的貸款方案。
3、聚類:是把整個數(shù)據(jù)庫分成不同的群組。它的目的是使群與群之間差別很明顯,而同一個群之間的數(shù)據(jù)盡量相似。這種方法通常用于客戶細分。在開始細分之前不知道要把用戶分成幾類,因此通過聚類分析可以找出客戶特性相似的群體,如客戶消費特性相似或年齡特性相似等。在此基礎(chǔ)上可以制定一些針對不同客戶群體的營銷方案。
例如:將申請人分為高度風(fēng)險申請者,中度風(fēng)險申請者,低度風(fēng)險申請者。
4、關(guān)聯(lián)分析:是尋找數(shù)據(jù)庫中值的相關(guān)性。兩種常用的技術(shù)是關(guān)聯(lián)規(guī)則和序列模式。關(guān)聯(lián)規(guī)則是尋找在同一個事件中出現(xiàn)的不同項的相關(guān)性;序列模式與此類似,尋找的是事件之間時間上的相關(guān)性,例如:今天銀行利率的調(diào)整,明天股市的變化。
5、預(yù)測:把握分析對象發(fā)展的規(guī)律,對未來的趨勢做出預(yù)見。例如:對未來經(jīng)濟發(fā)展的判斷。
6、偏差的檢測:對分析對象的少數(shù)的、極端的特例的描述,揭示內(nèi)在的原因。例如:在銀行的100萬筆交易中有500例的欺詐行為,銀行為了穩(wěn)健經(jīng)營,就要發(fā)現(xiàn)這500例的內(nèi)在因素,減小以后經(jīng)營的風(fēng)險。
以上數(shù)據(jù)挖掘的各項功能不是獨立存在的,它們在數(shù)據(jù)挖掘中互相聯(lián)系,發(fā)揮作用。
3.3 數(shù)據(jù)挖掘的方法
作為一門處理數(shù)據(jù)的新興技術(shù),數(shù)據(jù)挖掘有許多的新特征。首先,數(shù)據(jù)挖掘面對的是海量的數(shù)據(jù),這也是數(shù)據(jù)挖掘產(chǎn)生的原因。其次,數(shù)據(jù)可能是不完全的、有噪聲的、隨機的,有復(fù)雜的數(shù)據(jù)結(jié)構(gòu),維數(shù)大。最后,數(shù)據(jù)挖掘是許多學(xué)科的交叉,運用了統(tǒng)計學(xué),計算機,數(shù)學(xué)等學(xué)科的技術(shù)。以下是常見和應(yīng)用最廣泛的算法和模型:
傳統(tǒng)統(tǒng)計方法:①抽樣技術(shù):我們面對的是大量的數(shù)據(jù),對所有的數(shù)據(jù)進行分析是不可能的也是沒有必要的,就要在理論的指導(dǎo)下進行合理的抽樣。②多元統(tǒng)計分析:因子分析,聚類分析等。③統(tǒng)計預(yù)測方法,如回歸分析,時間序列分析等。
可視化技術(shù):用圖表等方式把數(shù)據(jù)特征用直觀地表述出來,如直方圖等,這其中運用的許多描述統(tǒng)計的方法?梢暬夹g(shù)面對的一個難題是高維數(shù)據(jù)的可視化。
決策樹:利用一系列規(guī)則劃分,建立樹狀圖,可用于分類和預(yù)測。常用的算法有CART、CHAID、ID3、C4.5、C5.0等。
神經(jīng)網(wǎng)絡(luò):模擬人的神經(jīng)元功能,經(jīng)過輸入層,隱藏層,輸出層等,對數(shù)據(jù)進行調(diào)整,計算,最后得到結(jié)果,用于分類和回歸。
遺傳算法:基于自然進化理論,模擬基因聯(lián)合、突變、選擇等過程的一種優(yōu)化技術(shù)。
關(guān)聯(lián)規(guī)則挖掘算法:關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)之間存在關(guān)系的規(guī)則,形式為“A1∧A2∧...An→B1∧B2∧...Bn”。一般分為兩個步驟:①求出大數(shù)據(jù)項集。②用大數(shù)據(jù)項集產(chǎn)生關(guān)聯(lián)規(guī)則。
除了上述的常用方法外,還有粗集方法,模糊集合方法,Bayesian Belief Netords,最鄰近算法(k-nearest neighbors method(KNN))等。
3.4 數(shù)據(jù)挖掘的實施流程
前面我們討論了數(shù)據(jù)挖掘的定義,功能和方法,現(xiàn)在關(guān)鍵的問題是如何實施,其一般的數(shù)據(jù)挖掘流程如下:
問題理解和提出→數(shù)據(jù)準備→數(shù)據(jù)整理→建立模型→評價和解釋
問題理解和提出:在開始數(shù)據(jù)挖掘之前最基礎(chǔ)的就是理解數(shù)據(jù)和實際的業(yè)務(wù)問題,在這個基礎(chǔ)之上提出問題,對目標有明確的定義。
數(shù)據(jù)準備:獲取原始的數(shù)據(jù),并從中抽取一定數(shù)量的子集,建立數(shù)據(jù)挖掘庫,其中一個問題是如果企業(yè)原來的數(shù)據(jù)倉庫滿足數(shù)據(jù)挖掘的要求,就可以將數(shù)據(jù)倉庫作為數(shù)據(jù)挖掘庫。
數(shù)據(jù)整理:由于數(shù)據(jù)可能是不完全的、有噪聲的、隨機的,有復(fù)雜的數(shù)掘結(jié)構(gòu),就要對數(shù)據(jù)進行初步的整理,清洗不完全的數(shù)據(jù),做初步的描述分析,選擇與數(shù)據(jù)挖掘有關(guān)的變量,或者轉(zhuǎn)變變量。
建立模型:根據(jù)數(shù)據(jù)挖掘的目標和數(shù)據(jù)的特征,選擇合適的模型。
評價和解釋:對數(shù)據(jù)挖掘的結(jié)果進行評價,選擇最優(yōu)的模型,作出評價,運用于實際問題,并且要和專業(yè)知識結(jié)合對結(jié)果進行解釋。
以上的流程不是一次完成的,可能其中某些步驟或者全部要反復(fù)進行。
3.5 數(shù)據(jù)挖掘的應(yīng)用現(xiàn)狀
數(shù)據(jù)挖掘所要處理的問題,就是在龐大的數(shù)據(jù)庫中找出有價值的隱藏事件,并且加以分析,獲取有意義的信息,歸納出有用的結(jié)構(gòu),作為企業(yè)進行決策的依據(jù)。其應(yīng)用非常廣泛,只要該產(chǎn)業(yè)有分析價值與需求的數(shù)據(jù)庫,皆可利用數(shù)據(jù)挖掘(DM)技術(shù)進行有目的的發(fā)掘分析。常見的應(yīng)用案例多發(fā)生在零售業(yè)、財務(wù)金融保險、制造業(yè)、通訊及醫(yī)療服務(wù)行業(yè):
1、零售商從顧客購買商品中發(fā)現(xiàn)一定的關(guān)系,提供打折購物券等,提高銷售額;
2、保險公司通過數(shù)據(jù)挖掘建立預(yù)測模型,辨別出可能的欺詐行為,避免道德風(fēng)險,減少成本,提高利潤;
3、在制造業(yè)中,半導(dǎo)體的生產(chǎn)和測試中都產(chǎn)生大量的數(shù)據(jù),就必須對這些數(shù)據(jù)進行分析,找出存在的問題,提高質(zhì)量;
4、電子商務(wù)的作用越來越大,可以用數(shù)據(jù)挖掘?qū)W(wǎng)站進行分析,識別用戶的行為模式,保留客戶,提供個性化服務(wù),優(yōu)化網(wǎng)站設(shè)計。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標題:商業(yè)智能(BI)技術(shù)(BI系統(tǒng)數(shù)據(jù)倉庫、OLAP和數(shù)據(jù)挖掘技術(shù))