1 背景
隨著信息技術(shù)的迅猛發(fā)展,人們可以利用計算機方便地獲取和存儲大量的數(shù)據(jù)。但是,僅僅停留在對于已獲得的數(shù)據(jù)進行一些表層的處理(如查詢、統(tǒng)計等)已越來越不能滿足日常工作的需要,因而人們把需要深入挖掘數(shù)據(jù)之間的內(nèi)在關(guān)系和隱含的信息作為下一步的研究目標(biāo)。人們迫切需要一種能夠智能的、自動的將數(shù)據(jù)轉(zhuǎn)換成有用信息和知識的技術(shù)和工具,這種對強有力數(shù)據(jù)分析工具的迫切需求使得數(shù)據(jù)挖掘技術(shù)成為了信息技術(shù)中的一個前沿的焦點。
2 數(shù)據(jù)挖掘的相關(guān)理論
2.1 數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘從大量的,不完整的,有噪聲進行模糊隨機在原始數(shù)據(jù),提取隱瞞,人們事先不知道,而且是潛在有用的,可信的,新穎的信息和知識的過程。數(shù)據(jù)挖掘由三個步驟組成:數(shù)據(jù)預(yù)處理階段、模型設(shè)計階段和數(shù)據(jù)分析階段(見圖1)。
圖1 數(shù)據(jù)挖掘流程
(1)數(shù)據(jù)預(yù)處理階段(Data Preprocessing Phase)中,特定的業(yè)務(wù)問題必須得到明確的定義,否則數(shù)據(jù)挖掘?qū)⒆兊寐䶮o目的。在業(yè)務(wù)問題的域知識基礎(chǔ)上,該階段的任務(wù)包括驗證、選擇和準(zhǔn)備被要求用來論述問題的數(shù)據(jù)。在構(gòu)造良好的數(shù)據(jù)倉庫環(huán)境里,這些步驟相對簡單些,但是仍然會涉及到對采樣和平衡數(shù)據(jù)的考慮。
(2)模型設(shè)計階段(Model Design Phase)需要深入地檢查數(shù)據(jù),并從中選擇那些顯示與問題最有關(guān)系的字段,它也需要選擇一個正確的數(shù)據(jù)挖掘算法以應(yīng)用于數(shù)據(jù)(如:決策樹、規(guī)則歸納)。然后,最小化地細(xì)分?jǐn)?shù)據(jù),一般需要將數(shù)據(jù)分為一個調(diào)整集或者多個測試集。
(3)數(shù)據(jù)分析階段(Data Analysis Phase)典型地包括一個附加的準(zhǔn)備活動(數(shù)據(jù)轉(zhuǎn)換)來重組數(shù)據(jù),以求更好地匹配己選擇的算法和業(yè)務(wù)問題(例如,處理數(shù)據(jù)中缺少的值)。此后將已經(jīng)選擇好的數(shù)據(jù)挖掘工具應(yīng)用于數(shù)據(jù),典型情況下包括創(chuàng)建一個采用數(shù)據(jù)修正集的模型,然后用至少一個測試數(shù)據(jù)的獨立集來證明這個模型。模型的準(zhǔn)確性和有效性需有效地評估。初始的模型將很可能沒法達到數(shù)據(jù)挖掘的目的,許多反復(fù)是有必要的,尤其是在模型設(shè)計和數(shù)據(jù)分析階段中。
2.2 決策樹的概念
決策樹是作為與樣本屬性結(jié)點,用屬性的取值作為分支的樹型結(jié)構(gòu)。它是進行了分析和歸納利用信息理論的原則,分析大規(guī)模的樣本屬性而產(chǎn)生的。決策樹的根節(jié)點是最大的屬性信息的內(nèi)容,在所有樣本。樹的中間節(jié)點是在示例子集的根樹包含的信息內(nèi)容最大的屬性點。決策樹的葉點是樣品類別的價值。決策樹使用新的樣本分類,即通過新的決策樹屬性值測試的樣本,從樹的根節(jié)點開始,根據(jù)樣本屬性值逐漸向下沿決策樹,直到樹的葉子點,這一點表現(xiàn)的類是新的樣本類別。決策樹方法是在數(shù)據(jù)挖掘中非常有效的方法。決策樹是一種知識的一種表現(xiàn)形式,它是所有高采樣數(shù)據(jù)摘要,即決策樹能準(zhǔn)確識別所有的樣本類別,也可以有效識別地新樣本的類別。
決策樹包含許多不同的算法,主要分為3類:
(1)基于統(tǒng)計論的方法,以CART為代表,在這類算法中,對于非終端結(jié)點來說,有兩個分枝。
(2)基于信息論的方法,以D13算法為代表,此類算法中,非終端結(jié)點的分枝數(shù)由樣本類別個數(shù)決定。
(3)以AID,CHAIN為代表的算法,在此類算法中,非終端結(jié)點的分枝數(shù)在兩個到樣本類別個數(shù)范圍內(nèi)分布。
選擇決策樹算法的優(yōu)點有:在學(xué)習(xí)過程中不需要使用者了解很多的背景知識這同時是它的能夠直接體現(xiàn)數(shù)據(jù)的特點,很容易被人理解。速度快。易改造分類規(guī)則。只要沿樹的根葉向下,沿途可以只確定一個分類規(guī)則的裂變條件。更高的精度。同時,它也有許多不足之處,以處理設(shè)置每個算法(離散,樣品),不僅增加了排序算法的開銷,而且降低了大型數(shù)據(jù)分類的準(zhǔn)確性。
2.3 決策樹的主要步驟
決策樹算法構(gòu)造決策樹來發(fā)現(xiàn)數(shù)據(jù)中蘊涵的分類規(guī)則,如何構(gòu)造精度高、規(guī)模小的決策樹是決策樹算法的核心內(nèi)容。決策樹構(gòu)造可以分兩步進行:
第一步,決策樹的生成:由訓(xùn)練樣本集生成決策樹的過程。一般情況下,訓(xùn)練樣本數(shù)據(jù)集是據(jù)實際需要有歷史的、有一定綜合程度的、用于數(shù)據(jù)分析處理的數(shù)據(jù)集;
第二步,決策樹的剪枝:決策樹的剪枝是對上一階段生成的決策樹進行檢驗、校正和修正的過程。主要是用新的樣本數(shù)據(jù)集作為測試數(shù)據(jù)集中的數(shù)據(jù)校驗決策樹生成過程中產(chǎn)生的初步規(guī)則,將那些影響預(yù)測準(zhǔn)確性的分枝剪除。
(1)樹以代表訓(xùn)練樣本的單個結(jié)點開始。
(2)如果樣本都在同一個類,則該結(jié)點成為樹葉,并用該類標(biāo)記。
(3)否則,算法選擇最有分類能力的屬性作為決策樹的當(dāng)前結(jié)點。
(4)根據(jù)當(dāng)前決策結(jié)點屬性取值的不同,將訓(xùn)練樣本數(shù)據(jù)集劃分為若干子集。每個取值形成一個分枝,有幾個取值形成幾個分枝。
(5)針對上一步得到的一個子集,重復(fù)進行先前步驟,階梯形成每個劃分樣本上的決策樹。每當(dāng)某個屬性出現(xiàn)在結(jié)點上的時候,在該結(jié)點上就不需要做后續(xù)考慮了。
(6)階梯劃分步驟僅當(dāng)下列條件之一發(fā)生時停止:
①給定結(jié)點的所有樣本屬于同一類。
②當(dāng)剩余屬性無法可以用做進一步劃分樣本。
此時需要使用多數(shù)表決,把給定的結(jié)點轉(zhuǎn)換成樹葉,并以樣本中元組個數(shù)最多的類別作為類別標(biāo)記,同時也可以存放該結(jié)點樣本的類別分布。
③如果某一分枝test-attribute=a*沒有樣本,則以樣本的多數(shù)類創(chuàng)建一個樹葉。
3 數(shù)據(jù)挖掘技術(shù)在實際中的應(yīng)用——以客戶關(guān)系系統(tǒng)為例
在競爭全球化的環(huán)境下,信息化浪潮推動了動態(tài)聯(lián)盟的生產(chǎn),也同時改變了競爭方式,導(dǎo)致競爭不再是單一企業(yè)的競爭,而是整個供應(yīng)鏈的競爭。這要求傳統(tǒng)管理模式向供應(yīng)鏈管理方式的轉(zhuǎn)變。在連鎖店的各企業(yè)供應(yīng)是一個利益共同體,已經(jīng)當(dāng)通過優(yōu)勝劣汰和協(xié)同效應(yīng)不能生產(chǎn)優(yōu)勢企業(yè)的獨立性,也使得兩家從通過雙方建立合作伙伴關(guān)系提高生產(chǎn)力,節(jié)約資源,以降低成本,獲得效益,同時創(chuàng)造更大的客戶價值。這也決定了客戶關(guān)系是企業(yè)的重要決定,如何進行排序管理、篩選客戶關(guān)系對企業(yè)的健康發(fā)展有重要意義。
3.1 以數(shù)據(jù)挖掘為核心的系統(tǒng)架構(gòu)
數(shù)據(jù)挖掘是一個非常復(fù)雜的過程。每個類型的數(shù)據(jù)挖掘技術(shù)都有自己的特點與實現(xiàn)方法,輸入輸出數(shù)據(jù)的形式要求、結(jié)構(gòu)、參數(shù)設(shè)置、培訓(xùn)、測試和模型評價方法等都有不同要求,分別該算法的應(yīng)用程序域的意義和能力也有差異。數(shù)據(jù)挖掘和具體適用問題密切相關(guān)的,每個數(shù)據(jù)挖掘問題的應(yīng)用程序必須實現(xiàn)的目標(biāo),數(shù)據(jù)收集完整程度,問題領(lǐng)域?qū)<业闹С殖潭,等等算法的選擇沒有任何共同之處。
針對客戶信息進行挖掘,需要建立決策樹,然后對客戶重要性做出判別,最后指導(dǎo)公司決策,F(xiàn)采用以下的流程來建立決策樹的模型,如圖2所示。
圖2 決策樹建模流程圖
3.2 系統(tǒng)數(shù)據(jù)結(jié)構(gòu)的設(shè)計與實現(xiàn)
3.2.1 數(shù)據(jù)的選擇
挖掘后確定的目標(biāo),必須對數(shù)據(jù)挖掘做出準(zhǔn)備。數(shù)據(jù)行為的制備根據(jù)需求的挖掘,收集數(shù)據(jù),并建立了數(shù)據(jù)庫,良好的可發(fā)掘。數(shù)據(jù)占用的制備在整個數(shù)據(jù)挖掘過程中,規(guī)模最大的一次。在選擇數(shù)據(jù)庫從SQL senrer的客戶信息桌前進行數(shù)據(jù)挖掘的對象。在客戶信息表中有大量的客戶信息,選擇部分原始數(shù)據(jù)進行數(shù)據(jù)挖掘?蛻粜畔⒈碇邪膶傩裕绫1所示。
表1 客戶信息屬性表
其中,客戶類別的取值為:{個人,團體};信譽度的取值為:{高,一般};消費水平的取值為:{高,中,低};購買能力的取值為:{強,一般,差};付款方式的取值為:{現(xiàn)金,匯付,本票,支票,其他};付款能力的取值為:{按時,推遲};單位性質(zhì)的取值為:{國有,私營,個體}客戶級別的取值為:{vip,普通,不重要}。
3.2.2 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘過程中是一個重要步驟,尤其是在對包含有噪音,不完全,甚至是不一致的數(shù)據(jù)進行數(shù)據(jù)挖掘,需要對數(shù)據(jù)進行預(yù)處理,提高數(shù)據(jù)挖掘?qū)ο蠛蛿?shù)據(jù)挖掘滿圖案的質(zhì)量。數(shù)據(jù)預(yù)處理技術(shù)的技術(shù)和數(shù)據(jù)轉(zhuǎn)換等,數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)真實出售和購買埃斯蓋特在同一個家庭。預(yù)處理后,可以提高數(shù)據(jù)挖掘算法的精度和有效性,并保存數(shù)據(jù)處理的時間。在客戶關(guān)系管理系統(tǒng)的特點認(rèn)為,現(xiàn)提出以下圖3的數(shù)據(jù)預(yù)處理模型。選取客戶信息表500多個樣本作為研究的對象,并在這些原始的客戶數(shù)據(jù)進行預(yù)處理。
圖3 數(shù)據(jù)預(yù)處理
(1)數(shù)據(jù)轉(zhuǎn)換,我們必須繼續(xù)就不斷離散屬性的處理。這個實驗涉及的不斷屬性——消費水平的項目,經(jīng)過分析,我們將其單獨的變化(0,50萬):低,(50萬,100萬):(100萬):高。違規(guī)約預(yù)處理是過程中的重要步驟,其目的是消除一些挖掘沒有意義的屬性。在多數(shù)情況下,我們選擇挖掘?qū)傩圆缓,對我們的挖掘,在挖掘時,進行幫助,我們要按照不同的數(shù)據(jù)情況,有關(guān)于客戶信息表,例如選擇之前,應(yīng)進行的維吾爾族條款一般以消除領(lǐng)域的第一次和客戶的序列號等,客戶姓名,地址,電話,傳真號碼,請注意,因為這些信息可能沒有到數(shù)據(jù)挖掘的意義。
(2)數(shù)據(jù)清理,在之前的數(shù)據(jù)進行了挖掘,需要進行干凈的第一個數(shù)據(jù)。通過客戶關(guān)系系統(tǒng)的日常運作發(fā)現(xiàn),在數(shù)據(jù)表存在的空缺和數(shù)據(jù)復(fù)制的價值。通常關(guān)于空缺值數(shù)據(jù),它使用的處理方法包括:忽略行、人工填寫空缺值、平均值法等。
3.2.3 數(shù)據(jù)建模
用決策樹流程進行建模,決策樹生成算法描述如下:
對原始數(shù)據(jù)經(jīng)過預(yù)處理,抽取其中部分?jǐn)?shù)據(jù)進行數(shù)據(jù)挖掘,得到條件屬性集合C={信譽度,消費水平,購買能力,購買能力,付款能力,單位性質(zhì),客戶類別},決策屬性集合D={客戶級別}。
經(jīng)過基于信息增益的ID3算法構(gòu)建決策樹,我們得到如圖4的決策樹結(jié)果:
圖4 初步?jīng)Q策樹
3.2.4 數(shù)據(jù)挖掘的實現(xiàn)
在Analysis Senrices中設(shè)置將要訓(xùn)練數(shù)據(jù)的數(shù)據(jù)挖掘模型。然后使用客戶端工具對受訓(xùn)數(shù)據(jù)運行高級分析,創(chuàng)建數(shù)據(jù)挖掘模型的步驟如下:
(1)在“客戶分析”樹窗格中右擊“挖掘模型”文件夾,然后選擇“新建挖掘模型”。
(2)打開挖掘模型向?qū),在“歡迎使用挖掘模型向?qū)А敝,選擇“下一步”。
(3)在“選擇源類型”中,選擇“關(guān)系數(shù)據(jù)”。然后“下一步”。
(4)在“選擇事例表”中,選擇“單個表包含數(shù)據(jù)”,在“可用的表”中選“客戶分析”,然后選擇“下一步”。
(5)在“選擇數(shù)據(jù)挖掘技術(shù)”中選擇“技術(shù)”中的“Micmsoft決策樹”,然后選擇“下一步”。
(6)在“選擇鍵列”中選擇“事例鍵列”中的“ID”,然后選“下一步”。
(7)在“選擇輸入與可預(yù)測列”中選擇“重要性分析”,然后用“>”按鈕移動到“可預(yù)測列”框中。
(8)這些列還將用作輸入列。選擇“單位性質(zhì)”、“購買能力”、“信譽度”、“付款能力”、“付款方式”和“聯(lián)系電話”,并通過“輸入列”列表旁邊的“>”按鈕將其移動到“輸入列”框中。單擊“下一步”按饑。
(9)最后在“模型名稱”框中輸入“重要客戶預(yù)測”。確保選擇了“保存并立即處理”,然后“完成”。
(10)出現(xiàn)“處理”窗口,顯示正在處理的模型。處理完成之后出現(xiàn)一則消息,說明“已成功完成處理”,選擇“關(guān)閉”。
下面使用代碼通過DSO去創(chuàng)建了一個關(guān)系型數(shù)據(jù)挖掘模型。
4 算法評估
本研究采用UCI公共數(shù)據(jù)庫中的3個數(shù)據(jù)庫來進行仿真試驗,并將本研究中提出的決策樹算法得出的結(jié)果和C4.5算法相應(yīng)結(jié)果進行比較。表2為數(shù)據(jù)庫的基本信息:
表2 數(shù)據(jù)庫基本信息
表3 試驗結(jié)果
通過對比發(fā)現(xiàn)決策樹算法明顯減少了建立決策樹所用的屬性個數(shù),決策樹的計算成本正比于建樹所用屬性個數(shù),因此,本文提出的算法明顯減少了計算成本。同時,由于算法復(fù)雜度較小,構(gòu)建決策樹的效率也將有所提高。實驗表明,在建樹規(guī)模相當(dāng)?shù)那闆r下,本決策樹算法的預(yù)測精度比C4.5有所提高。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:基于決策樹的數(shù)據(jù)挖掘算法的應(yīng)用與研究
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/1083934857.html