| 當(dāng)前位置：拓步ERP資訊網(wǎng) >>管理咨詢 >>CIO技術(shù)專欄 >>CIO企業(yè)應(yīng)用

www.ezxoed.cn拓步ERP|ERP系統(tǒng)|ERP軟件|ERP管理系統(tǒng)軟件|免費(fèi)ERP系統(tǒng)|免費(fèi)ERP軟件|免費(fèi)進(jìn)銷存軟件|免費(fèi)倉庫管理軟件|免費(fèi)下載專業(yè)資訊網(wǎng)-構(gòu)建一個(gè)有指導(dǎo)的數(shù)據(jù)挖掘模型

構(gòu)建一個(gè)有指導(dǎo)的數(shù)據(jù)挖掘模型

發(fā)布日期：2014-10-10 10:14:28 來源：www.ezxoed.cn 編輯：拓步ERP資訊網(wǎng) 瀏覽：評論

摘要：什么是有指導(dǎo)的數(shù)據(jù)挖掘方法模型，以及數(shù)據(jù)挖掘如何構(gòu)建模型。在構(gòu)建一個(gè)有指導(dǎo)的數(shù)據(jù)挖掘模型，首先要理解和定義一些模型試圖估計(jì)的目標(biāo)變量。 原標(biāo)題：構(gòu)建一個(gè)有指導(dǎo)的數(shù)據(jù)挖掘模型 原作者：發(fā)表時(shí)間：2014/10/10 dufman 來源：CSDN

　　數(shù)據(jù)挖掘的目的，就是從數(shù)據(jù)中找到更多的優(yōu)質(zhì)用戶。什么是有指導(dǎo)的數(shù)據(jù)挖掘方法模型，以及數(shù)據(jù)挖掘如何構(gòu)建模型。在構(gòu)建一個(gè)有指導(dǎo)的數(shù)據(jù)挖掘模型，首先要理解和定義一些模型試圖估計(jì)的目標(biāo)變量。一個(gè)典型的案例，二元響應(yīng)模型，如為直接郵寄和電子郵件營銷活動選擇客戶的模型。模型的構(gòu)建選擇歷史客戶數(shù)據(jù)，這些客戶響應(yīng)了以前類似的活動。有指導(dǎo)數(shù)據(jù)挖掘的目的就是找到更多類似的客戶，以提高未來活動的響應(yīng)。

　　這構(gòu)造有指導(dǎo)的數(shù)據(jù)挖掘模型的過程中，首先要定義模型的結(jié)構(gòu)和目標(biāo)。二、增加響應(yīng)建模。三、考慮模型的穩(wěn)定性。四、通過預(yù)測模型、剖析模型來討論模型的穩(wěn)定性。下面我們將從具體的步驟談起，如何構(gòu)造一個(gè)有指導(dǎo)的數(shù)據(jù)挖掘模型。

　　有指導(dǎo)數(shù)據(jù)挖掘方法：

　　把業(yè)務(wù)問題轉(zhuǎn)換為數(shù)據(jù)挖掘問題

　　選擇合適的數(shù)據(jù)

　　認(rèn)識數(shù)據(jù)

　　創(chuàng)建一個(gè)模型集

　　修復(fù)問題數(shù)據(jù)

　　轉(zhuǎn)換數(shù)據(jù)以揭示信息

　　構(gòu)建模型

　　評估模型

　　部署模型

　　評估結(jié)果

　　重新開始

數(shù)據(jù)挖掘模型

　　步驟：

　　1、把業(yè)務(wù)問題轉(zhuǎn)換為數(shù)據(jù)挖掘問題

　　《愛麗絲夢游仙境》中，愛麗絲說“我不關(guān)心去哪兒”。貓說：“那么，你走哪條路都沒什么問題”。愛麗絲又補(bǔ)充到：只要我能到達(dá)某個(gè)地方。貓：“哦，你一定能做到這一點(diǎn)，只要你能走足夠長的時(shí)間。”

　　貓可能有另外一個(gè)意思，如果沒有確定的目的地，就不能確定你是否已經(jīng)走了足夠長的時(shí)間。

　　有指導(dǎo)數(shù)據(jù)挖掘項(xiàng)目的目標(biāo)就是找到定義明確的業(yè)務(wù)問題的解決方案。一個(gè)特定項(xiàng)目的數(shù)據(jù)挖掘目標(biāo)不應(yīng)該是廣泛的、通用的條例。應(yīng)該把那些廣泛的目標(biāo)，具體化，細(xì)化，深入觀察客戶行為可能變成具體的目標(biāo)：

　　OAt: none; letter-spacing: normal; color: rgb(0,0,0); word-spacing: 0px; -webkit-text-stroke-width: 0px">· 確定誰是不大可能續(xù)訂的客戶

　　· 為以家庭為基礎(chǔ)的企業(yè)客戶設(shè)定一個(gè)撥打計(jì)劃，該計(jì)劃將減少客戶的退出率

　　·確定那些網(wǎng)絡(luò)交易可能是欺詐

　　·如果葡萄酒和啤酒已停止銷售，列出處于銷售風(fēng)險(xiǎn)的產(chǎn)品

　　·根據(jù)當(dāng)前市場營銷策略，預(yù)測未來三年的客戶數(shù)量

　　有指導(dǎo)數(shù)據(jù)挖掘往往作為一個(gè)技術(shù)問題，即找到一個(gè)模型以解釋一組輸入變量與目標(biāo)變量的關(guān)系。這往往是數(shù)據(jù)挖掘的中心，但如果目標(biāo)變量沒有正確的定義以及沒有確定適當(dāng)?shù)妮斎胱兞�。反過來，這些任務(wù)又取決于對要解決的業(yè)務(wù)問題的理解程度。沒有正確的理解業(yè)務(wù)問題就沒辦法把數(shù)據(jù)轉(zhuǎn)化為挖掘任務(wù)。在技術(shù)開始之前，必須認(rèn)識兩個(gè)問題:如何使用結(jié)果？以何種方式交付結(jié)果？

　　上述兩個(gè)問題，都是建立在客戶的真正需求是什么？而不是作為數(shù)據(jù)挖掘工程師認(rèn)為的什么是有用的數(shù)據(jù)，什么對客戶最好的數(shù)據(jù)。這些結(jié)果看似有利于客戶提高銷售額，但是我們交付的結(jié)果是什么，我們有理解客戶的需求嗎？所有前提，不要著急急著動手，先理解真正需求，不可盲目主斷。

　　1.1如何使用結(jié)果？

　　例如：許多數(shù)據(jù)挖掘工作旨在提高客戶保留

　　·主動向高風(fēng)險(xiǎn)或高價(jià)值的客戶提供一個(gè)優(yōu)惠，挽留他們

　　· 改變獲取渠道的組合，以利于那些能帶來最忠實(shí)客戶的渠道

　　·預(yù)測未來幾個(gè)月的客戶數(shù)量

　　·改變會影響客戶的滿意度的產(chǎn)品的缺陷

　　這些目標(biāo)都會對數(shù)據(jù)挖掘過程產(chǎn)生影。響。通過電話或直接郵寄的營銷活動接觸現(xiàn)有客戶，意味著除了確定客戶風(fēng)險(xiǎn)之外，你要了解為什么他們處于風(fēng)險(xiǎn)中，從而可以構(gòu)造一個(gè)有吸引力的優(yōu)惠。電話，不能過早或過遲。預(yù)測意味著除了確定那些客戶可能離開，確定有多少新客戶加入，以及他們會停留多久。而新客戶的加入，不只是意味著預(yù)測模型要解決的問題，還是被納入到業(yè)務(wù)目標(biāo)和預(yù)算之中。

　　1.2如何交付結(jié)果？

　　有指導(dǎo)的數(shù)據(jù)挖掘項(xiàng)目可能會產(chǎn)生幾個(gè)不同類型的交付形式。交付形式往往是一個(gè)報(bào)表或充滿圖標(biāo)和圖形的簡報(bào)。交付形式會影響數(shù)據(jù)挖掘的結(jié)果。當(dāng)我們的目的是提醒銷售驚雷時(shí)，產(chǎn)生一個(gè)營銷測試的客戶列表是不夠的。所謂的如何交付結(jié)果，就是在挖掘結(jié)果產(chǎn)生之后，我們要如何給用戶提供這個(gè)結(jié)果，目的是好的，但實(shí)際的過程中會遇到，會遇到我們沒有辦法去交付這個(gè)結(jié)果。因?yàn)�，你交付的結(jié)果，可能會導(dǎo)致一些本不該流失的客戶，卻流失了。這也是在具體工作之前，我們要考慮的問題。

　　數(shù)據(jù)挖掘人員的作用是確保業(yè)務(wù)問題的最后表述可以被轉(zhuǎn)換成一個(gè)技術(shù)問題。前提是正確的業(yè)務(wù)問題。

　　2、擇合適的數(shù)據(jù)

　　2.1什么數(shù)據(jù)可用？

　　尋找客戶數(shù)據(jù)的首要地方就是企業(yè)數(shù)據(jù)倉庫。倉庫中的數(shù)據(jù)已經(jīng)被清洗和核實(shí)過，并且多個(gè)數(shù)據(jù)源被整合到一起。一個(gè)單一的數(shù)據(jù)模型有望確保命名相似的字段在整個(gè)數(shù)據(jù)庫和兼容的數(shù)據(jù)類型中都有相同的含義。企業(yè)數(shù)據(jù)庫是一個(gè)歷史數(shù)據(jù)庫，新數(shù)據(jù)不斷的被追加，但歷史數(shù)據(jù)一直不變。從這一點(diǎn)更有利于做決策支持。

　　問題在于，在許多企業(yè)組織中，這樣的數(shù)據(jù)倉庫實(shí)際上并不存在，或者存在一個(gè)或多個(gè)數(shù)據(jù)倉庫，不符合直接作為規(guī)范的數(shù)據(jù)用來挖掘。在這種情況下，挖掘人員，必須尋求來自不同的部門的數(shù)據(jù)庫和業(yè)務(wù)系統(tǒng)內(nèi)的數(shù)據(jù)。業(yè)務(wù)系統(tǒng)數(shù)據(jù)是指執(zhí)行一個(gè)特定的任務(wù)，如網(wǎng)站運(yùn)行，索賠處理，完成呼叫或賬單處理。它們的目標(biāo)是快速、準(zhǔn)確的處理事務(wù)，數(shù)據(jù)可以保存成任何格式。而這些對于沒有數(shù)據(jù)倉庫的一些企業(yè)來說，這些數(shù)據(jù)往往是隱藏的很深，需要大量的企業(yè)調(diào)度和規(guī)劃來整理這些數(shù)據(jù)。這也就談到了一個(gè)問題：就是數(shù)據(jù)倉庫對一家企業(yè)的重要性，而建立企業(yè)級數(shù)據(jù)倉庫，需要的決策不是一個(gè)經(jīng)理就可以完成的，這可能需要企業(yè)級最高領(lǐng)導(dǎo)下令，下面的所有部門全部配合。

　　在企業(yè)總確定哪些數(shù)據(jù)可用是相當(dāng)困難的。因?yàn)樵S多的文檔會丟失或過時(shí)。通常情況下，沒有一個(gè)人可以提供所有答案。確定什么數(shù)據(jù)可用，需要遍歷數(shù)據(jù)字典，了解具體的業(yè)務(wù)，溝通每個(gè)部門，訪問用戶和DBA，審查現(xiàn)有的報(bào)告以及查找數(shù)據(jù)本身是否有用。還有些問題，不僅需要有關(guān)客戶的數(shù)據(jù)，還需要潛在的客戶的數(shù)據(jù)。當(dāng)需要這些數(shù)據(jù)的時(shí)候，外部資源和業(yè)務(wù)系統(tǒng)，如Web日志、呼叫詳細(xì)記錄、呼叫中心系統(tǒng)、有時(shí)甚至是郵件或電子表格，這些都是數(shù)據(jù)信息的來源。

　　數(shù)據(jù)挖掘工作的方式并不是一直等到完美和干凈的數(shù)據(jù)才進(jìn)行下一步工作。雖然需要額外干凈的數(shù)據(jù)，但是受挖掘必須能夠使用目前的數(shù)據(jù)，提前入手，開始工作。

　　2.2多少數(shù)據(jù)才足夠？

　　一、數(shù)據(jù)越多越好，更多意味著更好。在建模期間，必須對模型集進(jìn)行平衡，使得每個(gè)結(jié)果的數(shù)目都相等。如果在一個(gè)大規(guī)模的樣本中有一個(gè)比例很小的稀有數(shù)據(jù)，則一個(gè)較小的、均衡的樣本會更受歡迎。

　　二、當(dāng)模型集足以建立良好的、穩(wěn)定的模型時(shí)，使它更大將會產(chǎn)生相反的作用，因?yàn)檫@時(shí)需要更長時(shí)間在更大的模型上去運(yùn)行，由于數(shù)據(jù)挖掘是一個(gè)反復(fù)的過程，這就導(dǎo)致時(shí)間的浪費(fèi)。如果一次建模例程的運(yùn)行都需要數(shù)小時(shí)而不是數(shù)分鐘，這個(gè)時(shí)間的消耗就耗不起的。這就導(dǎo)致，在模型確定后，數(shù)據(jù)并不是越多越好。

　　2.3需要多久的歷史？

　　數(shù)據(jù)挖掘使用過去的數(shù)據(jù)預(yù)測未來。但是，數(shù)據(jù)需要來自多久的過去？這個(gè)沒有定性的回答，這要考慮很多的因素。另一方面，歷史上太久的數(shù)據(jù)未必對數(shù)據(jù)挖掘有用，因?yàn)槭袌霏h(huán)境在變化，特別是當(dāng)一些外部事件（如監(jiān)管制度的變化）進(jìn)行了干預(yù)時(shí)尤其如此。對于許多以客戶為中心的應(yīng)用，2-3年的歷史是合適的。然而，在這種情況下，客戶關(guān)系確實(shí)存在有效才被證明是有價(jià)值的，那么重要的是什么：最初的渠道是什么？最初的報(bào)價(jià)是什么？客戶最初怎么支付的等。

　　多少變量：

　　不熟練數(shù)據(jù)挖掘的人員有時(shí)太急于拋出不太可能有意義的變量，且只保存了他們認(rèn)為重要的幾個(gè)精心挑選的變量。數(shù)據(jù)挖掘方法要求數(shù)據(jù)本身能揭示它重要或不重要。

　　通常情況下當(dāng)與其他變量結(jié)合使用時(shí)，原先被忽視的變量會具有預(yù)測價(jià)值。例如：一個(gè)信用卡者從未把把現(xiàn)金刷沒又繼續(xù)刷，通過數(shù)據(jù)挖掘發(fā)現(xiàn)他們僅在11月和12月才會使用用信用卡墊付。據(jù)推測，這些人非常謹(jǐn)慎，大部分時(shí)間他們都避免因多刷而產(chǎn)生的高利息，謹(jǐn)慎也推斷出一個(gè)結(jié)論（他們比習(xí)慣使用現(xiàn)金墊款的人更加不太可能選擇拖欠欠款），但在假期，他們需要一些額外的現(xiàn)金，并愿意為此付出較高的利息。

　　2.4數(shù)據(jù)必須包含什么?

　　最低限度，數(shù)據(jù)必須包含有可能有意義的結(jié)果的例子。有指導(dǎo)數(shù)據(jù)挖掘的目的是預(yù)測一個(gè)特定目標(biāo)變量的值，但在有指導(dǎo)的數(shù)據(jù)挖掘中，模型集必須由分類好的數(shù)據(jù)組成。要區(qū)分哪些人拖欠貸款哪些人不可能拖欠，模型集的每個(gè)類都需要有成千上萬的例子。當(dāng)一個(gè)新的申請產(chǎn)生時(shí)，他的申請會與過去的客戶的申請進(jìn)行對比，可以直接把新的申請歸類。這其中隱含的意思：數(shù)據(jù)可用來形容過去發(fā)生了什么事情，從錯誤總吸取教訓(xùn)，首先我們必須識別我們已經(jīng)犯了什么錯。

　　3、認(rèn)識數(shù)據(jù)

　　在數(shù)據(jù)用于構(gòu)建模型之前，在探索數(shù)據(jù)上花費(fèi)時(shí)間的重要性通常沒有得到足夠的重視。后面我們會抽出絕對的篇幅來說明這個(gè)問題。優(yōu)秀的數(shù)據(jù)挖掘工程師似乎非常依賴直覺——例如，某種程度上能夠猜測將要派生的變量結(jié)果如何。要在陌生的數(shù)據(jù)集中利用直覺來感應(yīng)發(fā)生了什么事情，唯一辦法就是陷入數(shù)據(jù)之中，你會發(fā)現(xiàn)許多數(shù)據(jù)質(zhì)量的問題，并能夠得到啟發(fā)提出在其他情況下不容易被發(fā)現(xiàn)的問題。

　　3.1檢查分布

　　在數(shù)據(jù)庫的初步探索階段，數(shù)據(jù)可視化工具非常有益，如：散列圖、條形圖、地理地圖、Excel等可視化工具對觀察數(shù)據(jù)提供了強(qiáng)大的支持。

　　當(dāng)你開始著手一個(gè)新數(shù)據(jù)源中的數(shù)據(jù)文件，就應(yīng)該剖析數(shù)據(jù)了解到底發(fā)生了什么，包括計(jì)數(shù)和每個(gè)字段的匯總統(tǒng)計(jì)，分類變量不同值的數(shù)量，并在適當(dāng)?shù)那闆r下，需要基于產(chǎn)品和區(qū)域的交叉統(tǒng)計(jì)表。除了提供對數(shù)據(jù)的了解，剖析工作可能會產(chǎn)生不一致問題或定義問題的警告，這些問題可能會對后面的分析造成麻煩。

　　3.2值與描述的比較

　　觀察每個(gè)變量的值，并把它們與現(xiàn)有文件中的變量描述進(jìn)行比較。這項(xiàng)工作可以發(fā)現(xiàn)不準(zhǔn)確或不完整的數(shù)據(jù)描述。其實(shí)是，你記錄的數(shù)據(jù)，是否和你要描述的數(shù)據(jù)一致，這個(gè)要先確定。目的是什么？在實(shí)際的數(shù)據(jù)挖掘過程中，你要去揣測這個(gè)字段的數(shù)據(jù)到底是什么意思？如果業(yè)務(wù)人員知道，那是最好的了。如果業(yè)務(wù)人員都不知道，這個(gè)時(shí)候，可能就需要憑借經(jīng)驗(yàn)去揣測了，而且這種情況經(jīng)常發(fā)生，字段定義不明確。

　　3.3詢問大問題

　　如果數(shù)據(jù)看上去似乎不明智或者不如所愿，記錄下來。數(shù)據(jù)探索過程的一個(gè)重要輸出是對提供該數(shù)據(jù)的人給出一個(gè)問題列表。通常，這些問題將需要進(jìn)一步研究，因?yàn)楹苌儆杏脩粝駭?shù)據(jù)挖掘工程師一樣仔細(xì)地觀察數(shù)據(jù)。對數(shù)據(jù)的探索的前期工作，判斷字段，含義，是否有用，是否缺失，是否有問題等一系列問題，需要大量的工作，同時(shí)也是一件心細(xì)的過程。

　　4、創(chuàng)建一個(gè)模型集

　　模型集包含建模過程中使用的所有數(shù)據(jù)。模型集中的一些數(shù)據(jù)被用來尋找模式，對于一些技術(shù)，模型集中的一些數(shù)據(jù)被用來驗(yàn)證該模型是否穩(wěn)定。模型集也可用來評估模型的性能。創(chuàng)建一個(gè)模型集需要從多個(gè)數(shù)據(jù)源聚合數(shù)據(jù)以形成客戶簽名，然后準(zhǔn)備數(shù)據(jù)進(jìn)行分析。

　　4.1聚合客戶簽名

　　模型集是一個(gè)表或一系列表，每一行表示一個(gè)要研究的項(xiàng)目，而字段表示該項(xiàng)目有利于建模的一切。當(dāng)數(shù)據(jù)描述客戶時(shí)，模型集的行通常稱為客戶簽名。客戶簽名，每個(gè)客戶都由他離開的蹤跡唯一確定，你可以利用蹤跡充分的了解每個(gè)客戶。

　　從關(guān)系型數(shù)據(jù)庫中聚合客戶簽名旺旺需要復(fù)雜的查詢，這些查詢往往需要關(guān)聯(lián)很多的表去查詢的數(shù)據(jù)，然后利用其他來源的數(shù)據(jù)增強(qiáng)結(jié)果。聚合數(shù)據(jù)的一部分過程是使數(shù)據(jù)位于正確的匯總層次，然后每一行都包含先關(guān)客戶的所有信息。

　　4.2創(chuàng)建一個(gè)平衡的樣本

　　在標(biāo)準(zhǔn)的統(tǒng)計(jì)分析中，一種常見的做法是拋棄離群點(diǎn)——遠(yuǎn)遠(yuǎn)超出正常范圍的觀測值。然而在數(shù)據(jù)挖掘的過程中，這些利群點(diǎn)可能正是你要找的�；蛟S他們帶有欺詐行為，可能是你的業(yè)務(wù)中的一些錯誤，或一些利潤驚人的市場商機(jī)。在這種情況下，我們不希望拋出離群點(diǎn)，認(rèn)識和了解他們。

　　知識發(fā)現(xiàn)算法需通過實(shí)例來進(jìn)行學(xué)習(xí)。如果沒有足夠數(shù)量的關(guān)于某個(gè)特定類或行為模型的例子，數(shù)據(jù)挖掘工具無法得出一個(gè)預(yù)測該類或模式的模型。在這種情況下，利用罕見事件的例子豐富該模型集，提高建模中該事件的概率。如果比較罕見，有兩種方法可以平衡樣本：一、分層抽樣。二、權(quán)重。

　　例如：銀行要建立一個(gè)模型，以確定哪些客戶是私人銀行計(jì)劃的潛在客戶。這些計(jì)劃只針對非常富有的客戶，他們在一個(gè)相當(dāng)大的銀行客戶樣本中也是非常稀少的。如何構(gòu)建一個(gè)能發(fā)現(xiàn)這類用戶的模型，該模型集可能需要有50%的私人銀行的客戶，即使他們代表所有支票份額中還不到1%。另外私人銀行客戶可能被賦予一個(gè)值為1的權(quán)重，其他客戶的權(quán)重為0.01，所以浙西專有客戶的總權(quán)重等于其余客戶的總權(quán)重。通過增加一些孤立點(diǎn)客戶的權(quán)重，從而達(dá)到模型對數(shù)據(jù)的合理梳理。

　　4.3時(shí)間幀

　　基于一個(gè)時(shí)間段內(nèi)的數(shù)據(jù)建立模型會增加風(fēng)險(xiǎn)，即學(xué)習(xí)的知識不真實(shí)。結(jié)合模型集中的多個(gè)時(shí)間幀可以消除季節(jié)性因素的影響。由于季節(jié)性影響如此重要，因此應(yīng)該把它們明確地添加到客戶簽名中。還有假日購物模式也非常重要。把客戶的信息按照時(shí)間細(xì)分，或是在相應(yīng)的數(shù)據(jù)上打上標(biāo)簽。

　　4.4創(chuàng)建一個(gè)預(yù)測模型

　　當(dāng)模型集用來預(yù)測時(shí)，另一個(gè)問題，模型集應(yīng)包含多長時(shí)間，時(shí)間段該如何劃分。任何客戶標(biāo)簽在預(yù)測變量和目標(biāo)變量之間都應(yīng)該有一個(gè)時(shí)間差。時(shí)間可分為，過去、現(xiàn)在、將來。當(dāng)然所有數(shù)據(jù)都來自過去，過去又分為三個(gè)時(shí)期：遙遠(yuǎn)的過去、不太遙遠(yuǎn)的過去和最近。預(yù)測模型就是要發(fā)現(xiàn)遙遠(yuǎn)的過去的模型，用來解釋最近的輸出。當(dāng)部署模型時(shí)，它能夠使用最近的數(shù)據(jù)預(yù)測未來。如果構(gòu)建一個(gè)模型來利用6月份（不太遙遠(yuǎn)的過去）的數(shù)據(jù)對7月份（最近）進(jìn)行預(yù)測，那么在8月份之前的數(shù)據(jù)是可用的，但它不能用來對9月份進(jìn)行預(yù)測。但是8月份的數(shù)據(jù)是可用的嗎？肯定不是，因?yàn)檫@時(shí)，數(shù)據(jù)仍在產(chǎn)生數(shù)據(jù)。也不會是9月份的第一周，因?yàn)檫@些數(shù)據(jù)需要被收集、清洗、加載、測試和認(rèn)可。8月份的數(shù)據(jù)可能要懂啊9月份中旬或10月才能用，到這個(gè)時(shí)候，沒人會擔(dān)心9月份的預(yù)測了。解決的辦法是在模型集中跳過1個(gè)月。

　　4.5創(chuàng)建一個(gè)剖析模型集

　　剖析模型集與測試模型相似，但有一點(diǎn)：目標(biāo)的時(shí)間幀與輸入的時(shí)間幀重疊。看微小的差別對建模工作的影響卻很大。因?yàn)檩斎肟赡軙?ldquo;污染”目標(biāo)模式。例如：銀行，擁有投資賬戶的客戶在儲蓄賬戶中往往有非常低的結(jié)余——因?yàn)樗麄兡軓耐顿Y賬戶中得到更好的回報(bào)。這是否意味著銀行要為了投資賬戶而識別低存儲賬戶余額的客戶呢？可能不需要，因?yàn)檫@些客戶的資產(chǎn)很少。

　　解決這個(gè)問題的一種方法是非常仔細(xì)得選擇剖析模型的輸入。把所有賬戶余額組合到“儲蓄”，“貸款”兩組。儲蓄組包括所有類型的儲蓄和投資。這種方法非常有效，事實(shí)證明模型是穩(wěn)定的。一個(gè)更好的辦法：開通投資賬戶之前對賬戶產(chǎn)生一個(gè)模型。一個(gè)并發(fā)的問題是：由于每一個(gè)客戶的時(shí)間幀都取決于客戶開通賬戶的時(shí)間，建立這樣一個(gè)模型集面臨更多的困難。

　　當(dāng)目標(biāo)變量的時(shí)間幀與輸入變量的時(shí)間幀相同時(shí)，那么該模型是一個(gè)剖析模型，并且這個(gè)輸入可能會引入一些似是而非的模式，而這些模式可能會混淆數(shù)據(jù)挖掘技術(shù)。你需要非常小心地選擇輸入或者重建模型集來產(chǎn)生預(yù)測模型。

　　4.6劃分模型集

　　當(dāng)你從適當(dāng)?shù)臅r(shí)間幀中獲得預(yù)分好的數(shù)據(jù)后，有指導(dǎo)數(shù)據(jù)挖掘房峰輝把它分為三個(gè)部分。一、訓(xùn)練集，用戶建立初始模型。二、驗(yàn)證集，用于調(diào)整初始模型，減少其與訓(xùn)練集特性的額綁定，從而更具一般性。三、測試集，用來衡量吧模型應(yīng)用與未知的數(shù)據(jù)時(shí)可能產(chǎn)生的效果。三個(gè)數(shù)據(jù)集是必要的，因?yàn)槿裟硞€(gè)數(shù)據(jù)已在此過程中的某一步使用過，那么它包含的信息就已經(jīng)成為模型的一部分。因此，它不能用來修正或判斷模型。

　　我們往往很難理解為什么訓(xùn)練集和驗(yàn)證集被用來建立模型之后就會成為“污點(diǎn)”。這就好比你參加考試，你認(rèn)為這題你做的是正確的，老師讓你去預(yù)測考試成績，你顯然認(rèn)為分?jǐn)?shù)很高，因?yàn)槟阏J(rèn)為，如果沒有答案，第二天在參加同樣的考試，你的想法不會改變。這時(shí)候，你的系統(tǒng)中沒有一個(gè)新的標(biāo)準(zhǔn)，這時(shí)，你需要的是一個(gè)驗(yàn)證集。

　　現(xiàn)在，想象一下測試結(jié)果以后，估分之前老師讓你看看你同學(xué)的幾個(gè)試卷。如果他們都和你的結(jié)果不一樣，這時(shí)候，你可能會把你自己的答案標(biāo)記為一個(gè)錯誤的答案。如果第二天老師給出了正確的結(jié)果，這個(gè)時(shí)候讓你再去做同樣的的試卷，你可能得出的就是不同的結(jié)果。這就是為什么驗(yàn)證集應(yīng)該不同于測試集的原因。

　　對于預(yù)測模型，一個(gè)好主意是測試集所在的時(shí)間段與訓(xùn)練集和驗(yàn)證集的時(shí)間段不同。一個(gè)模型的穩(wěn)定性證據(jù)在于它在連續(xù)的月份中都能夠良好的運(yùn)行。來自不同的時(shí)間段的測試集，也稱為不合時(shí)宜的測試集，雖然這樣的測試集并不總是可用，但是它是驗(yàn)證模型穩(wěn)定性的一個(gè)很好的方法。

　　5、修復(fù)問題數(shù)據(jù)

　　所有數(shù)據(jù)都是臟的。所有的數(shù)據(jù)都是有問題。究竟是不是問題有時(shí)可能隨著數(shù)據(jù)挖掘技術(shù)的變化而變化。對于某些技術(shù)，例如決策樹，缺失值和離群點(diǎn)并不會造成很大的麻煩，但是對于其他技術(shù)，例如回歸和神經(jīng)網(wǎng)絡(luò)，它們會產(chǎn)生很多問題。

　　5.1分類變量的值太多

　　有許多值的變量必須以某種方式來處理。一種方法是對這些值進(jìn)行分組，即把與目標(biāo)變量關(guān)系相同的多個(gè)類別的值放在一起。

　　5.2包含偏態(tài)分布和離群點(diǎn)的數(shù)值變量

　　關(guān)于離群點(diǎn)和偏態(tài)分布的數(shù)據(jù)，采用：把所有變量和權(quán)重值相乘，然后求和。有時(shí)也采用，把這些值分成同等大小的值域，例如：小數(shù)點(diǎn)后的數(shù)據(jù)，我們采用最好轉(zhuǎn)換這些數(shù)據(jù)，通過對值的標(biāo)準(zhǔn)化來縮小這些值的范圍。

　　5.3缺失值

　　把缺失值納入模型中，但是模型本身去不能處理缺失值，丟棄這些值又會照成誤差，因?yàn)檫@些值是不均勻分布的。方法：替換，用平均值或最常見的值來替換。替換缺失值為一本不可能的值會產(chǎn)生更壞的結(jié)果。

　　一些數(shù)據(jù)挖掘工具提供了填充缺失值的功能，這些方法基本上市使用數(shù)據(jù)挖掘技術(shù)找出缺失值應(yīng)該取什么值。

　　然而有些值往往由于很正常的缺失。例如，探究使用一年歷史數(shù)據(jù)的模型，對于在一年以上使用的用戶就會出現(xiàn)問題。他們在多出的時(shí)間里，那部分?jǐn)?shù)據(jù)是空的。還有些客戶與數(shù)據(jù)庫不匹配，致使所有的人口統(tǒng)計(jì)值丟失。這時(shí)候，我們采用的是在不同部分的數(shù)據(jù)上建立多個(gè)模型。對超過一年的用戶，一個(gè)模型。對近期的客戶建立另一模型。按照自己的意愿，建立多個(gè)模型。

　　在建立模型的是要特別注意，記錄被拋棄的數(shù)據(jù)。通常模型被分解成不包含缺失值的子集，然后對每個(gè)子集建立一個(gè)單獨(dú)的模型。

　　6、轉(zhuǎn)換數(shù)據(jù)以揭示信息

　　在已經(jīng)聚合了數(shù)據(jù)并修復(fù)了主要問題的數(shù)據(jù)問題后，準(zhǔn)備對數(shù)據(jù)進(jìn)行分析。這可能需要加入派生字段來揭示一些信息。還可能涉及要刪除離群點(diǎn)、分箱，對分類變量進(jìn)行分組以及應(yīng)用一些轉(zhuǎn)換，例如：對數(shù)轉(zhuǎn)換、把計(jì)數(shù)變成比例等。

　　7、構(gòu)建模型

　　在有指導(dǎo)數(shù)據(jù)挖掘中，訓(xùn)練集用于根據(jù)獨(dú)立的目標(biāo)或輸入變量產(chǎn)生相關(guān)依賴或目標(biāo)變量的解釋。這種解釋為，神經(jīng)網(wǎng)絡(luò)、決策樹、鏈接圖、或其他關(guān)系的表示，即目標(biāo)與數(shù)據(jù)庫中其他字段之間的關(guān)系。一般這些工作室友數(shù)據(jù)挖掘軟件自動完成。

　　8、評估模型

　　空缺，后面會具體的探討如何評估一個(gè)模型。

　　9、部署模型

　　數(shù)據(jù)挖掘工具把評分代碼當(dāng)作模型部署過程中的一部分。這個(gè)評分可以利用：SAS或SPSS，或使用編程語言，C、java或C#。然而模型代碼的部署只解決了一半問題，因?yàn)槟Ｐ屯ǔＪ褂貌淮嬖谟谠紨?shù)據(jù)中的輸入變量。模型的評分是一個(gè)很大的挑戰(zhàn)性，尤其當(dāng)要對模型進(jìn)行實(shí)時(shí)評分時(shí)。例如：當(dāng)一個(gè)客戶把一件物品放到購物籃中或訪問Web頁面時(shí)，Web應(yīng)用程序都需要對模型進(jìn)行評分。這樣的評分必須非常迅速，因?yàn)榭蛻粼u分的過程不能干擾網(wǎng)站導(dǎo)航的便利性。

　　9.1優(yōu)化模型進(jìn)行部署

　　評估模型盈利需要考慮模型的成本和收益是否正確的情況。針對不同大小的人群，通過圖表可以顯示一個(gè)活動的額實(shí)際盈利能力。

　　評估模型的盈利需要詢問以下幾個(gè)問題：

　　·設(shè)立活動和支持它的模型的固定成本是多少

　　·每個(gè)優(yōu)惠接受者的成本是多少、

　　·每個(gè)優(yōu)惠響應(yīng)者的成本是多少

　　·正面響應(yīng)的價(jià)值是多少

　　當(dāng)盈利模型的質(zhì)量取決于它的輸入。雖然活動的成本和可變成本是很容易得到的，但是響應(yīng)者的預(yù)測值很難估計(jì)。搞清楚客戶的價(jià)值是超出了討論范圍，但一個(gè)良好的故居有助于度量數(shù)據(jù)挖掘模型的價(jià)值。

　　最后，最重要的度量是投資回報(bào)率。度量測試集的提升有助于選擇合適的模型�；谔嵘挠�(jì)算有助于決定如何應(yīng)用該模型的結(jié)果。但是，度量這些字段中的信息也非常重要。在一個(gè)數(shù)據(jù)庫營銷的應(yīng)用中，這樣做需要撇開對照組，并根據(jù)不同的模型分?jǐn)?shù)仔細(xì)跟蹤客戶的響應(yīng)，制定合適的方案。

　　10、評估結(jié)果

　　一個(gè)典型的模型需要不同的測試組：

　　·檢驗(yàn)組：具有較高的模型分?jǐn)?shù)，比那個(gè)接收到反饋信息的組

　　·模型對照組：具有較高的模型分?jǐn)?shù)，但是沒有得到反饋信息的組

　　·控制組：模型分?jǐn)?shù)較低或是隨機(jī)的，并且接收到信息的組

　　·對照組：具有隨機(jī)的模型分?jǐn)?shù)，并且沒有收到反饋信息的組

　　11、重新開始

　　每一個(gè)數(shù)據(jù)挖掘項(xiàng)目產(chǎn)生的問題比答案要多，這是件好事。這意味著一些以前不可見的新關(guān)系現(xiàn)在可見。新發(fā)現(xiàn)的關(guān)系提出了新的需要測試的假設(shè)，而數(shù)據(jù)挖掘的過程將重新開始。重新挖掘反饋有效信息。

　　總結(jié)：

　　有指導(dǎo)的數(shù)據(jù)挖掘就是搜索歷史記錄，從而找到能解釋一個(gè)特定結(jié)果的模式。有指導(dǎo)數(shù)據(jù)挖掘模型的兩個(gè)類別分別是剖析模型和預(yù)測模型。這些類型使用相同的技術(shù)和方法：它們之間的區(qū)別僅僅在于模型集的構(gòu)造方式。

　　有指導(dǎo)數(shù)據(jù)挖掘問題解決方案可能涉及多個(gè)串連起來的模型。因此，一個(gè)交叉銷售模型可能針對每個(gè)產(chǎn)品采用不同的預(yù)測模型，并使用決策規(guī)則以選中最佳結(jié)果。響應(yīng)模型可用于優(yōu)化盈利，它真正地計(jì)算了響應(yīng)的期望值，而不是響應(yīng)的可能性。一個(gè)更復(fù)雜的方法是使用增量響應(yīng)模型，這時(shí)的目標(biāo)是營銷工作影響響應(yīng)率的增加，而不僅是響應(yīng)率本身。

　　在數(shù)據(jù)挖掘模型創(chuàng)建過程中，第一道坎就是把數(shù)據(jù)挖掘問題轉(zhuǎn)換成業(yè)務(wù)問題。下一個(gè)挑戰(zhàn)就是找到適當(dāng)?shù)臄?shù)據(jù)，這些數(shù)據(jù)可以轉(zhuǎn)化為可操作的信息。找到數(shù)據(jù)后，應(yīng)當(dāng)對其進(jìn)行深入探索，探索過程可能會發(fā)現(xiàn)一些數(shù)據(jù)問題。它也將有助于建立數(shù)據(jù)挖掘人員對數(shù)據(jù)的直觀理解。下一步就是創(chuàng)建一個(gè)模型集，并把它劃分為訓(xùn)練集、驗(yàn)證集和測試集。

　　數(shù)據(jù)轉(zhuǎn)換是必須的，兩個(gè)目的：一、修復(fù)一些數(shù)據(jù)相關(guān)的問題，例如缺失值和值太多的分類變量。二、揭示一些信息，通過創(chuàng)新的變量來代表趨勢、其他比例和組合。后面在詳細(xì)談數(shù)據(jù)如何轉(zhuǎn)換。

　　當(dāng)數(shù)據(jù)轉(zhuǎn)換好了，構(gòu)建模型就是一個(gè)相對容易的事情。每類模型有自己的指標(biāo)，通過這些指標(biāo)可以評估它，獨(dú)立于模型之外的評估方法也是可行的。其中有一些很重要的評估方法是提升圖和ROC圖，這些方法表明了該模型的如何增加目標(biāo)變量預(yù)測值的濃度，并給出混淆矩陣以顯示二元相應(yīng)模型誤分類的錯誤率，還為數(shù)值目標(biāo)顯示分?jǐn)?shù)分布圖。后面我們會基于這個(gè)方法更深入的探討有指導(dǎo)數(shù)據(jù)挖掘技術(shù)是如何構(gòu)建自己的模型。

核心關(guān)注：拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用，蘊(yùn)涵了豐富的ERP管理思想，集成了ERP軟件業(yè)務(wù)管理理念，功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理，全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域，是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。

轉(zhuǎn)載請注明出處：拓步ERP資訊網(wǎng)http://www.ezxoed.cn/

本文標(biāo)題：構(gòu)建一個(gè)有指導(dǎo)的數(shù)據(jù)挖掘模型

本文網(wǎng)址：http://www.ezxoed.cn/html/consultation/10839316743.html

關(guān)鍵詞標(biāo)簽： 構(gòu)建一個(gè)有指導(dǎo)的數(shù)據(jù)挖掘模型,大數(shù)據(jù) 數(shù)據(jù)挖掘數(shù)據(jù)可視化,ERP,ERP系統(tǒng),ERP軟件,ERP系統(tǒng)軟件,ERP管理系統(tǒng),ERP管理軟件,進(jìn)銷存軟件,財(cái)務(wù)軟件,倉庫管理軟件,生產(chǎn)管理軟件,企業(yè)管理軟件,拓步,拓步ERP,拓步軟件,免費(fèi)ERP,免費(fèi)ERP軟件,免費(fèi)ERP系統(tǒng),ERP軟件免費(fèi)下載,ERP系統(tǒng)免費(fèi)下載,免費(fèi)ERP軟件下載,免費(fèi)進(jìn)銷存軟件,免費(fèi)進(jìn)銷存,免費(fèi)財(cái)務(wù)軟件,免費(fèi)倉庫管理軟件,免費(fèi)下載,

本文轉(zhuǎn)自：e-works制造業(yè)信息化門戶網(wǎng)

本文來源于互聯(lián)網(wǎng)，拓步ERP資訊網(wǎng)本著傳播知識、有益學(xué)習(xí)和研究的目的進(jìn)行的轉(zhuǎn)載，為網(wǎng)友免費(fèi)提供，并盡力標(biāo)明作者與出處，如有著作權(quán)人或出版方提出異議，本站將立即刪除。如果您對文章轉(zhuǎn)載有任何疑問請告之我們，以便我們及時(shí)糾正。聯(lián)系方式：QQ：10877846 Tel：0755-26405298。

上一篇： Windows 10操作系統(tǒng)平臺提升用戶體驗(yàn)

下一篇：微觀SOA：服務(wù)設(shè)計(jì)原則及其實(shí)踐方式（上篇）

相關(guān)文章

管理咨詢

拓步ERP系統(tǒng)軟件平臺11.5專業(yè)版v10.1.2...

拓步ERP系統(tǒng)軟件平臺11.5標(biāo)..

金蝶KIS財(cái)務(wù)軟件標(biāo)準(zhǔn)版V8.1..

金蝶KIS財(cái)務(wù)軟件迷你版V8.1..

金蝶KIS工業(yè)貿(mào)易專業(yè)版V12...

SQL2000 4in1 ISO..

MSDE2000 SP4 簡體中..

金蝶KIS商貿(mào)高級版V4.0|破..

金蝶KIS財(cái)務(wù)軟件行政事業(yè)版V9..

金蝶KIS零售版V4.1|破解版..

拓步ERP倉庫管理軟件財(cái)務(wù)管理軟件進(jìn)銷存管理軟件免費(fèi)下載免費(fèi)使用

熱門培訓(xùn)視頻

拓步ERP系統(tǒng)平臺庫存管理系統(tǒng)培訓(xùn)視頻教材

拓步ERP系統(tǒng)平臺客戶端安裝培訓(xùn)..

拓步ERP財(cái)務(wù)管理系統(tǒng)培訓(xùn)視頻

拓步ERP系統(tǒng)平臺數(shù)據(jù)庫安裝培訓(xùn)..

拓步ERP系統(tǒng)平臺通用操作培訓(xùn)視..

拓步ERP系統(tǒng)平臺采購管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺考勤管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺財(cái)務(wù)報(bào)表系統(tǒng)培..

拓步ERP系統(tǒng)平臺財(cái)務(wù)總帳系統(tǒng)培..

拓步ERP系統(tǒng)平臺應(yīng)收帳款系統(tǒng)培..

熱門電子圖書

拓步ERP財(cái)務(wù)管理系統(tǒng)電子圖書

熱門管理軟件

拓步ERP系統(tǒng)管理軟件介紹

拓步ERP平臺系列旗艦版

拓步ERP生產(chǎn)系列標(biāo)準(zhǔn)版（進(jìn)銷存..

拓步ERP業(yè)務(wù)系列倉存版（倉庫管..

拓步ERP平臺系列標(biāo)準(zhǔn)版

拓步ERP財(cái)務(wù)系列迷你版（財(cái)務(wù)管..

拓步ERP條碼系列業(yè)務(wù)標(biāo)準(zhǔn)版（條..

拓步ERP平臺系列企業(yè)版

拓步ERP平臺系列專業(yè)版

拓步ERP行業(yè)系列電子行業(yè)版


	ERP新聞動態(tài) 拓步新聞行業(yè)新聞關(guān)注產(chǎn)品觀點(diǎn)縱橫企業(yè)管理企業(yè)應(yīng)用

	ERP解決方案按ERP應(yīng)用行業(yè)分類按ERP企業(yè)規(guī)模分類按ERP管理領(lǐng)域分類按ERP軟件功能分類按ERP系統(tǒng)特性分類用友ERP解決方案金蝶ERP解決方案易飛ERP解決方案速達(dá)ERP解決方案其他ERP解決方案

	ERP顧問咨詢 ERP管理咨詢 ERP戰(zhàn)略診斷 ERP流程分析 ERP流程優(yōu)化 ERP風(fēng)險(xiǎn)分析 ERP可行性研究 ERP整體規(guī)劃 ERP選型招標(biāo) ERP實(shí)施監(jiān)理 ERP評審驗(yàn)收 ERP績效評價(jià) ERP基礎(chǔ)知識 ERP課程培訓(xùn) ERP培訓(xùn)教育 ERP視頻教材

	CIO技術(shù)專欄 CIO企業(yè)應(yīng)用 CIO網(wǎng)絡(luò)通信 CIO信息安全 CIO基礎(chǔ)設(shè)施 CIO云計(jì)算

	ERP技術(shù)支持技術(shù)支持知識庫常見問題資料庫在線學(xué)習(xí)資料庫日常辦公資料庫企業(yè)管理知識庫

	ERP系統(tǒng)價(jià)格拓步ERP系統(tǒng)價(jià)格體系拓步EIS軟件價(jià)格體系合作品牌ERP價(jià)格體系技術(shù)支持服務(wù)價(jià)格體系

	合作品牌用友UFIDA 金蝶KingDee 神州數(shù)碼Digital 速達(dá)SuperData 拓步ERP系統(tǒng)成功案例

	代理加盟合作聯(lián)盟策略代理合作指南代理聯(lián)盟前景聯(lián)盟技術(shù)支持快速搜索ERP軟件資訊

	關(guān)于拓步公司介紹公司愿景企業(yè)文化誠聘英才聯(lián)系我們在線留言在線訂購意向下載體驗(yàn)登記

2021色婷婷综合久久久_国产亚洲午夜高清国产亚洲_亚洲开心婷婷中文字幕_亚洲国产中文精品字幕第一页_国产综合免费视频

ERP顧問咨詢

ERP原理知識

ERP實(shí)施培訓(xùn)

CIO技術(shù)專欄

CIO企業(yè)應(yīng)用

CIO網(wǎng)絡(luò)通信

CIO信息安全

CIO基礎(chǔ)設(shè)施

CIO云計(jì)算

即時(shí)聯(lián)系

服務(wù)熱線

快捷互動

猜您喜歡