隨著通信市場競爭的加劇,移動運營商之間對客戶的爭奪也日趨激烈。各運營商都有自己完整的運營支撐系統(tǒng),如計費系統(tǒng)、帳務(wù)系統(tǒng)、營業(yè)系統(tǒng)和客戶服務(wù)系統(tǒng)等。這些系統(tǒng)累積了海量的客戶相關(guān)數(shù)據(jù).很多企業(yè)也都擁有自己的客戶關(guān)系管理CRM(Custom Relationship Management)系統(tǒng)。如何通過數(shù)據(jù)挖掘技術(shù)對CRM系統(tǒng)中累積的大量歷史數(shù)據(jù)進行分析處理,以提供有效的決策知識,從而獲得新客戶,提高客戶滿意度、防止客戶流失是分析型CRM的目標。分析型CRM(Analytic CRM)是創(chuàng)新和使用客戶知識(在這一過程中采用數(shù)據(jù)倉庫、OLAP和數(shù)據(jù)挖掘技術(shù)對客戶數(shù)據(jù)進行分析,提煉出有用信息),幫助企業(yè)提高優(yōu)化客戶關(guān)系的決策能力和整體運營能力的概念、方法、過程以及軟件的集合。CRM從上世紀90年代初基于部門級的專用解決方案,(如銷售隊伍自動化、客戶服務(wù)支持)發(fā)展到現(xiàn)在以客戶為中心的整體解決方案。尤其是Internet的迅猛發(fā)展與成熟的電子商務(wù)平臺。大大推進了應(yīng)用的廣度和深度。目前,數(shù)據(jù)挖掘與CRM相結(jié)合的分析型CRM相關(guān)技術(shù)的研究與應(yīng)用成為學(xué)術(shù)界和工業(yè)界研究的熱點。
統(tǒng)計學(xué)習(xí)理論是一種專門研究小樣本情況下機器學(xué)習(xí)規(guī)律的理論,支持向量機SVM(Support Vector Machine)作為一種新的數(shù)據(jù)挖掘技術(shù),是在統(tǒng)計學(xué)習(xí)理論的基礎(chǔ)上發(fā)展起來的新的學(xué)習(xí)算法。由于其基于結(jié)構(gòu)風(fēng)險最小化原則,即由有限的訓(xùn)練樣本集得到較小的誤差以確保對獨立的測試樣本集仍保持較小的誤差,因此能有效地解決過學(xué)習(xí)問題,具有良好的推廣性;另外,由于SVM算法能解決凸優(yōu)化問題,局部最優(yōu)解就是其全局最優(yōu)解,因此具有較好的分類準確性。這些優(yōu)良特性使得SVM成為繼人工神經(jīng)網(wǎng)絡(luò)ANN(Artifical Neural Network)和模式識別之后的又一研究熱點。最有代表性的是美國郵政手寫數(shù)字庫識別研究成功地應(yīng)用了SVM。在其他應(yīng)用領(lǐng)域,如人臉識別、語音識別、模式識別、圖像處理及文本分類等方面也取得了大量的研究成果。
本文在研究支持向量機并將其應(yīng)用于分析型CRM的過程中,以移動通信作為分析型CRM系統(tǒng)的典型應(yīng)用行業(yè),其原因除了滿足更激烈的商業(yè)競爭外,還在于其擁有較為完整的、規(guī)范化的并對其發(fā)展戰(zhàn)略十分重要的客戶數(shù)據(jù)基礎(chǔ)。根據(jù)CRM中的客戶歷史數(shù)據(jù)對未來客戶流失的可能性進行預(yù)測評估,為決策者提供有用知識具有一定的實用意義。
1 支持向量機(SVM)
VAPNIK V提出的SVM理論最基本的思想之一是結(jié)構(gòu)化風(fēng)險最小化原則SRM(Structural Risk Minimization),該理論優(yōu)于傳統(tǒng)的經(jīng)驗風(fēng)險最小化原則ERM(Empirical Risk Minimization)。不同于ERM試圖最小化訓(xùn)練集上的誤差的做法,SRM試圖最小化VC維的上界,與傳統(tǒng)的降維方法相反,SVM通過提高數(shù)據(jù)的維度把非線性分類問題轉(zhuǎn)換成線性分類問題,較好地解決了傳統(tǒng)學(xué)習(xí)算法(如人工神經(jīng)網(wǎng)絡(luò))中訓(xùn)練集誤差最小而測試集誤差仍較大的問題,算法的效率和精度都有很大提高。近年來該方法成為構(gòu)造數(shù)據(jù)挖掘分類模型和數(shù)據(jù)挖掘回歸預(yù)測模型的一項新型技術(shù)。
1.1 SVM分類算法
SVM是通過構(gòu)造一個最優(yōu)超平面,對二值分類問題進行分割。所謂最優(yōu)分類面就是要求分類面不但能將二值分類正確分開(保證經(jīng)驗風(fēng)險最小),而且使分類間隔最大。
對于非線性二元分類。則通過某種事先選擇的非線性映射(即核函數(shù)),將輸入向量工映射到一個高維特征空間中,然后在這個高維空間中構(gòu)造最優(yōu)分類超平面,這種方法通過核函數(shù)做升維處理避免了在高維特征空間中進行復(fù)雜的運算。
1.2 SVM分類預(yù)測模型
由于現(xiàn)有的SVM分類模型用于數(shù)據(jù)挖掘還處于試驗階段,通常只對訓(xùn)練好的模型做簡單的測試。雖然測試模型可以對該模型的推廣性能做出一些定量分析,但在現(xiàn)實中該分類模型是否真正實用還需了解其特點,如模型推廣性、模型穩(wěn)定性等?蓪VM分類模型應(yīng)用于分析型CRM的客戶流失分類預(yù)測,分類模型的完整建立過程分為:學(xué)習(xí)階段、測試階段和評估階段。
1.2.1 學(xué)習(xí)訓(xùn)練階段
(1)從客戶主題數(shù)據(jù)集市中抽取客戶相關(guān)數(shù)據(jù)建立訓(xùn)練樣本集;
(x1,y1),...,(xi,yi),xi ∈Rn,yi∈{-1,+1} (6)
(2)選擇合適的核函數(shù)及核參數(shù),作為高維特征空間在低維輸入空間的一個等效形式;
(3)對輸入訓(xùn)練樣本進行規(guī)范化,將輸入數(shù)據(jù)限定在核函數(shù)要求的范圍之內(nèi);
(4)構(gòu)造核矩陣H(n,n);
(5)在式(7)約束條件下,最大化式(8),以求解拉格朗日系數(shù)α;
(6)找出支持向量SV,求解分類超平面系數(shù)b;
(7)建立訓(xùn)練數(shù)據(jù)的最優(yōu)決策超平面,完成訓(xùn)練過程。
1.2.2 測試階段
(1)裝入SVM學(xué)習(xí)階段的有關(guān)數(shù)據(jù),包括訓(xùn)練數(shù)據(jù),系數(shù)α、b,以及得到的支持向量SV;
(2)根據(jù)
計算新輸入測試數(shù)據(jù)樣本的相應(yīng)決策輸出值;
(3)利用指示函數(shù)將f(x)歸為{-1,+1},做出分類決策。
1.2.3 評估階段
在用實驗數(shù)據(jù)訓(xùn)練和測試模型時,只是對該模型的預(yù)測效果作簡單的對比,如果訓(xùn)練好的模型實際輸出與預(yù)測輸出誤差很小,可認為該模型推廣能力強。但現(xiàn)實中的數(shù)據(jù)是多變的,只是用歷史數(shù)據(jù)進行預(yù)測,并不能表明該模型在后續(xù)預(yù)測中一直會有好的效果。本文所提出的評估階段實際上是預(yù)測模型的試運行過程,在該過程中。把現(xiàn)實中的數(shù)據(jù)輸入測試好的模型,根據(jù)輸出對模型作一些優(yōu)化和調(diào)整。
以上三個階段是一個循環(huán)往復(fù)的過程:首先用訓(xùn)練集建立初始模型,將測試集輸入訓(xùn)練好的初始模型得出測試誤差,如果誤差較大則反復(fù)修正初始模型,當修正后的模型效果達到要求時,再用評價數(shù)據(jù)集對該模型進行評價,如果評估效果不好,則返回修正模型,如此反復(fù)直到得出最優(yōu)的分類預(yù)測模型。
2 分析型CRM
2.1 分析型CRM體系結(jié)構(gòu)
分析型CRM體系結(jié)構(gòu)如圖1所示,分為數(shù)據(jù)源層、數(shù)據(jù)存儲層、應(yīng)用支持層和用戶交互層。
圖1 分析型CRM體系結(jié)構(gòu)
(1)數(shù)據(jù)源層包括了企業(yè)常用信息系統(tǒng)和一些外部系統(tǒng)的數(shù)據(jù)源,如涉及客戶交互的一些交易系統(tǒng)和服務(wù)系統(tǒng),但各系統(tǒng)間的客戶數(shù)據(jù)是分散的,而且可能重合,會出現(xiàn)不一致的問題。
(2)數(shù)據(jù)存儲層是為了整個企業(yè)有集中統(tǒng)一的客戶視圖,通過從各源系統(tǒng)抽取數(shù)據(jù),進行整合的數(shù)據(jù)倉庫,在客戶數(shù)據(jù)倉庫的基礎(chǔ)上,可以建立相關(guān)分析的客戶主題數(shù)據(jù)集市。
(3)應(yīng)用支持層除了支持復(fù)雜、智能化報表查詢外,還支持OLAP分析。提供數(shù)據(jù)挖掘功能。
(4)用戶交互層提供分析、挖掘結(jié)果,企業(yè)管理、決策層和企業(yè)其他服務(wù)人員與客戶的交互形成反饋機制,從而有效地利用分析和挖掘得到有用知識。
本文研究重點是陰影板塊部分:
(1)在企業(yè)已有CRM數(shù)據(jù)倉庫的基礎(chǔ)上,抽取出客戶流失預(yù)測相關(guān)的數(shù)據(jù),建立相關(guān)主題的客戶數(shù)據(jù)集市;
(2)從客戶主題數(shù)據(jù)集市中抽取客戶流失相關(guān)表的一些關(guān)鍵屬性字段,形成SVM分類預(yù)測挖掘模型的輸入數(shù)據(jù);
(3)通過對SVM分類預(yù)測模型的訓(xùn)練和驗證,并對最優(yōu)模型進行應(yīng)用,進一步驗證反饋。形成比較穩(wěn)定的客戶流失分類預(yù)測模型。
2.2 分析型CRM主題數(shù)據(jù)集市設(shè)計
通信行業(yè)主要采用事實表和維表的形式建立數(shù)據(jù)倉庫。在建立數(shù)據(jù)集市過程中重點考慮BOSS系統(tǒng)和分析型CRM的接口。不僅要實現(xiàn)物理上的轉(zhuǎn)化,而且還要在邏輯上實現(xiàn)從BOSS系統(tǒng)實體到數(shù)據(jù)倉庫實體的成功過渡。這是因為數(shù)據(jù)倉庫的數(shù)據(jù)不再是業(yè)務(wù)類型,而是按主題組織。如BOSS系統(tǒng)中含有客戶管理類實體、計費賬務(wù)管理類實體等;而數(shù)據(jù)倉庫則分為客戶主題、賬務(wù)主題等。
本文中客戶主題數(shù)據(jù)集市是從CRM數(shù)據(jù)倉庫中抽取客戶數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、帳務(wù)數(shù)據(jù)等信息,這些數(shù)據(jù)經(jīng)過轉(zhuǎn)換、裝載、聚合進入到接口數(shù)據(jù)層。可作為客戶流失分類預(yù)測模型的基礎(chǔ)數(shù)據(jù);數(shù)據(jù)模型層再根據(jù)模型需求對接口層數(shù)據(jù)進行匯總,生成客戶流失分類預(yù)測挖掘模型輸入的寬表?傮w數(shù)據(jù)集市結(jié)構(gòu)如圖2所示。
圖2 客戶主題數(shù)據(jù)集市結(jié)構(gòu)圖
3 實證研究
3.1 電信數(shù)據(jù)處理
本文針對流失挖掘的需求建立了相關(guān)的客戶主題數(shù)據(jù)集市,從客戶數(shù)據(jù)倉庫中抽取流失分類預(yù)測挖掘主題相關(guān)的數(shù)據(jù),即提取與客戶流失因素相關(guān)的屬性,并且選擇部分數(shù)據(jù)作為訓(xùn)練集。涉及到的數(shù)據(jù)源(這里只列出有代表性的字段,實際模型調(diào)整過程中。個別字段和屬性可根據(jù)業(yè)務(wù)建議和模型本身特點添加或者刪減)如表1所示。
表1 數(shù)據(jù)源描述
在提取的與流失因素相關(guān)的屬性中,既有單粒度屬性,又有多重粒度的屬性。還有派生屬性。在屬性選擇的過程中,用到了屬性歸約和泛化技術(shù),最終選取表l中的屬性作為模型輸入字段,客戶流失標記(在網(wǎng)、流失)作為模型輸出?蛻袅魇擞浀奶幚砣缦拢涸2個月的預(yù)測期和1個月的評估期中,正?蛻艨梢猿尸F(xiàn)出多種異常狀態(tài)。文中以其中3種狀態(tài)為流失傾向的客戶特征,對其做流失標記:
(1)拆機。
(2)2個月零通話(2個月總通話次數(shù)=0且總發(fā)短信次數(shù)=0)。
(3)2個月低額消費(每個月通話次數(shù)≤5且每個月發(fā)短信次數(shù)≤5),代表一定的流失傾向。
流失分類預(yù)測模型利用3個月的的歷史數(shù)據(jù)對客戶在未來2個月的流失傾向進行預(yù)測,用未來第3個月的數(shù)據(jù)進行評估。本文選擇基于200501~200504月之間3個月的客戶數(shù)據(jù)對SVM模型進行訓(xùn)練,用200505~200506之間1個月的數(shù)據(jù)進行預(yù)測,用200507月的客戶數(shù)據(jù)進行評估。
3.2 實驗結(jié)果分析
經(jīng)過數(shù)據(jù)頂處理后,形成了模型輸入的匯總表(即寬表),輸入到本文的SVM分類預(yù)測模型中進行訓(xùn)練、預(yù)測和評估。模型指標評價如圖3所示,模型的評價指標主要是查全率和奩準率。具體指標如下:
查準率=命中用戶/預(yù)測離網(wǎng)用戶
查全率=命中用戶/實際離網(wǎng)用戶
圖3 模型指標評價
通過對SVM模型的反復(fù)調(diào)整,形成最優(yōu)模型時各處理階段的數(shù)據(jù)如表2所示。
表2 實驗結(jié)果
從表2的實驗數(shù)據(jù)可以看出,本文中的SVM分類模型相對ANN分類模型,做客戶流失分類預(yù)測和評估時的查全率和查準率都有一定提高。在訓(xùn)練階段,由于ANN存在過度訓(xùn)練情況,查全率和查準率都比SVM的訓(xùn)練精度要高;而測試階段,SVM模型良好的推廣性得到了驗證,相比ANN的查全、查準率有較大提高;在評估階段,SVM分類模型相對于ANN更是表現(xiàn)出了很好的穩(wěn)定性。
分析型CRM在各領(lǐng)域的應(yīng)用已經(jīng)十分廣泛,能否有效地應(yīng)用數(shù)據(jù)挖掘技術(shù)對于分析型CRM十分關(guān)鍵。本文將支持向量機這種新的數(shù)據(jù)挖掘方法應(yīng)用于移動領(lǐng)域客戶流失挖掘,對客戶離網(wǎng)的可能性進行預(yù)測,為決策者提供有用知識。實驗中對SVM和ANN這兩種模型用于流失分類預(yù)測的效果進行了對比。結(jié)果顯示SVM相比ANN具有更優(yōu)的分類預(yù)測效果和更好的模型穩(wěn)定性,從而驗證了SVM應(yīng)用于分析型CRM中的客戶流失挖掘是有效可行的。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/1083936185.html