前言
隨著信息處理技術(shù)的不斷發(fā)展,信息的存儲(chǔ)、管理使用和維護(hù)顯得越來越重要,而傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)很難滿足其要求,表現(xiàn)為:數(shù)據(jù)量成幾何級(jí)數(shù)的增長,不同部分的數(shù)據(jù)難以集合,訪問數(shù)據(jù)的響應(yīng)性能不斷降低。要使數(shù)據(jù)能夠發(fā)揮其最佳功效,更好地為用戶服務(wù),數(shù)據(jù)倉庫的出現(xiàn)為用戶處理所需要的決策信息提供了一種有效的方法。
1 相關(guān)理論和技術(shù)基礎(chǔ)
數(shù)據(jù)挖掘的定義:數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的原始數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。
數(shù)據(jù)挖掘其實(shí)是一個(gè)逐漸演變的過程。電子數(shù)據(jù)處理的初期,人們就試圖通過一些方法來實(shí)現(xiàn)自動(dòng)決策支持,當(dāng)時(shí)機(jī)器學(xué)習(xí)成為人們關(guān)心的焦點(diǎn)。機(jī)器學(xué)習(xí)的過程就是將一些已知并成功解決的問題作為范例輸入計(jì)算機(jī),機(jī)器通過學(xué)習(xí)這些范例,總結(jié)并生成相應(yīng)的規(guī)則。隨后,隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的形成和發(fā)展,人們的注意力轉(zhuǎn)向知識(shí)工程。知識(shí)工程不同于機(jī)器學(xué)習(xí),不是為計(jì)算機(jī)輸入范例,由其生成的規(guī)則,而是直接為計(jì)算機(jī)輸入已被代碼化的規(guī)則,而計(jì)算機(jī)是通過使用這些規(guī)則解決某些問題。專家系統(tǒng)就是這種方法所得到的成果,但有投資大和效果不甚理想等不足。20世紀(jì)80年代人們又在新的神經(jīng)網(wǎng)絡(luò)理論的指導(dǎo)下,重新回到機(jī)器學(xué)習(xí)的方法上。并將其成果應(yīng)用于處理大型商業(yè)數(shù)據(jù)庫,出現(xiàn)了數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn),簡(jiǎn)稱KDD(Knowledged Discovery in Database)。它泛指從所有數(shù)據(jù)源中發(fā)掘模式的聯(lián)系和方法,人們接受了這個(gè)術(shù)語。1995 在美國計(jì)算機(jī)學(xué)會(huì)(ACM)上,提出了數(shù)據(jù)挖掘(DM,DataMining)概念作為知識(shí)發(fā)現(xiàn)過程的關(guān)鍵步驟,但是現(xiàn)在人們對(duì)于KDD和DM 這兩個(gè)概念通常不加以區(qū)別,所以往往混用。
2 數(shù)據(jù)挖掘中的聚類算法
聚類算法是本文重點(diǎn)研究的對(duì)象,通過介紹聚類算法的一些基本原理和概念,將此算法在CRM 系統(tǒng)中作出一個(gè)應(yīng)用。
聚類:聚類是開始分析的好方法,特別是面臨大量復(fù)雜的可能有很多內(nèi)部結(jié)構(gòu)的數(shù)據(jù)集。通過使用這種方法,分析者可以將一個(gè)大問題按照特征分成一組。,這些聚類提供了對(duì)其中成員的描述。通過提供分類這些聚類的方法,我們就能夠?qū)栴}有個(gè)大致的了解。聚類就是將物理或抽象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過程。聚類的結(jié)果是使同一個(gè)類別內(nèi)的對(duì)象具有較高的相似度,而不同的類別的對(duì)象之間差別很大。聚類增強(qiáng)了人們對(duì)客觀現(xiàn)實(shí)的認(rèn)識(shí),是概念描述和偏差分析的先決條件。
2.1 CRM的概念
CRM 的核心內(nèi)容是通過不斷地改善與管理企業(yè)銷售、營銷、客戶服務(wù)和支持等與客戶關(guān)系有關(guān)的業(yè)務(wù)流程,提高各個(gè)環(huán)節(jié)的自動(dòng)化程度。從而縮短銷售周期,降低銷售成本,擴(kuò)大銷售量,搶占更多市場(chǎng)份額,尋求新的市場(chǎng)機(jī)會(huì),最終達(dá)到從根本上提升企業(yè)核心競(jìng)爭(zhēng)力的目的。
2.2 數(shù)據(jù)倉庫的特點(diǎn)
數(shù)據(jù)倉庫是面向主題的主題,是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,如工業(yè)情況、農(nóng)業(yè)情況、整個(gè)高科技園發(fā)展?fàn)顩r等;所謂面向主題,是指數(shù)據(jù)倉庫內(nèi)的信息是按主題進(jìn)行組織的,為按主題進(jìn)行決策的過程提供信息。
數(shù)據(jù)倉庫是集成的:集成,是指數(shù)據(jù)倉庫中的信息不是從各個(gè)業(yè)務(wù)系統(tǒng)中簡(jiǎn)單抽取出來的,是經(jīng)過系統(tǒng)加工、匯總和整理,保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個(gè)系統(tǒng)的一致的全局信息。
數(shù)據(jù)倉庫是穩(wěn)定的:穩(wěn)定,是指一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的插入和查詢操作,但修改和刪除操作很少。
數(shù)據(jù)倉庫是隨時(shí)間增長的:數(shù)據(jù)倉庫包含歷史數(shù)據(jù),是指數(shù)據(jù)倉庫內(nèi)的信息并不只是某一時(shí)點(diǎn)的信息,而是系統(tǒng)記錄了從過去某一時(shí)點(diǎn)(如開始應(yīng)用數(shù)據(jù)倉庫的時(shí)點(diǎn))到目前各個(gè)階段的信息,通過這些信息表明發(fā)展歷程并對(duì)趨勢(shì)做出定量分析和預(yù)測(cè)。
圖1 數(shù)據(jù)倉庫概念結(jié)構(gòu)圖
在本文的CRM系統(tǒng)建模中,建立超市的數(shù)據(jù)倉庫是一個(gè)關(guān)鍵的步驟。
3 聚類算法與層次分析法
3.1 K-means聚類算法
K-means聚類算法的基本思想
假定需要聚類的對(duì)象共有n 個(gè),把n 個(gè)對(duì)象分為C 個(gè)簇,以使簇內(nèi)有較高的相似度,而簇間的相似度較低。相似度的計(jì)算根據(jù)一個(gè)簇中對(duì)象的平均仿(被看作簇的重心)來進(jìn)行。其基本思想是:首先隨機(jī)從數(shù)據(jù)集中選取C 個(gè)點(diǎn)作為初始聚類中心(數(shù)量C是在算法運(yùn)行前確定的),然后對(duì)剩余的每個(gè)對(duì)象,根據(jù)其與各個(gè)簇中心的距離,將它賦予最近的簇,重新計(jì)算每個(gè)簇的平均值。
這一過程不斷重復(fù),直到準(zhǔn)則函數(shù)收斂。
通常采用平方誤差準(zhǔn)則,其定義如公式3.1所示:
3.2 層次分析法
3.2.1 層次分析法的歷史
層次分析法(AHP)是將決策總是有關(guān)的元素分解成目標(biāo)、準(zhǔn)則、方案等層次,在此基礎(chǔ)之上進(jìn)行定性和定量分析的決策方法。該方法是美國運(yùn)籌學(xué)家匹茨堡大學(xué)教授薩蒂于本世紀(jì)70 年代初,應(yīng)用網(wǎng)絡(luò)系統(tǒng)理論和多目標(biāo)綜合評(píng)價(jià)方法,提出的一種層次權(quán)重決策分析方法。
3.2.2 層次分析法的特點(diǎn)
層次分析方法的特點(diǎn)是在對(duì)復(fù)雜的決策問題的本質(zhì)、影響因素及其內(nèi)在關(guān)系等進(jìn)行深入分析的基礎(chǔ)上,利用較少的定量信息使決策的思維過程數(shù)學(xué)化,從而為多目標(biāo)、多準(zhǔn)則或無結(jié)構(gòu)特性的復(fù)雜決策問題提供簡(jiǎn)便的決策方法。尤其適合于對(duì)決策結(jié)果難于直接準(zhǔn)確計(jì)量的場(chǎng)合。
k-means算法和層次分析法結(jié)合起來為實(shí)現(xiàn)在超市的CRM(客戶管理系統(tǒng)模型)的應(yīng)用,所以下面章節(jié)就超市CRM(客戶關(guān)系管理系統(tǒng))進(jìn)行建模。
4 基于聚類算法和層次分析法在CRM系統(tǒng)的應(yīng)用
K-means聚類算法在超市CRM的實(shí)例分析
(1)算法:K-means聚類算法。劃分的K-means算法基于簇中對(duì)象的平均值。
(2)輸入:簇的數(shù)目k和包含n個(gè)對(duì)象的數(shù)據(jù)庫。
(3)輸出:k個(gè)簇,滿足平方誤差準(zhǔn)則最小。
(4)對(duì)于數(shù)據(jù)對(duì)象集{x1,x2,x3......xn},隨即選取k 個(gè)初始化中心{y1,y2,y3......yn}作為初始簇的中心。
repeat 計(jì)算各樣本到聚類中心的距離,對(duì)于任意點(diǎn)x,存在Y,,使得其滿足式
(8)until不再發(fā)生變化。
K-means 聚類算法為一種解決聚類問題的經(jīng)典算法,這種算法簡(jiǎn)單、快速。嘗試找出使平方誤差函數(shù)值最小的k個(gè)劃分.作當(dāng)結(jié)果簇是密集的,而簇與簇之間區(qū)別明顯時(shí),它的效果較好。對(duì)于處理大數(shù)據(jù)集,該算法是相對(duì)可伸縮的和高效的,因?yàn)樗膹?fù)雜度是O(nkt),其中,n是所有對(duì)象的數(shù)目,k是簇的數(shù)目,C是迭代的次數(shù)。
通常地,而且t<n。這個(gè)算法經(jīng)常以局部最優(yōu)解結(jié)束。
上述的系列圖說明了應(yīng)用k-means 算法和層次分析法得出用戶潛在價(jià)值的過程。系統(tǒng)在處理海量的顧客數(shù)據(jù)后,可獲得可靠的信息支持策略和商業(yè)決策,競(jìng)爭(zhēng)對(duì)手很難效仿這些決策,因此超市可以在競(jìng)爭(zhēng)中表現(xiàn)出優(yōu)勢(shì)。
5 結(jié)束語
數(shù)據(jù)挖掘是信息技術(shù)發(fā)展到一定階段后產(chǎn)生的新興技術(shù),它是從大量的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的有用的信息和知識(shí)。作為一項(xiàng)決策支持的新技術(shù),目前在國際上對(duì)該領(lǐng)域的研究相當(dāng)活躍。聚類分析是數(shù)據(jù)挖掘的重要內(nèi)容,也是數(shù)據(jù)挖掘領(lǐng)域內(nèi)最為常見的技術(shù)之一,它既可以作為單獨(dú)的工具以發(fā)現(xiàn)數(shù)據(jù)源的數(shù)據(jù)分布信息,也可以作為其他數(shù)據(jù)挖掘算法的一個(gè)預(yù)處理步驟,因此研究聚類算法的性能具有重要的意義。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:基于數(shù)據(jù)挖掘及其在超市CRM的應(yīng)用
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/10839311529.html