當(dāng)今社會(huì)已經(jīng)進(jìn)入了信息時(shí)代,其主要表現(xiàn)形式為互聯(lián)網(wǎng)帶來的信息爆炸:互聯(lián)網(wǎng)作為第四大媒體不僅打破了廣播、電視、報(bào)紙的壟斷,而且還融合了廣播、電視、報(bào)紙的功能,甚至有取代的趨勢(shì):隨著移動(dòng)智能終端和3G業(yè)務(wù)的快速普及,移動(dòng)互聯(lián)網(wǎng)悄然而至,帶給人們更加便捷的視頻、游戲、定位等體驗(yàn)。
目前,移動(dòng)互聯(lián)網(wǎng)在全球已經(jīng)成為最具潛力的市場(chǎng)之一,隨之而來的移動(dòng)互聯(lián)網(wǎng)領(lǐng)域的信息挖掘也顯得日益重要。電信運(yùn)營商通過對(duì)移動(dòng)互聯(lián)網(wǎng)中各項(xiàng)數(shù)據(jù)進(jìn)行挖掘和分析,能夠?qū)τ脩舻氖褂眯袨、興趣愛好、發(fā)展趨勢(shì)等進(jìn)行全面了解,從而指導(dǎo)運(yùn)營商進(jìn)行有效的價(jià)值拓展。
1.需求分析
3G網(wǎng)絡(luò)的不斷優(yōu)化,讓用戶可以隨時(shí)、隨地高速訪問無線數(shù)據(jù)業(yè)務(wù):電信運(yùn)背商抓住了這個(gè)契機(jī),為3G用戶提供豐富多彩的移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)業(yè)務(wù),如手機(jī)音樂、手機(jī)電視、手機(jī)閱讀、手機(jī)郵箱等,數(shù)據(jù)流量也隨之與日俱增,這是增值業(yè)務(wù)收入提高的重要來源。面對(duì)如此眾多的增值業(yè)務(wù),如何讓用戶快速找到自己感興趣的業(yè)務(wù),運(yùn)營商又如何去對(duì)用戶進(jìn)行分類,根據(jù)用戶的興趣愛好有效地推薦業(yè)務(wù),這將是各大運(yùn)營商面臨的一個(gè)重大問題。因此,只有知道用戶在什么地方,什么時(shí)間,訪問了什么內(nèi)容,才能及時(shí)準(zhǔn)確地把握用戶需求。要做到這一點(diǎn),就需要對(duì)移動(dòng)互聯(lián)網(wǎng)信息進(jìn)行深度挖掘和分析,了解用戶興趣點(diǎn)和訪問習(xí)慣等,再通過有針對(duì)性的營銷手段,通過合適的渠道,快速將業(yè)務(wù)信息有效地推廣到用戶終端,促使用戶訪問所感興趣的內(nèi)容,同時(shí)避免對(duì)用戶的重復(fù)打擾,這樣才能真正實(shí)現(xiàn)移動(dòng)互聯(lián)網(wǎng)時(shí)代精細(xì)化運(yùn)營的目標(biāo)。
2.移動(dòng)互聯(lián)網(wǎng)信息挖掘方式
信息挖掘是通過分析用戶數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示等步驟。移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)結(jié)構(gòu)復(fù)雜、數(shù)據(jù)內(nèi)容分散等特點(diǎn),呈現(xiàn)出爆炸性增長的趨勢(shì)。因此,為了從浩如煙海的數(shù)據(jù)中提取出有效信息,必須選擇合適的數(shù)據(jù)挖掘策略。
2.1 信息挖掘流程
信息挖掘是一個(gè)復(fù)雜的過程,需要進(jìn)行大量的數(shù)據(jù)采集和運(yùn)算等。按照基本功能,可以將整個(gè)信息挖掘流程劃分成內(nèi)容采集、內(nèi)容挖掘和行為分析3個(gè)環(huán)節(jié)(見如圖1)。
圖1 信息挖掘流程
2.1.1 內(nèi)容采集
不論是在政府、商業(yè)領(lǐng)域,還是在個(gè)人領(lǐng)域,進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)挖掘的基礎(chǔ)都要基于信息的真實(shí)性和有效性。運(yùn)營商可以將網(wǎng)絡(luò)流量與用戶的真實(shí)身份進(jìn)行對(duì)應(yīng)。從而進(jìn)行有效的數(shù)據(jù)挖掘和分析,有利于后續(xù)運(yùn)營活動(dòng)、網(wǎng)絡(luò)優(yōu)化的開展。內(nèi)容采集主要包括以下3個(gè)方面。
a)垃圾頁面過濾。系統(tǒng)每天從分組域網(wǎng)絡(luò)中獲取了TopN的數(shù)據(jù),而真正有效的內(nèi)容只有一部分,需要在前端排除過濾掉那些不關(guān)心的干擾信息、產(chǎn)品的垃圾頁面等。
b)頁面內(nèi)容爬取。這是將網(wǎng)頁的內(nèi)容通過爬詞引擎獲取的部分,分析頁面代碼格式,清除標(biāo)簽,盡可能獲取內(nèi)容的標(biāo)題、正文、段落、字體、顏色等信息。
c)頁面垃圾過濾。頁面中不可避免地會(huì)存在大量的垃圾信息,這些信息嚴(yán)重干擾到聚類的準(zhǔn)確度,頁面垃圾過濾機(jī)制會(huì)找出包括廣告在內(nèi)的段落,并將其清除,不進(jìn)入內(nèi)容挖掘部分。
2.1.2 內(nèi)容挖掘
內(nèi)容挖掘包括以下3個(gè)方面。
a)頁面內(nèi)容分析。把前置工作過濾完成的真實(shí)頁面內(nèi)容,交給內(nèi)容分析引擎,該引擎分析出信息的標(biāo)題和正文,并將它們進(jìn)行分詞處理,獲取整篇內(nèi)容的關(guān)鍵詞條,為內(nèi)容聚類提供基礎(chǔ)數(shù)據(jù)。
b)頁面內(nèi)容聚類。這是互聯(lián)網(wǎng)信息挖掘引擎的核心部分,把所有經(jīng)過內(nèi)容分析的頁面進(jìn)行聚類分析,把若干相似度高的內(nèi)容聚類成一組,然后交給信息處理引擎分析各組內(nèi)容的相同與不同信息。
c)頁面信息處理。對(duì)聚成相同類別的各個(gè)頁面的信息,進(jìn)行比對(duì)和統(tǒng)計(jì),統(tǒng)計(jì)出這些相同或相似頁面之間的共性與異性,再結(jié)合頁面訪問信息、客戶信息等計(jì)算出相應(yīng)的報(bào)表用于展示。
2.1.3 行為分析
客戶行為分析為內(nèi)容挖掘與客戶關(guān)聯(lián)部分提供數(shù)據(jù)支持,其包括以下2個(gè)部分。
a)客戶畫像?蛻舢嬒袷菍(duì)客戶的多維度描述,是一個(gè)客戶的信息與標(biāo)簽,為相關(guān)數(shù)據(jù)分析提供依據(jù),同時(shí)也是一個(gè)個(gè)客戶群建立的基礎(chǔ)。客戶畫像的維度越多、越精準(zhǔn).就越能夠反映出用戶的興趣、習(xí)慣等?蛻舢嬒竦木S度可以包括基本信息維度、終端維度、流量維度、訪問維度、搜索維度、專題維度、應(yīng)用維度、產(chǎn)品維度、消費(fèi)維度等。
b)客戶洞察?蛻舳床焓菍(duì)單一客戶或客戶群的深度描述。洞察訪問是在個(gè)體的客戶畫像的基礎(chǔ)上,洞察客戶訪問“熱點(diǎn)內(nèi)容”或“熱點(diǎn)標(biāo)題”的客戶特征?蛻舳床煲髲牟煌慕嵌冗M(jìn)行,包括基本屬性、社會(huì)屬性、業(yè)務(wù)屬性、電信屬性、消費(fèi)能力等方面。根據(jù)洞察條件,對(duì)客戶進(jìn)行深度挖掘,挖掘出“熱點(diǎn)內(nèi)容”或“熱點(diǎn)標(biāo)題”的客戶特征,即要洞察出客戶的基本流量、趨勢(shì)、習(xí)慣、終端、訪問、搜索、音樂、視頻、圖片、下載、游戲、閱讀、房產(chǎn)、汽車等特征。
2.2信息挖掘熱點(diǎn)技術(shù)
2.2.1頁面過濾
在一個(gè)網(wǎng)站中,存在很多如廣告、導(dǎo)航頁面、功能頁面、提示頁面等沒有實(shí)際主題的頁面,這些頁面不應(yīng)該參與到內(nèi)容(熱點(diǎn)內(nèi)容)挖掘中來,否則將會(huì)給分析帶來巨大的誤差。因此,必須預(yù)先對(duì)這些頁面進(jìn)行過濾:實(shí)際上,過濾過程是一個(gè)知識(shí)積累的過程。因此,需要建立內(nèi)容過濾的知識(shí)庫,在知識(shí)庫中保存了需要過濾內(nèi)容的規(guī)則。如:廣告頁面直接過濾掉即可,而導(dǎo)航頁面則不進(jìn)行內(nèi)容的文本切詞等后續(xù)挖掘,但需要提取頁面上的所有鏈接以獲取下一級(jí)頁面等。對(duì)于一個(gè)有效頁面,依然需要對(duì)其進(jìn)行內(nèi)容清洗,去掉頁面中的廣告、格式等無效數(shù)據(jù),僅保留主題內(nèi)容。
2.2.2 文本切詞
文本切詞,就是對(duì)過濾和清洗后的主題內(nèi)容迸行詞組劃分,獲取i亥主題的所有關(guān)鍵詞,即將一個(gè)文章的主題內(nèi)容漢字序列切分成一個(gè)個(gè)單獨(dú)的詞。目前的分側(cè)箅法可以分為三大類,分別是基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。目前并不能斷言哪種方法的準(zhǔn)確率更高,因此對(duì)于任何一個(gè)成熟的分詞系統(tǒng)來說,不可能單獨(dú)依靠某一種算法來實(shí)現(xiàn),都需要綜合不同的算法。
a)字符串匹配分詞:又被稱為機(jī)械分詞方法,是按照一定的策略將待分析的漢字串與一個(gè)充分大的機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。目前,該種方法已經(jīng)存在多種較為成熟的算法和模型。應(yīng)用較為廣泛。
b)基于理解的分詞:通過讓計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞的效果。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。由于漢語語言的復(fù)雜性,目前基于理解的分詞系統(tǒng)還處住研究階段。
c)基于統(tǒng)計(jì)的分詞:這種方法只需對(duì)語料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典,但這種方法也有一定的局限性,會(huì)經(jīng)常抽出一些出現(xiàn)頻度高,但并不是詞的常用字組等。
2.2.3 內(nèi)容聚類
聚類分析是人們認(rèn)識(shí)和探索事物內(nèi)在聯(lián)系的一種手段,其目的就是將一個(gè)數(shù)據(jù)集劃分為若干聚類并使得同一個(gè)聚類內(nèi)的數(shù)據(jù)對(duì)象具有較高的相似度。而不同聚類中的數(shù)據(jù)對(duì)象則是不相似的。
不同于內(nèi)容(頁面)分類的把各個(gè)貝面分成各個(gè)類別。內(nèi)容聚類是將相同類別,相同內(nèi)容或相似內(nèi)容的頁面聚合在一起。把其作為比較的對(duì)象,提供最終的內(nèi)容展示基礎(chǔ)。聚類分析是面向?qū)嶋H應(yīng)用的技術(shù),因此聚類的定義與待處理的數(shù)據(jù)類型有關(guān);诓煌哪P蜆(gòu)造思想,目前學(xué)術(shù)界提出了一系列很具體化的定義,如距離模型、質(zhì)心模型、連接模型、密度模型、相似性模型等。以相似性模型為例。相同類別的頁面,通過對(duì)內(nèi)容標(biāo)題或正文的分詞,比較不同文章分詞的相似度,通過聚類算法,滿足條件的文章,被認(rèn)為是聚合的。這里,數(shù)據(jù)(內(nèi)容)對(duì)象之間的相似度由相似系數(shù)確定,而對(duì)象之間是否相似則必須通過預(yù)設(shè)的閾值來加以規(guī)定,相似系數(shù)大于閾值的對(duì)象之間是相似的,否則就是不相似的。
2.2.4 熱點(diǎn)挖掘
熱點(diǎn)挖掘除了對(duì)熱點(diǎn)網(wǎng)站、熱點(diǎn)內(nèi)容、熱點(diǎn)標(biāo)題等通過聚類分析等進(jìn)行挖掘,還需要對(duì)一些未知的熱點(diǎn)信息和熱點(diǎn)關(guān)聯(lián)信息進(jìn)行分析。
a)不確定網(wǎng)絡(luò)熱點(diǎn)主題發(fā)現(xiàn)。數(shù)據(jù)挖掘的魅力在于“發(fā)現(xiàn)”,“發(fā)現(xiàn)”即為事先不可預(yù)知的事物。在網(wǎng)絡(luò)上,發(fā)現(xiàn)新的熱點(diǎn)主題是系統(tǒng)實(shí)現(xiàn)的一項(xiàng)重要技術(shù)特征。“不確定網(wǎng)絡(luò)熱點(diǎn)主題發(fā)現(xiàn)”不事先定義主題,也不事先定義任何關(guān)鍵字,是一種無監(jiān)督、無指導(dǎo)的自然聚類過程。通過無指導(dǎo)的自然聚類,得到一系列網(wǎng)絡(luò)主題,然后提取代表詞,呈現(xiàn)給用戶,用戶通過觀察再賦予主題名。
b)熱點(diǎn)關(guān)聯(lián)分析。關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中最活躍的研究方向之一,它反映了大量數(shù)據(jù)中項(xiàng)目之間有趣的關(guān)聯(lián)或相關(guān)關(guān)系。通過應(yīng)用數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)分析技術(shù),給出關(guān)鍵詞之間的關(guān)聯(lián)關(guān)系。計(jì)算任兩個(gè)關(guān)鍵詞存在關(guān)聯(lián)的支持度和置信度,從而當(dāng)某一關(guān)鍵詞出現(xiàn)時(shí)可以預(yù)測(cè)到與其存在關(guān)聯(lián)關(guān)系的其他關(guān)鍵詞出現(xiàn)的概率。這點(diǎn)在敏感信息監(jiān)控方面尤其重要,可以提前預(yù)判到敏感信息的出現(xiàn),從而提前做出相應(yīng)的處理措施。
3.業(yè)務(wù)應(yīng)用
目前,基于移動(dòng)互聯(lián)網(wǎng)的信息挖掘,結(jié)合運(yùn)營商的業(yè)務(wù)發(fā)展情況,可以開展針對(duì)性業(yè)務(wù)推薦和定向廣告的應(yīng)用探索。其巾,針對(duì)性業(yè)務(wù)推薦是根據(jù)用戶特征推薦可能感興趣的業(yè)務(wù)。可以涵蓋運(yùn)營商的自有業(yè)務(wù)、合作業(yè)務(wù)以及第三方業(yè)務(wù)等;定向廣告是基于用戶信息的挖掘分析進(jìn)行精確投放,既節(jié)約,資源,又可以達(dá)到良好的投放效果。
3.1 針對(duì)性業(yè)務(wù)推薦
移動(dòng)互聯(lián)網(wǎng)時(shí)代。用戶對(duì)信息的獲取需求更為迫切,為用戶推薦合適的內(nèi)容,有利于增加用戶黏性,降低流失率。如用戶訪問門戶網(wǎng)站時(shí),為其推薦適合的書籍、游戲、視頻等。國外運(yùn)營商很早就重視將用戶行為分析技術(shù)應(yīng)用于針對(duì)性營銷,并開展了多種嘗試。例如,Vodafone通過用戶信息挖掘進(jìn)行精確營銷,對(duì)產(chǎn)品銷售提升最高可達(dá)400%?
國內(nèi)運(yùn)營商也建設(shè)了相關(guān)平臺(tái),通過信息挖掘,對(duì)用戶進(jìn)行細(xì)分,營銷人員根據(jù)營銷目標(biāo),結(jié)合產(chǎn)品匹配模型,實(shí)現(xiàn)針對(duì)性業(yè)務(wù)推薦和精確營銷的目的,此外,存新產(chǎn)品開發(fā)過程中,也逐漸重視用戶分析的應(yīng)用和實(shí)踐,針對(duì)不同的用戶群體,開發(fā)不同的產(chǎn)品,制定不同的套餐標(biāo)準(zhǔn)等,并及時(shí)發(fā)現(xiàn)現(xiàn)有產(chǎn)品或業(yè)務(wù)流程的小合理之處。進(jìn)行優(yōu)化和改進(jìn),提高客戶體驗(yàn)。
針對(duì)性業(yè)務(wù)推薦可以基于多種方式。如營業(yè)廳實(shí)體渠道、門戶個(gè)性化展現(xiàn)、電話營銷、以及傳統(tǒng)的短信、彩信和WAP PUSH推廣等。以下是某省通過WAP PUSH推送炫鈴“音樂盒”的營銷案例,采用相同的推廣內(nèi)容和渠道。但隨著目標(biāo)用戶群提取方式的不同,營銷效果和營銷成本都有巨大差異。
方式一:隨機(jī)選取10000個(gè)3G手機(jī)上網(wǎng)的出賬用戶,推送“音樂盒”業(yè)務(wù),用戶訂購率為0.8%。
方式二:根據(jù)訪問和搜索“興趣點(diǎn)”,選取標(biāo)有“音樂類”特征的3 000個(gè)3G用戶進(jìn)行推送,用戶訂購率為7.6%。
對(duì)比以上2種方式發(fā)現(xiàn).經(jīng)過用戶信息挖掘后的針對(duì)性營銷,可以大幅提升成功率,節(jié)約營銷資源。
3.2 定向廣告
通過對(duì)用戶瀏覽、搜索內(nèi)容的分析,有針對(duì)性地投放廣告。以達(dá)到最好的廣告效果。目前這種定向廣告在互聯(lián)網(wǎng)領(lǐng)域應(yīng)用非常廣泛,例如Google的Adwords,根據(jù)用戶當(dāng)前閱讀的內(nèi)容投放精確廣告;騰訊利用其QQ用戶的行為和偏好信息開展游戲等相關(guān)業(yè)務(wù)的精準(zhǔn)營銷。
以手機(jī)終端或業(yè)務(wù)為載體的移動(dòng)廣告形式多種多樣,如短信廣告、彩信廣告、WAP廣告、程序嵌入式廣告、位置廣告、手機(jī)視頻廣告、搜索廣告等。因此,利用手機(jī)用戶的信息挖掘和行為分析,基于移動(dòng)廣告的多種形式,結(jié)合相應(yīng)的推薦模型?梢酝ㄟ^精準(zhǔn)友好的方式及時(shí)推送有效的手機(jī)廣告。
在移動(dòng)通信領(lǐng)域,很多國外運(yùn)營商都開展了定向廣告服務(wù),如美國spint通過對(duì)用戶位置信息分布的分析,為廣告商,商場(chǎng)提供最佳廣告/開店位置服務(wù);新加坡電信業(yè)也通過用戶信息和位置信息提供廣告服務(wù);英國新興運(yùn)營商Blyk通過精準(zhǔn)營銷廣告運(yùn)作,使最高用戶響應(yīng)率達(dá)51%(普通方式投放的響應(yīng)率不足1%)。
4.結(jié)束語
移動(dòng)互聯(lián)網(wǎng)是目前移動(dòng)通信發(fā)展的趨勢(shì)。是運(yùn)營商需要重點(diǎn)關(guān)注的領(lǐng)域。借助有效的信息挖掘技術(shù)。提取用戶信息,分析用戶的特征,從而有針對(duì)性地開展運(yùn)營和服務(wù),并根據(jù)營銷結(jié)果進(jìn)行進(jìn)一步的信息挖掘和分析,從而形成良性的閉環(huán)營銷體系。如何開展好高效的信息挖掘工作,充分發(fā)揮運(yùn)營商的智能管道優(yōu)勢(shì),持續(xù)做好流量和業(yè)務(wù)運(yùn)營將是運(yùn)營商探索的一個(gè)方向。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:移動(dòng)互聯(lián)網(wǎng)信息挖掘的實(shí)現(xiàn)及應(yīng)用淺析
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/10839511094.html