數(shù)據(jù)挖掘通常包括數(shù)據(jù)搜集、數(shù)據(jù)分析處理、規(guī)律知識(shí)展示以及知識(shí)運(yùn)用等幾項(xiàng)因素.然而在現(xiàn)實(shí)社會(huì)中絕大多數(shù)的數(shù)據(jù)均受到了一定程度的污染,導(dǎo)致了基本所以進(jìn)行挖掘及處理的數(shù)據(jù)都是一些受污染的損壞數(shù)據(jù)池就是說(shuō),沒(méi)有健康的原始數(shù)據(jù)做依托,根本無(wú)法得出科學(xué)可靠的規(guī)律知識(shí).在這些大量且繁雜的數(shù)據(jù)中部分?jǐn)?shù)據(jù)屬于冗余數(shù)據(jù)部分屬于無(wú)關(guān)數(shù)據(jù)還有部分屬于損壞數(shù)據(jù),它們直接影響了規(guī)律知識(shí)的研發(fā)因此應(yīng)當(dāng)充分研究并利用數(shù)據(jù)挖掘技術(shù)從而確保數(shù)據(jù)的健康可用性肩利于數(shù)據(jù)分析處理與規(guī)律知識(shí)研發(fā)等后期工作的順利開(kāi)展。
1數(shù)據(jù)挖掘的定義及其特征
數(shù)據(jù)挖掘指的是從數(shù)據(jù)庫(kù)里挖掘出可用的、新穎的、有價(jià)值的并且模式規(guī)范的數(shù)據(jù)的一個(gè)實(shí)現(xiàn)過(guò)程。數(shù)據(jù)挖掘即依據(jù)數(shù)據(jù)庫(kù)中數(shù)據(jù)的高效存儲(chǔ)功能,利用機(jī)器技術(shù)的新型設(shè)計(jì)理念將具有潛在利用價(jià)值的數(shù)據(jù)知識(shí)挖掘出來(lái).因此,數(shù)據(jù)挖掘技術(shù)屬于數(shù)據(jù)統(tǒng)計(jì)技術(shù)、機(jī)器技術(shù)與數(shù)據(jù)庫(kù)處理技術(shù)三者結(jié)合運(yùn)用的成果,其多應(yīng)用于工程上進(jìn)行規(guī)律知識(shí)的研發(fā)。
數(shù)據(jù)挖掘同時(shí)也可以表述為一種用于大量繁雜數(shù)據(jù)處理的方法相對(duì)與人腦而言啟能夠更快速地獲取有用的數(shù)據(jù)信息。因此六們習(xí)慣性地賦予了數(shù)據(jù)挖掘另一個(gè)專業(yè)術(shù)語(yǔ),即知識(shí)發(fā)現(xiàn)。
數(shù)據(jù)挖掘具有以下主要特征首先能夠?qū)?shù)量龐大且紛繁復(fù)雜的數(shù)據(jù)進(jìn)行有效的處理淇次能夠?qū)崿F(xiàn)對(duì)數(shù)據(jù)信息的自動(dòng)搜索再次能夠通過(guò)數(shù)據(jù)統(tǒng)計(jì)分析總結(jié)歸納其規(guī)律知識(shí)并做出一定的預(yù)測(cè)最后經(jīng)過(guò)挖掘的數(shù)據(jù)能夠快速及時(shí)的展示數(shù)據(jù)的規(guī)律知識(shí)。
2數(shù)據(jù)挖掘過(guò)程的基本步驟
通常情況下數(shù)據(jù)挖掘過(guò)程包括明確問(wèn)題、數(shù)據(jù)準(zhǔn)備、算法選定、模式評(píng)估以及知識(shí)表示五個(gè)基本步驟,具體如下:
2.1明確問(wèn)題
整個(gè)數(shù)據(jù)挖掘過(guò)程的目的是從大量繁雜的數(shù)據(jù)中獲取有價(jià)值的可用數(shù)據(jù)信心,所以在進(jìn)行數(shù)據(jù)挖掘之前明確所要獲取的數(shù)據(jù)知識(shí)是整個(gè)挖掘過(guò)程中極為關(guān)鍵的一步.在明確問(wèn)題的過(guò)程中除了要根據(jù)實(shí)際情況明確相關(guān)要求外,還需要明確應(yīng)當(dāng)采用哪些切實(shí)可行的數(shù)據(jù)挖掘技術(shù)方法。
2.2數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)準(zhǔn)備的具體內(nèi)容包括數(shù)據(jù)篩選、數(shù)據(jù)處理以及數(shù)據(jù)轉(zhuǎn)換三個(gè)方面。數(shù)據(jù)篩選時(shí)為了確定進(jìn)行數(shù)據(jù)挖掘的具體對(duì)象,即結(jié)合實(shí)際工作需要從數(shù)據(jù)庫(kù)中選取一定的數(shù)據(jù).數(shù)據(jù)處理主要是對(duì)數(shù)據(jù)進(jìn)行形式轉(zhuǎn)換、噪音消除、缺省值推導(dǎo)以及重復(fù)數(shù)據(jù)合并等處理。數(shù)據(jù)轉(zhuǎn)換則是為了盡可能的縮減數(shù)據(jù)維數(shù)為后期的數(shù)據(jù)統(tǒng)計(jì)分析提供便利。
2.3算法選定
算法選定指的是數(shù)據(jù)挖掘算法的選擇與確定.在根據(jù)明確問(wèn)題的具體數(shù)據(jù)挖掘任務(wù)及目標(biāo)(如數(shù)據(jù)聚類、關(guān)聯(lián)規(guī)則及數(shù)據(jù)模式確定等)之后便要選定恰當(dāng)?shù)臄?shù)據(jù)挖掘算法.在算法選定過(guò)程中,應(yīng)當(dāng)根據(jù)不同數(shù)據(jù)的數(shù)據(jù)特征以及實(shí)際工作的運(yùn)行系統(tǒng)的具體要求進(jìn)行選擇。
2.4模式評(píng)估
在數(shù)據(jù)的挖掘結(jié)果中,存在著部分沒(méi)有利用價(jià)值或者與違背實(shí)際規(guī)律的結(jié)果因此對(duì)挖掘結(jié)果進(jìn)行模式評(píng)估是十分必要的一般情況下河以通過(guò)結(jié)合相關(guān)工作經(jīng)驗(yàn)或者利用實(shí)際數(shù)據(jù)信息對(duì)挖掘模型的準(zhǔn)確性進(jìn)行評(píng)估,從而不斷地調(diào)整并完善數(shù)據(jù)挖掘模型。
2.5知識(shí)表示
知識(shí)表示也就是決策者對(duì)數(shù)據(jù)挖掘結(jié)果的分析決策,即決策者依據(jù)挖掘結(jié)果并結(jié)合具體工作情況對(duì)相關(guān)策略不斷地進(jìn)行調(diào)試的過(guò)程。
上述步驟并非可以一步到位,或許需要不斷反復(fù)進(jìn)行某個(gè)或某些步驟才能得到最佳效果。
3數(shù)據(jù)挖掘的技術(shù)方法
數(shù)據(jù)挖掘的技術(shù)方法多種多樣,比如神經(jīng)網(wǎng)絡(luò)、統(tǒng)計(jì)分析法、決策樹(shù)歸納法、遺傳算法、粗糙集理論、模糊集理論、可視化、分類法、規(guī)則歸納法、證據(jù)理論、聚類法、數(shù)據(jù)倉(cāng)庫(kù)等等.本文就以下幾種主要的、常用的數(shù)據(jù)挖掘技術(shù)方法進(jìn)行概述:
3.1決策樹(shù)歸納法
決策樹(shù)歸納法就是通過(guò)依據(jù)信息增益來(lái)獲取數(shù)據(jù)庫(kù)中信息字段的大小來(lái)設(shè)立決策樹(shù)的節(jié)點(diǎn),再依據(jù)字段的取值范圍來(lái)確定決策樹(shù)的各個(gè)分支.通過(guò)一層一層地不斷建立決策樹(shù)節(jié)點(diǎn)與分支便形成了決策樹(shù)。決策樹(shù)歸納法常用于對(duì)數(shù)據(jù)進(jìn)行分類及預(yù)測(cè)。
3.2神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)計(jì)算模型的建立源自于仿造人體的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以及其他人體工作機(jī)能.神經(jīng)網(wǎng)絡(luò)是以學(xué)習(xí)模式為腳本并以此來(lái)控制神經(jīng)元鏈接的權(quán)值大小(即強(qiáng)度).神經(jīng)網(wǎng)絡(luò)計(jì)算模型具有通過(guò)利用眾多神經(jīng)元說(shuō)鏈接形成的神經(jīng)網(wǎng)絡(luò)進(jìn)行大規(guī)模的逐步計(jì)算的重要特征。
3.3統(tǒng)計(jì)分析法
統(tǒng)計(jì)分析法在挖掘數(shù)據(jù)的關(guān)聯(lián)信息上起到重要作用.通過(guò)統(tǒng)計(jì)及分析數(shù)據(jù)關(guān)系表中的各項(xiàng)數(shù)據(jù)特性,獲取數(shù)據(jù)信心間的內(nèi)在聯(lián)系.通常情況下數(shù)據(jù)關(guān)系表的數(shù)據(jù)特性間的關(guān)系有相關(guān)關(guān)系與函數(shù)關(guān)系.常用的統(tǒng)計(jì)分析方法包括回歸分析、相關(guān)性分析以及規(guī)律分析等等。
3.4模糊集理論
模糊集理論主要應(yīng)與處理或者展示數(shù)據(jù)的不確定模型。此外膜糊集理論除了能夠處理或展示不完整數(shù)據(jù)、不精準(zhǔn)數(shù)據(jù)或者噪音數(shù)據(jù)以外還能夠研發(fā)數(shù)據(jù)的不確定模型并確保其靈活性與平滑性。
3.5遺傳算法
遺傳算法是在自然選擇學(xué)說(shuō)和基因遺傳學(xué)說(shuō)的基礎(chǔ)上建立起來(lái)的并以達(dá)爾文進(jìn)化論理論為模擬藍(lán)本在計(jì)算機(jī)操作算法的一門(mén)學(xué)科吼具體來(lái)說(shuō)是通過(guò)其中的一種算法把任何一種種群放到這種算法操作中產(chǎn)生新的個(gè)體再讓這一新個(gè)體選擇到更好的區(qū)域并在這個(gè)區(qū)域不斷虛擬進(jìn)化,最后讓這些能適用的新環(huán)境的新個(gè)體集合成新的群體,同時(shí)這些新個(gè)體又被賦予了一個(gè)新的適合值,這就是遺傳算法。遺傳算法的主要功能是用在分類和組合上。
3.6粗糙集理論
粗糙集理論在上世紀(jì)的八十年代中首先被提出,相對(duì)于其他計(jì)算方法啟是一種軟計(jì)算方法能夠處理不完全或者不確定的信息對(duì)不同的屬性值進(jìn)行離散分析再對(duì)這些屬性劃分類別再集合等價(jià)最后是決策最終獲取規(guī)則。實(shí)現(xiàn)數(shù)據(jù)挖掘技術(shù)的成功處理。
4數(shù)據(jù)挖掘的應(yīng)用
在國(guó)內(nèi)數(shù)據(jù)挖掘技術(shù)的應(yīng)用并不算廣泛,僅在上海寶鋼等一些大型企業(yè)有所應(yīng)用,并且僅僅把數(shù)據(jù)挖掘技術(shù)當(dāng)成是一種輔助的工具對(duì)生產(chǎn)進(jìn)行輔助決策河是卻能提高生產(chǎn)的效率節(jié)約成本.在全球上數(shù)據(jù)挖掘技術(shù)的應(yīng)用很廣泛具體如下:
4.1科學(xué)研究方面
數(shù)據(jù)挖掘技術(shù)能夠應(yīng)用到天文學(xué)科學(xué)領(lǐng)域、生物科學(xué)研究領(lǐng)域、物理科學(xué)研究領(lǐng)域等領(lǐng)域中,尤其是在微觀方面能夠用各種數(shù)據(jù)分析遙遠(yuǎn)的星體的距離預(yù)測(cè)地球以外中星體狀況能夠通過(guò)先進(jìn)儀器運(yùn)用數(shù)據(jù)挖掘分析生物中的基因發(fā)現(xiàn)各種基因的異同然后研發(fā)出新的生物分子配置推動(dòng)生物工程的發(fā)展.尤其是近些年來(lái)科學(xué)研究領(lǐng)域中對(duì)微觀科學(xué)研究越來(lái)越重視數(shù)據(jù)挖掘更是得到飛速發(fā)展。
4.2商業(yè)經(jīng)營(yíng)方面
當(dāng)今商業(yè)領(lǐng)域的競(jìng)爭(zhēng)尤其激烈除了有一流的人才廠流的管理和一流的設(shè)備以外,對(duì)數(shù)據(jù)的收集也是非常的關(guān)鍵.如在零售業(yè)中商品的銷售量都不一樣單靠人工操作,也只能粗淺分析某一商品的銷量的多少,并不能分析某一類商品的性質(zhì)和類別購(gòu)買的群體等.而各種數(shù)據(jù)不斷增加,人工效率不高嘰運(yùn)用數(shù)據(jù)挖掘知識(shí)技術(shù)能夠讓經(jīng)營(yíng)者在最短的時(shí)間內(nèi)做出最有利的判斷制定各種商業(yè)經(jīng)營(yíng)策略預(yù)測(cè)各種銷售情況.很多大型的外國(guó)公司都很好利用了數(shù)據(jù)挖掘技術(shù)加運(yùn)用Inetlligent Miner系統(tǒng)挖掘顧客的購(gòu)物行為。
4.3金融投資方面
股市有風(fēng)險(xiǎn)投資需謹(jǐn)慎單憑個(gè)人的經(jīng)驗(yàn)以及所學(xué)到的一些金融知識(shí)我們只能從宏觀上把握整體的金融走勢(shì),然而若要從微觀去把握和分析某一種金融項(xiàng)目進(jìn)行投資,則需要運(yùn)用各種數(shù)據(jù)挖掘,通過(guò)這些數(shù)據(jù)才能處理人無(wú)法判斷和分析的內(nèi)容最終才能做出最合適的選擇.例如我們能從股市中的各種微觀數(shù)據(jù)判斷整個(gè)大盤(pán)的走勢(shì),而不僅僅是純粹了解國(guó)家的宏觀政策。
4.4醫(yī)療設(shè)備方面
當(dāng)代的醫(yī)療技術(shù)發(fā)展很快,這得益于一些先進(jìn)的設(shè)備的使用.通過(guò)這些先進(jìn)的設(shè)備能夠分析各種藥物的分子和原子結(jié)構(gòu)結(jié)合病情案例進(jìn)行分析整合在不同的分子結(jié)構(gòu)和基因結(jié)構(gòu)快速地轉(zhuǎn)換和檢查得出治療的最佳方案。同時(shí)還能夠用不同的數(shù)據(jù)挖掘配出各種新藥治療其他的病癥。
4.5保險(xiǎn)評(píng)估方面
保險(xiǎn)業(yè)本身是給顧客辦理保險(xiǎn)的,但保險(xiǎn)本身就是個(gè)行業(yè)保險(xiǎn)行業(yè)也是以盈利為目的因而對(duì)于一些高風(fēng)險(xiǎn)的生意同樣需要檢測(cè)評(píng)估若是風(fēng)險(xiǎn)大的保險(xiǎn)領(lǐng)域則需要挖掘高風(fēng)險(xiǎn)的數(shù)據(jù)對(duì)這些數(shù)據(jù)評(píng)估、檢測(cè)、然后做出判斷最后知道保險(xiǎn)公司的進(jìn)一步經(jīng)營(yíng).在當(dāng)今內(nèi)容多煩雜亂競(jìng)爭(zhēng)異常激烈的保險(xiǎn)業(yè)務(wù)能夠建立數(shù)據(jù)挖掘數(shù)據(jù)系統(tǒng),能夠促進(jìn)保險(xiǎn)業(yè)務(wù)的發(fā)展。
4.6通信網(wǎng)絡(luò)方面
網(wǎng)絡(luò)通信中有很多網(wǎng)絡(luò)警告語(yǔ),有的警告語(yǔ)是可以理解的肩的警告語(yǔ)是可以忽視的但是有的警告語(yǔ)必須及時(shí)處理,這些急需處理的警告語(yǔ)一般都是根據(jù)人的經(jīng)驗(yàn)去處理這樣的處理大大降低了工作效率增加了很多成本。數(shù)據(jù)挖掘恰恰能彌補(bǔ)這個(gè)效率不高的短板,它通過(guò)分析各種警告數(shù)據(jù)再獲取各種警告數(shù)據(jù)之間的邏輯關(guān)系和數(shù)據(jù)關(guān)系,從而做出正確的判斷。通過(guò)數(shù)據(jù)挖掘能有效地處理通信網(wǎng)絡(luò)的故障還能檢測(cè)可能發(fā)生故障的網(wǎng)絡(luò)。
5結(jié)語(yǔ)
對(duì)于數(shù)據(jù)挖掘規(guī)在全球都處于一個(gè)起步的研究階段,無(wú)論是科學(xué)理論、科學(xué)方法還是各種軟件技術(shù)都不是很成熟但是由于其能融合各種數(shù)據(jù)分析、工程知識(shí)、各種統(tǒng)計(jì)數(shù)據(jù)、交互環(huán)境等各種學(xué)科的特點(diǎn)對(duì)人類有很大的應(yīng)用價(jià)值。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:淺析數(shù)據(jù)挖掘的技術(shù)方法及應(yīng)用
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/10820616311.html