1、數(shù)據(jù)挖掘的定義及研究內(nèi)容
數(shù)據(jù)挖掘是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中挖掘知識的過程。對數(shù)據(jù)挖掘與知識發(fā)現(xiàn)的一個比較公認(rèn)的定義是:從數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中識別和提取出潛在的、可信的、新穎的、有效的并能被人理解的關(guān)系、規(guī)則、特征的非平凡的過程。數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)庫技術(shù)和人工智能技術(shù)相結(jié)合的產(chǎn)物,解決了在信息技術(shù)發(fā)展中存在擁有大量數(shù)據(jù)但缺乏有用信息的問題,完成從業(yè)務(wù)數(shù)據(jù)到?jīng)Q策信息的轉(zhuǎn)換。數(shù)據(jù)的多樣化要求數(shù)據(jù)挖掘也應(yīng)能對各種各樣的數(shù)據(jù)進(jìn)行挖掘。數(shù)據(jù)挖掘中的原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù);也可以是半結(jié)構(gòu)化的,如文本、圖形、圖像數(shù)據(jù);甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。
2、數(shù)據(jù)挖掘的過程
數(shù)據(jù)挖掘是一個處于發(fā)展中的技術(shù)框架,已部分投入實(shí)際生產(chǎn)實(shí)踐。隨著信息化應(yīng)用的普及,市局信通存儲的信息量會愈發(fā)龐大。當(dāng)前社會,如何有效進(jìn)行信息搜索,獲取需要信息,已經(jīng)成為越來越多行業(yè)和從業(yè)人員謀求發(fā)展的重要途徑。數(shù)據(jù)挖掘的核心在于從數(shù)據(jù)庫中搜索那些未知的、價值量大、結(jié)構(gòu)復(fù)雜的信息。在此過程中,數(shù)據(jù)的整理就顯得尤為重要,如何進(jìn)行數(shù)據(jù)挖掘,搜索有效信息,主要包括以下幾個步驟。
2.1 數(shù)據(jù)準(zhǔn)備
一般地,在數(shù)據(jù)挖掘的過程中,首先要做的就是數(shù)據(jù)的整合,因?yàn)樵诂F(xiàn)實(shí)生活中,完整無誤的數(shù)據(jù)極其少見,必須進(jìn)行相應(yīng)處理,去偽存真,提高信息的準(zhǔn)確度。通常情況下,數(shù)據(jù)準(zhǔn)備一般包括以下幾點(diǎn):(1)數(shù)據(jù)清理:現(xiàn)實(shí)中的數(shù)據(jù)一般是不完整、不一致的,數(shù)據(jù)清理就是要消除那些錯誤數(shù)據(jù),進(jìn)行數(shù)據(jù)的識別。(2)數(shù)據(jù)集成:將多數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行合并處理,解決語義模糊性并整合成一致的數(shù)據(jù),然后存放在一個統(tǒng)一的數(shù)據(jù)存儲中。(3)數(shù)據(jù)選擇及變換:數(shù)據(jù)選擇是在對發(fā)現(xiàn)任務(wù)各數(shù)據(jù)本身內(nèi)容理解的基礎(chǔ)上,盡可能保持?jǐn)?shù)據(jù)原貌,最大限度地精簡數(shù)據(jù)量。同時縮小處理范圍,進(jìn)一步約簡數(shù)據(jù)。
2.2 構(gòu)建模型
模型構(gòu)建是數(shù)據(jù)挖掘的核心,在構(gòu)建之前必須理解數(shù)據(jù)挖掘項(xiàng)目的目的和數(shù)據(jù)挖掘任務(wù)的類型。確定任務(wù)之后,再決定使用什么樣的挖掘算法。
2.3 模式評估
數(shù)據(jù)挖掘得到的模式有可能是沒有實(shí)際意義的,因此要對數(shù)據(jù)挖掘結(jié)果進(jìn)行評估,確定挖掘結(jié)果是否正確。
2.4 知識表達(dá)
使用可視化和知識表示技術(shù),對提取的信息進(jìn)行分析,把最有價值的信息區(qū)分出來,提交給決策者,向用戶提供挖掘的知識。
3、數(shù)據(jù)挖掘方法
3.1 關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是由R.Agrawal等人在1993年提出的概念,旨在尋找在同一事物中出現(xiàn)的不同項(xiàng)的相關(guān)性。在數(shù)據(jù)挖掘研究領(lǐng)域,對關(guān)聯(lián)規(guī)則的研究開展得比較深入,它是數(shù)據(jù)挖掘研究中的一個重要分支,也是最活躍的一個分支之一。從大型數(shù)據(jù)庫中挖掘出關(guān)聯(lián)規(guī)則問題己成為數(shù)據(jù)挖掘中最成熟、最重要、最活躍的研究內(nèi)容之一。關(guān)聯(lián)規(guī)則形如這樣的規(guī)則:“在購買計(jì)算機(jī)的顧客中,有30%同時購買了打印機(jī)”。簡潔、易于理解的形式和有效捕捉數(shù)據(jù)間的重要關(guān)系,是使得關(guān)聯(lián)規(guī)則成為眾多數(shù)據(jù)挖掘方法中的經(jīng)典的一個重要因素。
3.2 決策樹
決策樹是數(shù)據(jù)挖掘分類算法的一個重要方法,用二叉樹形圖來表示處理邏輯,以直觀、清晰地表達(dá)加工的邏輯要求,別適合于判斷因素比較少、邏輯組合關(guān)系不復(fù)雜的情況。決策樹,在發(fā)生概率的基礎(chǔ)上,評價項(xiàng)目風(fēng)險,判斷其可行性。決策樹是一個預(yù)測模型;它代表的是對象屬性與對象值之間的一種映射關(guān)系。決策樹是一個類似于流程圖的樹結(jié)構(gòu),其中每個內(nèi)部節(jié)點(diǎn)表示一個在屬性上的測試,決策樹中最上面的節(jié)點(diǎn)稱為根節(jié)點(diǎn),是整個決策樹的開始。決策樹的每個節(jié)點(diǎn)子節(jié)點(diǎn)的個數(shù)與決策樹的算法有關(guān)。在沿著決策樹從上到下遍歷的過程中,每個節(jié)點(diǎn)都會遇到一個問題,對每個節(jié)點(diǎn)上問題的不同回答導(dǎo)致不同的分支,最后會到達(dá)一個葉子節(jié)點(diǎn)。
3.3 聚類分析
聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。它是一種重要的人類行為,它在數(shù)據(jù)相似的基礎(chǔ)上統(tǒng)一進(jìn)行數(shù)據(jù)整理匯總,然后分類。聚類分析的應(yīng)用十分廣泛,不僅在數(shù)學(xué)和計(jì)算機(jī)領(lǐng)域使用,還在統(tǒng)計(jì)學(xué)和經(jīng)濟(jì)學(xué)等學(xué)科上發(fā)揮著巨大作用。將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程稱為聚。聚類與分類的不同之處在于:聚類是根據(jù)一定的聚類規(guī)則,將具有某種相同特征的數(shù)據(jù)聚在一起,也稱之為無監(jiān)督學(xué)習(xí),聚類分析時數(shù)據(jù)集合的特征是未知的;而分類是有監(jiān)督的學(xué)習(xí),在分類之前,用戶就知道數(shù)據(jù)可分為幾類,將要處理的數(shù)據(jù)按照分類標(biāo)準(zhǔn)分入不同的類別。
4、數(shù)據(jù)挖掘的應(yīng)用
4.1 在科學(xué)研究中應(yīng)用
隨著先進(jìn)的科學(xué)數(shù)據(jù)收集工具的使用,數(shù)據(jù)挖掘在觀測衛(wèi)星、遙感器、DNA分析等方面發(fā)揮了更要的作用。如在生物學(xué)方面,數(shù)據(jù)挖掘中的數(shù)據(jù)清理和數(shù)據(jù)集成方法有助于基因數(shù)據(jù)集成和用于基因數(shù)據(jù)分析的數(shù)據(jù)倉庫的構(gòu)造;數(shù)據(jù)挖掘中的關(guān)聯(lián)分析方法可用于幫助確定在目標(biāo)樣本中同時出現(xiàn)的基因種類,有助于發(fā)現(xiàn)基因組和對基因間的交叉于聯(lián)系的研究;基因數(shù)據(jù)庫搜索技術(shù)己在基因研究上取得了很多重大發(fā)現(xiàn)。
4.2 在商業(yè)上的應(yīng)用
在商業(yè)領(lǐng)域,零售業(yè)是數(shù)據(jù)挖掘的主要應(yīng)用領(lǐng)域。零售業(yè)每天的銷售積累了大量的銷售數(shù)據(jù),特別是現(xiàn)在,許多商店都有自己的Web站點(diǎn),顧客可以方便地在線購買商品,零售數(shù)據(jù)不斷激增,為數(shù)據(jù)挖掘提供了豐富的資源。零售數(shù)據(jù)挖掘可有助于識別顧客的購買行為,發(fā)現(xiàn)顧客購買模式和趨勢,改變服務(wù)質(zhì)量,從而取得更好的顧客保持力,提高銷售競爭力。
4.3 在金融上的應(yīng)用
一般地,在銀行和一些金融機(jī)構(gòu)中,數(shù)據(jù)保密是其工作的重點(diǎn)環(huán)節(jié),然而在實(shí)際生活中,由于金融行業(yè)的職業(yè)特點(diǎn),他們在進(jìn)行金融活動時產(chǎn)生的一些相關(guān)數(shù)據(jù)大都完整準(zhǔn)確,可信度高。這一方面為金融工作的順利進(jìn)行創(chuàng)造了良好條件,另一方面,這些數(shù)據(jù)分析和挖掘難度低,可操作性強(qiáng)也容易給不法分子以可乘之機(jī),產(chǎn)生金融風(fēng)險。在這種情況下,數(shù)據(jù)挖掘可以預(yù)測金融風(fēng)險、了解客戶狀況、防止黑客攻擊等。
5、結(jié)束語
數(shù)據(jù)挖掘是搜索隱藏信息,獲取情報的過程,它的應(yīng)用性強(qiáng)、涉及面廣、科學(xué)要求程度高。在現(xiàn)階段,數(shù)據(jù)挖掘主要運(yùn)用在計(jì)算機(jī)數(shù)據(jù)處理上,依靠數(shù)據(jù)挖掘可實(shí)現(xiàn)信息采集處理和分析,具有極強(qiáng)的時代意義。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:數(shù)據(jù)挖掘應(yīng)用性的研究
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/10839314459.html