1.問題的提出
每種設備在試驗過程都會產生并積累大量的原始數(shù)據(jù)、過程數(shù)據(jù)、結果數(shù)據(jù)、分析數(shù)據(jù)、報告數(shù)據(jù)等。另外對于復雜的設備試驗通常具有結構復雜、測量參數(shù)多、測量設備種類繁雜、試驗資源分散、試驗流程復雜、時間跨度大及試驗數(shù)據(jù)共享困難等特點,因此其數(shù)據(jù)管理、分析與利用就較困難。根據(jù)試驗設備的類型不同,其試驗數(shù)據(jù)的文件類型和數(shù)據(jù)格式也不盡相同,例如數(shù)據(jù)格式有數(shù)字、模擬、音頻和視頻等,文件類型包括文本文件、格式文件、壓縮文件、非壓縮文件等,試驗人員往往以手動的形式對數(shù)據(jù)進行分類、篩選和整理,由于這種手工操作可能引起數(shù)據(jù)的丟失或對進行數(shù)據(jù)篩選過程中出現(xiàn)錯誤,造成了寶貴的試驗數(shù)據(jù)的丟失。試驗數(shù)據(jù)的存儲目前多數(shù)采用磁盤存儲,或建立數(shù)據(jù)管理系統(tǒng)將數(shù)據(jù)存儲到數(shù)據(jù)庫中,如何有效的利用這些數(shù)據(jù),從紛雜的數(shù)據(jù)中提取出有用的信息,數(shù)據(jù)挖掘技術能解決這些問題。
2 數(shù)據(jù)挖掘技術
數(shù)據(jù)挖掘技術是多學科交叉的新興技術,隨著數(shù)據(jù)的大量積累以及市場競爭對信息與知識的迫切需求,數(shù)據(jù)挖掘技術迅速發(fā)展,逐漸成為人們關注的焦點。目前主流的數(shù)據(jù)挖掘方法有CRISPDM、SEMMA和IBM等,常用的數(shù)據(jù)挖掘工具有SQL Server 2005 Data Mining、SPSS/Clementine等。
數(shù)據(jù)挖掘技術實現(xiàn)數(shù)據(jù)采集、數(shù)據(jù)清洗、規(guī)則歸納、模式識別、數(shù)據(jù)/結果分析及評估、可視化輸出全過程,可分成業(yè)務理解、數(shù)據(jù)理解、數(shù)據(jù)準備、建模和模型評估幾個步驟。數(shù)據(jù)挖掘流程如圖1所示。整個數(shù)據(jù)挖掘過程可形成閉環(huán)結構,在數(shù)據(jù)挖掘過程也是一個不斷迭代的過程,直至滿足業(yè)務需求為止。
圖1.數(shù)據(jù)挖掘流程
業(yè)務理解是初始階段,主要集中在對任務目標的理解,以及從、業(yè)務角度對客戶需求的理解,并將這些理解轉化為一種數(shù)據(jù)挖掘的定義和為了達到目標的初步方案。
數(shù)據(jù)理解階段包括收集數(shù)據(jù),熟悉數(shù)據(jù)和檢測數(shù)據(jù)的質量,對數(shù)據(jù)有初步的理解,探測數(shù)據(jù)中比較有用的數(shù)據(jù)子集,形成對潛在信息的各種假設。
數(shù)據(jù)準備階段包括從原始復雜粗糙的數(shù)據(jù)中構建最終數(shù)據(jù)集的所有工作,包括數(shù)據(jù)制表、記錄、數(shù)據(jù)變量的選擇和轉換,以及為適應建模工具而進行的數(shù)據(jù)清理等,該階段可能進行多次。建模是指通過建模校準參數(shù),建模方法有多種且建模方法對數(shù)據(jù)格式有具體的要求。
模型評估是對構建的多個模型進行評估,確定是否達到了任務的目標,建模過程中是否充分的注意和考慮了重要的問題。這一階段結束后,數(shù)據(jù)挖掘結果基本滿足任務要求。
模型發(fā)布是將數(shù)據(jù)信息以一種用戶能夠使用的方式組織和呈現(xiàn)。根據(jù)需求的不同,模型發(fā)布可以為一份報告或復雜的統(tǒng)計分析數(shù)據(jù)等。數(shù)據(jù)挖掘過程中一個重要的組成部分是算法,目前數(shù)據(jù)挖掘的算法相對比較成熟,所不同的是算法的實現(xiàn)和對性能的優(yōu)化,根據(jù)實際問題選擇優(yōu)化的算法是非常重要的。常用的算法有:決策樹算法、神經網絡算法、基因算法、貝葉斯網絡方法、支持向量機等。
3 試驗數(shù)據(jù)挖掘分析
試驗數(shù)據(jù)挖掘包括數(shù)據(jù)準備、數(shù)據(jù)知識和信息挖掘兩個階段。
3.1 數(shù)據(jù)準備
首先選擇數(shù)據(jù)。收集原始的試驗數(shù)據(jù),將大量的試驗數(shù)據(jù)按照類型分類、匯總,并將數(shù)據(jù)存儲在數(shù)據(jù)庫或數(shù)據(jù)倉庫中,并從中選擇出適用于數(shù)據(jù)挖掘應用的數(shù)據(jù)。
其次預處理數(shù)據(jù)。研究試驗原始數(shù)據(jù)的質量,去掉不合適的數(shù)據(jù)或數(shù)據(jù)類型,為進一步進行的數(shù)據(jù)分析、數(shù)據(jù)挖掘作準備。最后數(shù)據(jù)的轉換。將準備好的試驗數(shù)據(jù)按照數(shù)據(jù)挖掘模型進行轉換,使其轉換成一個數(shù)據(jù)分析模型。
3.2 試驗數(shù)據(jù)的知識和信息的挖掘
作為數(shù)據(jù)挖掘技術的核心,知識與信息的挖掘是非常重要的,主要由以下幾部分構成:
(1)確定試驗數(shù)據(jù)挖掘的任務類型,確定系統(tǒng)要實現(xiàn)的功能及任務。
(2)選擇合適的數(shù)據(jù)挖掘工具、數(shù)據(jù)挖掘算法及技術。建立一個適合挖掘算法的分析模型,選擇數(shù)據(jù)挖掘工具和數(shù)據(jù)挖掘算法,搭建數(shù)據(jù)挖掘平臺,本系統(tǒng)使用SPSS工具。
(3)挖掘數(shù)據(jù),用選定的算法或算法組合在平臺中進行反復的迭代和搜索,從數(shù)據(jù)集合中抽取出隱藏的、有用的信息,并以圖、表等方式進行表示出來,本系統(tǒng)使用決策樹算法實現(xiàn)數(shù)據(jù)的挖掘。
3.3 采用決策樹算法對試驗數(shù)據(jù)挖掘
決策樹算法是一種常用的數(shù)據(jù)挖掘算法,該方法是從機器學習領域中逐漸發(fā)展起來的一種分類函數(shù)逼近方法。一個決策樹由一個根結點、一系列內部結點及終結點所組成,每一結點只有一個父結點,但可有兩個或多個子結點,形成一個分類的樹形結構,在樹結構的每一分叉結點處,進行不同的選擇實現(xiàn)進一步的細分類。決策樹是僅以實例為基礎進行歸納和運算,不依賴經驗知識,也不用對數(shù)據(jù)分布進行假設,決策樹學習的基本算法是貪心算法,一般可采用自頂向下的遞歸方式構造決策樹,其結構簡單并可生成易于解譯的分類判別準則。使用決策樹進行試驗數(shù)據(jù)挖掘的步驟如下:首先選擇試驗數(shù)據(jù)樣本的一個子集以形成決策樹;之后以選定的試驗數(shù)據(jù)樣本為對象逐級推理出用樹型結構表示的分類決策集合,如果此樹沒有為所有的數(shù)據(jù)分析結構給出一個正確的有效的數(shù)據(jù)答案,將例外情況加入到樹中,不斷重復這一過程直到發(fā)現(xiàn)正確的決定集。最終形成一棵樹,每一片葉子代表一個類名,每個節(jié)點描述一個屬性,節(jié)點的每一個分支對應于該屬性的每一個數(shù)據(jù)值,最終得到試驗數(shù)據(jù)的分析結果。
4 結語
隨著試驗的種類的不斷增加,試驗數(shù)據(jù)成快速增長的趨勢,對數(shù)據(jù)的管理及有效利用問題是一個迫切需要解決的問題,采用數(shù)據(jù)挖掘算法和相應的工具能較好地解決數(shù)據(jù)有效利用問題,未來數(shù)據(jù)挖掘技術在數(shù)據(jù)管理和數(shù)據(jù)信息的利用方面會發(fā)揮越來越大的作用。
核心關注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務領域、行業(yè)應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領域的管理,全面涵蓋了企業(yè)關注ERP管理系統(tǒng)的核心領域,是眾多中小企業(yè)信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.ezxoed.cn/
本文標題:基于數(shù)據(jù)挖掘的試驗數(shù)據(jù)利用研究
本文網址:http://www.ezxoed.cn/html/consultation/10820616437.html