一般來說,大數(shù)據(jù)存儲和分析會出現(xiàn)在企業(yè)數(shù)據(jù)倉庫(EDW)中或是與之相關(guān)聯(lián)的場景下。整合大數(shù)據(jù)解決方案的所有部分需要有對EDW流程每個部分進(jìn)行轉(zhuǎn)換。本文會對圍繞EDW的主要工作進(jìn)行總結(jié),并討論它們是如何受大數(shù)據(jù)影響的,以及如何在實施之前進(jìn)行規(guī)劃。
數(shù)據(jù)獲取與采集
存儲在EDW中的數(shù)據(jù)是從原始來源系統(tǒng)獲取的,這些是實時處理業(yè)務(wù)數(shù)據(jù)的典型系統(tǒng)。諸如ATM機(jī),銀行用戶服務(wù)系統(tǒng),在線訂單錄入系統(tǒng),客戶檔案管理系統(tǒng)以及會計系統(tǒng)等這樣一些客戶接口系統(tǒng)。
數(shù)據(jù)轉(zhuǎn)換與遷移
由于大多業(yè)務(wù)數(shù)據(jù)是以其原有形式呈現(xiàn)的,因此一些需要轉(zhuǎn)換或是‘清洗’。典型的例子包括無效日期(比如02-31-2013,99-99-9999),缺失數(shù)據(jù)(一個不存在的客戶所下的訂單),未知數(shù)據(jù)(對于一個當(dāng)前開放的賬戶其數(shù)據(jù)賬戶卻是關(guān)閉的)等等。EDW轉(zhuǎn)換流程會對源數(shù)據(jù)進(jìn)行清洗,從而把它們以一種可用的形式存儲到數(shù)據(jù)庫中。
這一子流程的另一部分是將數(shù)據(jù)從源系統(tǒng)遷移到EDW中去。這一過程可能會包含文件傳輸,消息傳遞,甚至還有高速硬件連接。
數(shù)據(jù)暫存與鍵控
在企業(yè)數(shù)據(jù)倉庫中,將最初獲得的數(shù)據(jù)存儲在一個暫存區(qū)域中是很常見的,暫存區(qū)域通常是臨時文件或數(shù)據(jù)庫表。數(shù)據(jù)在載入EDW之前可以在那里得以積累并交叉引用。
鍵控就是為EDW中的實體分配一個代理鍵的過程。那為什么不使用數(shù)據(jù)的自然鍵呢,例如賬戶號或是客戶號?EDW是來自多個業(yè)務(wù)系統(tǒng)的實體組合。為了跨系統(tǒng)進(jìn)行比較,鍵就必須擁有公共屬性,比如“賬戶號”。企業(yè)可能就需要支持許多不同格式的數(shù)據(jù)項,每個都有不同的數(shù)據(jù)類型和長度。而指定一個代理鍵就可以允許使用公共鍵來比較這些實體以進(jìn)行分析。
數(shù)據(jù)訪問與分析
EDW中存入了數(shù)據(jù)之后,就可以展開分析了。大多數(shù)IT供應(yīng)商為用戶提供了軟件工具來進(jìn)行深入的分析,或者我們把它稱作BI分析。一些軟件能直接訪問EDW數(shù)據(jù),或者提取數(shù)據(jù)的子集以供本地分析。
數(shù)據(jù)歸檔
EDW中的數(shù)據(jù)會過期或是變得無關(guān)緊要。將舊數(shù)據(jù)從數(shù)據(jù)倉庫中刪除并歸檔。EDW人員與業(yè)務(wù)部門協(xié)作進(jìn)行分析以確定歸檔數(shù)據(jù)是否可以存儲在磁帶上,或是必須將其保留以供今后法律及業(yè)務(wù)層面的需求之用,這一點是非常重要的。
大數(shù)據(jù)如何影響數(shù)據(jù)倉庫
業(yè)務(wù)上處理的大數(shù)據(jù)會包含以下特點:
·從源系統(tǒng)捕獲大量數(shù)據(jù)
·數(shù)據(jù)以高速到達(dá)
·半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)
這就提出了一個非常有趣的問題:在你還沒有進(jìn)行分析的前提下,你如何知道會存儲什么樣的大數(shù)據(jù)?亦或是,在沒有收集和存儲的情況下你如何分析大數(shù)據(jù)?
這是大數(shù)據(jù)實施的核心問題。甚至是一個包含大數(shù)據(jù)分析的小的測試或是試驗項目都要求獲取數(shù)據(jù)并存儲。為了衡量投資一個分析解決方案的風(fēng)險和回報,你必須首先進(jìn)行EDW的收集、清洗、暫存以及鍵控這些步驟來處理大數(shù)據(jù);否則,要比較并連接到EDW就會極其困難了。
接下來的步驟就是確定EDW中的每個流程是如何受影響的。
大數(shù)據(jù)獲取與收集
大數(shù)據(jù)通常意味著的僅僅是:大量數(shù)據(jù)。你必須為數(shù)據(jù)分配軟硬件以及存儲介質(zhì)。包括應(yīng)急存儲數(shù)據(jù),在能夠遷移至EDW之前需要一個應(yīng)急數(shù)據(jù)存儲機(jī)制以防由于硬件緩慢造成的延遲。而且還要確定這些新設(shè)備和流程會如何影響你的災(zāi)備預(yù)案。
最初的大數(shù)據(jù)分析測試可能會在數(shù)據(jù)源進(jìn)行,而繞過EDW流程。但想要取得成功就應(yīng)該考慮到這樣一個事實,就是大數(shù)據(jù)分析還是要集成到EDW的數(shù)據(jù)訪問和分析流程中的。
大數(shù)據(jù)轉(zhuǎn)換和遷移
一些大數(shù)據(jù)實現(xiàn)包含非結(jié)構(gòu)化數(shù)據(jù)。例如音頻,圖像和視頻文件以及傳真等等。盡管從技術(shù)上講,這些數(shù)據(jù)是“結(jié)構(gòu)化”的,因為它們是可聽和可見的。但結(jié)構(gòu)化這個詞用在大數(shù)據(jù)環(huán)境下意味著數(shù)據(jù)擁有實體,屬性和關(guān)系。換言之就是存儲在數(shù)據(jù)庫表中的記錄,字段和鍵。
另外一項是半結(jié)構(gòu)化數(shù)據(jù),最常見的例子就是XML流數(shù)據(jù)。很多業(yè)務(wù)應(yīng)用程序以常用格式把XML作為一種數(shù)據(jù)編碼方式。接著數(shù)據(jù)就可以被多個應(yīng)用程序讀取,存儲,和處理。
當(dāng)前版本的DB2允許以本地格式存儲XML數(shù)據(jù),而不需要任何的預(yù)處理或是解碼到DB2表中。這一特性使得存儲,恢復(fù)和分析XML數(shù)據(jù)更為容易。
數(shù)據(jù)遷移則引出了另一個問題。快速遷移大量數(shù)據(jù)可能會需要額外資源,甚至是特殊軟件。
大數(shù)據(jù)暫存與鍵控
大數(shù)據(jù)暫存需要額外軟硬件以及存儲介質(zhì)。因此開辟臨時存儲區(qū)是十分必要的。此外,輔以大數(shù)據(jù)的EDW長期積累數(shù)據(jù),這些數(shù)據(jù)有必要以日期或是時間進(jìn)行鍵控。人們普遍在EDW中采用業(yè)務(wù)數(shù)據(jù)并存儲在數(shù)據(jù)庫表中以日期進(jìn)行分區(qū)。如果這些表中的數(shù)據(jù)以日期進(jìn)行鍵控,那么這些鍵同樣必須添加到大數(shù)據(jù)中去。
另一個問題是大數(shù)據(jù)量。為了幫助解決這一問題,多數(shù)大數(shù)據(jù)分析解決方案都包含某種形式的數(shù)據(jù)壓縮或是特有的數(shù)據(jù)存儲機(jī)制。
大數(shù)據(jù)訪問與分析
最后我們將數(shù)據(jù)整合進(jìn)數(shù)據(jù)倉庫。此時,用戶可以對合并后的大數(shù)據(jù)和當(dāng)前數(shù)據(jù)倉庫執(zhí)行分析軟件。這里你便會最終感受到如此實施所付出的成本是否值得。
大數(shù)據(jù)歸檔
最后我們要考慮數(shù)據(jù)的歸檔。隨著分析了大量數(shù)據(jù),龐大的數(shù)據(jù)量可能會占據(jù)寶貴的存儲并使得一些流程變得緩慢。IT部門以及業(yè)務(wù)伙伴必須確定在何時和以何種方式對陳舊過期的大數(shù)據(jù)進(jìn)行存檔,以及確定是否需要保留以供后用。這也是另一個要考慮的成本因素。
總結(jié)
通過對大數(shù)據(jù)進(jìn)行分析來增加業(yè)務(wù)的價值,這樣一個概念聽起來十分美妙。但整個實施流程會有一些步驟并且它們會影響你企業(yè)數(shù)據(jù)倉庫流程的所有部分。看一下你整個的EDW流程,軟硬件,以此來確定大數(shù)據(jù)部署所造成的影響。也只有如此,你才能為過渡到大數(shù)據(jù)做好充分準(zhǔn)備。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:企業(yè)數(shù)據(jù)倉庫如何過渡到大數(shù)據(jù)時代
本文網(wǎng)址:http://www.ezxoed.cn/html/support/1112159880.html