分析
設(shè)計(jì)下一代數(shù)據(jù)倉(cāng)庫(kù)平臺(tái),需要確定整個(gè)數(shù)據(jù)元素集的分析處理需求并對(duì)其劃分類別。因?yàn)槲覀兛梢栽跀?shù)據(jù)發(fā)現(xiàn)層次上創(chuàng)建分析,雖然這個(gè)層次主要受到業(yè)務(wù)消費(fèi)者的關(guān)注和驅(qū)動(dòng),與企業(yè)應(yīng)用的實(shí)際情況不符合,但是我們一樣可以在從數(shù)據(jù)倉(cāng)庫(kù)獲得數(shù)據(jù)之后再創(chuàng)建分析。
圖1顯示了下一代數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)的分析處理過程。數(shù)據(jù)集成層是關(guān)鍵架構(gòu)集成層,是我語(yǔ)義、報(bào)表和分析技術(shù)的組合,它基于語(yǔ)義知識(shí)框架,是下一代分析和商業(yè)智能的基礎(chǔ)。本章后面將介紹這個(gè)框架。
圖1 下一代數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)的分析處理過程
數(shù)據(jù)架構(gòu)的最終確定是最耗費(fèi)時(shí)間的任務(wù),但是一旦完成,它就可以為物理部署提供堅(jiān)實(shí)的基礎(chǔ)。物理部署將使用到前面介紹的技術(shù),其中包括大數(shù)據(jù)和RDBMS系統(tǒng)。
物理組件的集成與架構(gòu)
下一代數(shù)據(jù)倉(cāng)庫(kù)將部署在異質(zhì)基礎(chǔ)架構(gòu)和能夠把傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)和大數(shù)據(jù)一起整合到一個(gè)可擴(kuò)展運(yùn)行環(huán)境的架構(gòu)上。有幾種方法可以部署物理架構(gòu),但是每一種方法都有各自的優(yōu)點(diǎn)和不足。
下一代數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)的物理架構(gòu)將會(huì)面對(duì)的主要挑戰(zhàn)包括數(shù)據(jù)加載、可用性、數(shù)據(jù)容量、存儲(chǔ)性能、可擴(kuò)展性、數(shù)據(jù)的多樣變化查詢要求、運(yùn)營(yíng)成本和環(huán)境維護(hù)。下面將逐一介紹這些挑戰(zhàn)。
數(shù)據(jù)加載
由于沒有明確的格式、元數(shù)據(jù)或模式,大數(shù)據(jù)的加載過程只是直接查詢數(shù)據(jù)并將它存儲(chǔ)為文件。如果要處理系統(tǒng)的數(shù)據(jù)源,同時(shí)又要處理超大數(shù)據(jù)或微批處理數(shù)據(jù),那么這個(gè)任務(wù)可能會(huì)非常復(fù)雜。在這種情況中,可以用一個(gè)經(jīng)過配置和優(yōu)化的設(shè)備來處理這些極端情況,而不要用某一個(gè)專業(yè)部署。這種方法的缺點(diǎn)是需要定制架構(gòu)配置,但是它仍然是可管理的。
平臺(tái)數(shù)據(jù)的持續(xù)處理可能會(huì)在一段時(shí)間里產(chǎn)生資源爭(zhēng)奪問題。這種情況常見于大文檔、視頻或圖像。如果這個(gè)需求對(duì)架構(gòu)來說很重要,那么就適合使用一個(gè)軟設(shè)備,這樣在配置和安裝過程就可以避免這個(gè)問題。
大型環(huán)境的MapReduce配置和優(yōu)化可能很有難度,但是設(shè)備架構(gòu)會(huì)提供一些參考架構(gòu)安裝步驟,幫助我們簡(jiǎn)化這個(gè)過程。
數(shù)據(jù)可用性
數(shù)據(jù)可用性一直是所有涉及處理和轉(zhuǎn)換最終用戶數(shù)據(jù)的系統(tǒng)的難題,大數(shù)據(jù)也不例外。Hadoop或NoSQL的優(yōu)點(diǎn)是能夠降低這個(gè)風(fēng)險(xiǎn),同時(shí)使數(shù)據(jù)在獲取之后馬上就可用于分析。不足是需要快速加載數(shù)據(jù),因?yàn)闆]有任何預(yù)轉(zhuǎn)換步驟。
數(shù)據(jù)可用性取決于SerDe或Avro層次的元數(shù)據(jù)特殊性。如果在獲取數(shù)據(jù)時(shí)對(duì)它們執(zhí)行了足夠詳細(xì)的分類,那么它們就可以馬上用于分析。
由于大數(shù)據(jù)層次的數(shù)據(jù)不存在更新,所以處理包含更新的新數(shù)據(jù)將產(chǎn)生重復(fù)數(shù)據(jù),我們必須處理這些重復(fù)數(shù)據(jù),才能減小它們對(duì)于可用性的影響。
數(shù)據(jù)容量
數(shù)據(jù)的內(nèi)在特性決定了大數(shù)據(jù)容量很容易失去控制。在每個(gè)數(shù)據(jù)獲取周期中都一定要特別注意數(shù)據(jù)的增長(zhǎng)。
數(shù)據(jù)停留需求各不相同,它主要取決于數(shù)據(jù)的性質(zhì)、新近程度及其與業(yè)務(wù)的關(guān)系:
合規(guī)性需求:Safe Harbor、SOX、HIPAA、GLBA和PCI法規(guī)可能會(huì)影響數(shù)據(jù)安全性和存儲(chǔ)。如果計(jì)劃要使用這些數(shù)據(jù)類型,那么一定正確規(guī)劃。
法律授權(quán):有一些事務(wù)數(shù)據(jù)集不能在線存儲(chǔ),法院要求使用這些數(shù)據(jù)來發(fā)現(xiàn)集體訴訟的意圖。大數(shù)據(jù)基礎(chǔ)架構(gòu)可以作為這種數(shù)據(jù)類型的存儲(chǔ)引擎,但是數(shù)據(jù)授權(quán)一定要符合一些需求和額外的安全要求。這種數(shù)據(jù)容量可能會(huì)影響整體性能,而且如果在大數(shù)據(jù)平臺(tái)上處理這些數(shù)據(jù)集,那么設(shè)備配置可以給管理員提供一些工具和方法,幫助他們將基礎(chǔ)架構(gòu)劃分到不同的區(qū)域,為數(shù)據(jù)標(biāo)記不同的區(qū)域標(biāo)簽,從而減小對(duì)于風(fēng)險(xiǎn)和性能的影響。
數(shù)據(jù)探索和挖掘是一個(gè)非常普通的活動(dòng),它是在各個(gè)組織中實(shí)現(xiàn)大數(shù)據(jù)抓取的一個(gè)動(dòng)因,它也會(huì)在數(shù)據(jù)處理之后產(chǎn)生大規(guī)模數(shù)據(jù)集。這些數(shù)據(jù)集需要保存在大數(shù)據(jù)系統(tǒng),然后定期清理和刪除中間數(shù)據(jù)集。這是各種組織經(jīng)常忽略的一個(gè)領(lǐng)域,而且可能在一段時(shí)間之后對(duì)性能產(chǎn)生嚴(yán)重影響。
存儲(chǔ)性能
在創(chuàng)建大數(shù)據(jù)系統(tǒng)時(shí),磁盤性能是一個(gè)重要考慮因素,設(shè)備模型可以更多地關(guān)注存儲(chǔ)類型和分層架構(gòu)。對(duì)于存儲(chǔ)基礎(chǔ)架構(gòu)的長(zhǎng)期規(guī)劃和增長(zhǎng)管理而言,它可以作為一個(gè)起步工具。
如果在大數(shù)據(jù)處理中計(jì)劃組合使用內(nèi)存、SSD和傳統(tǒng)存儲(chǔ)架構(gòu),那么不同層次數(shù)據(jù)的維持和交換都會(huì)花費(fèi)大量的處理時(shí)間和處理周期。我們需要特別注意這個(gè)領(lǐng)域,設(shè)備架構(gòu)專門為這種復(fù)雜存儲(chǔ)需求提供了一種參考。
運(yùn)營(yíng)成本
計(jì)算一個(gè)數(shù)據(jù)倉(cāng)庫(kù)及其大數(shù)據(jù)平臺(tái)的運(yùn)營(yíng)開支是一項(xiàng)復(fù)雜的任務(wù),運(yùn)營(yíng)成本包含基礎(chǔ)架構(gòu)的初始采購(gòu)費(fèi)用、實(shí)現(xiàn)架構(gòu)的勞力成本及持續(xù)維護(hù)所需要的基礎(chǔ)架構(gòu)和勞力成本,包括獲取外部咨詢和聘請(qǐng)專家的費(fèi)用。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:運(yùn)用大數(shù)據(jù)技術(shù)集成數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/10839712049.html