每一個數(shù)據(jù)倉庫有一個架構(gòu)。這架構(gòu)要么是即時的或計劃過的;或隱式的或形成文件的。不幸的是,許多數(shù)據(jù)倉庫開發(fā)時并沒有一個明確的架構(gòu),這極大的限制了它的靈活性。在沒有架構(gòu)的情況下,主題區(qū)域就無法契合在一起,它們之間的連接變得無目的,并且使整個數(shù)據(jù)倉庫的管理和變更都難于進行。此外,雖然它可能看起來不重要,數(shù)據(jù)倉庫的架構(gòu)已成為選擇工具時的框架。
讓我們把開發(fā)一個數(shù)據(jù)倉庫與建造一個真正的房屋進行比較。你如何建造一幢300萬美元的大廈呢?更不用說建造一間10萬美元的房子了。你要有藍圖、圖紙、技術(shù)規(guī)范、和在多個層次細節(jié)上顯示這個房子將如何進行建造的標(biāo)準。當(dāng)然,針對房子的各種子系統(tǒng)要有不同版本的藍圖,如管道工程、電氣、暖通空調(diào)系統(tǒng)(HVAC)、通信、和空間。針對所有的家用的設(shè)備也有相應(yīng)的標(biāo)準,包括插頭、燈具、衛(wèi)生潔具、門的尺寸等。
對于數(shù)據(jù)倉庫,架構(gòu)是對數(shù)據(jù)倉庫的元素和服務(wù)的一種描述,用具體細節(jié)說明各種組件如何組合在一起,和隨著時間的推移系統(tǒng)將如何地發(fā)展。就像這房子的比喻,數(shù)據(jù)倉庫架構(gòu)是一套文件、計劃、模型、圖紙和規(guī)范,針對每個關(guān)鍵的組件區(qū)域有獨立的分區(qū),并且足夠詳細到讓專業(yè)技術(shù)人員可以實施它們。
這并是一個需求文件。需求文件說明架構(gòu)需要做些什么。數(shù)據(jù)倉庫架構(gòu)也不是一個項目計劃或任務(wù)清單;它說明數(shù)據(jù)倉庫是什么,而不是怎么去做或為什么去做。
一個數(shù)據(jù)倉庫的開發(fā)也并不容易,因為相對于房屋的5000年建筑史,我們發(fā)展數(shù)據(jù)倉庫系統(tǒng)只有20年的時間。因此,我們的標(biāo)準還不多,工具和技術(shù)正在快速發(fā)展,關(guān)于我們已經(jīng)擁有數(shù)據(jù)倉庫系統(tǒng)的檔案還很少,而且數(shù)據(jù)倉庫的術(shù)語還有很大的出入。
所以,雖然開發(fā)一個架構(gòu)是困難的,但它也是可能的,并且又是至關(guān)重要的。首先,最主要的是,架構(gòu)應(yīng)該受業(yè)務(wù)的驅(qū)動。如果你的要求是每夜進行更新,這一要求就該包含在架構(gòu)內(nèi),而你必須弄清實現(xiàn)你目標(biāo)的技術(shù)需求。下面是一些業(yè)務(wù)需求的例子,和針對每種需求的綜合技術(shù)考量:
●每夜更新――充足的數(shù)據(jù)準備能力
●全球可用性—平行或分布式服務(wù)器
●顧客層次分析――大型服務(wù)器
●新數(shù)據(jù)源――帶有支持元數(shù)據(jù)的靈活工具
●可靠性――工作的控制功能
關(guān)鍵組件區(qū)域
一個完整的數(shù)據(jù)倉庫架構(gòu)包括數(shù)據(jù)和技術(shù)因素。架構(gòu)可以被分為三個主要區(qū)域。首先,是基于業(yè)務(wù)流程的數(shù)據(jù)架構(gòu)。其次是基礎(chǔ)設(shè)施,包括硬件、網(wǎng)絡(luò)、操作系統(tǒng)和電腦。最后,是技術(shù)區(qū)域,包含用戶所需的決策制定的技術(shù)以及它們的支持結(jié)構(gòu)。對這些區(qū)域?qū)⒃谙挛姆中」?jié)進行詳述。
●數(shù)據(jù)架構(gòu)
如上所述,在整體數(shù)據(jù)倉庫架構(gòu)中的數(shù)據(jù)架構(gòu)部分是受業(yè)務(wù)流程所驅(qū)動的。例如,在一個制造環(huán)境里,數(shù)據(jù)模型可能包括訂單、裝運和帳單。每一個區(qū)域都依據(jù)一套不同的維度。但是在數(shù)據(jù)模型中對相交維度的定義必須相同。所以相同數(shù)據(jù)項應(yīng)該有同樣的結(jié)構(gòu)和內(nèi)容,并有一個創(chuàng)建和維護的單一流程。
當(dāng)你完成一個數(shù)據(jù)倉庫架構(gòu)并呈現(xiàn)數(shù)據(jù)給你的用戶,就要做出對工具的選擇,但隨著需求的設(shè)定, 選擇就會變窄。例如,產(chǎn)品的功能開始融合,就像多維聯(lián)機分析處理(M OLAP)和關(guān)系型聯(lián)機分析處理(ROLAP)。如果停留在你建造的立方體,多維聯(lián)機分析處理(MOLAP)便可以了。它速度快又允許靈活的查詢――在立方體的范圍內(nèi)。它的缺點是規(guī)模(整體上和一個維度內(nèi))、設(shè)計的局限性(受立方體結(jié)構(gòu)所限)、需要一個專有的數(shù)據(jù)庫。關(guān)系型聯(lián)機分析處理(ROLAP)是多維聯(lián)機分析處理(MOLAP)的一種替代方案,它克服了多維聯(lián)機分析處理(MOLAP)的這些缺點。 通常,混合聯(lián)機處理(HOLAP)更受歡迎,它允許一部分數(shù)據(jù)存儲在維聯(lián)機分析處理(MOLAP)中,另一部分數(shù)據(jù)存儲在關(guān)系型聯(lián)機分析處理(ROLAP)中,折衷了各自的長處。
●基礎(chǔ)設(shè)施架構(gòu)
對硬件及數(shù)據(jù)庫選擇的問題在于其大小、擴展性和靈活性。在大約80%的數(shù)據(jù)倉庫項目中,這并不困難,大多數(shù)企業(yè)有足夠的力量來應(yīng)對他們的需要。
在網(wǎng)絡(luò)、檢查數(shù)據(jù)來源、數(shù)據(jù)倉庫準備區(qū)、以及它們之間的任何設(shè)施方面,要確保有足夠的帶寬用于數(shù)據(jù)的移動。
●技術(shù)架構(gòu)
技術(shù)架構(gòu)被元數(shù)據(jù)目錄所驅(qū)動。一切都應(yīng)該受元數(shù)據(jù)所驅(qū)動。服務(wù)應(yīng)該依從表格所需的參數(shù),而不是它們的硬編碼。技術(shù)架構(gòu)的一個重要組件是 ETL(提取、轉(zhuǎn)換和加載)流程,它涵蓋了五個主要區(qū)域:
●提。瓟(shù)據(jù)來自多種數(shù)據(jù)源并且種類繁多。在這個區(qū)域如果有數(shù)據(jù)的應(yīng)用時必須考慮對它的壓縮和加密處理。
●轉(zhuǎn)換-數(shù)據(jù)轉(zhuǎn)換包括代理主鍵的管理、整合、去標(biāo)準化、清洗、轉(zhuǎn)換、合并和審計。
●加載-加載通常是利用加載最優(yōu)化和對整個加載周期的支持對多種目標(biāo)進行加載。
●安全-管理員訪問和數(shù)據(jù)加密的策略。
●元件控制--它包括元件的定義、元件安排(時間和事件)、監(jiān)控、登錄、異常處理、錯誤處理和通知。
數(shù)據(jù)準備區(qū)需要能夠從多種數(shù)據(jù)源提取數(shù)據(jù),如MVS、ORACLE、VM和其它,所以當(dāng)你選擇產(chǎn)品時要具體。它必須將數(shù)據(jù)進行壓縮和加密、轉(zhuǎn)化、加載(可能對多個目標(biāo))和安全處理。此外,數(shù)據(jù)準備區(qū)的活動要能夠自動化進行。不同的供應(yīng)商的產(chǎn)品做不同的事情,所以大多數(shù)企業(yè)將需要使用多種產(chǎn)品。
一個監(jiān)控數(shù)據(jù)倉庫使用的系統(tǒng)對查詢的采集、使用的跟蹤是有價值的,而且也有助于性能的調(diào)整。性能優(yōu)化包括通過“管理者”工具進行的成本估算,而且應(yīng)包括即時查詢的時間表。有工具能夠提供查詢管理服務(wù)。可使用工具來針對這些和其它相關(guān)任務(wù), 如對前臺的基于服務(wù)器的查詢管理和來自于多種數(shù)據(jù)源的數(shù)據(jù)。也有工具可用于報表、連通性和基礎(chǔ)設(shè)施管理。最后,數(shù)據(jù)訪問塊應(yīng)包括報表的服務(wù)(如發(fā)布和訂閱),還應(yīng)包括報表庫,調(diào)度程序和分布管理員。
關(guān)于元數(shù)據(jù)
在數(shù)據(jù)倉庫流程中數(shù)據(jù)的創(chuàng)建和管理要遵循以下的“步驟”:
●數(shù)據(jù)倉庫模型
●數(shù)據(jù)源的定義
●表的定義
●數(shù)據(jù)源到目標(biāo)的映射
●映射和轉(zhuǎn)換信息
●物理信息(表格空間,等)
●提取數(shù)據(jù)
●轉(zhuǎn)移數(shù)據(jù)
●加載統(tǒng)計
●業(yè)務(wù)描述
●查詢請求
●數(shù)據(jù)本身
●查詢統(tǒng)計
為顯示元數(shù)據(jù)的重要性,上述的步驟列表中只有三步包括了“真正”的數(shù)據(jù)-7、8和12。其他的一切都是元數(shù)據(jù),而且整個數(shù)據(jù)倉庫流程都依賴于它。元數(shù)據(jù)目錄的專業(yè)技術(shù)要素包括:
●業(yè)務(wù)規(guī)則--包括定義、推導(dǎo)、相關(guān)項目、驗證、和層次結(jié)構(gòu)信息(版本、日期等。)
●轉(zhuǎn)移/轉(zhuǎn)換信息--源/目的地的信息,以及DDL(數(shù)據(jù)類型、名稱等等。)
●操作信息--數(shù)據(jù)加載的工作時間表、依存性、通知和信息的可靠性 (比如主機的重定向和加載平衡)。
●特定工具的信息--圖形顯示信息和特殊功能的支持。
●安全規(guī)則--認證和授權(quán)。
建立架構(gòu)
在開發(fā)技術(shù)架構(gòu)模型前,要先起草一份架構(gòu)需求的文件。然后將每一項業(yè)務(wù)需求計劃包含到它的架構(gòu)中。根據(jù)架構(gòu)的區(qū)域?qū)@些內(nèi)容進行分組(遠程訪問、數(shù)據(jù)準備、數(shù)據(jù)訪問工具等)。了解它如何于其它區(qū)域相適應(yīng)。采集區(qū)域的定義及其內(nèi)容。最后提煉和形成模型的文件。
我們認識到開發(fā)一個數(shù)據(jù)倉庫架構(gòu)是困難的,因此要有一個周密細致的規(guī)劃。但ZACHMAN框架又超出了大多數(shù)企業(yè)對數(shù)據(jù)倉庫的需要,所以建議使用一個合理的折衷方案,它由四層流程所組成:業(yè)務(wù)需求、技術(shù)架構(gòu)、標(biāo)準和工具。
業(yè)務(wù)需求本質(zhì)上驅(qū)動著架構(gòu),所以要對業(yè)務(wù)經(jīng)理、分析師、高級用戶進行訪談。從你的訪談中尋找主要的業(yè)務(wù)問題,以及企業(yè)戰(zhàn)略、發(fā)展方向、挫折、業(yè)務(wù)流程、時間、可用性、業(yè)績預(yù)期的指標(biāo)。將它們一一妥善歸檔。
從IT的角度來看,跟現(xiàn)有的數(shù)據(jù)倉庫/決策支持系統(tǒng)(DSS)的支持人員、聯(lián)機分析處理(OLTP)應(yīng)用組成員、數(shù)據(jù)庫管理員們(DBA);以及網(wǎng)絡(luò)、操作系統(tǒng)和桌面支持人員進行討論。也要與架構(gòu)師和專業(yè)規(guī)劃人員進行探討。你應(yīng)該從這些討論中得知他們從IT的觀點考慮數(shù)據(jù)倉庫的意見。從中了解是否有現(xiàn)存的構(gòu)架文件、IT原則、標(biāo)準文件、企業(yè)數(shù)據(jù)中心等。
關(guān)于數(shù)據(jù)倉庫并沒有太多現(xiàn)存的標(biāo)準,但對于許多組件來說是有標(biāo)準的。下面是一些需要牢記的標(biāo)準:
●中間設(shè)備--開放數(shù)據(jù)庫連接(ODBC)、對象鏈接與嵌入(OLE)、對象鏈接與嵌入數(shù)據(jù)庫(OLE DB)、數(shù)據(jù)通信設(shè)備(DCE)、對象請求代理(ORB)和數(shù)據(jù)庫編程(JDBC)
●數(shù)據(jù)庫連接--ODBC, JDBC, OLE DB, 和其它。
●數(shù)據(jù)管理--ANSI SQL 和文件傳輸協(xié)議(FTP)
●網(wǎng)絡(luò)訪問--數(shù)據(jù)通信設(shè)備(DCE)、域名服務(wù)器(DNS)、和 輕量目標(biāo)訪問協(xié)議(LDAP)
無論它們支持的是哪種標(biāo)準,主流的數(shù)據(jù)倉庫工具都受元數(shù)據(jù)所驅(qū)動。然而,它們通常并不互相共享元數(shù)據(jù)而且在開放性上也所有不同。所以,要仔細研究和購買工具。架構(gòu)師是你選擇適當(dāng)工具的向?qū)А?/p>
一個數(shù)據(jù)倉庫架構(gòu)需要具體到怎樣的程度呢?這個問題要問的是:它有足夠的信息可以讓一個有能力的團隊來建立一個滿足業(yè)務(wù)需求的數(shù)據(jù)倉庫嗎?至于它要花多長時間,隨著更多的人加入到它的開發(fā)中來(即:它變成了“復(fù)雜的技術(shù)策略”)和生成的系統(tǒng)需要變得更復(fù)雜(即"復(fù)雜的功能”),架構(gòu)的完成會呈指數(shù)倍的發(fā)展。
像數(shù)據(jù)倉庫中幾乎所有的事情一樣,一個迭代進程是最好的。你不能一次做完所有的事情因為它太大了, 而且業(yè)務(wù)不能等。同時,數(shù)據(jù)倉庫的市場還沒有完備。所以從流程中影響大、高價值部分開始,然后,利用你的成功去帶動另外的階段。
總結(jié):
綜上所述,建立一個數(shù)據(jù)倉庫架構(gòu)的好處如下:
●提供了一個組織結(jié)構(gòu)的框架--架構(gòu)對什么是單獨的組件、如何將它們組裝在一起、誰擁有什么部分以及優(yōu)先次序的問題劃出了界線。
●提高了靈活性和維護性--讓你能快速加入新的數(shù)據(jù)來源,接口標(biāo)準允許即插即用,模型和元數(shù)據(jù)允許影響分析和單點的變化。
●更快的開發(fā)和再利用--數(shù)據(jù)倉庫開發(fā)者更能夠快速了解數(shù)據(jù)倉庫流程、數(shù)據(jù)庫內(nèi)容和業(yè)務(wù)規(guī)則。
●管理和通信的工具--定義未來方向和項目范圍, 確定職務(wù)和職責(zé)、對供應(yīng)商傳達需求。
●協(xié)調(diào)多項任務(wù)同時進行——多種、相對獨立的工作有機會成功地集合。
我們建議公司對準業(yè)務(wù)需求而又要務(wù)實一些。時刻跟上數(shù)據(jù)倉庫產(chǎn)業(yè)的進步是很重要的。最后,請記住架構(gòu)總是存在的:或隱性或具體的,或無計劃或計劃內(nèi)的。經(jīng)驗證明,有一個計劃內(nèi)和具體的架構(gòu)會使數(shù)據(jù)倉庫與 商業(yè)智能項目有更多的成功機會。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:數(shù)據(jù)倉庫架構(gòu)的建立
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/10839310542.html