在大型企業(yè)中.數(shù)據(jù)資產(chǎn)是最具價值的無形資產(chǎn).按類型可以分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。其中,非結(jié)構(gòu)化數(shù)據(jù)是指無法用二維表結(jié)構(gòu)表示的一種數(shù)據(jù)類型,主要包括辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻,視頻等。在企業(yè)信息化建設(shè)過程中產(chǎn)生的數(shù)據(jù)中,能夠采用關(guān)系型數(shù)據(jù)庫處理的結(jié)構(gòu)化數(shù)據(jù)約占企業(yè)數(shù)據(jù)總量的20%。而其他80%的非結(jié)構(gòu)化數(shù)據(jù)無法完全采用關(guān)系型數(shù)據(jù)庫來處理?茖W(xué)管理和合理應(yīng)用這些非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)成為企業(yè)正確決策、增強核心競爭力的關(guān)鍵。Gartner在2006年6月的專項分析報告指出:“未來的十幾年,有效的信息管理非常重要,它將把那些不堪信息爆炸之重負的企業(yè)與那些主導(dǎo)全球經(jīng)濟的企業(yè)區(qū)分開來”。Gartner、AIIM(美國圖形與信息協(xié)會)、維基百科等權(quán)威機構(gòu)將企業(yè)非結(jié)構(gòu)化數(shù)據(jù)管理定義為一套運用于獲取、管理、存儲、保管和發(fā)布內(nèi)容以及文檔與組織、流程結(jié)合的戰(zhàn)略、方法和工具,它管理著企業(yè)全局范圍內(nèi)各種形式的非結(jié)構(gòu)化信息。
中國建設(shè)銀行、中國移動、英國BP石油公司、韓國伍里銀行、美國好事達保險公司對非結(jié)構(gòu)化數(shù)據(jù)集中管理開展了相關(guān)工作,取得良好成效。同時,中央政府高度重視央企對非結(jié)構(gòu)化數(shù)據(jù)的管理規(guī)范T作。2010年,由中央辦公廳、同務(wù)院辦公廳聯(lián)合下發(fā)《電子文件暫行管理辦法》(2009年39號文),明確要求大型企業(yè)電子文件管理需要滿足統(tǒng)一管理、全程管理、規(guī)范標準、便于利用、安全保密五大要求。
因此,為了能夠更大地獲取企業(yè)信息化建設(shè)投資收益.增強企業(yè)自身核心競爭力,必須強化對非結(jié)構(gòu)化數(shù)據(jù)的管理和應(yīng)用.研究企業(yè)級的非結(jié)構(gòu)化數(shù)據(jù)管理平臺。
1、需求分析
根據(jù)對國內(nèi)大型企業(yè)非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用現(xiàn)狀的調(diào)研結(jié)果,結(jié)合AIIM、Garnter等權(quán)威機構(gòu)對內(nèi)容管理業(yè)務(wù)領(lǐng)域的研究,綜合分析出企業(yè)級非結(jié)構(gòu)化數(shù)據(jù)管理平臺需要重點滿足非結(jié)構(gòu)化數(shù)據(jù)集中存儲、統(tǒng)一管理、對外提供非結(jié)構(gòu)化數(shù)據(jù)公共服務(wù)、業(yè)務(wù)應(yīng)用系統(tǒng)統(tǒng)一接人這4個關(guān)鍵需求,全面覆蓋了內(nèi)容獲取、內(nèi)容存儲、內(nèi)容管理、內(nèi)容應(yīng)用等4個業(yè)務(wù)領(lǐng)域。
1.1數(shù)據(jù)統(tǒng)一存儲需求
針對大型企業(yè)內(nèi)各業(yè)務(wù)應(yīng)用系統(tǒng)基本采用分散存儲各自非結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用現(xiàn)狀,需要通過建設(shè)非結(jié)構(gòu)化數(shù)據(jù)管理平臺,建立企業(yè)內(nèi)部大數(shù)據(jù)量的非結(jié)構(gòu)化數(shù)據(jù)存儲中心,同時需要通過制訂存儲優(yōu)化策略達到優(yōu)化存儲結(jié)構(gòu).提高存儲資源利用率,從而達到將企業(yè)內(nèi)的非結(jié)構(gòu)化數(shù)據(jù)進行集中存儲,簡化企業(yè)內(nèi)部的IT架構(gòu)、減少數(shù)據(jù)安全控制點,提升企業(yè)核心業(yè)務(wù)系統(tǒng)總體性能.為企業(yè)內(nèi)部非結(jié)構(gòu)化數(shù)據(jù)高效利用奠定基礎(chǔ)的目標。
1.2數(shù)據(jù)集中管理需求
非結(jié)構(gòu)化數(shù)據(jù)管理平臺不僅是企業(yè)內(nèi)非結(jié)構(gòu)化數(shù)據(jù)的存儲中心.同時也是各項非結(jié)構(gòu)化數(shù)據(jù)管理標準的制訂者與實踐者。通過制訂各種非結(jié)構(gòu)化數(shù)據(jù)管理標準,解決目前在非結(jié)構(gòu)化數(shù)據(jù)管理上所存在的主要問題,滿足企業(yè)內(nèi)非結(jié)構(gòu)化數(shù)據(jù)集中管理的需求。如通過建立內(nèi)容元數(shù)據(jù)管理標準,統(tǒng)一企業(yè)內(nèi)部內(nèi)容元數(shù)據(jù)管理;通過建立數(shù)據(jù)全局訪問標準,統(tǒng)一各業(yè)務(wù)應(yīng)用系統(tǒng)間數(shù)據(jù)的共享與交換;通過建立數(shù)據(jù)歸集標準.滿足業(yè)務(wù)應(yīng)用系統(tǒng)存儲的數(shù)據(jù)實現(xiàn)歸集的要求。
總之.通過“標準制訂一產(chǎn)品開發(fā)一成果實施”的方式提高企業(yè)信息化建設(shè)中所產(chǎn)生的大量文件檔案.如規(guī)章制度、工程圖紙、合同票據(jù)、統(tǒng)計報表等各類非結(jié)構(gòu)化數(shù)據(jù)的集約化管理水平,實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)管理規(guī)范化、流程化、自動化。
1.3全生命周期管理需求
全生命周期管理是指內(nèi)容的創(chuàng)建、申請、審核、生效、分發(fā)、退休到銷毀的全生命周期過程.全生命周期管理的最大價值是使內(nèi)容的創(chuàng)建者和使用者能夠在全生命周期中協(xié)同參與、共同維護,創(chuàng)建者可以完整地控制和管理內(nèi)容生命周期過程。
全生命周期管理的基礎(chǔ)是統(tǒng)一的版本管理、統(tǒng)一的存儲管理和統(tǒng)一的權(quán)限控制.實現(xiàn)方式一種是根據(jù)內(nèi)容的狀態(tài)來控制全生命周期過程,另外一種是結(jié)合工作流.通過工作流和版本管理、存儲管理和權(quán)限管理的結(jié)合.實現(xiàn)更豐富多樣的全生命周期管理過程。
結(jié)合工作流技術(shù).根據(jù)業(yè)務(wù)的需求.實現(xiàn)內(nèi)容的全生命周期管理.實現(xiàn)數(shù)據(jù)在部門間的電子化無縫傳輸,實現(xiàn)數(shù)據(jù)在從創(chuàng)建、申請、審核、牛效、下發(fā)、退休和銷毀的自動化過程控制,實現(xiàn)使用者的自動化推送.提高工作效率和部門間溝通效率。
1.4統(tǒng)一對外服務(wù)需求
目前企業(yè)內(nèi)各業(yè)務(wù)應(yīng)用系統(tǒng)針對非結(jié)構(gòu)化數(shù)據(jù)管理都具有不少重復(fù)的功能.如內(nèi)容存儲、內(nèi)容訪問、內(nèi)容檢索等,造成“煙囪”現(xiàn)象嚴蕈.這不僅加大了企業(yè)的信息化建設(shè)費用,而且還使信息系統(tǒng)建設(shè)周期延長。作為專注服務(wù)于大型食業(yè)單位非結(jié)構(gòu)化數(shù)據(jù)管理的基礎(chǔ)信息平臺.應(yīng)能夠?qū)ν馓峁┗竟卜⻊?wù)(包括內(nèi)容存儲服務(wù)、內(nèi)容訪問服務(wù)、內(nèi)容管理服務(wù)以及運行監(jiān)控服務(wù)等)及各類工具(數(shù)據(jù)分析及挖掘工具等),能夠?qū)ζ髽I(yè)內(nèi)部相關(guān)業(yè)務(wù)應(yīng)用系統(tǒng)提供統(tǒng)一的非結(jié)構(gòu)化數(shù)據(jù)利用服務(wù),進一步提升非結(jié)構(gòu)化數(shù)據(jù)管理平臺的應(yīng)用價值。
1.5多類型應(yīng)用系統(tǒng)接入需求
目前,在大型企業(yè)內(nèi)的業(yè)務(wù)系統(tǒng)存在業(yè)務(wù)邏輯多樣性、所采用的開發(fā)技術(shù)多樣性的特點.如基于SAP開發(fā)、基于J2EE開發(fā)等。為了能夠提升業(yè)務(wù)價值,平臺須具備對企業(yè)內(nèi)多樣化的業(yè)務(wù)系統(tǒng)有序、規(guī)范接人的能力。為此,平臺需要為不同類型的業(yè)務(wù)應(yīng)用系統(tǒng)提供整體接入解決方案以及與之配套的相關(guān)接人規(guī)范等。
1.6數(shù)據(jù)加工和決策支持需求
非結(jié)構(gòu)數(shù)據(jù)的集中存儲,為數(shù)據(jù)深加工提供了基礎(chǔ).需要平臺根據(jù)決策需要.對數(shù)據(jù)進行文本分析、加工挖掘和信息抽取等技術(shù)手段.分析數(shù)據(jù)間的關(guān)聯(lián)性等,最終提供全文檢索和決策支持服務(wù)。非結(jié)構(gòu)化平臺與結(jié)構(gòu)化數(shù)據(jù)中心的數(shù)據(jù)倉庫產(chǎn)生的決策數(shù)據(jù)進行結(jié)合.并根據(jù)決策和日常辦公需要。生成各種輔助性的文檔(數(shù)據(jù)源來自于各個數(shù)據(jù)中心),最終提高公司的工作效率。非結(jié)構(gòu)化數(shù)據(jù)管理平臺在滿足以上關(guān)鍵性需求后,平臺將真正成為企業(yè)的非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)中心,真正成為企業(yè)相關(guān)聯(lián)業(yè)務(wù)系統(tǒng)共享非結(jié)構(gòu)化數(shù)據(jù)的通道.真正成為企業(yè)引入國際先進內(nèi)容管理技術(shù).提供創(chuàng)新性文檔增值服務(wù)(如各種文檔挖掘與決策支持工具)的容器。
2、建設(shè)目標
2.1總體目標
企業(yè)級非結(jié)構(gòu)化數(shù)據(jù)管理平臺作為是企業(yè)信息化基礎(chǔ)設(shè)施的重要組成部分。其建設(shè)總體目標如下。
1)非結(jié)構(gòu)化數(shù)據(jù)管理平臺是將大型企業(yè)所有包含非結(jié)構(gòu)化數(shù)據(jù)的業(yè)務(wù)應(yīng)用系統(tǒng)進行統(tǒng)一集成整合的數(shù)據(jù)中心.對各業(yè)務(wù)應(yīng)用系統(tǒng)上傳的所有非結(jié)構(gòu)化數(shù)據(jù)進行集中存儲、流轉(zhuǎn)、管理以及綜合應(yīng)用。
2)為大型企業(yè)其他業(yè)務(wù)應(yīng)用系統(tǒng)提供公共服務(wù)及工具,實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)全生命周期管理和綜合利用,保證非結(jié)構(gòu)化數(shù)據(jù)全方位安全。
3)實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的規(guī)范化、流程化、自動化,提供業(yè)務(wù)深度融合、智能決策支持、離線數(shù)據(jù)安全等服務(wù),充分實現(xiàn)企業(yè)信息價值.全面服務(wù)企業(yè)發(fā)展戰(zhàn)略.為智能分析與決策支持提供支撐。
2.2演進路線
根據(jù)總體建設(shè)目標.以非結(jié)構(gòu)化數(shù)據(jù)在企業(yè)效用提升為主線,企業(yè)級非結(jié)構(gòu)化數(shù)據(jù)管理平臺按照3個階段建設(shè)、分步完成進行演進。
1)第1階段(集中化管理階段):實現(xiàn)企業(yè)內(nèi)非結(jié)構(gòu)化數(shù)據(jù)集中化管理。制定統(tǒng)一標準、完成平臺部署、初步數(shù)據(jù)利用、提供基本的非結(jié)構(gòu)化數(shù)據(jù)服務(wù)。
2)第2階段(業(yè)務(wù)融合階段):實現(xiàn)各業(yè)務(wù)應(yīng)用非結(jié)構(gòu)化數(shù)據(jù)融合,全面集中管理、初步業(yè)務(wù)融合、提供初步的內(nèi)容加工挖掘和深化高級服務(wù)。
3)第3階段(決策支持階段):提供非結(jié)構(gòu)化數(shù)據(jù)高級應(yīng)用服務(wù).業(yè)務(wù)深度融合、智能決策支持、離線數(shù)據(jù)安全等服務(wù).使非結(jié)構(gòu)化數(shù)據(jù)管理平臺真正成為公司信息化基礎(chǔ)設(shè)施的重要組成部分。
3、平臺架構(gòu)設(shè)計
3.1設(shè)計原則
企業(yè)級非結(jié)構(gòu)化數(shù)據(jù)管理平臺是信息化基礎(chǔ)設(shè)施.作為非結(jié)構(gòu)化數(shù)據(jù)集中存儲、管理和應(yīng)用的中心.在企業(yè)信息化建設(shè)過程中將起著至關(guān)重要的作用,平臺設(shè)計應(yīng)充分考慮并結(jié)合企業(yè)非結(jié)構(gòu)化數(shù)據(jù)管理現(xiàn)狀和未來發(fā)展趨勢。
1)可擴展性:優(yōu)良的體系結(jié)構(gòu)設(shè)計對于系統(tǒng)是否能夠適應(yīng)將來新業(yè)務(wù)的發(fā)展至關(guān)重要。在滿足現(xiàn)有非結(jié)構(gòu)化數(shù)據(jù)管理需求的基礎(chǔ)上.系統(tǒng)應(yīng)當有充分的可擴展性,以滿足未來的業(yè)務(wù)發(fā)展。因此在方案設(shè)計中.必須考慮到應(yīng)用逐步豐富、系統(tǒng)不斷擴展的要求.以形成一個易于管理、可持續(xù)發(fā)展的體系結(jié)構(gòu)。同時將應(yīng)用系統(tǒng)進行完全模塊化的設(shè)計,使系統(tǒng)具有良好的擴展性和高效性。
2)先進性:設(shè)計方案中采用市場領(lǐng)先并且成熟的技術(shù).使非結(jié)構(gòu)化數(shù)據(jù)管理平臺具備國內(nèi)同業(yè)領(lǐng)先的地位。
3)安全性:設(shè)計方案充分考慮到網(wǎng)絡(luò)環(huán)境的安全性需求.防范國際互連網(wǎng)上的非法用戶的侵入,防止合法用戶對重要的不宜公開的數(shù)據(jù)的侵入。
4)標準性和開放性:設(shè)計方案充分考慮系統(tǒng)的標準性和開放性.盡可能地遵循開放的標準。開放的系統(tǒng)平臺便于將來擴展新的功能及與第三方的接口。
5)系統(tǒng)集成性:預(yù)留與其他系統(tǒng)間的接口.增加適配層隔離不同系統(tǒng),降低系統(tǒng)集成的風(fēng)險。
3.2業(yè)務(wù)架構(gòu)
業(yè)務(wù)架構(gòu)描述平臺的業(yè)務(wù)目標。根據(jù)中央辦公廳2009發(fā)布的《電子文件暫行管理辦法》(2009年39號文)以及非結(jié)構(gòu)化數(shù)據(jù)管理平臺的關(guān)鍵業(yè)務(wù)需求.設(shè)計如圖1所示的非結(jié)構(gòu)化數(shù)據(jù)管理平臺業(yè)務(wù)架構(gòu)。
非結(jié)構(gòu)化數(shù)據(jù)管理平臺對企業(yè)非結(jié)構(gòu)化數(shù)據(jù)管理的業(yè)務(wù)能力至下而上劃分為:統(tǒng)一存儲、統(tǒng)一標準、統(tǒng)一管理、統(tǒng)一利用、統(tǒng)一運維。
1)統(tǒng)一存儲:是指平臺具有能將非結(jié)構(gòu)化數(shù)據(jù)進行集中存儲的能力。該業(yè)務(wù)能力使平臺能夠?qū)ζ髽I(yè)內(nèi)大數(shù)據(jù)量的非結(jié)構(gòu)化數(shù)據(jù)進行集中存儲及存儲優(yōu)化能力,這是非結(jié)構(gòu)化數(shù)據(jù)管理平臺的基本業(yè)務(wù)能力。
2)統(tǒng)一標準:是指平臺作為企業(yè)信息基礎(chǔ)設(shè)施的重要組成部分.必須擔負企業(yè)內(nèi)各項非結(jié)構(gòu)化數(shù)據(jù)管理及應(yīng)用標準的制訂者與實踐者的角色.通過制訂各類且具可行性的非結(jié)構(gòu)化數(shù)據(jù)的管理和利用標準。如平臺管理辦法、元數(shù)據(jù)標準、數(shù)據(jù)歸集標準、業(yè)務(wù)應(yīng)用接入標準等,指導(dǎo)平臺各項建設(shè)工作開展。
3)統(tǒng)一管理:是指平臺提供對企業(yè)內(nèi)非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一管理的能力.如非結(jié)構(gòu)化數(shù)據(jù)的全生命周期管理、數(shù)字資產(chǎn)管理、數(shù)據(jù)歸集管理以及文檔管理等。
4)統(tǒng)一利用:是指平臺提供內(nèi)容訪問服務(wù)、內(nèi)容處理服務(wù)、安全管控服務(wù)、高級應(yīng)用服務(wù).在實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一存儲與統(tǒng)一管理的基礎(chǔ)上,實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)安全、高效、增值利用.這是平臺建設(shè)的最主要目的.這部分業(yè)務(wù)能力可細分如下。①提供對各個接人平臺的業(yè)務(wù)應(yīng)用對存儲在平臺的非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一訪問的能力,如基于平臺實現(xiàn)跨庫查詢、在線瀏覽、在線編輯等方式。②提供一系列具有全局性的非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用工具.如支持跨業(yè)務(wù)應(yīng)用系統(tǒng)全文檢索、數(shù)據(jù)全局訪問等.從而打破業(yè)務(wù)系統(tǒng)間的系統(tǒng)界限與地域界限.使各類用戶能夠完備、實時地獲取到相關(guān)數(shù)據(jù).提高工作效率。③提供數(shù)據(jù)梳理及元數(shù)據(jù)管理工具,抽取、分析、展現(xiàn)公司非結(jié)構(gòu)化數(shù)據(jù)的全局視圖.提高企業(yè)領(lǐng)導(dǎo)對非結(jié)構(gòu)化數(shù)據(jù)的全局駕馭能力。(薊提供數(shù)據(jù)分析及挖掘工具,如文檔聚類分析、文檔專題分析等.實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)增值應(yīng)用,促進業(yè)務(wù)運行質(zhì)量的提升。
5)統(tǒng)一運維:是指平臺提供各種能夠支撐平臺運維的工具(如健康度分析工具、集成管理工具等)來實現(xiàn)統(tǒng)一運維。
3.3應(yīng)用槳構(gòu)
應(yīng)用架構(gòu)描述非結(jié)構(gòu)化數(shù)據(jù)管理平臺的功能邏輯,描述平臺各項功能間的層級關(guān)系.是業(yè)務(wù)架構(gòu)的技術(shù)表現(xiàn)。非結(jié)構(gòu)化數(shù)據(jù)管理平臺的應(yīng)用架構(gòu)如圖2所示。
非結(jié)構(gòu)化數(shù)據(jù)管理平臺應(yīng)用架構(gòu)劃分為4個組成部分,分別是非結(jié)構(gòu)化數(shù)據(jù)管理平臺服務(wù)器(UDS-server)、非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng)(UDS-Administrator)、非結(jié)構(gòu)化數(shù)據(jù)管理平臺配套工具(UDS-Tools)、非結(jié)構(gòu)化數(shù)據(jù)管理平臺開發(fā)工具包(UDS-SDK)。
1)UDS-Server:是非結(jié)構(gòu)化數(shù)據(jù)管理服務(wù)器。為UDS-Administrator、UDS-SDK、UDS-Tools提供系統(tǒng)級服務(wù).包括提供內(nèi)容訪問服務(wù)、內(nèi)容傳輸服務(wù)、內(nèi)容處理服務(wù)以及內(nèi)容存儲服務(wù)等功能。
2)UDS-Admini3trator:是非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng),是平臺的后臺管理模塊.主要包括平臺管理、應(yīng)用管理、運行監(jiān)控、集成管理與統(tǒng)計報表。
3)UDS-Tools:是非結(jié)構(gòu)化數(shù)據(jù)管理平臺配套工具,提供數(shù)據(jù)服務(wù)工具.如歷史數(shù)據(jù)遷移工具。
4)UDS-SDK:是非結(jié)構(gòu)化數(shù)據(jù)服務(wù)開發(fā)工具包,提供非結(jié)構(gòu)化數(shù)據(jù)服務(wù)開發(fā)工具,目前主要是面向業(yè)務(wù)系統(tǒng)接入提供開發(fā)工具包。主要包括HTTP接口、Web Services接口、嵌入式控件接口、文件異步上傳接口4種方式。
平臺的應(yīng)用架構(gòu)設(shè)計體現(xiàn)了平臺以提供非結(jié)構(gòu)化數(shù)據(jù)服務(wù)為中心.將人、信息、應(yīng)用和流程端到端動態(tài)整合的一體化基礎(chǔ)信息平臺特征.平臺的四大組件之間是松散耦合的.一個模塊的變化(功能、數(shù)據(jù)、過程、技術(shù)環(huán)境等)不會影響到其他模塊變化.確保了系統(tǒng)具有良好的可擴展性。
3.4集成架構(gòu)
非結(jié)構(gòu)化數(shù)據(jù)管理平臺的集成對象包括公司內(nèi)的其他一體化信息平臺以及業(yè)務(wù)應(yīng)用系統(tǒng)2個部分.架構(gòu)設(shè)計如圖3所示。
1)與現(xiàn)有一體化平臺的集成,
如可以統(tǒng)一消息平臺、統(tǒng)一權(quán)限平臺以及企業(yè)門戶。
統(tǒng)一消息平臺集成:在非結(jié)構(gòu)化數(shù)據(jù)管理平臺中有運行監(jiān)控模塊.可以捕獲平臺運行的狀態(tài)及業(yè)務(wù)系統(tǒng)接人的信息,通過集成統(tǒng)一消息組件,將信息推送到統(tǒng)一消息平臺進行展示。
統(tǒng)一權(quán)限平臺:通過集成統(tǒng)一權(quán)限.實現(xiàn)對資源的統(tǒng)一權(quán)限的認證。
企業(yè)門戶:通過企業(yè)門戶可以將平臺特有的信息進行展現(xiàn)。
2)為業(yè)務(wù)系統(tǒng)接入提供集成。業(yè)務(wù)系統(tǒng)和平臺的集成包括非結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)(公共元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù)),業(yè)務(wù)系統(tǒng)通過請求接口服務(wù)實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一存儲、統(tǒng)一訪問、數(shù)據(jù)共享、數(shù)據(jù)交互等需求。平臺為業(yè)務(wù)系統(tǒng)接人提供多樣的接入方式.有數(shù)據(jù)流集成方式(包含HTTP/HTTPS、Web Service、JavaAPI、C#API等)和頁面集成方式(包含嵌入式組件、JS包)。業(yè)務(wù)系統(tǒng)可根據(jù)不同的業(yè)務(wù)需求,選擇對應(yīng)的接口方式.調(diào)用平臺提供的服務(wù).以滿足業(yè)務(wù)需求。
3.5技術(shù)架構(gòu)
技術(shù)架構(gòu)是基于功能和技術(shù)的需求.描述系統(tǒng)內(nèi)模塊間的關(guān)系以及與其他系統(tǒng)間的相互關(guān)系,同時描述平臺開發(fā)、部署、運行所需的技術(shù)組件.非結(jié)構(gòu)化數(shù)據(jù)管理平臺技術(shù)架構(gòu)設(shè)計如圖4所示。
非結(jié)構(gòu)化數(shù)據(jù)管理平臺技術(shù)架構(gòu)分層及各層功能說明如下。
1)數(shù)據(jù)存儲層:對外提供數(shù)據(jù)存儲服務(wù),實現(xiàn)業(yè)務(wù)架構(gòu)設(shè)計中統(tǒng)一存儲的目標.該層主要由內(nèi)容管理組件、分布式文件系統(tǒng)、存儲設(shè)備(SAN、NAS等)組成,該層對外提供對外存儲接口,支撐大數(shù)據(jù)量非結(jié)構(gòu)化數(shù)據(jù)在平臺的物理存儲。
2)邏輯資源層:用于各業(yè)務(wù)應(yīng)用系統(tǒng)在非結(jié)構(gòu)化數(shù)據(jù)平臺的存儲映射.支撐大數(shù)據(jù)量非結(jié)構(gòu)化數(shù)據(jù)在平臺上的邏輯存儲。
3)集成服務(wù)層:對外提供非結(jié)構(gòu)化數(shù)據(jù)全生命周期管理服務(wù).實現(xiàn)業(yè)務(wù)架構(gòu)設(shè)計中統(tǒng)一標準、統(tǒng)一管理和統(tǒng)一運維的目標.該層主要由統(tǒng)一數(shù)據(jù)目錄(業(yè)務(wù)元數(shù)據(jù)).用戶與權(quán)限管理、運行監(jiān)控、運行策略配置、服務(wù)集成框架與服務(wù)插件組成。該層還能和企業(yè)內(nèi)的業(yè)務(wù)流程管理、業(yè)務(wù)流程監(jiān)控、企業(yè)服務(wù)注冊中心、企業(yè)服務(wù)總線等一體化平臺集成服務(wù)層進行整合,對外提供統(tǒng)一服務(wù)。
4)業(yè)務(wù)系統(tǒng)層:業(yè)務(wù)應(yīng)用系統(tǒng)既是非結(jié)構(gòu)化數(shù)據(jù)資源的生產(chǎn)者,又是數(shù)據(jù)資源和數(shù)據(jù)服務(wù)的消費者。平臺對業(yè)務(wù)系統(tǒng)提供各種非結(jié)構(gòu)化數(shù)據(jù)訪問和利用服務(wù)集中在該層.該層集中體現(xiàn)平臺對業(yè)務(wù)應(yīng)用系統(tǒng)提供的對非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一訪問和利用的業(yè)務(wù)能力。
5)信息展現(xiàn)層:即用戶界面層.主要是用于非結(jié)構(gòu)化數(shù)據(jù)管理平臺與用戶的交互.并根據(jù)用戶發(fā)出的平臺請求,展現(xiàn)交互結(jié)果。平臺基于B/S多層分布式技術(shù)架構(gòu)開發(fā)。在內(nèi)容管理組件采用Documetum,它是國際領(lǐng)先的內(nèi)容管理軟件提供商EMC公司的核心產(chǎn)品,性能高,穩(wěn)定性好。由于整個平臺基于SOA技術(shù)開發(fā),提供的多樣化的內(nèi)容服務(wù)接口,可使業(yè)務(wù)系統(tǒng)通過企業(yè)服務(wù)總線來使用平臺提供的非結(jié)構(gòu)化數(shù)據(jù)服務(wù),具有很強的靈活性。
3.6部署架構(gòu)
為了使非結(jié)構(gòu)化數(shù)據(jù)管理平臺能夠在大型企業(yè)業(yè)得以正確部署.能夠充分利用公司現(xiàn)有信息網(wǎng)絡(luò)資源.降低實施推廣和運行維護成本.特設(shè)計如圖5所示的平臺部署架構(gòu)。
1)邏輯節(jié)點1:用于部署非結(jié)構(gòu)化數(shù)據(jù)管理平臺的管理界面程序及目錄用戶同步程序,此節(jié)點以web應(yīng)用的形式進行部署。
2)邏輯節(jié)點2:用于部署全文搜索服務(wù).主要包含數(shù)據(jù)抓取、索引管理、數(shù)據(jù)查詢等服務(wù),此節(jié)點以Web的形式進行部署。
3)邏輯節(jié)點3:用于部署文件轉(zhuǎn)換、信息抽取服務(wù),主要是提供各種文檔格式轉(zhuǎn)換、圖片格式轉(zhuǎn)換及文件信息抽取等。
4)邏輯節(jié)點4:用于部署平臺非結(jié)構(gòu)化數(shù)據(jù)縱向交換的服務(wù).為業(yè)務(wù)應(yīng)用提供網(wǎng)省與總部之間數(shù)據(jù)的縱向交換、分發(fā)、共享等功能,主要以web的形式進行部署。
5)邏輯節(jié)點5:用于部署內(nèi)容管理服務(wù)。提供對虛擬對象管理、版本管理、元數(shù)據(jù)管理等內(nèi)容管理。
6)邏輯節(jié)點6:用于存儲結(jié)構(gòu)化數(shù)據(jù)的服務(wù)器。
7)邏輯節(jié)點7:用于部署平臺為業(yè)務(wù)應(yīng)用系統(tǒng)提供接人接口的服務(wù)器,接口主要以Web Sevice、HTTP/HTTPS、組件等形式,以Web的形式進行部署。
8)邏輯節(jié)點8:用于部署實現(xiàn)系統(tǒng)安全控制的服務(wù)器。上述各個邏輯部署節(jié)點,在并發(fā)壓力小的情況下能將以Web服務(wù)形式存在的非結(jié)構(gòu)化數(shù)據(jù)服務(wù)歸并到一臺Web應(yīng)用服務(wù)器上。在并發(fā)壓力大時,各邏輯節(jié)點又可以獨立部署.從而最有效地提升部署平臺所需的各軟硬件資源的利用率。
平臺單點部署分為以下部分(見圖6)。
1)數(shù)據(jù)庫服務(wù)器集群:在Oracle 10g數(shù)據(jù)庫服務(wù)器的RAC平臺上新建非結(jié)構(gòu)化的實例.主要是用于內(nèi)容服務(wù)器的元數(shù)據(jù)管理及結(jié)構(gòu)化數(shù)據(jù)管理,數(shù)據(jù)庫存儲采用SAN存儲。
2)內(nèi)容管理服務(wù)器集群:在Linux平臺上安裝Documentum6.5,主要是內(nèi)容管理服務(wù)及分布式緩存管理,并實現(xiàn)集群,可配置為積極主動(Active-Active)的高可用性模式,內(nèi)容服務(wù)器存儲采用SAN存儲。
3)擴展服務(wù)器單機:在Windows2008企業(yè)版(32位)上安裝UDS擴展服務(wù)所需要的軟件及組件.主要是為應(yīng)用提供文件轉(zhuǎn)換、文件信息抽取等服務(wù)。
4)應(yīng)用服務(wù)器I/O服務(wù)器集群:在Linux平臺上安裝WebLogic9.2,并實現(xiàn)集群,通過硬件負載均衡設(shè)備實現(xiàn)負載分擔。在Linux平臺上安裝分布式文件系統(tǒng)服務(wù)端,主要用于實現(xiàn)分布式共享SAN存儲,避免存儲的單點故障及提高存儲性能,為保證穩(wěn)定性,需要進行集群部署。
5)存儲區(qū):采用SAN的存儲結(jié)構(gòu),既滿足了數(shù)據(jù)庫存儲的高效性,叉滿足了文件存儲的共享性和擴展性;備份設(shè)備使用虛擬磁帶庫和物理磁帶庫結(jié)合的方式,實現(xiàn)“磁盤到磁盤到磁帶”方式的二級備份。
4、結(jié)語
根據(jù)國家電網(wǎng)公司信息化SG—ERP建設(shè)規(guī)劃.非結(jié)構(gòu)化數(shù)據(jù)管理平臺與結(jié)構(gòu)化數(shù)據(jù)中心、海量歷史/準實時數(shù)據(jù)管理平臺、地理空間數(shù)據(jù)管理平臺組成國家電網(wǎng)公司企業(yè)級數(shù)據(jù)中心平臺。
圖7~圖9是非結(jié)構(gòu)化數(shù)據(jù)管理平臺的用戶界面。根據(jù)演進路線,2011年國家電網(wǎng)公司建成了企業(yè)級非結(jié)構(gòu)化數(shù)據(jù)管理平臺,制訂了《非結(jié)構(gòu)化數(shù)據(jù)平臺管理辦法》、《非結(jié)構(gòu)化數(shù)據(jù)管理平臺業(yè)務(wù)應(yīng)用接人規(guī)范》等與平臺相配套的管理和規(guī)范.設(shè)計、驗證了基于各類不同開發(fā)平臺(包括SAP、Ariba等)的業(yè)務(wù)應(yīng)用系統(tǒng)接入非結(jié)構(gòu)化數(shù)據(jù)管理平臺技術(shù),完成了試點建設(shè),實現(xiàn)了檔案管理、知識管理、綜合管理等10多個業(yè)務(wù)系統(tǒng)接人,初步達到集中化管理階段階段建設(shè)目標。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標題:企業(yè)級非結(jié)構(gòu)化數(shù)據(jù)管理平臺研究及實踐
本文網(wǎng)址:http://www.ezxoed.cn/html/support/1112157370.html