引文分析是中文社會(huì)科學(xué)引文索引(CSSCI)的重要組成部分。與數(shù)據(jù)錄入這種事務(wù)型處理系統(tǒng)不同,引文分析系統(tǒng)是一個(gè)典型的分析型處理系統(tǒng)。傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)理論和方法在處理這一類型的應(yīng)用時(shí),顯得并不適宜。必須把分析數(shù)據(jù)從錄入系統(tǒng)中提取出來(lái),按照分析處理的需要進(jìn)行重新組織,建立單獨(dú)的分析處理環(huán)境。數(shù)據(jù)倉(cāng)庫(kù)正是為了構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲(chǔ)和組織技術(shù)。為此,作者在進(jìn)行CSSCI分析系統(tǒng)設(shè)計(jì)時(shí),引入了數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)機(jī)分析處理的概念和技術(shù)。實(shí)踐表明,這一新技術(shù)應(yīng)用在引文分析系統(tǒng)當(dāng)中是十分適合和高效的。
1 系統(tǒng)體系框架
CSSCI通過(guò)人工標(biāo)引、錄入的方式每年采集500余種中國(guó)人文、社科學(xué)術(shù)期刊所發(fā)表論文的發(fā)文和引文信息,建設(shè)引文索引數(shù)據(jù)庫(kù),提供引文文獻(xiàn)檢索和分析評(píng)價(jià)服務(wù)。根據(jù)系統(tǒng)功能,可以劃分三個(gè)子系統(tǒng):數(shù)據(jù)錄入系統(tǒng)、引文檢索系統(tǒng)和引文分析系統(tǒng)(限于主題,本文不討論引文檢索系統(tǒng))。
數(shù)據(jù)錄入系統(tǒng)和引文分析系統(tǒng)的構(gòu)造必須分離開(kāi)來(lái),不能混在同一個(gè)數(shù)據(jù)環(huán)境中。這是因?yàn)椋菏紫,?shù)據(jù)錄入系統(tǒng)和引文分析系統(tǒng)的性質(zhì)和特點(diǎn)有很大不同:數(shù)據(jù)錄入系統(tǒng)是一個(gè)典型的事務(wù)型處理系統(tǒng),要求進(jìn)行頻繁的增刪改等數(shù)據(jù)存取操作,每次操作的數(shù)據(jù)量小、處理時(shí)間短,數(shù)據(jù)完整性和參照完整性約束要求高,可以按照傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)理論和方法進(jìn)行構(gòu)造;引文分析系統(tǒng)與數(shù)據(jù)錄入系統(tǒng)不同,它的數(shù)據(jù)很少或者不會(huì)更新,每次檢索涉及到大量的數(shù)據(jù)訪問(wèn),對(duì)于響應(yīng)時(shí)間要求不高。其次,許多綜合度較高的分析無(wú)法從數(shù)據(jù)錄入系統(tǒng)的數(shù)據(jù)模式中直接得到相關(guān)的數(shù)據(jù),必須進(jìn)行專門(mén)的數(shù)據(jù)抽取,計(jì)算出大量的中間數(shù)據(jù)。如果沒(méi)有經(jīng)過(guò)系統(tǒng)的規(guī)劃,大量雜亂無(wú)章的抽取數(shù)據(jù)勢(shì)必形成“蜘蛛網(wǎng)”型結(jié)構(gòu),造成數(shù)據(jù)可信度差、系統(tǒng)效率降低以及數(shù)據(jù)實(shí)際無(wú)法轉(zhuǎn)換為信息等種種問(wèn)題。再次,錄入系統(tǒng)和分析系統(tǒng)兩者的系統(tǒng)性能優(yōu)化目標(biāo)存在著矛盾。例如,分析型處理基于性能的考慮需要建立大量的索引,而這對(duì)于錄入系統(tǒng)來(lái)說(shuō)卻會(huì)降低系統(tǒng)的效率。最后,分析型需求是無(wú)法事先確定的,如果沒(méi)有針對(duì)性的系統(tǒng)的數(shù)據(jù)組織,則最壞情況下每一種分析都必須編寫(xiě)專門(mén)的程序,獲取分析數(shù)據(jù)的工作將變得復(fù)雜化,這使得分析工作實(shí)際掌握在程序員而非分析人員的手中。
數(shù)據(jù)倉(cāng)庫(kù)理論的出發(fā)點(diǎn)就在于認(rèn)識(shí)到存在著兩種不同的信息處理系統(tǒng):事務(wù)型處理系統(tǒng)和分析型處理系統(tǒng),兩者之間存在著巨大的差異使得事務(wù)型處理和分析型處理的分離成為必然,從而提出一整套關(guān)于建設(shè)體系化的數(shù)據(jù)環(huán)境的理論和方法。數(shù)據(jù)倉(cāng)庫(kù)的提出,原意是針對(duì)企業(yè)決策支持系統(tǒng)(DSS),然而這并不妨礙它在引文分析系統(tǒng)建設(shè)中的應(yīng)用。首先,引文分析是一種典型的分析型處理,數(shù)據(jù)倉(cāng)庫(kù)中的多維分析模式在這里也很適用。其次,引文分析所處理的數(shù)據(jù)特點(diǎn)與數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)特點(diǎn)一致,都是歷史積累性的、綜合的和非更新性的。最后,數(shù)據(jù)倉(cāng)庫(kù)理論的引入,使得CSSCI引文分析系統(tǒng)的框架變得明朗,更具有系統(tǒng)性。當(dāng)然,數(shù)據(jù)倉(cāng)庫(kù)在引文分析中的應(yīng)用與一般企業(yè)DSS應(yīng)用也存在著不同點(diǎn)。比如,由于源數(shù)據(jù)構(gòu)成比較單一,引文分析數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)集成任務(wù)就顯得不是很重要。
按照數(shù)據(jù)倉(cāng)庫(kù)理論將事務(wù)型環(huán)境與分析型環(huán)境分開(kāi)構(gòu)造的思路,設(shè)計(jì)CSSCI引文分析系統(tǒng)體系框架如下:在錄入系統(tǒng)和分析系統(tǒng)之間,通過(guò)數(shù)據(jù)轉(zhuǎn)換程序?qū)⒃磾?shù)據(jù)取出并轉(zhuǎn)換為目標(biāo)模式,然后裝入數(shù)據(jù)倉(cāng)庫(kù);通過(guò)OLAP服務(wù)從多維數(shù)據(jù)庫(kù)析取多維分析數(shù)據(jù);分析人員使用OLAP工具透過(guò)OLAP服務(wù)訪問(wèn)多維數(shù)據(jù)庫(kù)進(jìn)行引文分析(見(jiàn)圖1)。
圖1 CSSCI系統(tǒng)體系框架
作者將在下文中分別討論體系中的各重要環(huán)節(jié)。
2 源數(shù)據(jù):面向應(yīng)用的數(shù)據(jù)組織
CSSCI系統(tǒng)的源數(shù)據(jù)來(lái)源比較單一,絕大部分來(lái)自于數(shù)據(jù)錄入系統(tǒng)的手工錄入,也有一小部分來(lái)自外部數(shù)據(jù),如計(jì)算期刊影響因子時(shí),需要采集非收錄刊的發(fā)文數(shù)據(jù)。數(shù)據(jù)錄入系統(tǒng)面臨頻繁的增刪改等數(shù)據(jù)操作,同時(shí)要滿足數(shù)據(jù)完整性和商業(yè)規(guī)則等約束條件,是一個(gè)典型的事務(wù)型處理系統(tǒng)。我們將數(shù)據(jù)組織為五個(gè)主要的表:收錄期刊、期刊載文、來(lái)源文獻(xiàn)、來(lái)源作者和被引文獻(xiàn)。收錄期刊表記錄CSSCI收錄的500種左右期刊的代碼和名稱;期刊載文表記錄每本期刊的記錄、標(biāo)示號(hào)、期刊代碼、卷期和載文量等信息;來(lái)源文獻(xiàn)表記錄每本期刊所發(fā)表論文的信息,包括記錄標(biāo)示號(hào)、篇名和關(guān)鍵詞等標(biāo)引信息;來(lái)源作者表記錄來(lái)源文獻(xiàn)的作者信息,包括姓名和機(jī)構(gòu)等;被引文獻(xiàn)表則記錄了來(lái)源文獻(xiàn)所引用的參考文獻(xiàn)的信息(具體結(jié)構(gòu)請(qǐng)參見(jiàn)圖2)。這五個(gè)表分別與實(shí)際錄入工作流程中的每種期刊、每本期刊、論文、作者和參考文獻(xiàn)一一對(duì)應(yīng),整個(gè)數(shù)據(jù)模式是高度規(guī)范化的,既便于數(shù)據(jù)的增刪改操作,又有利于整個(gè)工作流程的管理。
圖2 CSSCI錄入系統(tǒng)數(shù)據(jù)模型的實(shí)體-關(guān)系圖
3 面向主題的數(shù)據(jù)組織
錄入系統(tǒng)的數(shù)據(jù)是面向應(yīng)用(具體來(lái)說(shuō)就是數(shù)據(jù)錄入工作)進(jìn)行組織的,其抽象程度還不夠高。而分析型系統(tǒng)的數(shù)據(jù)應(yīng)該是面向主題進(jìn)行組織的。所謂主題,就是分析領(lǐng)域中所涉及的分析對(duì)象的邏輯抽象。面向主題的數(shù)據(jù)組織,“就是在較高層次上對(duì)分析對(duì)象的數(shù)據(jù)的一個(gè)完整、一致的描述、能完整、統(tǒng)一地刻畫(huà)各個(gè)分析對(duì)象所設(shè)計(jì)的各項(xiàng)數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系”,根據(jù)這一原則,確定每個(gè)主題所應(yīng)包含的數(shù)據(jù)內(nèi)容。主題的確定,與分析人員所關(guān)心的問(wèn)題密切相關(guān),而分析人員的興趣無(wú)法完全預(yù)測(cè),只能通過(guò)反復(fù)的主題抽取過(guò)程逐步求精。每個(gè)主題由一組關(guān)系表實(shí)現(xiàn),所有這些表通過(guò)一個(gè)公共碼鍵關(guān)聯(lián)起來(lái)。
引文分析領(lǐng)域的分析對(duì)象大致有以下幾種:期刊、論文、作者、機(jī)構(gòu)、地區(qū)等。所有關(guān)于期刊的信息組織在一起,形成了完備的主題域。其具有獨(dú)立性和完備性,是在較高層次上對(duì)數(shù)據(jù)的抽象,因而適合于在此數(shù)據(jù)環(huán)境上方便地開(kāi)發(fā)分析型應(yīng)用。
4 數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)轉(zhuǎn)換是數(shù)據(jù)倉(cāng)庫(kù)實(shí)施中重要的一環(huán),目的是將數(shù)據(jù)從操作型環(huán)境傳遞到數(shù)據(jù)倉(cāng)庫(kù)中。在傳統(tǒng)的DSS應(yīng)用中,數(shù)據(jù)轉(zhuǎn)換工作相當(dāng)復(fù)雜。第一,由于數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)是在企業(yè)已有的各類MIS之上進(jìn)行,而這些MIS往往是獨(dú)立開(kāi)發(fā)的,各系統(tǒng)之間存在著數(shù)據(jù)缺乏集成、運(yùn)行平臺(tái)不統(tǒng)一等問(wèn)題,所以在數(shù)據(jù)從操作型環(huán)境向數(shù)據(jù)倉(cāng)庫(kù)中轉(zhuǎn)移的過(guò)程中要經(jīng)過(guò)大量的數(shù)據(jù)清洗、選擇、匯總、集成、轉(zhuǎn)換等處理。第二,企業(yè)決策分析的及時(shí)性要求,使得數(shù)據(jù)轉(zhuǎn)換工作相當(dāng)頻繁,轉(zhuǎn)換的效率問(wèn)題成為難點(diǎn)。
本引文分析系統(tǒng)與企業(yè)DSS不同,它的源數(shù)據(jù)環(huán)境相對(duì)簡(jiǎn)單,主要是數(shù)據(jù)錄入系統(tǒng)和少量的外部數(shù)據(jù)。并且由于在數(shù)據(jù)錄入系統(tǒng)的開(kāi)發(fā)中就考慮到了后期數(shù)據(jù)倉(cāng)庫(kù)建設(shè)的需要,使得數(shù)據(jù)集成的任務(wù)大大減少。引文分析的及時(shí)性要求相對(duì)不高,數(shù)據(jù)轉(zhuǎn)換效率問(wèn)題的重要性并不突出。
本系統(tǒng)的數(shù)據(jù)轉(zhuǎn)換問(wèn)題主要集中在數(shù)據(jù)的清洗和元數(shù)據(jù)的管理。引文數(shù)據(jù)的錯(cuò)誤主要集中在:一、錄入錯(cuò)誤,二、源刊的印刷錯(cuò)誤;三、作者原文的錯(cuò)誤。第一類錯(cuò)誤可通過(guò)人工校對(duì)工作加以排除,后兩類錯(cuò)誤則必須在大量的數(shù)據(jù)積累后,進(jìn)行自動(dòng)和人工的比對(duì)加以排除,有些可能永遠(yuǎn)無(wú)法得到糾正。元數(shù)據(jù)在數(shù)據(jù)轉(zhuǎn)換中的作用非常重要,它描述了操作型環(huán)境中的數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)以及數(shù)據(jù)轉(zhuǎn)換過(guò)程中的處理,是數(shù)據(jù)轉(zhuǎn)換處理的依據(jù)。我們?cè)跀?shù)據(jù)轉(zhuǎn)換程序的開(kāi)發(fā)中,采用了面向元數(shù)據(jù)的方式,使程序更加靈活和易于管理。
5 OLAP服務(wù)與工具
聯(lián)機(jī)分析處理(OLAP)是一門(mén)與數(shù)據(jù)倉(cāng)庫(kù)密切相關(guān)的新興的軟件技術(shù),它專門(mén)設(shè)計(jì)用于支持復(fù)雜的分析操作。它的多維數(shù)據(jù)分析模式“是針對(duì)特定問(wèn)題的聯(lián)機(jī)數(shù)據(jù)訪問(wèn)和分析,通過(guò)對(duì)信息(這些信息已經(jīng)從原始的數(shù)據(jù)進(jìn)行了轉(zhuǎn)換,以反映用戶所能理解的企業(yè)的真實(shí)的‘維’)的很多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互性的存取”,允許分析人員對(duì)數(shù)據(jù)進(jìn)行深入的觀察。多維數(shù)據(jù)分析模式把數(shù)據(jù)分析工作看作是對(duì)一個(gè)數(shù)據(jù)立方體的旋轉(zhuǎn)、切片、切塊等一系列操作過(guò)程。數(shù)據(jù)立方體由變量和維組成。變量是數(shù)據(jù)的實(shí)際意義,也就是人們所關(guān)心的數(shù)值度量指標(biāo);維是人們觀察數(shù)據(jù)的某個(gè)特定角度。多個(gè)維與變量組成一個(gè)多維的數(shù)據(jù)結(jié)構(gòu),就是數(shù)據(jù)立方體,而立方體的設(shè)計(jì)則成為多維數(shù)據(jù)分析的關(guān)鍵問(wèn)題。OLAP技術(shù)的性質(zhì)和特點(diǎn)使得它可以成為引文分析的有力工具。在本系統(tǒng)中引入OLAP技術(shù)和工具后,減少了分析程序的數(shù)量,統(tǒng)一了應(yīng)用邏輯,改善了用戶界面。
OLAP產(chǎn)品是建立在客戶/服務(wù)器體系結(jié)構(gòu)上的。OLAP服務(wù)器完成數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)到多維數(shù)據(jù)庫(kù)的轉(zhuǎn)換、多維數(shù)據(jù)的存貯和數(shù)據(jù)計(jì)算引擎等功能。OLAP工具則具有多維數(shù)據(jù)存取和多維視圖表現(xiàn)的能力。分析人員通過(guò)OLAP工具與OLAP服務(wù)器進(jìn)行交互,進(jìn)行多維數(shù)據(jù)分析。在#$%&服務(wù)器端的數(shù)據(jù)組織方法有兩種方式:一種是建立專用的多維數(shù)據(jù)庫(kù)系統(tǒng)(MOLAP);另一種是仍然利用現(xiàn)有的關(guān)系數(shù)據(jù)庫(kù)技術(shù)來(lái)模擬多維數(shù)據(jù)(ROLAP)。MOLAP使用二維矩陣的形式組織數(shù)據(jù),而OLAP使用星型模式(Star Schema)或雪花模式(SnowFlake Schema)來(lái)組織數(shù)據(jù)。星型模式將多維數(shù)據(jù)結(jié)構(gòu)劃分為兩類表,一類是事實(shí)表,用來(lái)存儲(chǔ)事實(shí)的度量值以及各個(gè)維的碼值;另一類是維表,對(duì)每一個(gè)維來(lái)說(shuō),至少有一個(gè)表用來(lái)保存該維的元數(shù)據(jù),即維的描述信息,包括維的層次及成員類別等。事實(shí)表通過(guò)每一個(gè)維的值和維表聯(lián)系在一起,構(gòu)成星型模式。圖3所示的是本系統(tǒng)中機(jī)構(gòu)發(fā)文貢獻(xiàn)數(shù)據(jù)立方體所對(duì)應(yīng)的星型存儲(chǔ)模式。
圖3 發(fā)文貢獻(xiàn)星型模式
現(xiàn)在市場(chǎng)中有許多OLAP服務(wù)和工具軟件,INFORMIX、Oracle、Svbase、Microsoft以及IBM等數(shù)據(jù)庫(kù)管理系統(tǒng)供應(yīng)商都有自己的OLAP解決方案。產(chǎn)品的選擇主要應(yīng)該考慮性能價(jià)格比、二次開(kāi)發(fā)能力以及與現(xiàn)有系統(tǒng)的配合度。由于本系統(tǒng)使用了SQL Server作為數(shù)據(jù)庫(kù)管理系統(tǒng),基于易用性和經(jīng)濟(jì)性的考慮,我們采用了微軟公司的SQL Server 7.0 OLAP解決方案。它主要包括以下組成部分:OLAP服務(wù)器、數(shù)據(jù)透視表服務(wù)、數(shù)據(jù)轉(zhuǎn)換服務(wù)、多維數(shù)據(jù)庫(kù)、Excei 2000等。它的一大優(yōu)點(diǎn)就是與操作系統(tǒng)以及其他的工具結(jié)合較好,很多部件直接集成在Windows系統(tǒng)中,節(jié)省了用戶的投資。同時(shí)還提供了多維擴(kuò)展(MDX)語(yǔ)言作為SQL語(yǔ)言的擴(kuò)展,用于分析工具的二次開(kāi)發(fā)。
6 引文聯(lián)機(jī)分析實(shí)例
為了具體說(shuō)明本引文分析系統(tǒng)的實(shí)施和效果,現(xiàn)以1998年度CSSCI系統(tǒng)數(shù)據(jù)為基礎(chǔ),介紹本系統(tǒng)中OLAP的應(yīng)用(文中的數(shù)據(jù)表均來(lái)自于系統(tǒng)自動(dòng)生成的Excel表格)。以分析機(jī)構(gòu)對(duì)發(fā)表論文的貢獻(xiàn)系數(shù)為例:一篇論文可能有多個(gè)作者,每個(gè)作者的所在機(jī)構(gòu)由于作者排名不同對(duì)這篇論文做出了大小不一的貢獻(xiàn)。按照論文中作者排名順序,給機(jī)構(gòu)賦予一定的貢獻(xiàn)系數(shù),這個(gè)系數(shù)就反映了此機(jī)構(gòu)對(duì)該論文的貢獻(xiàn)程度。把貢獻(xiàn)系數(shù)當(dāng)作變量,機(jī)構(gòu)、機(jī)構(gòu)類別、論文學(xué)科、論文類型和發(fā)表期刊當(dāng)作維,就構(gòu)成了一個(gè)分析機(jī)構(gòu)發(fā)文貢獻(xiàn)的數(shù)據(jù)立方體。通過(guò)對(duì)這個(gè)立方體的旋轉(zhuǎn)、切片、切塊等操作,我們可以得到各種有意義的分析數(shù)據(jù)。
7 結(jié) 語(yǔ)
中文社會(huì)科學(xué)引文索引系統(tǒng)的建設(shè),其核心就是引文數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)。在引文分析系統(tǒng)的設(shè)計(jì)和實(shí)施過(guò)程中,我們借鑒了數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)機(jī)分析處理的理論和技術(shù),取得了很好的效果。一方面,數(shù)據(jù)倉(cāng)庫(kù)關(guān)于構(gòu)建體系化數(shù)據(jù)環(huán)境的理論對(duì)于CSSCI系統(tǒng)歷史積累數(shù)據(jù)的有效組織存儲(chǔ)提供了指導(dǎo),另一方面,多維數(shù)據(jù)分析模型技術(shù)減輕了開(kāi)發(fā)人員的編程工作量,同時(shí)也使得人機(jī)界面更加友好,能夠滿足不同用戶的各種分析需求。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:基于數(shù)據(jù)倉(cāng)庫(kù)的引文分析系統(tǒng)研究
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/1082055250.html