一、 背景介紹
業(yè)務(wù)系統(tǒng)在長期運(yùn)行的過程中會積累大量的數(shù)據(jù),這些數(shù)據(jù)有些是需要長期保存的,例如一些訂單數(shù)據(jù),有些只需要短期保存,例如一些日志信息。業(yè)務(wù)數(shù)據(jù)一般都會有一個(gè)生命周期,生命周期內(nèi)的我們叫生產(chǎn)數(shù)據(jù),生命周期之外(即業(yè)務(wù)已經(jīng)關(guān)閉)的叫歷史數(shù)據(jù),我們這里提到的數(shù)據(jù)結(jié)轉(zhuǎn),指的是將需要長期保存的歷史數(shù)據(jù)從生產(chǎn)庫遷移到歷史庫(轉(zhuǎn)),而將需要短期保存的數(shù)據(jù)定期刪除(結(jié))。
我們已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代,但在OLTP類系統(tǒng)中,關(guān)系型數(shù)據(jù)庫依然占據(jù)主導(dǎo)地位,在關(guān)系型數(shù)據(jù)庫中,如果不及時(shí)進(jìn)行數(shù)據(jù)結(jié)轉(zhuǎn),會嚴(yán)重影響系統(tǒng)的性能。
關(guān)系型數(shù)據(jù)庫單機(jī)容量有限,因此業(yè)界普遍的做法是進(jìn)行垂直分庫和水平分片,一些大型互聯(lián)網(wǎng)企業(yè)由于業(yè)務(wù)量龐大,僅分片的集群規(guī)模就能達(dá)到上千節(jié)點(diǎn),再加上分庫的集群,規(guī)模非常巨大。傳統(tǒng)的數(shù)據(jù)歸檔方法往往針對單庫操作,難以處理如此大規(guī)模集群的數(shù)據(jù)歸檔。
同時(shí),在大型互聯(lián)網(wǎng)企業(yè),每日的數(shù)據(jù)增長量非常大,數(shù)據(jù)結(jié)轉(zhuǎn)的頻率遠(yuǎn)大于傳統(tǒng)行業(yè),這些行業(yè)的IT系統(tǒng)往往是7*24小時(shí)不間斷提供服務(wù),而且全天24小時(shí)的并發(fā)量都很大,因此數(shù)據(jù)結(jié)轉(zhuǎn)操作必須盡量減少對生產(chǎn)庫的性能影響。
為此,我們自主研發(fā)了數(shù)據(jù)結(jié)轉(zhuǎn)平臺,以解決大數(shù)據(jù)背景下的數(shù)據(jù)結(jié)轉(zhuǎn)問題。
二、 技術(shù)架構(gòu)
2.1 設(shè)計(jì)要點(diǎn)
(1)盡量減少對生產(chǎn)庫的影響
數(shù)據(jù)結(jié)轉(zhuǎn)操作沒有復(fù)雜的業(yè)務(wù)邏輯,因此對數(shù)據(jù)庫性能的影響主要體現(xiàn)在IO方面,減少對生產(chǎn)庫的影響,最主要的就是減少對生產(chǎn)庫的IO操作。目前我們采用的方案是通過從庫查詢數(shù)據(jù),將數(shù)據(jù)插入歷史庫,然后再從主庫中刪除,如圖1數(shù)據(jù)結(jié)轉(zhuǎn)邏輯圖所示,將查詢的IO操作轉(zhuǎn)嫁到從庫上,可以大大減輕對主庫的影響。為了保障數(shù)據(jù)庫的高可用,業(yè)內(nèi)基本都采用了主從部署模式,因此這個(gè)方案具有很高的通用性。
圖1 數(shù)據(jù)結(jié)轉(zhuǎn)邏輯圖
(2)支持分庫分片集群
我們希望數(shù)據(jù)結(jié)轉(zhuǎn)平臺的配置足夠簡單并且易于理解。在和用戶的溝通過程中,我們發(fā)現(xiàn)他們最強(qiáng)烈的需求就是分庫分片集群的數(shù)據(jù)結(jié)轉(zhuǎn)。傳統(tǒng)的單機(jī)數(shù)據(jù)結(jié)轉(zhuǎn)操作可以抽象描述為:將數(shù)據(jù)庫實(shí)例A中表B的歷史數(shù)據(jù)結(jié)轉(zhuǎn)到歷史庫C,用戶的配置主要有4個(gè)元素:生產(chǎn)庫實(shí)例A、結(jié)轉(zhuǎn)表B、結(jié)轉(zhuǎn)條件和歷史庫。對于大規(guī)模的分庫分片集群規(guī)模,如果采用傳統(tǒng)單機(jī)數(shù)據(jù)結(jié)轉(zhuǎn)的配置方式,每一個(gè)數(shù)據(jù)庫實(shí)例都要配置4個(gè)元素,配置量非常大。
在我們的方案中,按照圖2所示對數(shù)據(jù)庫集群進(jìn)行劃分,將主庫、從庫、歷史庫作為一個(gè)結(jié)轉(zhuǎn)單元,對于分片的數(shù)據(jù)庫集群,表結(jié)構(gòu)相同,我們將其作為一個(gè)分組,對于分庫的集群,表結(jié)構(gòu)不同則劃分為不同的分組。用戶進(jìn)行配置的時(shí)候不是面向一個(gè)數(shù)據(jù)庫實(shí)例,而是面向一個(gè)分組,數(shù)據(jù)結(jié)轉(zhuǎn)操作抽象為:結(jié)轉(zhuǎn)分組X中表B的歷史數(shù)據(jù),用戶的配置元素有3個(gè):分組X、結(jié)轉(zhuǎn)表B和結(jié)轉(zhuǎn)條件。分組信息僅需配置一次。這樣大大簡化了用戶的配置工作。
(3)支持水平擴(kuò)展
由于數(shù)據(jù)庫集群規(guī)模較大,數(shù)據(jù)結(jié)轉(zhuǎn)平臺應(yīng)該具備水平擴(kuò)展能力。我們采用的方案是將數(shù)據(jù)結(jié)轉(zhuǎn)最核心的組件定時(shí)任務(wù)和數(shù)據(jù)庫操作(數(shù)據(jù)結(jié)轉(zhuǎn)執(zhí)行器)獨(dú)立出來,進(jìn)行分布式部署。如下圖3所示,
圖2 數(shù)據(jù)庫集群模型
配置中心為用戶的入口,用戶通過配置中心定義數(shù)據(jù)結(jié)轉(zhuǎn)任務(wù),任務(wù)的關(guān)鍵屬性包括:觸發(fā)條件、執(zhí)行條件、目標(biāo)分組等,配置中心將結(jié)轉(zhuǎn)任務(wù)分發(fā)給代理程序,同時(shí)對代理程序的執(zhí)行狀態(tài)進(jìn)行監(jiān)控。結(jié)轉(zhuǎn)任務(wù)的觸發(fā)條件配置在代理程序中的定時(shí)任務(wù)中,而執(zhí)行條件和目標(biāo)分組則作為數(shù)據(jù)結(jié)轉(zhuǎn)執(zhí)行器的執(zhí)行參數(shù)。通過水平擴(kuò)展代理程序,我們對更多的數(shù)據(jù)庫進(jìn)行結(jié)轉(zhuǎn)。
圖3 數(shù)據(jù)結(jié)轉(zhuǎn)組件關(guān)系圖
2.2 總體架構(gòu)
綜合上面提到的3個(gè)設(shè)計(jì)要點(diǎn),我們得到圖4所示的總體架構(gòu),需要特別說明的是,對于水平分片的分組,我們采用的是多線程結(jié)轉(zhuǎn),對于不同結(jié)轉(zhuǎn)單元不存在數(shù)據(jù)共享問題,所以無需考慮并發(fā)鎖等問題。
三、 一些經(jīng)驗(yàn)總結(jié)
a) 配置中心與代理程序之間的信息同步
圖4 數(shù)據(jù)結(jié)轉(zhuǎn)總體架構(gòu)圖
配置中心和代理程序在我們的方案中被設(shè)計(jì)為一種松耦合結(jié)構(gòu):在系統(tǒng)的運(yùn)行過程中,代理程序宕機(jī)不會影響配置中心的運(yùn)行,同樣配置中心短暫的不可用也不會影響代理程序的運(yùn)行。松耦合結(jié)構(gòu)可以大大增強(qiáng)系統(tǒng)的可用性,而且配置中心、代理程序升級的時(shí)候不會影響整個(gè)系統(tǒng)的正常運(yùn)行。
為了實(shí)現(xiàn)松耦合的結(jié)構(gòu),配置中心與代理程序之間的信息同步我們都是采用的異步處理,比如配置中心向代理程序分發(fā)結(jié)轉(zhuǎn)任務(wù),實(shí)際處理的時(shí)候我們采用的是拉的方式,而不是推的方式,我們在配置中心和代理程序之間維持了一個(gè)心跳,心跳的內(nèi)容是代理程序負(fù)載的所有結(jié)轉(zhuǎn)任務(wù)的校驗(yàn)碼(該校驗(yàn)碼在代理程序向配置中心發(fā)送心跳信息時(shí)由配置中心計(jì)算),當(dāng)代理程序發(fā)現(xiàn)從配置中心得到的校驗(yàn)碼和本地校驗(yàn)碼不同時(shí),則說明用戶對結(jié)轉(zhuǎn)任務(wù)進(jìn)行了修改(包括新增、修改、刪除),此時(shí)代理程序主動(dòng)向配置中心發(fā)起同步結(jié)轉(zhuǎn)任務(wù)的請求。這樣做的好處是,代理程序在發(fā)生宕機(jī)重啟后,會自動(dòng)進(jìn)行任務(wù)的同步。
b) 進(jìn)度可視化
結(jié)轉(zhuǎn)任務(wù)的進(jìn)度在我們的方案中是實(shí)時(shí)匯總到配置中心的,我們稱為進(jìn)度可視化,代理程序通過一個(gè)獨(dú)立的線程來異步處理進(jìn)度可視化,一方面這樣可以降低對結(jié)轉(zhuǎn)任務(wù)性能的干擾,另一方面可以避免由于網(wǎng)絡(luò)問題、配置中心暫時(shí)不可用等問題導(dǎo)致結(jié)轉(zhuǎn)任務(wù)異常。進(jìn)度可視化對于用戶來說非常重要,用戶在第一次定義結(jié)轉(zhuǎn)任務(wù)并執(zhí)行該任務(wù)的時(shí)候,進(jìn)度可視化信息是用戶和系統(tǒng)互動(dòng)的唯一窗口,對用戶來說是莫大的心理安慰。
c) 異?梢暬
代理程序在執(zhí)行數(shù)據(jù)結(jié)轉(zhuǎn)任務(wù)時(shí),會遇到各種異常信息,比如數(shù)據(jù)庫URL配置錯(cuò)誤,歷史庫生產(chǎn)庫表結(jié)構(gòu)不一致等,對于這些異常信息,除了在本地記錄日志外,我們還將它們發(fā)送到了配置中心。將這些異常可視化,而不是讓用戶在大量的日志中去檢索,這種方式非常便于在線問題的診斷。
d) 事務(wù)一致性
將生產(chǎn)庫數(shù)據(jù)轉(zhuǎn)到歷史庫本身是一個(gè)分布式的事務(wù),在我們的方案中,不能保證數(shù)據(jù)的強(qiáng)一致性,比如在歷史數(shù)據(jù)Insert到歷史庫的瞬間,用戶修改了生產(chǎn)庫的數(shù)據(jù),我們的方案不會檢測這種變化,會導(dǎo)致用戶的修改并不會反映到歷史庫中,造成數(shù)據(jù)不一致。雖然在生產(chǎn)庫中刪除歷史數(shù)據(jù)時(shí),可以增加強(qiáng)一致性的校驗(yàn),以解決這種問題,但是這樣會對生產(chǎn)庫造成一定的壓力,同時(shí)考慮到這種情況發(fā)生的概率極低,因此并沒有進(jìn)行特殊處理。
歷史數(shù)據(jù)Insert到歷史庫后,可能由于某種異常導(dǎo)致生產(chǎn)庫執(zhí)行Delete操作時(shí)失敗,此時(shí)會造成數(shù)據(jù)冗余(生產(chǎn)庫和歷史庫存在相同數(shù)據(jù))。對于這種問題,我們的方案是利用Redo Log(重做日志)機(jī)制,在結(jié)轉(zhuǎn)任務(wù)重新執(zhí)行時(shí)根據(jù)Redo Log恢復(fù)異,F(xiàn)場,糾正異常數(shù)據(jù)。
e) 結(jié)轉(zhuǎn)數(shù)據(jù)的回滾
我們提供了一個(gè)數(shù)據(jù)回滾功能,可以將已經(jīng)結(jié)轉(zhuǎn)到歷史庫的數(shù)據(jù)逆向回滾到生產(chǎn)庫,用戶可以配置Where條件精確指定需要回滾的數(shù)據(jù)。有些特殊情況,業(yè)務(wù)上需要對已經(jīng)結(jié)轉(zhuǎn)的歷史數(shù)據(jù)進(jìn)行修改,該功能主要用于處理這種情況。同時(shí)在測試階段,我們可以通過該功能快速恢復(fù)測試數(shù)據(jù),方便對數(shù)據(jù)結(jié)轉(zhuǎn)平臺的測試。
f) 代理程序的自動(dòng)升級
代理程序和配置中心本質(zhì)上是一種典型的C/S(客戶端/服務(wù)端)結(jié)構(gòu),客戶端是多實(shí)例部署,服務(wù)器端是集群部署,為了系統(tǒng)能夠平滑地進(jìn)行升級,我們需要對客戶端的版本進(jìn)行統(tǒng)一管理,同時(shí)我們提供了代理程序的自動(dòng)升級功能,系統(tǒng)管理員可以通過配置中心對代理程序部署實(shí)例進(jìn)行升級。自動(dòng)升級功能,統(tǒng)一了代理程序的版本,使得我們可以不用被兼容性問題羈絆,是我們能夠進(jìn)行快速迭代開發(fā)有力支撐。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:OLTP類系統(tǒng)數(shù)據(jù)結(jié)轉(zhuǎn)最佳實(shí)踐
本文網(wǎng)址:http://www.ezxoed.cn/html/support/11121820556.html