我今天要跟大家分享的主題是《中小企業(yè)運(yùn)維管理平臺(tái)架構(gòu)》,這是結(jié)合我們青島航空在做運(yùn)維管理和運(yùn)營(yíng)管理平臺(tái)時(shí)的一些經(jīng)驗(yàn)和問(wèn)題,希望能夠?qū)Υ蠹矣幸欢ǖ膸椭?/div>
分享大綱:
1.運(yùn)維管理思路
2.運(yùn)維管理平臺(tái)架構(gòu)
3.未來(lái)展望
一、運(yùn)維管理思路
在運(yùn)維的初期,我們更多的是一個(gè)救火隊(duì)長(zhǎng)的角色,每天數(shù)不盡的更新發(fā)布和問(wèn)題修改,運(yùn)維人員每天的工作都很飽和,壓力也很大,是一個(gè)比較疲憊的過(guò)程。后面我們經(jīng)過(guò)了一個(gè)梳理運(yùn)維流程和整理的步驟,逐漸實(shí)現(xiàn)了運(yùn)維的標(biāo)準(zhǔn)化和流程化,結(jié)束運(yùn)維初期相對(duì)混亂的狀態(tài)。
在做運(yùn)維標(biāo)準(zhǔn)化流程化的過(guò)程中,最初也會(huì)利用腳本或者代碼、工具來(lái)實(shí)現(xiàn)運(yùn)維自動(dòng)化的工作,大大減少運(yùn)維的重復(fù)性工作,提高運(yùn)維的效率;也會(huì)結(jié)合我們?cè)谶\(yùn)維標(biāo)準(zhǔn)化、流程化、自動(dòng)化中積攢的一些數(shù)據(jù),結(jié)合自身運(yùn)維的經(jīng)驗(yàn)和一些機(jī)器學(xué)習(xí)算法,去完成一些智能化相關(guān)的工作。
運(yùn)維的三大主題是監(jiān)控、安全和災(zāi)備,這是圍繞運(yùn)維的基礎(chǔ)數(shù)據(jù)來(lái)做的,以保證運(yùn)維基礎(chǔ)數(shù)據(jù)的穩(wěn)定。運(yùn)維周期是從需求開(kāi)發(fā)調(diào)研開(kāi)始的,從開(kāi)發(fā)到測(cè)試到上線,這中間借鑒了一些DevOps的思想,也包含了運(yùn)維人員、測(cè)試人員共同維護(hù)我們的業(yè)務(wù)系統(tǒng),保證業(yè)務(wù)系統(tǒng)的穩(wěn)定。
我們做運(yùn)維管理的時(shí)候,始終堅(jiān)持安全、穩(wěn)定和高效三個(gè)原則,拋棄了這三個(gè)原則,之前所做的不管是標(biāo)準(zhǔn)化、流程化,都將為零。通過(guò)做運(yùn)維管理,我們的目的是提高運(yùn)維質(zhì)量,降低運(yùn)維成本。以上就是做運(yùn)維管理的思路。
二、運(yùn)維管理平臺(tái)架構(gòu)
下面我將從總體架構(gòu)、標(biāo)準(zhǔn)化、流程化、基礎(chǔ)數(shù)據(jù)、監(jiān)控管理體系、安全、災(zāi)備管理體系、自動(dòng)化以及其它一些方面進(jìn)行簡(jiǎn)單分享。
1、總體架構(gòu)
從下往上,我們首先通過(guò)虛擬化、容器化實(shí)現(xiàn)了相對(duì)基礎(chǔ)的類IaaS平臺(tái),這樣在做上層運(yùn)維工作時(shí),可以相對(duì)少地去關(guān)注底層資源。接下來(lái)是基礎(chǔ)數(shù)據(jù)的梳理,基礎(chǔ)數(shù)據(jù)決定了運(yùn)維的工作對(duì)象和范圍,上層所運(yùn)作的所有的工作都緊緊圍繞運(yùn)維基礎(chǔ)數(shù)據(jù)來(lái)的。我們?cè)谑崂砗驼砘A(chǔ)運(yùn)維數(shù)據(jù)的時(shí)候,順便完成了運(yùn)維的標(biāo)準(zhǔn)化和流程化的制定以及實(shí)施落地。
基礎(chǔ)數(shù)據(jù)之上是監(jiān)控、安全和災(zāi)備三個(gè)管理體系,圍繞基礎(chǔ)數(shù)據(jù)對(duì)運(yùn)維的基礎(chǔ)數(shù)據(jù)提供保駕護(hù)航。再上面是運(yùn)維自動(dòng)化,通過(guò)運(yùn)維自動(dòng)化將固化的運(yùn)維工作和流程做了一些自動(dòng)化的開(kāi)發(fā),減少了運(yùn)維重復(fù)性的工作,提高了運(yùn)維效率。隨著運(yùn)維自動(dòng)化的發(fā)展演變出了一定的問(wèn)題,例如自動(dòng)化腳本越來(lái)越多、越來(lái)越難管理,我們用的自動(dòng)化工序也非常多,這時(shí)急需一個(gè)統(tǒng)一的運(yùn)維管理平臺(tái),幫助去對(duì)去做統(tǒng)一的管理,這是我們運(yùn)維管理平臺(tái)的情況。
我們的運(yùn)維管理平臺(tái)主要是包含用戶管理、項(xiàng)目管理、數(shù)據(jù)中心和創(chuàng)新管理這一塊的功能。其中運(yùn)維管理是以項(xiàng)目為基本單位的,所以說(shuō)下邊做的這種運(yùn)維自動(dòng)化和運(yùn)維標(biāo)準(zhǔn)化的東西是都涵蓋項(xiàng)目管理的。數(shù)據(jù)中心主要跟基礎(chǔ)數(shù)據(jù)做一些緊密的結(jié)合,為我們做智能化運(yùn)維提供基礎(chǔ)數(shù)據(jù)的支持。創(chuàng)新管理這塊其實(shí)主要是想通過(guò)創(chuàng)新性的管理來(lái)不斷的推進(jìn)內(nèi)部的運(yùn)維技術(shù)進(jìn)步,不斷去嘗試一些相對(duì)比較新、比較高效的技術(shù)。這是我們的實(shí)際工作情況。
2、標(biāo)準(zhǔn)化與流程化
標(biāo)準(zhǔn)化和流程化主要是通過(guò)文檔的方式梳理以往的一些工作,進(jìn)行一些文檔性的整理,包括數(shù)據(jù)中心的建設(shè)。對(duì)于數(shù)據(jù)中心,我們是有自建的機(jī)房的,包括搬遷新機(jī)場(chǎng)后的新機(jī)房建設(shè)(青島19年膠東新機(jī)場(chǎng)建立完成,航空公司要進(jìn)行搬遷),新機(jī)房建設(shè)是圍繞國(guó)家標(biāo)準(zhǔn)和地方性的標(biāo)準(zhǔn)來(lái)進(jìn)行建立和建設(shè)的。然后硬件設(shè)備采購(gòu)和上下架,這些是硬件相關(guān)的東西。
接下來(lái)是一個(gè)故障排故流程和運(yùn)維通告,這個(gè)幫助運(yùn)維出現(xiàn)運(yùn)維故障時(shí),提供一個(gè)解決的方式和通報(bào)流程。
上面兩行是服務(wù)器的申請(qǐng)、服務(wù)器的部署(包括配置變更等),還有權(quán)限管理。運(yùn)維服務(wù)的申請(qǐng)到運(yùn)維服務(wù)的部署,包括應(yīng)用的部署等主要是通過(guò)這樣一些文檔和流程來(lái)規(guī)范我們?nèi)粘5倪\(yùn)維工作。標(biāo)準(zhǔn)統(tǒng)一了,我們做運(yùn)維時(shí)就相對(duì)容易很多。
3、基礎(chǔ)數(shù)據(jù)管理
這里分為幾大部分。首先是CMDB,這個(gè)跟傳統(tǒng)的ITIL有一些不同的地方,我們的CMDB以產(chǎn)品線為主線,每個(gè)產(chǎn)品線下包含很多項(xiàng)目,而每個(gè)項(xiàng)目里也有很多的服務(wù),每個(gè)服務(wù)會(huì)有不同的應(yīng)用在上面跑。這些服務(wù),或者說(shuō)這些應(yīng)用,都跑在我們的虛擬機(jī)或者容器上,而這些虛擬機(jī)和容器又分布在不同的物理機(jī)上,到了物理機(jī)這一層也就到了資產(chǎn)管理這塊。
資產(chǎn)管理這塊主要是我們的一些硬件,包括網(wǎng)絡(luò)設(shè)備和物理機(jī)等。通過(guò)產(chǎn)品線和
生產(chǎn)管理,把日常運(yùn)維的一些對(duì)象去做定義,另外我們也把項(xiàng)目和項(xiàng)目之間的依賴關(guān)系,包括物理硬件之間的依賴關(guān)系都做了統(tǒng)一的梳理,這樣的話,當(dāng)某一個(gè)節(jié)點(diǎn)出現(xiàn)問(wèn)題時(shí),對(duì)它所帶來(lái)的影響會(huì)有一個(gè)比較全面的認(rèn)識(shí)。
供應(yīng)商環(huán)節(jié),因?yàn)槲覀儗儆诿窈綐I(yè),有一些供應(yīng)商涉及得比較多,所以把供應(yīng)商單獨(dú)拿出來(lái)做管理,主要是供應(yīng)商的一些信息和合同。這樣做的好處便是,當(dāng)問(wèn)題比較難以解決時(shí),通過(guò)統(tǒng)一的供應(yīng)商管理,可以快速查到對(duì)應(yīng)的供應(yīng)商信息。
重要數(shù)據(jù)主要是針對(duì)我們的數(shù)據(jù)庫(kù)的數(shù)據(jù)。日志也不用多說(shuō),是很重要的信息,包括系統(tǒng)日志應(yīng)用日志、數(shù)據(jù)庫(kù)日志、設(shè)備日志包括硬件設(shè)備的日志,目前我們?cè)谥鸩酵晟朴布O(shè)備的日志,因?yàn)樗獙?duì)接很多不同的協(xié)議,相對(duì)復(fù)雜。
知識(shí)庫(kù)主要是事件庫(kù)和問(wèn)題庫(kù),事件庫(kù)記錄了日常所做的運(yùn)維事件,當(dāng)運(yùn)維事件短時(shí)間內(nèi)無(wú)法解決,需要通過(guò)開(kāi)發(fā)做一些變更時(shí),我們便將這個(gè)事件升級(jí)為問(wèn)題,并通過(guò)問(wèn)題庫(kù)來(lái)跟蹤運(yùn)維事件變更所帶來(lái)的具體進(jìn)展情況。經(jīng)典案例庫(kù)和解決方案庫(kù)主要是對(duì)于運(yùn)維遇到的一些經(jīng)典問(wèn)題的解決方法,包括系統(tǒng)的經(jīng)典的部署方法、解決方案等,我們都做了一些統(tǒng)一的記錄或存儲(chǔ),當(dāng)有新的系統(tǒng)要部署時(shí),也是可以通過(guò)這樣查閱解決方案以及經(jīng)典案例,快速得到部署的方法。文檔庫(kù)主要是存儲(chǔ)了我們?cè)跇?biāo)準(zhǔn)化和流程化時(shí)做的一些文檔,去做一些存儲(chǔ),其中也有一些版本是管理相關(guān)的東西。這是運(yùn)維的基礎(chǔ)數(shù)據(jù)。
接下來(lái)是安全、災(zāi)備、管理三個(gè)主題講一下。
4、監(jiān)控管理體系
首先是監(jiān)控。監(jiān)控的目標(biāo)是通過(guò)內(nèi)外部的多套監(jiān)控去實(shí)現(xiàn)一個(gè)相對(duì)立體化的監(jiān)控體系,根據(jù)系統(tǒng)的優(yōu)先級(jí)將所有的系統(tǒng)和我們的硬件去做一個(gè)監(jiān)控。另外就是監(jiān)控的維度,首先第一個(gè)維度是覆蓋所有系統(tǒng)和軟硬件;其次是監(jiān)控維度,包括應(yīng)用系統(tǒng)可用性,數(shù)據(jù)庫(kù)運(yùn)行狀態(tài),網(wǎng)絡(luò)狀況等;第三個(gè)維度是全部時(shí)間,主要是我們會(huì)對(duì)監(jiān)控的歷史數(shù)據(jù)做一個(gè)存儲(chǔ),包括過(guò)去一些系統(tǒng)或者是服務(wù)器信息的狀態(tài)和當(dāng)前的狀態(tài)。這里其實(shí)也是為我們做智能化運(yùn)維提供了一些歷史性的數(shù)據(jù)。
下面列舉一下我們當(dāng)前監(jiān)控的一個(gè)情況。首先是機(jī)房和硬件的監(jiān)控,機(jī)房監(jiān)控我們主要依賴在機(jī)房建立初期供應(yīng)商提供的機(jī)房環(huán)境監(jiān)控系統(tǒng)進(jìn)行監(jiān)控。硬件監(jiān)控的話,我們采購(gòu)不同的硬件都有各自的監(jiān)控方式,我們也做一些整合和整理,爭(zhēng)取形成統(tǒng)一的硬件監(jiān)控。虛擬機(jī)和容器監(jiān)控主要是監(jiān)控虛擬機(jī)或容器的狀態(tài)和可能性等。網(wǎng)絡(luò)監(jiān)控主要是用以監(jiān)控網(wǎng)絡(luò)運(yùn)行狀態(tài)。這里也會(huì)有系統(tǒng)、數(shù)據(jù)庫(kù)以及一些應(yīng)用和業(yè)務(wù)的監(jiān)控。監(jiān)控用到的工具主要是一些開(kāi)源的工具,其中Lepus是監(jiān)控?cái)?shù)據(jù)庫(kù),Zabbix監(jiān)控我們的操作系統(tǒng)等,我們也會(huì)根據(jù)實(shí)際情況去開(kāi)發(fā)我們自己的監(jiān)控腳本。通過(guò)多種監(jiān)控方式和工具多維度監(jiān)控我們的運(yùn)維對(duì)象,這是監(jiān)控體系的情況。
5、安全、災(zāi)備管理體系
安全和災(zāi)備是比較難以分割的兩個(gè)主題,我們的災(zāi)備方案也是為了系統(tǒng)或數(shù)據(jù)安全不丟失。
大概的思路,首先是兩地三中心+云這樣的經(jīng)典方式,搭建同城的實(shí)時(shí)同步,異地延遲同步的方式作為我們?yōu)膫浞桨傅闹黧w,當(dāng)然我們也將一些數(shù)據(jù)不太敏感的資源、備份數(shù)據(jù)逐漸放到云上進(jìn)行備份。
災(zāi)備管理的手段主要是高可用+備份,對(duì)每一個(gè)系統(tǒng)和物理硬件都做一些高可用的方案,去避免單點(diǎn)故障。另外在做高可用的同時(shí)也建立備份機(jī)制,包括數(shù)據(jù)備份、文件備份、底層虛擬機(jī)和容器備份等,這樣既有高可用也有備份,最大強(qiáng)度保證了系統(tǒng)的可用性。
此外,這個(gè)備份也要有一套獨(dú)立的備份方案驗(yàn)證模塊,是為了驗(yàn)證我們之前所做的這些備份的可用性和準(zhǔn)確性。因?yàn)槿绻麤](méi)有定時(shí)驗(yàn)證備份是否可用的話,當(dāng)真出現(xiàn)故障時(shí),我們可能不太敢直接把這種備份用到生產(chǎn)上去。
最后還有一個(gè)應(yīng)急預(yù)案管理,這個(gè)主要是緩解一些災(zāi)難性故障時(shí)的應(yīng)急措施,這樣做的好處就是當(dāng)出現(xiàn)重大問(wèn)題,且短時(shí)間難以恢復(fù),包括備份不太可用時(shí),我們會(huì)按照應(yīng)急預(yù)案進(jìn)行處理。應(yīng)急預(yù)案也會(huì)有定期演練的過(guò)程,以此保證應(yīng)急預(yù)案和實(shí)際情況的結(jié)合。
安全管理是一個(gè)比較大的主題,這里簡(jiǎn)單說(shuō)一下我們的體系思路。首先是安全依據(jù),主要有法律法規(guī)、行業(yè)背景和公司需求,包括《網(wǎng)絡(luò)安全法》,民航也有自身的網(wǎng)絡(luò)安全管理體系。根據(jù)這些依據(jù)去制定安全策略,同時(shí)依賴于安全技術(shù)幫我們做一些安全操作,這樣可通過(guò)安全策略、安全管理、安全技術(shù)、安全操作來(lái)保證我們的安全性。具體落地方面,我們主要有防火墻、IPS、WAF等安全設(shè)備。
著重介紹一下我們的UMS賬戶管理模塊,很多系統(tǒng)是公司內(nèi)部人員使用的,比如當(dāng)人員離職時(shí),首先在OA體現(xiàn)出來(lái),如果管理人沒(méi)有及時(shí)關(guān)注這個(gè)人員,極有可能他離職了,這個(gè)賬戶還存在的。但通過(guò)UMS這個(gè)模塊跟OA系統(tǒng)打通,人員離職時(shí)對(duì)他業(yè)務(wù)系統(tǒng)的帳號(hào)做及時(shí)的清理,保證了賬號(hào)隨同人員離職一起銷毀,避免數(shù)據(jù)泄露的。
6、運(yùn)維自動(dòng)化
首先是關(guān)于服務(wù)器的申請(qǐng)、操作系統(tǒng)的安裝、服務(wù)申請(qǐng),然后服務(wù)自動(dòng)部署等。接著去做一些發(fā)布,發(fā)布的申請(qǐng)、變更的申請(qǐng)等,這些都是大家在做運(yùn)維自動(dòng)化的時(shí)候幾乎都會(huì)去做或是實(shí)現(xiàn)的工作。除此之外,這里著重跟大家介紹一下我們的一個(gè)關(guān)于資源申請(qǐng)?jiān)u估指導(dǎo)和資源利用報(bào)告的情況。
我們的資源申請(qǐng)?jiān)u估指導(dǎo)主要結(jié)合了自身經(jīng)驗(yàn),根據(jù)系統(tǒng)的行業(yè)請(qǐng)求和系統(tǒng)情況來(lái)以及壓力測(cè)試的結(jié)果參考等制定了一個(gè)相對(duì)比較科學(xué)的資源申請(qǐng)情況。當(dāng)有一個(gè)新的需求要去申請(qǐng)我們資源時(shí),我們會(huì)根據(jù)資源申請(qǐng)?jiān)u估指導(dǎo)里面的算法,預(yù)估出他的系統(tǒng)變化量,自動(dòng)計(jì)算出一個(gè)比較科學(xué)的硬件資源。資源利用報(bào)告呢,是我們定期對(duì)所有的服務(wù)器(包括虛擬機(jī))所做的一個(gè)資源利用的情況,這樣根據(jù)我們的資源利用報(bào)告去做一些服務(wù)器的資源性變化和處理,確保我們的硬件資源是最大的利用率。
另外,我們做運(yùn)維自動(dòng)化時(shí),也包括了我們架構(gòu)的自動(dòng)診斷、壓力測(cè)試、自動(dòng)巡檢和故障自動(dòng)診斷等功能。
說(shuō)一下架構(gòu)自動(dòng)診斷,不知道大家有沒(méi)有這樣的情況,公司里經(jīng)常遇到上線比較著急的一些系統(tǒng),但是上線運(yùn)營(yíng)一段時(shí)間以后,跟開(kāi)發(fā)人員一溝通,發(fā)現(xiàn)這是很重要的系統(tǒng),可當(dāng)時(shí)上線比較匆忙沒(méi)有做任何高可用方案,如果沒(méi)有及時(shí)溝通,很可能這個(gè)重要的系統(tǒng)一直在單節(jié)點(diǎn)運(yùn)行。為了規(guī)避這種情況,我們的架構(gòu)自動(dòng)診斷是通過(guò)開(kāi)發(fā)人員可能在申請(qǐng)新的系統(tǒng)上線時(shí),會(huì)做系統(tǒng)等級(jí)的填寫(xiě),這個(gè)架構(gòu)自動(dòng)診斷會(huì)根據(jù)系統(tǒng)的等級(jí),結(jié)合系統(tǒng)線上的情況,如果缺少備份和只是單節(jié)點(diǎn),它會(huì)自動(dòng)提醒,讓我們的運(yùn)維人員及時(shí)搭建架構(gòu),避免重要系統(tǒng)的單點(diǎn)故障。
截止到目前,平心而論,我們現(xiàn)在的運(yùn)維自動(dòng)化是處于一個(gè)尷尬狀態(tài),因?yàn)橹盎舜罅康臅r(shí)間,研究了大量的工具,包括寫(xiě)了大量的腳本實(shí)現(xiàn)運(yùn)維自動(dòng)化,但結(jié)合Docker容器化時(shí),我們發(fā)現(xiàn)腳本、服務(wù)器的安裝和服務(wù)部署(包括一些發(fā)布)等會(huì)有比較大的顛覆。當(dāng)我再去建一個(gè)容器時(shí),我直接從私有倉(cāng)庫(kù)中拉取,發(fā)布時(shí)也是鏡像更新,并不是我們之前所做的去寫(xiě)一些腳本,或者去做一些發(fā)布。結(jié)合現(xiàn)狀,我們現(xiàn)在在逐漸結(jié)合Docker,包括之前做的運(yùn)維自動(dòng)化工作,逐漸改變運(yùn)維自動(dòng)化的情況。
7、其它
經(jīng)過(guò)了標(biāo)準(zhǔn)化、流程化,包括自動(dòng)化之后,我們已經(jīng)積攢了很多自動(dòng)化的腳本等,管理起來(lái)相對(duì)復(fù)雜,東西也比較多。這時(shí)我們需要一個(gè)自身的運(yùn)維管理平臺(tái)來(lái)去做統(tǒng)一的管理。
目前我們的運(yùn)維管理平臺(tái)大致包括四個(gè)功能:
1.數(shù)據(jù)管理:數(shù)據(jù)管理主要是組織用戶權(quán)限和績(jī)效考核的功能。
2.項(xiàng)目管理:即運(yùn)維管理,運(yùn)維管理以項(xiàng)目管理為單位工作,跟開(kāi)發(fā)工作相結(jié)合。我們公司在逐漸推進(jìn)以項(xiàng)目為單位定義運(yùn)維工作并且與開(kāi)發(fā)項(xiàng)目管理結(jié)合起來(lái)共用一套系統(tǒng),這樣我們運(yùn)維的項(xiàng)目周期以開(kāi)發(fā)的需求分析為起點(diǎn),可加深我們運(yùn)維對(duì)系統(tǒng)的理解,也會(huì)更好地幫助運(yùn)維人員做線上的運(yùn)維和運(yùn)營(yíng)工作。
3.數(shù)據(jù)中心:工作也好項(xiàng)目也好,實(shí)際上都通過(guò)數(shù)據(jù)的方式進(jìn)行展示和分析,我們力圖通過(guò)用數(shù)據(jù)衡量運(yùn)維的質(zhì)量情況,后面我們也會(huì)逐漸利用數(shù)據(jù)中心為我們的自動(dòng)化運(yùn)維做一些改變。
4.創(chuàng)新管理:主要還是想以創(chuàng)新驅(qū)動(dòng)技術(shù)進(jìn)步,提高運(yùn)維質(zhì)量,比如我們?cè)谶\(yùn)維管理中逐步實(shí)現(xiàn)Docker容器化的操作,去做一些智能化運(yùn)維的實(shí)踐,以此幫助我們做一些運(yùn)維工作和技能的提高。
三、未來(lái)展望
首先是DevOps、SRE。我們將聯(lián)合業(yè)務(wù)、開(kāi)發(fā)、測(cè)試、運(yùn)維共同推進(jìn)DevOps的進(jìn)步,因?yàn)槲覀兪窍鄬?duì)傳統(tǒng)的行業(yè),很難立即全面推動(dòng)DevOps或SRE這一步,還是需要一個(gè)循序漸進(jìn)的過(guò)程。
第二步是智能化運(yùn)維,我們目前做的主要是一些故障的自動(dòng)處理,例如像一些日志空間的自動(dòng)釋放、常見(jiàn)問(wèn)題的自動(dòng)處理等,這是相對(duì)初步的實(shí)踐。
接下來(lái)我們也會(huì)結(jié)合自身運(yùn)維的實(shí)際情況,對(duì)內(nèi)部做一些智能化運(yùn)維的技術(shù)性研究,但智能化運(yùn)維對(duì)業(yè)務(wù)人員的技術(shù)要求是比較高的,而青島招人又很難,怎么辦?其實(shí)我們做DevOps時(shí),已經(jīng)跟開(kāi)發(fā)、測(cè)試建立了一個(gè)相對(duì)比較好的關(guān)系,所以我們可以依賴于開(kāi)發(fā)來(lái)做一些技術(shù)性的指導(dǎo),結(jié)合自身的運(yùn)維經(jīng)驗(yàn)來(lái)逐漸推進(jìn)智能化運(yùn)維的一些工作。
然后私有云和混合云這一塊,我們之前已經(jīng)實(shí)現(xiàn)了虛擬化和容器化,接下來(lái)我們將逐漸利用OpenStack或K8s完成私有云相關(guān)的架構(gòu)和操作,爭(zhēng)取通過(guò)云服務(wù)降低我們的IT成本。
最后Serverless,不知道我的理解跟大家的是不是一樣,我們的實(shí)踐是將內(nèi)部現(xiàn)在大概十多套的系統(tǒng)用戶管理模塊去做一個(gè)服務(wù)的統(tǒng)一抽取,當(dāng)再有一個(gè)新的系統(tǒng)要上線時(shí),我們不需要再去單獨(dú)開(kāi)發(fā)這樣一套用戶管理系統(tǒng),而是直接接到這套用戶管理系統(tǒng)的用戶管理這樣一個(gè)平臺(tái)上,也是提高了一定的程度。通過(guò)構(gòu)建多套系統(tǒng)的公用模塊進(jìn)行函數(shù)開(kāi)發(fā),實(shí)現(xiàn)系統(tǒng)直接調(diào)用。這跟微服務(wù)似乎有點(diǎn)相似。
運(yùn)維這幾年的發(fā)展其實(shí)有很多的技術(shù)不斷的融進(jìn),我們始終堅(jiān)持著安全、穩(wěn)定和高效三大原則,沒(méi)有這三大原則我們上面做的所有的操作全都是零。這是我今天的分享,謝謝大家!
Q&A
Q1:總體架構(gòu)設(shè)計(jì)時(shí)用了哪些開(kāi)發(fā)工具,用的都是開(kāi)源的嗎?
A1:目前很多都是開(kāi)源的,除了有幾套應(yīng)用是跑在Weblogic,我們大部分是Tomcat,我們目前也在將一些商用的Weblogic、Oracle等遷移至開(kāi)源替代產(chǎn)品中去,降低IT成本。數(shù)據(jù)庫(kù)主要以MySQL和Oracle為主,Oracle主要是核心的系統(tǒng)在用。至于像我們這種監(jiān)控和管理,也是開(kāi)源性的工具多,例如監(jiān)控主要是Zabbix和自定義腳本進(jìn)行監(jiān)控。安全這一塊的話,相對(duì)比較多的是一些商業(yè)產(chǎn)品,例如我們的防火墻或者WAF應(yīng)用防火墻,安全方面主要還是以商業(yè)產(chǎn)品為主。開(kāi)源的安全產(chǎn)品,我們目前也在測(cè)試,但由于團(tuán)隊(duì)的技術(shù)所限,沒(méi)有太大的精力去研究開(kāi)源的安全產(chǎn)品也沒(méi)有決心去生產(chǎn)使用。
大概的簡(jiǎn)圖如下:
注:統(tǒng)一任務(wù)調(diào)度使用tbschedule,消息隊(duì)列使用ActiveMQ,分布式文件服務(wù)器使用的fastDFS。接下來(lái)我會(huì)寫(xiě)單獨(dú)一篇文章詳細(xì)介紹我們的系統(tǒng)架構(gòu),敬請(qǐng)期待。
Q2:你們現(xiàn)在用K8s用到什么程度了,多大規(guī)模?
A2:K8S我們目前正在技術(shù)研究和測(cè)試階段,主要在測(cè)試環(huán)境進(jìn)行了一些試用。K8S還是Mesos來(lái)管理編排我們的容器,目前都在測(cè)試中。
其實(shí)今天也是想聽(tīng)一下大家對(duì)于Docker結(jié)合當(dāng)前的情況做一些溝通。談到Docker大家可能會(huì)有一個(gè)疑問(wèn),用了Docker之后會(huì)不會(huì)把之前的虛擬化拋棄掉?我們公司目前做的虛擬化是拋棄不掉的,因?yàn)槲覀冇幸恍┓⻊?wù)、應(yīng)用部署在Windows服務(wù)器上,包括我們的Oracle架構(gòu)也是在這上面。到目前為止還沒(méi)有聽(tīng)說(shuō)有公司在Docker跑RAC的一些架構(gòu)。所以未來(lái)相對(duì)比較長(zhǎng)的時(shí)間,我們公司還是虛擬化和容器化是并存的情況,算是一個(gè)逐漸轉(zhuǎn)型吧;仡^Docker生產(chǎn)集群搭建完畢,投入使用一段時(shí)間后,再跟大家做詳細(xì)的分享。
Q3:請(qǐng)問(wèn)你們?cè)贒ocker上的總體驅(qū)動(dòng)、整個(gè)場(chǎng)景規(guī)劃,用K8s都做的話可能有一些缺點(diǎn),所以你們整個(gè)集團(tuán)是如何在調(diào)研K8s落地的?目前大家都想用K8s,但真的技術(shù)落地時(shí),確實(shí)很多困難。
A3:說(shuō)到k8s這塊,生產(chǎn)中并沒(méi)有做k8s的推廣和實(shí)踐,剛剛也說(shuō)了我們目前正在進(jìn)行技術(shù)調(diào)研。由于我們?cè)谇鄭u新機(jī)場(chǎng)會(huì)開(kāi)一個(gè)新的數(shù)據(jù)中心,以此為契機(jī),進(jìn)行容器化技術(shù)和集群的研究和實(shí)踐,爭(zhēng)取在新數(shù)據(jù)中心實(shí)現(xiàn)內(nèi)部高效的運(yùn)維服務(wù),通過(guò)新技術(shù)降低成本。這里也希望有生產(chǎn)經(jīng)驗(yàn)的同學(xué)能夠多分享一下生產(chǎn)的經(jīng)驗(yàn),我們好提前學(xué)習(xí)。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:一個(gè)可供借鑒的中小企業(yè)運(yùn)維管理平臺(tái)架構(gòu)樣本
本文網(wǎng)址:http://www.ezxoed.cn/html/solutions/14019321450.html