節(jié)回來(lái)梳理工作,有向好的地方,也有面臨困難的地方。好的地方,是一體化運(yùn)維的建設(shè)工作己步入正軌,團(tuán)隊(duì)里同學(xué)都很棒,都能以做產(chǎn)品的心態(tài)去拼。困難的地方,是應(yīng)用一線生產(chǎn)保障的團(tuán)隊(duì)還是面臨”被動(dòng)、計(jì)劃性不夠”的現(xiàn)狀,尤其是看到GitLab誤刪數(shù)據(jù),5份備份全部無(wú)效的故障事件,更有種不踏實(shí),自己也不敢肯定團(tuán)隊(duì)里的備份策略是否完整,永久備份內(nèi)容是否可用,再進(jìn)一步想想應(yīng)用可用性的監(jiān)控是否100%覆蓋,基本的應(yīng)急手冊(cè)是否都完整可用、備機(jī)與災(zāi)備環(huán)境是否隨時(shí)可用狀態(tài)、操作是否100%合規(guī)也都可能成為一顆定時(shí)炸彈。
為何會(huì)對(duì)這些看起來(lái)是基本共識(shí)的工作還有疑慮呢?總結(jié)起來(lái),主要是還是因?yàn)閷?duì)運(yùn)維人員的工作引導(dǎo)不夠,主因是意識(shí)上的問(wèn)題。從專業(yè)條線角度看,運(yùn)維保障可以分為系統(tǒng)、網(wǎng)絡(luò)、應(yīng)用運(yùn)維,其中系統(tǒng)、網(wǎng)絡(luò)兩方面的運(yùn)維對(duì)象往往來(lái)自大廠商、比較穩(wěn)定、行業(yè)標(biāo)準(zhǔn)化程度高等特點(diǎn),而應(yīng)用運(yùn)維的標(biāo)準(zhǔn)化則更困難,整體的工作更加被動(dòng),缺乏計(jì)劃性,所以不少一線應(yīng)用運(yùn)維眼中的主要工作內(nèi)容可能如下:
-
故障應(yīng)急——業(yè)務(wù)恢復(fù)了就算結(jié)束
-
各種業(yè)務(wù)咨詢——反饋業(yè)務(wù)了就算結(jié)束
-
各種業(yè)務(wù)工單——工單關(guān)閉了就算結(jié)束
-
監(jiān)控——盡可能多配監(jiān)控指標(biāo),反正就是覆蓋面越全越好
-
變更——按時(shí)把版本投上生產(chǎn)、技術(shù)與業(yè)務(wù)檢查通過(guò)就算結(jié)束
-
……當(dāng)然,還有安全管理、配合監(jiān)管、配合業(yè)務(wù)分析等工作
注:這里的一線應(yīng)用運(yùn)維主要指一線生產(chǎn)系統(tǒng)保障的團(tuán)隊(duì),不包括計(jì)劃性項(xiàng)目的團(tuán)隊(duì)。
對(duì)于上面的主要工作內(nèi)容與結(jié)束標(biāo)志看起來(lái)也屬正常,但是進(jìn)一步分析會(huì)發(fā)現(xiàn)這種工作導(dǎo)向會(huì)引發(fā)風(fēng)險(xiǎn)。比如:
-
故障應(yīng)急——業(yè)務(wù)恢復(fù)了就算結(jié)束——沒(méi)有引導(dǎo)運(yùn)維人員如何做好故障快速恢復(fù)的事前準(zhǔn)備工作,造成被動(dòng),比如應(yīng)急手冊(cè)不完善導(dǎo)致的延誤故障處理時(shí)間。
-
監(jiān)控——盡可能多配監(jiān)控指標(biāo),反正就是覆蓋面越全越好——一個(gè)應(yīng)用涉及的監(jiān)控面很廣,不可能把將所有點(diǎn)都監(jiān)控上,上述對(duì)監(jiān)控的認(rèn)識(shí)沒(méi)有引導(dǎo)運(yùn)維人員重點(diǎn)確保應(yīng)用可用性監(jiān)控覆蓋情況,有可能配置了上百條監(jiān)控指標(biāo),但是最為關(guān)鍵的開(kāi)業(yè)、服務(wù)可用性的監(jiān)控遺漏帶來(lái)的重大生產(chǎn)問(wèn)題。
那么問(wèn)題來(lái)了,什么才是一線應(yīng)用運(yùn)維最基本的工作,或稱為一線應(yīng)用運(yùn)維的及格線呢?這里,不提兩地三中心、自動(dòng)化、數(shù)據(jù)運(yùn)營(yíng)、智能運(yùn)維這些思路,也不談合規(guī)操作這些基本的行為準(zhǔn)則,只站在一線應(yīng)用運(yùn)維角度先歸納幾項(xiàng)運(yùn)維最基本的運(yùn)維工作,需要確保落實(shí)到位的工作職責(zé)(不同條線的運(yùn)維人員會(huì)有不同的理解):
1、備份:
“數(shù)據(jù)不丟”是運(yùn)維的第一道生命線,對(duì)于數(shù)據(jù)不丟的目標(biāo),僅僅是做好架構(gòu)的高可用是不夠,還要對(duì)關(guān)鍵數(shù)據(jù)進(jìn)行備份。備份機(jī)制從備份對(duì)象與備份手段兩方面來(lái)看。首先是備份對(duì)象,運(yùn)維人員需要確保備份策略里包括完整的應(yīng)用程序、數(shù)據(jù)庫(kù)、數(shù)據(jù)庫(kù)日志、業(yè)務(wù)數(shù)據(jù)、配置數(shù)據(jù)等關(guān)鍵數(shù)據(jù);其次才是對(duì)備份手段的保證,數(shù)據(jù)備份管理員一方面需要為備份介質(zhì)、備份工具對(duì)備份策略執(zhí)行的可靠性,另一方面需要牽頭核實(shí)永久備份介質(zhì)的可用性。
2、主備、災(zāi)備、同城環(huán)境:
負(fù)載均衡的部署架構(gòu)的運(yùn)行環(huán)境的正確性往往是有保證的,因?yàn)檫@些環(huán)境一直都在對(duì)外提供服務(wù)。但是對(duì)于備份機(jī)、災(zāi)備環(huán)境、同城應(yīng)急環(huán)境,可能會(huì)出現(xiàn)環(huán)境不一致的情況,解決這種不一致的問(wèn)題,需從以下幾個(gè)維度:
– 意識(shí):需要確保運(yùn)維人員是否意識(shí)到備機(jī)是用來(lái)救命用的環(huán)境,是運(yùn)維保障的底線。
– 技術(shù):生產(chǎn)環(huán)境是在不斷變化的,有些變化是計(jì)劃中的,有些是非計(jì)劃或未通知的,給備份、災(zāi)備系統(tǒng)和生產(chǎn)系統(tǒng)的一致性帶來(lái)隱患。主備環(huán)境為何會(huì)出現(xiàn)不一致的情況,主要原因是兩個(gè)環(huán)境之間采用人肉方式同步,這種完全靠責(zé)任心維系的方式很容易出問(wèn)題,比如某一天應(yīng)用運(yùn)維人員實(shí)施應(yīng)用變更部署到生產(chǎn)環(huán)境到凌晨,疲憊的他很容易忘了同步災(zāi)備的環(huán)境。所以備份機(jī)、災(zāi)備、同城應(yīng)急環(huán)境需要采用技術(shù)方式同步,自動(dòng)化實(shí)現(xiàn)監(jiān)測(cè),人工的同步只能作為一個(gè)臨時(shí)應(yīng)急的過(guò)渡方案。
– 管控:采用自動(dòng)化同步、自動(dòng)化監(jiān)測(cè)一致性還不夠,因?yàn)閭浞輵?yīng)急環(huán)境的啟用是流程、機(jī)制、技術(shù)等一系列組成的工作,所以,對(duì)備份環(huán)境的驗(yàn)證也不是一次性的工作,需要進(jìn)行實(shí)戰(zhàn)演練,以確保環(huán)境在需要啟用時(shí)能夠馬上就位。
3、應(yīng)急手冊(cè):
運(yùn)維手冊(cè)是運(yùn)維標(biāo)準(zhǔn)化最基本的工作項(xiàng)之一,但由于運(yùn)維涉及的問(wèn)題很多,運(yùn)維文檔也演變成一個(gè)越來(lái)越復(fù)雜的文檔,當(dāng)文檔復(fù)雜到一定程度時(shí)就會(huì)變成一個(gè)負(fù)擔(dān),很難保文檔的及時(shí)更新。所以我讓團(tuán)隊(duì)先保證應(yīng)急三把斧的手冊(cè):重啟、切換、回切涉及的應(yīng)用手冊(cè)的完整(涉及的動(dòng)作、協(xié)作方式等需完整)、可用(涉及的內(nèi)容需保持最新)、好用(能簡(jiǎn)則簡(jiǎn)),且這個(gè)應(yīng)急手冊(cè)建議獨(dú)立分開(kāi)。
另外,應(yīng)急手冊(cè)可以通過(guò)自動(dòng)化手段進(jìn)行簡(jiǎn)化,比如原來(lái)采用命令行方式進(jìn)行重啟服務(wù),在采用工具集中重啟服務(wù)后,手冊(cè)也可相應(yīng)簡(jiǎn)化。
4、監(jiān)控:
很難想象,哪一天我們的監(jiān)控體系(由不同層次的監(jiān)控工具組成)全部停業(yè)半天,哪怕是一小時(shí),我們的運(yùn)維團(tuán)隊(duì)該如何去做運(yùn)維保障。監(jiān)控己經(jīng)深入到我們運(yùn)維的方方面面,相信在過(guò)幾年監(jiān)控全面實(shí)現(xiàn)自愈、無(wú)人值守后,監(jiān)控將變?yōu)闊o(wú)形角色貫穿在整個(gè)一體化運(yùn)維體系。
但在當(dāng)前,監(jiān)控主要實(shí)現(xiàn)“監(jiān)”的背景下,則需要運(yùn)維人員把握“監(jiān)”的覆蓋程度。雖然我們針對(duì)生產(chǎn)系統(tǒng)的各層次都部署了監(jiān)控工具,但還是有監(jiān)控點(diǎn)不是標(biāo)準(zhǔn)化默認(rèn)即插即用的指標(biāo),需要有管理員去配置?抗芾韱T主觀能動(dòng)性去讓監(jiān)控實(shí)現(xiàn)對(duì)某個(gè)生產(chǎn)系統(tǒng)所有運(yùn)行狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)控還比較困難,所以我們需要讓運(yùn)維人員明確知道監(jiān)控覆蓋面的及格線,我歸納為可用性監(jiān)控覆蓋面為及格線,以應(yīng)用系統(tǒng)管理員為例,他需要保證一個(gè)對(duì)客交易應(yīng)用系統(tǒng)的所有服務(wù)可用性、端口監(jiān)聽(tīng)、開(kāi)業(yè)狀態(tài)可用、重要批量按時(shí)完成、應(yīng)用基本交易可用、重要業(yè)務(wù)交易可用、某個(gè)服務(wù)節(jié)點(diǎn)整體性能大幅度下降、上下游文件傳輸成功狀態(tài)指標(biāo)必須覆蓋監(jiān)控(資源類、網(wǎng)絡(luò)等屬于默認(rèn)標(biāo)準(zhǔn)的監(jiān)控覆蓋)。
注:從監(jiān)控平臺(tái)建設(shè)角度,監(jiān)控平臺(tái)要盡可能讓需要覆蓋的監(jiān)控指標(biāo)從技術(shù)上落地,減少對(duì)運(yùn)維人員主動(dòng)性上的依靠,要快速?gòu)募夹g(shù)上響應(yīng)新的監(jiān)控指標(biāo)的落地。這里最低要求是針對(duì)在面有實(shí)現(xiàn)完全自動(dòng)化配置的情況下的要求。
5、容量:
有些人可能認(rèn)為生產(chǎn)系統(tǒng)的容量問(wèn)題是開(kāi)發(fā)程序不夠好導(dǎo)致的,我的認(rèn)識(shí)是突發(fā)性的變更BUG導(dǎo)致的性能容量問(wèn)題運(yùn)維人員的確很難提前發(fā)現(xiàn),但是對(duì)于非突發(fā)性的性能容量問(wèn)題第一負(fù)責(zé)人應(yīng)該是運(yùn)維人員,因運(yùn)維人員手上掌握著生產(chǎn)系統(tǒng)運(yùn)行的所有數(shù)據(jù)卻未發(fā)現(xiàn)容量不足,那是運(yùn)維容量評(píng)估沒(méi)做到位。所以,我們需要讓運(yùn)維人員對(duì)生產(chǎn)系統(tǒng)的主要運(yùn)行指標(biāo)進(jìn)行數(shù)據(jù)分析,通過(guò)趨勢(shì)分析、基線比對(duì),發(fā)現(xiàn)系統(tǒng)的健康狀況。
注:由于一線管理關(guān)注運(yùn)行狀態(tài),所以這里的容量評(píng)估不涉及資源的成本控制;
6、演練:
運(yùn)維過(guò)程中,針對(duì)可能出現(xiàn)的問(wèn)題和風(fēng)險(xiǎn)點(diǎn),會(huì)制定對(duì)應(yīng)的應(yīng)對(duì)措施、啟用流程、操作方案,針對(duì)這些措施是否可用,需要預(yù)先進(jìn)行演練。在實(shí)際的演練工作開(kāi)展過(guò)程中,一是要梳理現(xiàn)有系統(tǒng)的問(wèn)題、風(fēng)險(xiǎn)點(diǎn);二是針對(duì)問(wèn)題、風(fēng)險(xiǎn)點(diǎn)的應(yīng)急措施;三是組織演練;四是通過(guò)演練將風(fēng)險(xiǎn)的解決方案進(jìn)行沉淀與更新。演練的場(chǎng)景包括重啟的應(yīng)急、回切的應(yīng)急、重要業(yè)務(wù)運(yùn)營(yíng)活動(dòng)前的壓測(cè)等;演練的方式包括實(shí)戰(zhàn)、桌面;演練的目標(biāo)包括操作、流程、方案等。
7、風(fēng)險(xiǎn)跟進(jìn)及架構(gòu)優(yōu)化:
有應(yīng)急、演練、故障跟進(jìn)等基本工作,就會(huì)發(fā)現(xiàn)運(yùn)行風(fēng)險(xiǎn)(這里不提合規(guī)操作風(fēng)險(xiǎn),合規(guī)操作風(fēng)險(xiǎn)屬基本操作準(zhǔn)則),運(yùn)行風(fēng)險(xiǎn)則往往會(huì)有架構(gòu)上的優(yōu)化。我一直覺(jué)得一個(gè)好的應(yīng)用運(yùn)維人員至少需要是一個(gè)合格的架構(gòu)師,運(yùn)維人員并不要求要對(duì)每一個(gè)組件的實(shí)現(xiàn)方式很了解,但是需要對(duì)何時(shí)用、如何用這個(gè)技術(shù)組件要有準(zhǔn)確的判斷。所以,應(yīng)用架構(gòu)的優(yōu)化,什么時(shí)候優(yōu)化、如何優(yōu)化、如何推動(dòng)也是應(yīng)用運(yùn)維人員的基本工作。
8、業(yè)務(wù)工單、業(yè)務(wù)咨詢:
業(yè)務(wù)工單(差錯(cuò)、參數(shù)、數(shù)據(jù)提取等)、業(yè)務(wù)咨詢(服務(wù)臺(tái)、電話、微信、郵件等渠道過(guò)來(lái)的問(wèn)題咨詢)屬于應(yīng)用運(yùn)維過(guò)程中被動(dòng)的工作,這方面的工作對(duì)于一線應(yīng)用管理員直接的要求是及時(shí)反饋,保證服務(wù)滿意度;深入一點(diǎn)要求是應(yīng)用運(yùn)維人員的主要負(fù)責(zé)人需要走進(jìn)業(yè)務(wù)、了解業(yè)務(wù)對(duì)生產(chǎn)應(yīng)用的具體期望,并作到反饋。
上面是針對(duì)應(yīng)用一線運(yùn)維人員的基本工作及格線要求的一些歸納,后續(xù)還會(huì)在實(shí)踐過(guò)程中持續(xù)的優(yōu)化,調(diào)整。近期,在團(tuán)隊(duì)中持續(xù)推動(dòng)及格線思路的同時(shí),對(duì)于每一項(xiàng)工作安排了專人橫向管理,制定方案,持續(xù)推廣落實(shí),一方面是通過(guò)集眾人力量將工作及格線落實(shí)到位;另一方面也可以讓運(yùn)維人員逐步減少重復(fù)被動(dòng)的操作工作比例,做更多的事前工作。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:回歸一線應(yīng)用運(yùn)維的底線——先做好最基本的事
本文網(wǎng)址:http://www.ezxoed.cn/html/solutions/14019320578.html