云計(jì)算是公共資源,是一臺(tái)超級(jí)計(jì)算機(jī),大規(guī)模,低成本,可服務(wù),是互聯(lián)網(wǎng)時(shí)代的水和電… 云計(jì)算貼有很多這樣的標(biāo)簽(Tag),但云計(jì)算時(shí)代的運(yùn)維,到底為開(kāi)發(fā)者和云計(jì)算平臺(tái)運(yùn)營(yíng)商帶來(lái)了怎樣的Big Switch? 我的答案是運(yùn)維之“輕”與“重”的轉(zhuǎn)移,這“輕”與“重”的背后,體現(xiàn)了云計(jì)算運(yùn)維和傳統(tǒng)運(yùn)維的差異性和核心競(jìng)爭(zhēng)力的轉(zhuǎn)移。
傳統(tǒng)運(yùn)維之“重”
傳統(tǒng)網(wǎng)站的運(yùn)維模式、業(yè)務(wù)和規(guī)模上雖然各有差異,但在結(jié)構(gòu)上都很相似,從最底層的IDC(數(shù)據(jù)中心)、網(wǎng)絡(luò)、服務(wù)器和系統(tǒng)等基礎(chǔ)運(yùn)維,到上層數(shù)據(jù)庫(kù)、安全和產(chǎn)品等應(yīng)用運(yùn)維,需要環(huán)環(huán)相扣,層層覆蓋。尤其對(duì)于一些小、微型開(kāi)發(fā)者,麻雀雖小也要五臟俱全,各種運(yùn)維任務(wù)如同一輛滿載的貨車(chē),面對(duì)惡劣的路況(激烈的市場(chǎng)環(huán)境),為了保持行駛速度,要不斷加油和維修(網(wǎng)站運(yùn)維持續(xù)投入人力、物力,避免運(yùn)維成為阻礙自身發(fā)展的瓶頸);另一方面,由于運(yùn)維所具有的專業(yè)性、規(guī)模化和周期性等特點(diǎn),使得運(yùn)維投入所換來(lái)的產(chǎn)出往往又不如人意。傳統(tǒng)網(wǎng)站的運(yùn)維模式,令許多網(wǎng)站不堪重負(fù)。
圖1 云計(jì)算給開(kāi)發(fā)商帶來(lái)的變化
開(kāi)發(fā)者運(yùn)維之“輕”
在云計(jì)算時(shí)代,對(duì)于開(kāi)發(fā)者的變化是什么?隨著開(kāi)發(fā)者的網(wǎng)站“上云”,開(kāi)發(fā)者的網(wǎng)站運(yùn)維將變得很輕、很薄。開(kāi)發(fā)者可以集中優(yōu)勢(shì)資源專注于自身產(chǎn)品的研發(fā)和運(yùn)營(yíng),把這部分核心競(jìng)爭(zhēng)力做重、做厚。而產(chǎn)品的絕大部分網(wǎng)站運(yùn)維工作隱身在背后那朵云里,由云計(jì)算平臺(tái)運(yùn)營(yíng)商實(shí)現(xiàn)。對(duì)于開(kāi)發(fā)者而言,云計(jì)算時(shí)代的網(wǎng)站運(yùn)維可以舉重若輕,如同將原來(lái)滿載的貨車(chē),換成了快捷的跑車(chē),輕松上路。例如,阿里云某開(kāi)發(fā)者客戶,自行維護(hù)網(wǎng)站時(shí),需要10人以上的專屬運(yùn)維團(tuán)隊(duì),經(jīng)常面臨網(wǎng)站高可用性、安全事件和設(shè)備成本投入等挑戰(zhàn),遷移到阿里云平臺(tái)后,應(yīng)用彈性計(jì)算ECS、負(fù)載均衡SLB、云盾和關(guān)系型數(shù)據(jù)庫(kù)RDS等產(chǎn)品,其10多人的運(yùn)維團(tuán)隊(duì)資源得到釋放,可以補(bǔ)充到產(chǎn)品研發(fā)和運(yùn)營(yíng)中;網(wǎng)站高可用性得到提升;成本控制更具彈性。
云計(jì)算平臺(tái)運(yùn)營(yíng)商運(yùn)維之“重”
開(kāi)發(fā)者實(shí)現(xiàn)網(wǎng)站運(yùn)維之“輕”,并不是網(wǎng)站運(yùn)維的挑戰(zhàn)在云計(jì)算平臺(tái)上真的減輕,而是這部分工作由云計(jì)算平臺(tái)運(yùn)營(yíng)商來(lái)提供更專業(yè)的運(yùn)維保障服務(wù)。撥開(kāi)云霧,我們會(huì)發(fā)現(xiàn)云背后所承載的運(yùn)維實(shí)現(xiàn)構(gòu)成了云計(jì)算平臺(tái)運(yùn)營(yíng)商的運(yùn)維之“重”。“重”在這里有兩層含義。一是“量”之“重”,以阿里云為例,所有的云產(chǎn)品都運(yùn)行在“飛天”大規(guī)模云計(jì)算平臺(tái)上,運(yùn)維在保障這個(gè)平臺(tái)服務(wù)質(zhì)量中扮演著核心角色,從運(yùn)維人員組織、過(guò)程改進(jìn)、系統(tǒng)優(yōu)化到運(yùn)維支撐自動(dòng)化系統(tǒng)等,各個(gè)環(huán)節(jié)都緊密?chē)@云計(jì)算平臺(tái)特性進(jìn)行協(xié)同。如何實(shí)現(xiàn)云計(jì)算運(yùn)維的最佳實(shí)踐,所涉及的技術(shù)難度、優(yōu)化改進(jìn)和操作強(qiáng)度在“量”上非常之“重”。二是“責(zé)任”之 “重”,云計(jì)算平臺(tái)的服務(wù)質(zhì)量,直接關(guān)系到其上承載的萬(wàn)千開(kāi)發(fā)者產(chǎn)品的可用性、口碑和生命力。過(guò)去3年,阿里云的開(kāi)發(fā)者,包括我們的客戶、合作伙伴,真正教會(huì)阿里云如何去實(shí)現(xiàn)一個(gè)云計(jì)算平臺(tái),讓我們認(rèn)識(shí)到所運(yùn)營(yíng)的云計(jì)算平臺(tái),如何關(guān)乎開(kāi)發(fā)者切身利益,關(guān)乎生態(tài)系統(tǒng)的健康發(fā)展,責(zé)任“重”大。
云計(jì)算改變運(yùn)維
云計(jì)算平臺(tái)服務(wù)端的復(fù)雜性和創(chuàng)新性,對(duì)于運(yùn)維是個(gè)全新的挑戰(zhàn),運(yùn)維思路和方式都為之發(fā)生改變。這種改變不是簡(jiǎn)單的在傳統(tǒng)運(yùn)維上的優(yōu)化,而是基于云計(jì)算特征孕育而生的運(yùn)維重構(gòu);這種改變也并非一蹴而就,是隨著云計(jì)算平臺(tái)的發(fā)展過(guò)程不斷演進(jìn),許多都沒(méi)有最佳實(shí)踐可循,是在摸著石頭過(guò)河中不斷積累經(jīng)驗(yàn)。相對(duì)傳統(tǒng)的網(wǎng)站運(yùn)維,云計(jì)算平臺(tái)運(yùn)維的主要特征如下。
集群是基本運(yùn)維單位:組成云計(jì)算平臺(tái)的節(jié)點(diǎn)都是普通PC服務(wù)器,平臺(tái)的高可用性,不再借助傳統(tǒng)的高投入服務(wù)器硬件冗余方案(RAID、網(wǎng)絡(luò)雙上連、雙電源等)實(shí)現(xiàn),而是通過(guò)云計(jì)算平臺(tái)自身的魯棒性保障。這需要運(yùn)維改變視角,從原來(lái)把服務(wù)器作為基本運(yùn)維單位,轉(zhuǎn)變?yōu)橐约鹤鳛榛具\(yùn)維單位。傳統(tǒng)運(yùn)維場(chǎng)景下的“及時(shí)”維修服務(wù)器,在云計(jì)算場(chǎng)景下,可以“輕松”定期維修。而這種“輕松”,并不是對(duì)運(yùn)維需求的降低,而是基于對(duì)集群整體容量和健康狀態(tài)的管理能力,即通過(guò)有效提煉和過(guò)濾各種服務(wù)器的個(gè)體運(yùn)行狀態(tài),映射出集群的整體狀態(tài)的能力。集群的容量管理、部署、監(jiān)控、故障管理等運(yùn)維任務(wù),都必須以集群為單位進(jìn)行。
大規(guī)模:單集群的規(guī)模,是衡量云計(jì)算平臺(tái)能力的重要指標(biāo)之一。對(duì)于生產(chǎn)環(huán)境而言,云計(jì)算集群也必須達(dá)到一定規(guī)模,才能實(shí)現(xiàn)云計(jì)算平臺(tái)的高可用、低成本等真正價(jià)值。因此,在進(jìn)行運(yùn)維的規(guī)劃和實(shí)現(xiàn)時(shí),都要以滿足大規(guī)模為必要條件。
可運(yùn)維性是云平臺(tái)基本屬性:集群可運(yùn)維性包括實(shí)現(xiàn)高效和大規(guī)模的部署、升級(jí)、遷移、擴(kuò)容和故障管理等運(yùn)維任務(wù),是集群必須具備的能力。云平臺(tái)從第一天設(shè)計(jì)開(kāi)始,就必須包括該屬性。開(kāi)發(fā)團(tuán)隊(duì)和運(yùn)維團(tuán)隊(duì)需要緊密協(xié)同,結(jié)合平臺(tái)和運(yùn)維特性加以實(shí)現(xiàn)。較之傳統(tǒng)運(yùn)維,云計(jì)算平臺(tái)對(duì)于大規(guī)模集群的可運(yùn)維性、可管理性等的要求高很多,是集群落地的剛性需求。
規(guī)范化:要在大規(guī)模下,實(shí)現(xiàn)集群部署、遷移、擴(kuò)容等管理,依賴于從IDC設(shè)計(jì)、網(wǎng)絡(luò)設(shè)計(jì)、服務(wù)器選型到云平臺(tái)實(shí)現(xiàn)的全局統(tǒng)籌的規(guī)范化,這如同統(tǒng)一 “度量衡”,實(shí)現(xiàn)“車(chē)同軌,書(shū)同文,行同倫”。規(guī)范化構(gòu)成了云計(jì)算One Infrastructure重要屬性;贠ne Infrastructure的實(shí)現(xiàn),把一批服務(wù)器從A集群遷移到B集群,只是在集群管理系統(tǒng)上對(duì)配置的遠(yuǎn)程變更,而不需要物理服務(wù)器實(shí)際搬遷。
解構(gòu)阿里云平臺(tái)運(yùn)維
組織建設(shè)
阿里巴巴集團(tuán)技術(shù)保障是“一個(gè)”團(tuán)隊(duì)(one team),阿里云、天貓、淘寶、etao、雅虎中國(guó)等阿里巴巴集團(tuán)旗下產(chǎn)品,都由這個(gè)團(tuán)隊(duì)統(tǒng)一進(jìn)行技術(shù)保障。團(tuán)隊(duì)的統(tǒng)一,可以確保運(yùn)維體系的統(tǒng)一和運(yùn)維資源的充分共享。換言之,阿里云的運(yùn)維體系、網(wǎng)絡(luò)質(zhì)量、安全和支撐能力等和淘寶、天貓由同一個(gè)技術(shù)保障團(tuán)隊(duì)護(hù)航,在同一個(gè)支撐平臺(tái)下實(shí)現(xiàn)。技術(shù)保障團(tuán)隊(duì)組織建設(shè)分橫向、縱向兩個(gè)維度。其中,縱向按照技術(shù)職能劃分,主要包括基礎(chǔ)運(yùn)維、應(yīng)用運(yùn)維、DBA、安全和平臺(tái)支撐等專業(yè)團(tuán)隊(duì),確保各領(lǐng)域的專業(yè)性和技術(shù)深度;橫向?yàn)榱吮U现攸c(diǎn)產(chǎn)品和項(xiàng)目,打破了團(tuán)隊(duì)界限,圍繞產(chǎn)品建立“護(hù)航小組”。例如,阿里云彈性計(jì)算護(hù)航小組,成員包括平臺(tái)和應(yīng)用運(yùn)維、DBA、安全和過(guò)程改進(jìn)工程師,在2012年7-8月CCTV 5+網(wǎng)站奧運(yùn)保障期間,該護(hù)航小組貫穿容量管理、壓測(cè)、預(yù)案、性能優(yōu)化、故障演練、重點(diǎn)賽事保障和資源彈性分配等全過(guò)程,之前團(tuán)隊(duì)間的任務(wù),在“護(hù)航小組”模式下,變?yōu)閳F(tuán)隊(duì)內(nèi)的任務(wù),各角色緊密協(xié)同,發(fā)揮各自優(yōu)勢(shì),上下游通暢,其高效、專注的工作特點(diǎn)取得良好的成效。
過(guò)程改進(jìn)
如圖2所示,運(yùn)維過(guò)程從左到右將一個(gè)產(chǎn)品的生命周期中的業(yè)務(wù)研發(fā)、發(fā)布變更到生產(chǎn)運(yùn)維貫穿起來(lái)。各個(gè)階段的流程均具備可量化的KPI指標(biāo),能夠清晰指示產(chǎn)品運(yùn)維的健康程度和優(yōu)化方向。例如,“生產(chǎn)變更提前計(jì)劃率”可以指示一個(gè)產(chǎn)品發(fā)布的計(jì)劃性和規(guī)范性,避免因?yàn)榘l(fā)布管理不善,而引發(fā)線上故障的風(fēng)險(xiǎn)。這3年阿里云的發(fā)展讓我們深刻認(rèn)識(shí)到,由于云計(jì)算平臺(tái)自身的技術(shù)復(fù)雜性、大規(guī)模等特點(diǎn),使得故障具備全局性、泛洪等特點(diǎn),因此規(guī)范的運(yùn)維流程和制度保障至關(guān)重要。
圖2 云計(jì)算運(yùn)維過(guò)程的改進(jìn)
支撐系統(tǒng)
云計(jì)算平臺(tái)和產(chǎn)品的高可用性實(shí)現(xiàn),大規(guī)模、穩(wěn)定、成本和效率之間的有效結(jié)合,都依賴于一套健壯、實(shí)用的運(yùn)維支撐體系。服務(wù)于阿里云的運(yùn)維支撐體系不是簡(jiǎn)單套用ITIL或拼湊開(kāi)源運(yùn)維工具,而是根據(jù)云計(jì)算集群大規(guī)模分布式的特點(diǎn),由飛天和技術(shù)保障開(kāi)發(fā)團(tuán)隊(duì)自主研發(fā)并不斷完善中的一套系統(tǒng),其子系統(tǒng)主要包括:基礎(chǔ)運(yùn)維、配置管理、生產(chǎn)變更、故障管理、集群容量、監(jiān)控、集群運(yùn)維等部分。從快速部署一套包括幾千個(gè)計(jì)算、存儲(chǔ)節(jié)點(diǎn)的飛天集群,到監(jiān)控集群上萬(wàn)的任務(wù)和服務(wù)對(duì)象,運(yùn)維支撐系統(tǒng)在可管理、可擴(kuò)展、健壯性和自動(dòng)化程度的提升,既是解放運(yùn)維生產(chǎn)力的過(guò)程,也是云計(jì)算是否真正落地的重要標(biāo)志之一。圍繞飛天平臺(tái)運(yùn)維保障,從操作系統(tǒng)安裝、飛天平臺(tái)搭建、應(yīng)用部署、變更發(fā)布、監(jiān)控、容量管理、儀表盤(pán)(Dashboard),都有專門(mén)的運(yùn)維工具實(shí)現(xiàn),并且工具之間相互關(guān)聯(lián)和協(xié)同。
圖3 發(fā)布變更
云運(yùn)維面臨的挑戰(zhàn)
高可用!開(kāi)發(fā)者需要一個(gè)安全、高可用的網(wǎng)站環(huán)境開(kāi)展業(yè)務(wù),因此如何確保云計(jì)算平臺(tái)和產(chǎn)品提供高可用性服務(wù),是我們一直投入最大力量之所在。以故障管理為例,據(jù)相關(guān)機(jī)構(gòu)統(tǒng)計(jì),2012年國(guó)際知名云計(jì)算公司,先后發(fā)生多起云服務(wù)中斷事件,此類(lèi)事件的數(shù)量較2011年呈上升趨勢(shì),故障影響的周期從小時(shí)到天級(jí)別。分析這些故障背后的觸發(fā)因素,包括代碼Bug、IDC電力故障、網(wǎng)絡(luò)故障、設(shè)備故障、配置變更錯(cuò)誤等諸多因素,可見(jiàn)云計(jì)算的風(fēng)險(xiǎn)隱患較之傳統(tǒng)網(wǎng)站并不少,結(jié)合云計(jì)算平臺(tái)自身所具備的大規(guī)模等特點(diǎn),故障在云計(jì)算集群因?yàn)橐?guī);嬖诒环糯蟮碾[患,故障恢復(fù)也因?yàn)楹A繑?shù)據(jù)等因素而延長(zhǎng),所以如何對(duì)于故障進(jìn)行容錯(cuò)、容災(zāi)、有效隔離影響和快速恢復(fù)對(duì)于云計(jì)算運(yùn)營(yíng)商至關(guān)重要。面對(duì)這些挑戰(zhàn),阿里云產(chǎn)品開(kāi)發(fā)團(tuán)隊(duì)和技術(shù)保障團(tuán)隊(duì),把平臺(tái)的高可用性放在最高優(yōu)先級(jí)加以實(shí)現(xiàn),這也是阿里云飛天平臺(tái)重要的核心競(jìng)爭(zhēng)力。其中,集群多Master HA、熱升級(jí)、動(dòng)態(tài)遷移、集群管理平臺(tái)等,已在產(chǎn)品中普遍應(yīng)用;技術(shù)保障團(tuán)隊(duì)在故障預(yù)案、容災(zāi)演練、工具自動(dòng)化和應(yīng)急響應(yīng)等方面,在不斷改進(jìn)和完善。
共創(chuàng)云運(yùn)維生態(tài)系統(tǒng)
阿里云計(jì)算平臺(tái)是一個(gè)開(kāi)放的生態(tài)系統(tǒng),其中圍繞云計(jì)算的運(yùn)維,是構(gòu)成這個(gè)生態(tài)系統(tǒng)的重要的生態(tài)鏈。從云產(chǎn)品開(kāi)發(fā)者的“輕”運(yùn)維,到云平臺(tái)運(yùn)營(yíng)商的 “重”運(yùn)維,相得益彰,相互促進(jìn),才能打造健康的發(fā)展環(huán)境。這條運(yùn)維生態(tài)鏈充滿潛力,例如可以為第三方軟件提供商(ISV)、第三方運(yùn)維服務(wù)提供商提供平臺(tái),創(chuàng)造更細(xì)分和垂直的運(yùn)維服務(wù)系統(tǒng),豐富云生態(tài)系統(tǒng),創(chuàng)造價(jià)值。以2012年11月的阿里云開(kāi)發(fā)者大會(huì)為例,參賽作品中有相當(dāng)比例是基于OSS和ECS 等開(kāi)發(fā)的管理類(lèi)工具,這些第三方管理工具在云生態(tài)系統(tǒng)中,就可能找到自己的需求方,從而產(chǎn)生價(jià)值。第三方運(yùn)維服務(wù)商也同樣可以通過(guò)提供更細(xì)分、定制化的服務(wù)內(nèi)容,在云生態(tài)系統(tǒng)中滿足開(kāi)發(fā)者用戶的個(gè)性化運(yùn)維需求。
云計(jì)算方興未艾,可謂小荷才露尖尖角,精彩剛剛開(kāi)始。運(yùn)維作為云計(jì)算的天然組成部分,會(huì)越來(lái)越展示其重要性,成為云計(jì)算核心競(jìng)爭(zhēng)力之一。讓我們攜手所有的阿里云開(kāi)發(fā)者共創(chuàng)一個(gè)健康、開(kāi)放的云計(jì)算運(yùn)維生態(tài)環(huán)境;讓阿里云計(jì)算平臺(tái)運(yùn)維重如泰山,穩(wěn)若磐石;讓開(kāi)發(fā)者運(yùn)維舉重若輕,輕松在路上。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:云計(jì)算運(yùn)維之“輕”與“重”
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/1083977895.html