SDN,在經(jīng)歷了猶豫彷徨、百家爭(zhēng)鳴之后,目前已成為企業(yè)CTO的堅(jiān)定選擇。
SDN時(shí)代的網(wǎng)絡(luò)展現(xiàn)出兩面性:一方面讓客戶使用更加簡(jiǎn)單,另一方面卻讓運(yùn)維更加復(fù)雜。而當(dāng)前,整個(gè)行業(yè)的目光多聚焦在前者而忽略了后者。
隨著SDN的部署如火如荼,一絲憂患也隱隱浮現(xiàn)。2015年12月,管理行業(yè)研究機(jī)構(gòu)EMA(Ent
ERPrise Management Associates)針對(duì)100多家企業(yè)的調(diào)查結(jié)果顯示:70%左右的客戶對(duì)于現(xiàn)有管理運(yùn)維體系是否適用于SDN場(chǎng)景表示擔(dān)憂。Gartner于 2015年7月發(fā)布的通信網(wǎng)絡(luò)技術(shù)成熟度曲線(The Hype Cycle)也顯示,SDN相關(guān)的運(yùn)維技術(shù)處于泡沫化的底谷期(Trough of Disillusionment),將在2~5年內(nèi)進(jìn)行大規(guī)模商用部署。
華為早在全面擁抱SDN初期,就把SDN運(yùn)維作為關(guān)鍵課題進(jìn)行研究和實(shí)踐,下面分別從WHY、WHAT、HOW這3個(gè)緯度展示華為對(duì)SDN運(yùn)維的思考。
WHY:SDN運(yùn)維的新變化
相對(duì)于傳統(tǒng)網(wǎng)絡(luò),SDN時(shí)代的網(wǎng)絡(luò)有如下的特征:
動(dòng)態(tài)網(wǎng)絡(luò):動(dòng)態(tài)是指根據(jù)應(yīng)用需求按需創(chuàng)建和刪除邏輯網(wǎng)絡(luò)。比如某企業(yè)用戶反饋,在運(yùn)維中需要投入50%的工作在防火墻的規(guī)則上,主要原因是隨著應(yīng)用的變遷,防火墻規(guī)則沒有隨之變遷,造成網(wǎng)絡(luò)沉淀和碎片。
實(shí)時(shí)響應(yīng):傳統(tǒng)網(wǎng)絡(luò)的設(shè)計(jì)主要是面向人的界面,基于分鐘級(jí)別慢速的原則,比如使用了幾十年的SNMP機(jī)制。這種慢速機(jī)制,在SDN的快節(jié)奏中成為“吐槽”點(diǎn)。某企業(yè)客戶抱怨其輕載的網(wǎng)絡(luò)存在瞬態(tài)的突發(fā)丟包,懷疑存在毫秒級(jí)別的微突發(fā)流量,但是在分鐘級(jí)別的 SNMP機(jī)制下無法觀察到,更無法優(yōu)化。
大規(guī)模:大規(guī)模有兩個(gè)含義,其一是管理的設(shè)備數(shù)量。從物理網(wǎng)元到邏輯網(wǎng)元vSwitch/vRouter,其數(shù)量增加了50倍;其二是處理的故障數(shù)量。據(jù)LinkedIn披露,從2010年到2015年,需要處理的故障增加了18倍,但管理人員僅增加了幾個(gè)。
要應(yīng)對(duì)上述SDN網(wǎng)絡(luò)的3大問題,傳統(tǒng)的“人工運(yùn)維”方式賢德捉襟見肘、難以為繼。
WHAT:SDN運(yùn)維內(nèi)涵
為了滿足SDN下“動(dòng)態(tài)性、實(shí)時(shí)性、大規(guī)模”的挑戰(zhàn),華為提出需要對(duì)整個(gè)運(yùn)維架構(gòu)進(jìn)行變革,才能讓SDN“管用、好用”。新的SDN運(yùn)維架構(gòu)需要圍繞下面幾個(gè)方面打造:
可視化:看得見,看得清
俗話說“You Can’t Manage What You Can’t See”。“看得見”有兩個(gè)方面的含義:
觀察對(duì)象可視:可監(jiān)控物理和邏輯對(duì)象,包括網(wǎng)元級(jí)別的節(jié)點(diǎn)和接口等,也包括網(wǎng)絡(luò)級(jí)別的鏈路、邏輯路徑和應(yīng)用質(zhì)量等。
觀察的實(shí)時(shí)性:支持毫秒級(jí)別現(xiàn)象的感知(比如流量微突發(fā))、低頻率(<10-4)的丟包,以及大象流和老鼠流的識(shí)別等。
“看得清”意味著針對(duì)觀察的準(zhǔn)確性,需要采集和分析海量的數(shù)據(jù)。包括:
精確計(jì)費(fèi):采集的比例需要從8K:1到2K:1,甚至1:1全量采集。
疑難問題定位:基于采集的“大數(shù)據(jù)”和實(shí)時(shí)分析,及時(shí)發(fā)現(xiàn)偶發(fā)性丟包和流量黑洞等。
自動(dòng)化:自修復(fù),自優(yōu)化
傳統(tǒng)的網(wǎng)絡(luò)運(yùn)維架構(gòu)是一個(gè)單向的系統(tǒng),而不是一個(gè)負(fù)反饋系統(tǒng)。網(wǎng)絡(luò)運(yùn)維包括兩個(gè)方向:管理員在下行方向配置網(wǎng)絡(luò),然后通過上行方向獲得網(wǎng)絡(luò)的狀態(tài),也就是說,網(wǎng)絡(luò)的部署和狀態(tài)是割裂的,通過管理員進(jìn)行有限的溝通。這種機(jī)制顯然無法滿足網(wǎng)絡(luò)故障自修復(fù)和網(wǎng)絡(luò)自優(yōu)化的需求。自動(dòng)化的運(yùn)維需要構(gòu)建 “閉環(huán)”運(yùn)維架構(gòu),具體包括:
延遲修復(fù):發(fā)現(xiàn)故障后,首先隔離故障,不影響現(xiàn)有業(yè)務(wù)。
診斷修復(fù):結(jié)合采集的“大數(shù)據(jù)”和經(jīng)驗(yàn)數(shù)據(jù)庫,進(jìn)行自動(dòng)修復(fù)或給出明確的修復(fù)方案。
網(wǎng)絡(luò)優(yōu)化:及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)存在的“病態(tài)”,如流量不均衡和流量擁塞風(fēng)險(xiǎn)等,通過閉環(huán)系統(tǒng),由網(wǎng)絡(luò)部署系統(tǒng)自動(dòng)進(jìn)行調(diào)整,把故障消滅在萌芽狀態(tài)。
HOW:SDN運(yùn)維方案
基于SDN下的運(yùn)維新變化,華為分解了運(yùn)維的生命周期,構(gòu)建了“閉環(huán)”的運(yùn)維負(fù)反饋系統(tǒng),稱為Fabric Insight架構(gòu),包括如下4個(gè)模塊:
Monitor:監(jiān)視
為了解決實(shí)時(shí),海量的數(shù)據(jù)監(jiān)視,需要在如下兩個(gè)方面改進(jìn)方案:
改造采集通道,滿足海量數(shù)據(jù)上報(bào):對(duì)于中規(guī)模的數(shù)據(jù)上報(bào),采用gRPC等高效的采集通道替代SNMP等;對(duì)于大規(guī)模的數(shù)據(jù)上報(bào),直接采用數(shù)據(jù)面基于UDP的采集通道,消除管理面CPU的帶寬限制。
改造采集點(diǎn),滿足高頻采集:在數(shù)據(jù)中心交換機(jī)上設(shè)計(jì)專門的高頻采集部件,滿足毫秒級(jí)的事件采集。
Detector:探測(cè)
未來及時(shí)發(fā)現(xiàn)端到端業(yè)務(wù)路徑的質(zhì)量,需要通過實(shí)時(shí)發(fā)送探測(cè)報(bào)的方式,對(duì)網(wǎng)絡(luò)進(jìn)行“掃描”。區(qū)別于傳統(tǒng)機(jī)制的“隨機(jī)掃描”,華為結(jié)合網(wǎng)絡(luò)的拓?fù)浜吐酚桑С指_的“定向掃描”,可以做到真正的全網(wǎng)全覆蓋;谶@種能力,管理員就不再是“救火員”,而是運(yùn)籌帷幄的“諸葛亮”。
Metrics:度量
在某些情況下,網(wǎng)絡(luò)質(zhì)量顯示正常,但是應(yīng)用體驗(yàn)下降。探測(cè)機(jī)制無法解決這種問題,就需要基于真實(shí)的業(yè)務(wù)流進(jìn)行度量,發(fā)現(xiàn)該業(yè)務(wù)流是否存在丟包和時(shí)延問題,如果丟包,丟包位置在哪?如果時(shí)延大,是什么因素造成的?
Diagnosis:診斷
診斷就像老中醫(yī)看病,通過Monitor、Detector和Metrics進(jìn)行“望聞問切”后,再結(jié)合經(jīng)驗(yàn)庫的案例,定位出問題的根因。診斷部件由一系列的工具組成,每個(gè)工具針對(duì)特定的問題。比如環(huán)路診斷工具、丟包診斷工具等。
華為秉承開放的理念,開放基本的運(yùn)維API,客戶可自助地開放和定制自己的診斷工具集。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標(biāo)題:云時(shí)代如何簡(jiǎn)化數(shù)據(jù)中心網(wǎng)絡(luò)運(yùn)維?
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/10839719921.html