前言
對于數(shù)據(jù)中心交換機設(shè)備來說,由于所承載的應(yīng)用重要性,一旦發(fā)生故障,必須要能夠快速定位及解決問題。但是面對當前異常復(fù)雜的數(shù)據(jù)中心組網(wǎng)拓撲以及維護定位手段的缺失,如何才能應(yīng)對這一挑戰(zhàn)?本文就此問題作出一些技術(shù)分析,在線診斷分析當前設(shè)備的運行情況,對故障和異常能自動發(fā)現(xiàn)、自動恢復(fù)、自動隔離。滿足用戶對設(shè)備更高的可維護診斷需求。
一、概述
1. 診斷維護需求
數(shù)據(jù)中心交換機設(shè)備良好的可維護可診斷體現(xiàn)在多個方面,主要關(guān)注于對器件、業(yè)務(wù)的故障檢測與響應(yīng):
器件的可靠性檢測:器件的可靠是整個設(shè)備可靠的基礎(chǔ),只有每個器件可靠了,才能保證整個系統(tǒng)的可靠運行。器件作為獨立的角色,針對器件的檢測非常簡單和也非常有效。
業(yè)務(wù)的可靠性檢測:交換機設(shè)備的主要功能就是業(yè)務(wù)轉(zhuǎn)發(fā)功能。在某些硬件故障情況下,往往業(yè)務(wù)端口仍處于UP狀態(tài),但設(shè)備卻無法正常轉(zhuǎn)發(fā)報文。在這種情況下,加上組網(wǎng)的復(fù)雜度,如遇嚴重故障,維護人員很難感知故障,更無法快速確定到故障點。這就需要業(yè)務(wù)可靠性檢測功能,及時的發(fā)現(xiàn)和處理業(yè)務(wù)轉(zhuǎn)發(fā)的故障。
故障的自動分析、定位和恢復(fù)功能:在目前復(fù)雜的組網(wǎng)情況下,找到一個故障點,并明確故障所在的單板往往需要幾十分鐘甚至幾個小時的時間,這無疑對維護人員來說是場噩夢。如果設(shè)備能自動分析、定位和恢復(fù)故障,就可以有效降低維護的人力投入,同時極大的減少了故障時對業(yè)務(wù)的影響。
2. 設(shè)想中的診斷維護架構(gòu)
要實現(xiàn)診斷維護的這些需求,可以準備一整套的診斷架構(gòu),基于該架構(gòu)可以方便的實現(xiàn)整體的診斷維護功能。該診斷架構(gòu)主要分成三部分。如圖1所示,從下到上,首先是通過對器件、單板、業(yè)務(wù)的檢測來及時發(fā)現(xiàn)故障,然后把故障檢測結(jié)果報告給在線智能診斷分析模塊對故障進行分析、深入定位,最后智能診斷分析模塊根據(jù)分析的結(jié)果進行故障保護性處理,包括把故障告警通知用戶維護人員,并進行恢復(fù)和保護性倒換。
圖1 在線檢測診斷模塊關(guān)系圖
二、在線檢測——發(fā)現(xiàn)故障
交換機可以通過在線器件故障檢測功能在設(shè)備運行時,定時不斷的掃描各主要器件的(如單板電源模塊、時鐘、晶振、CPLD、內(nèi)存、轉(zhuǎn)發(fā)芯片等)運行情況,一旦出現(xiàn)器件故障,及時通知到智能分析模塊進行保護處理。其器件檢測基于軟硬件的結(jié)合,快速、可靠。以對時鐘的檢測為例,時鐘作為硬件轉(zhuǎn)發(fā)芯片的工作基礎(chǔ),如果出現(xiàn)偏差和停止輸出會造成整個轉(zhuǎn)發(fā)芯片無法工作?梢詫r鐘輸出信號提取一路出來通過CPLD在線實時監(jiān)控,當時鐘出現(xiàn)過大偏差或停止輸出時,就主動觸發(fā)中斷通知CPU的智能診斷模塊進行保護性處理。
而對于交換機的業(yè)務(wù)板、主控板在內(nèi)的各種單板檢測而言,這些單板都有獨立的CPU,互相間的通訊通過板間通訊通道進行,是完全獨立的一套系統(tǒng)。在這種分布式的架構(gòu)下,設(shè)備需要快速的感知各單板的運行狀態(tài)和故障情況,確保業(yè)務(wù)能選擇最優(yōu)路徑轉(zhuǎn)發(fā)。高端交換機可以使用獨立的檢測平面,定時快速的掃描各單板的運行、業(yè)務(wù)處理情況,對處于異常的單板根據(jù)故障通知智能分析模塊及時進行保護性處理。例如:在分布式設(shè)備中,有很多的數(shù)據(jù)報文發(fā)送和處理都是在業(yè)務(wù)處理板上進行的,設(shè)備會自動根據(jù)單板的故障狀態(tài),對業(yè)務(wù)處理優(yōu)選正常運行單板進行處理,確保業(yè)務(wù)處理的高效和正確。
交換機最基礎(chǔ)的功能是正確轉(zhuǎn)發(fā)業(yè)務(wù)報文。在線業(yè)務(wù)檢測就是在線檢測整個業(yè)務(wù)轉(zhuǎn)發(fā)通道是否正常,如果正常,表明整個系統(tǒng)的轉(zhuǎn)發(fā)功能是正常的。如果出現(xiàn)異常,就要及時通知智能分析模塊,由智能分析模塊來定位出故障點,并進行相應(yīng)的保護處理。例如:當某塊業(yè)務(wù)板的某個轉(zhuǎn)發(fā)芯片出現(xiàn)轉(zhuǎn)發(fā)故障,業(yè)務(wù)通道檢測功能就能快速的感知到其它轉(zhuǎn)發(fā)芯片到該芯片的業(yè)務(wù)通道故障,通知智能診斷分析模塊對該芯片進行保護處理。例如可以通過關(guān)閉該芯片上對應(yīng)的物理端口,把流量切換到備份的端口以快速的恢復(fù)業(yè)務(wù)。
三、在線智能診斷分析技術(shù)——分析故障
通常交換機設(shè)備出現(xiàn)故障時,往往只能提示用戶出現(xiàn)故障,卻無法進一步深入的判定問題所在和保護處理。可以通過一整套的在線智能診斷技術(shù),根據(jù)故障的原因和用戶配置的情況,實現(xiàn)告警、故障隔離、故障嘗試恢復(fù)等處理。
如圖1中間層所示,在線智能診斷分析模塊會自動的收集各種檢測的結(jié)果,對出現(xiàn)異常的檢測結(jié)果將交由深入探測功能模塊進一步深入分析和定位,判斷出故障點,通知用戶更換故障單板,并對故障實施隔離、嘗試恢復(fù)等動作,對業(yè)務(wù)進行保護性倒換。
例如:某業(yè)務(wù)板出現(xiàn)故障,造成報文轉(zhuǎn)發(fā)丟包。這時,業(yè)務(wù)通道故障檢測發(fā)現(xiàn)轉(zhuǎn)發(fā)異常,將故障報告給在線智能診斷模塊,該模塊會通知深入探測診斷功能模塊啟動對各業(yè)務(wù)單板的深度探測功能,最終定位到故障點為某塊故障單板后,在線智能診斷模塊會把該業(yè)務(wù)板隔離,去除該業(yè)務(wù)板對轉(zhuǎn)發(fā)的影響,恢復(fù)業(yè)務(wù)。同時,告警提示用戶更換該業(yè)務(wù)板。
四、在線保護技術(shù)——處理故障
在線智能診斷分析在分析到故障后,會根據(jù)當前系統(tǒng)的配置情況和故障原因,進行一系列動作進行故障的自動恢復(fù)處理(如圖1最上層所示),其中必須要實現(xiàn)關(guān)閉端口和單板隔離。
1. 關(guān)閉端口(故障端口自動備份切換技術(shù))
作為數(shù)據(jù)中心組網(wǎng)中,在組網(wǎng)規(guī)劃時往往會考慮通過跨板鏈路聚合、IRF/VSS等技術(shù)提供冗余備份保護。當設(shè)備出現(xiàn)硬件轉(zhuǎn)發(fā)故障時,往往端口依然是是UP狀態(tài),因此對端設(shè)備會認為該端口為可用端口,流量照常往該端口轉(zhuǎn)發(fā),結(jié)果造成冗余備份保護無法生效。
結(jié)合在線診斷檢測和分析功能,設(shè)備可以在檢測到硬件或者轉(zhuǎn)發(fā)故障時,根據(jù)定位到的故障點,檢查故障影響的用戶端口,如果該用戶端口存在備份鏈路,則自動關(guān)閉該用戶端口,使對端的流量倒換到備份鏈路上。該技術(shù)結(jié)合IRF/VSS等跨框聚合可以更加完善的提供冗余備份功能。
圖2 備份自動切換示意圖
如圖2所示,用戶在IRF設(shè)備上配置PortA和PortC聚合,PortB和PortD聚合。服務(wù)器A和服務(wù)器B間的流量如上圖所示。在PortA、PortB端口所在單板出現(xiàn)轉(zhuǎn)發(fā)故障時,此時由于仍為UP端口,交換機A和交換機B仍繼續(xù)執(zhí)行負載分擔把流量發(fā)送給PortA、PortB,但實際情況卻是因轉(zhuǎn)發(fā)故障造成紅色的流量全部在交換機上被丟棄。
現(xiàn)在,在配置了故障端口自動備份切換功能后。智能診斷分析模塊在定位到該單板故障后,分析出該板的PortA、PortB端口存在備份端口PortC、PortD,則對PortA和PortB執(zhí)行管理DOWN,交換機A和交換機B即可以感知到端口變化,只把流量發(fā)送到PortC和PortD端口上,即流量只走綠色的路徑轉(zhuǎn)發(fā),兩臺服務(wù)器間的流量恢復(fù)轉(zhuǎn)發(fā)正常。
2. 單板隔離技術(shù)
單板隔離是將指定單板從業(yè)務(wù)平面中隔離出來,不再參與業(yè)務(wù)轉(zhuǎn)發(fā)。被隔離單板仍在管理平面中,可對其進行重啟等基本操作。交換機設(shè)備在出現(xiàn)硬件單板故障時可以自動的進行故障單板隔離處理,也可以手工命令對故障單板來進行隔離,并可將單板隔離后進行現(xiàn)場診斷,方便準確、深入的定位分析故障原因。
當對線卡板設(shè)置隔離后,該線卡板的所有業(yè)務(wù)端口被管理關(guān)閉,不會有報文從外部進入該板;線卡板對應(yīng)的交換網(wǎng)端口也被關(guān)閉,不會有報文從其他線卡板轉(zhuǎn)發(fā)過來;從而使該板從轉(zhuǎn)發(fā)業(yè)務(wù)中脫離出來。
當對內(nèi)部交換單板設(shè)置隔離后,內(nèi)部交換單板上的交換網(wǎng)芯片被設(shè)置為“不可達”,從而該網(wǎng)板從轉(zhuǎn)發(fā)業(yè)務(wù)中脫離出來。高端數(shù)據(jù)中心設(shè)備一般具有多塊內(nèi)部交換單板,內(nèi)部交換單板間互為冗余備份,在對部分內(nèi)部交換單板的故障隔離后,不會影響整體轉(zhuǎn)發(fā)功能。在檢測到內(nèi)部交換單板故障后,如果會自動進行該單板的隔離處理,可以確保故障單板不影響業(yè)務(wù)轉(zhuǎn)發(fā)。
五、結(jié)束語
由以上分析可知,對于數(shù)據(jù)中心交換機設(shè)備而言,其診斷維護功能的需求發(fā)展趨勢是自動發(fā)現(xiàn)故障、自動隔離故障、自動故障恢復(fù),做到設(shè)備無需維護,機房無需值守。這尤其對于數(shù)據(jù)中心,以及其中的核心交換機設(shè)備的運維效率與效果意義重大。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標題:對數(shù)據(jù)中心交換機在線診斷維護技術(shù)的分析
本文網(wǎng)址:http://www.ezxoed.cn/html/support/1112159203.html