本文介紹了你的整臺服務(wù)器死機后,該怎樣排除故障。
我們大多數(shù)人都遇到過這種情況:服務(wù)器毫無反應(yīng),結(jié)果我們無法訪問任務(wù)管理器,甚至無法訪問服務(wù)器上的網(wǎng)絡(luò)共享區(qū)。當然,不用說,出問題的似乎總是任務(wù)關(guān)鍵型服務(wù)器。這意味著,負責服務(wù)器的IT管理員難免會驚慌失措。
處理服務(wù)器死機時,區(qū)別所謂的硬死機(call hang)與軟死機(soft hang)顯得很重要。這常常可以幫助我們根據(jù)在服務(wù)器上能執(zhí)行什么操作、不能執(zhí)行什么操作,至少能夠診斷基本問題。比如說,如果我們無法ping測試服務(wù)器,無法通過鍵盤切換數(shù)字鎖定鍵(NumLock)或大寫鎖定鍵(Caps Lock)功能,或者鼠標光標沒有任何反應(yīng), 那么我們極有可能遇到了硬死機。這些問題一般與硬件有關(guān)(可能與驅(qū)動程序有關(guān)),但是很少與Windows操作系統(tǒng)的配置問題或內(nèi)存泄漏有關(guān)。遇到硬死機時,系統(tǒng)死機出現(xiàn)在內(nèi)核的很低層面,不再處理線程。如果是硬死機,第一步就是聯(lián)系硬件廠商,對系統(tǒng)進行一番診斷。除非你有具體的理由懷疑問題出在某個硬件上(比如說最近安裝的內(nèi)存等),否則不建議你隨便取出或更換硬件。
現(xiàn)在再來說說軟死機;當服務(wù)器處于軟死機狀態(tài)下,它基本上沒有反應(yīng),但是內(nèi)核在很低的層面仍在工作--比如說,ping測試或切換數(shù)字鎖定鍵一切正常。在軟死機狀態(tài)下,你可能無法在本地或通過終端服務(wù)(Terminal Services)登錄到機器上,或者可能會遇到桌面一片空白,不過網(wǎng)絡(luò)和打印機共享區(qū)仍可以訪問。對于內(nèi)存耗盡或進程死鎖期間我們看到的那種類型的癥狀而言,這個現(xiàn)象比較常見。
我們看到的一種通常的死機問題是由分頁或非分頁池內(nèi)存耗盡引起的。這些資源耗盡時,你會在系統(tǒng)事件日志(System Event Log)中看到類似下列事件的事件:
正如你所見,2019錯誤表明非分頁池內(nèi)存已耗盡;2020錯誤表明分頁池內(nèi)存已耗盡。如果你在死機之前看到日志中有任何這樣的事件,解決了耗盡問題很可能連帶解決了死機問題。
查明根源更難一點的問題是系統(tǒng)頁表項(PTE)耗盡引起的死機。我們在之前關(guān)于3GB切換(/3GB switch)的一篇文章中簡要地介紹了系統(tǒng)PTE.PTE是用來跟蹤內(nèi)存中頁面的結(jié)構(gòu),好比圖書索引告訴你圖書內(nèi)容在哪一頁上。PTE告訴系統(tǒng)數(shù)據(jù)駐留在內(nèi)存的哪一個物理頁面上。機器從固定數(shù)量的PTE開始--系統(tǒng)中的內(nèi)存越多,需要越多的PTE指向內(nèi)存頁面。如果系統(tǒng)耗盡了可用的頁面表項,它再也無法分配內(nèi)存,因而導致系統(tǒng)死機或毫無反應(yīng)。
遺憾的是,系統(tǒng)PTE耗盡時,系統(tǒng)日志中沒有什么條目表明這個問題。不過,你可以使用性能監(jiān)視器(Performance Monitor)來監(jiān)視空閑系統(tǒng)PTE.沒有計數(shù)器詳細分解每個進程的PTE使用情況,所以單單使用性能監(jiān)視器來查明PTE耗盡的根源并非總是切實可行。你也許能夠?qū)⑦M程的句柄數(shù)量不斷上升(句柄泄漏)與PTE耗盡關(guān)聯(lián)起來,然而除非存在明顯的根源,否則就要內(nèi)存轉(zhuǎn)儲或?qū)崟r調(diào)試。
所以概括起來,下面是系統(tǒng)完全死機后需要遵循的幾個簡單步驟:
1. 這是硬死機還是軟死機?如果這是硬死機,那么很可能是底層硬件出了問題,所以就要聯(lián)系硬件廠商。
2. 檢查事件日志,查找發(fā)生死機時事件日志中的任何事件。以頁面池耗盡為例,你會看到事件編號2019或2020,事件來源是SRV.
3. 啟動性能監(jiān)視器,檢查內(nèi)存對象下面空閑系統(tǒng)PTE的起始值。如果系統(tǒng)啟動時,空閑系統(tǒng)PTE少于正常值(大約15000或更少),那么這不是個好兆頭。這意味著,所有PTE在啟動時已被耗盡,因而可供服務(wù)器正常操作使用的資源就比較少了。
4. 創(chuàng)建性能監(jiān)視器日志,讓它運行一段時間。起碼要添加針對內(nèi)存、進程、處理器和系統(tǒng)的計數(shù)器。你需要讓日志運行多長時間,取決于系統(tǒng)多久過后出現(xiàn)死機(假設(shè)死機問題一再發(fā)生)。設(shè)好間隔時間,以便你能夠在日志有效期內(nèi)捕捉到至少100個樣本。任何內(nèi)存偏低的情況都應(yīng)該一目了然--如果這種泄漏很穩(wěn)定的話,更是如此。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標題:如何排除服務(wù)器死機故障?
本文網(wǎng)址:http://www.ezxoed.cn/html/support/1112151570.html