如何建設一支能夠解決問題、創(chuàng)造價值、有活力的、不斷進取的IT運維團隊,并帶領這支團隊.充分發(fā)揮這個團隊的優(yōu)勢力量,是運維業(yè)務有效開展的關鍵。運維策略是直接體現運維業(yè)務的經濟價值所在。好的運維措施、方法可以延長設備使用壽命,充分發(fā)揮該設備、物品應有的作用,創(chuàng)造更高的經濟價值;錯誤的運維措施、方法可能縮短設備使用壽命或毀壞設備,嚴重時會帶來一場巨大的災難。信息安全是IT運維質量最重要的指標之一,只有通過有效、可行的管理、監(jiān)控手段才能降低安全風險,防止重要數據泄漏,保障數據安全。
1、IT運維隊伍組成
IT運維涉及的專業(yè)有:網絡、數據庫、操作系統、服務器(包括小型機)、存儲、桌面運維、視頻會議、門戶、美工、業(yè)務管理系統等。這些專業(yè)的專業(yè)性很強,需要專業(yè)化人才進行運維管理。各專業(yè)知識面不一樣,能從事運維工作的業(yè)務面也不一樣。如從事網絡、操作系統專業(yè)的運維人員可以從事桌面運維工作,但從事桌面的運維人員不一定能從事網絡、數據庫、存儲維護工作。對涉及信息安全的專業(yè)必須分開運維,如網絡權限、數據庫權限、操作系統權限、存儲權限、業(yè)務管理系統權限管理這幾個專業(yè)必須獨立,不得互相兼用,但做技術的可以兼用。IT運維中技術難度低的工作,工作量較大,人員需求較多,而技術難度高的工作,工作量相對小,人員需求相對較少。因此以上提到的每個專業(yè)的人員都必須有,但總的工作可以統一協調安排。
IT運維管理人員較少,工作量大,因此對人員專業(yè)面、專業(yè)素質要求高。對重要專業(yè)要能吃得透,在項目建設中能把握住方案的要害,所組建的設備、系統平臺既要保證運行可靠、高效,還要不浪費,而且便于維護。在運維中要能制定合理可行的運維策略,完全了解所管轄的設備運行和停運的風險。在指揮運維作業(yè)時,能指出不規(guī)范或錯誤的操作,能意識到相應的風險,并能做到不瞎指揮.不違章指揮。
運維人員按專業(yè)設組,每個組至少有一名技術專家,該專家負責解決該專業(yè)的疑難問題,根據日常運維業(yè)務量配備相應的技術人員,在信息安全不互斥的情況下可以兼用。
對以下兩個專業(yè)特別指出:一是網絡專業(yè),該專業(yè)覆蓋面大.專業(yè)性強,影響面大,因此從事網絡專業(yè)人員的數量有一定要求,并具有5年及以上網絡從業(yè)經驗。專業(yè)上具有以下能力:能夠獨立配置該公司所有品牌的網絡設備,能夠隨意組網,能夠優(yōu)化網絡設備的安全策略,能夠利用常用工具快速查找、分析、處理故障。二是數據庫專業(yè),該專業(yè)風險大,數據庫一旦故障可能造成所有業(yè)務管理系統中斷,嚴重會造成數據丟失,帶來無法彌補的損失。因此必須取得DBA證書,并具有5年及以上從事數據庫開發(fā)或維護工作經驗的,才能獨立從事數據庫維護工作。
2、IT運維隊伍的管理
一個團隊要有凝聚力,相互協作,聽指揮。尤其在處理疑難問題和應急情況處理時,更需要團隊的力量。每個運維人員必須有相應的崗位及崗位職責。IT運維的崗位應按以上提到的IT專業(yè)設置。由于工作量的不平衡,在信息安全不互斥的情況下,可以兼任其它崗位,相互滲透.而且便于人才的培養(yǎng)。每臺重要設備確定一個主責任人,特別重要的設備可以增加一個輔助維護人員。IT技術更新極快,新技術學習、專業(yè)相互滲透、常規(guī)培訓必須保證足夠的時間和次數。每人每周參加一次集體的培訓,相互培訓、相互學習,取長補短。每個專業(yè)的技術專家每年至少得參加一次一周左右的外送培訓。每天發(fā)生的運維業(yè)務很多,有常規(guī)的、有臨時的、有應急的。如何使這些業(yè)務不落掉.做到每個運維業(yè)務定人定責.隨時能跟蹤運維進度。因此我們需要利用我們的強項IT技術,建一個問題管理系統,對整個業(yè)務執(zhí)行過程進行監(jiān)控。做到定人提報問題或定時發(fā)布常規(guī)任務,定人分配問題。得到任務的人員及時對問題進行處理,如果個人處理不了,可以找相應專業(yè)的技術專家處理,技術專家處理不了可以找團隊共同處理,直到問題關閉。問題的處理過程及措施都在系統中體現。問題處理不及時,或沒達到用戶的要求。將會報警并產生扣分項
有了以上的問題管理系統,就可以監(jiān)控、跟蹤每個運維業(yè)務,提高信息共享、傳輸的效率.從而提高運維的工作效率,防止工作失誤。周報、月報及每人的考核、團隊的考核以系統中具體的數據為依據。應急預案的編制、審核、演練、處理、記錄、分析演練、分析事故處理等整個過程,對這個團隊處理應急情況尤其重要。預案編制一定要可行、責任到位,而且要言簡意賅.容易理解好接收。涉及到的專業(yè)、管理部門都要參與審核并簽字通過。應急預案應定期演練,只有通過演練才能了解這個團隊在處理應急問題時還哪些不足。整個應急預案的演練或事故處理都應該如實按預案要求做記錄.為演練或事故分析提供依據。演練分析或事故處理分析可以為這個團隊增加事故處理經驗,并從中吸取教訓。
3、IT運維策略
運維策略決定了運維的質量,直接體現經濟價值?梢蕴崆鞍l(fā)現問題、解決問題,把事故扼殺在萌芽狀態(tài)?梢岳^續(xù)發(fā)揮舊設備的作用,創(chuàng)造新價值。IT運維策略需要注意幾點。
(1)運維應有側重點,對管轄的設備劃分重要等級,根據重要性確定具體設備的運維點、運維措施、運維方法、運維周期。核心機房設備最重要,其次是普通機房設備。
核心機房設備根據重要性排序:供電系統,消防系統,溫、濕度控制系統,存儲設備,核心交換機,重要服務器,匯聚交換機,普通服務器,邊界設備。塵土、靜電是機房設備最大的敵人,大功率設備的散熱系統最容易產生故障被破壞。散熱系統發(fā)生故障后就直接導致溫度過高,從而毀壞設備,嚴重時會造成火災。因此大功率設備的散熱部位是維護的重點部位。
機房的散熱、防塵、除濕、保濕就顯得更重要。再次是數據庫的重要,主要體現在數據庫平臺的入侵檢測、安全監(jiān)控,數據文件、日志文件的安全備份,異地容災。
(2)重要設備的故障記錄,每臺重要設備的每次故障及故障處理過程都要有記錄。這可以建一個小系統,錄入重要設備的臺賬,記錄所關心的重要參數。重要設備的維護策略、故障及處理記錄在系統中體現,可供查詢,建立動態(tài)臺帳和歷史檔案。當新故障發(fā)生時,可以利用歷時故障及處理過程加以分析,可以幫助新故障的處理。也能為以后維護該類設備提供經驗。調整相應的維護策略
(3)運維方法不當,容易毀壞設備,嚴重時會造成災害,因此必須了解一些注意事項。
運維時重點注意兩方面:一是防靜電。IT設備根據設備所處的重要等級不同,部分設備的板卡可以熱插拔。熱插拔板卡時一定要注意防止身體上的靜電傳到設備上,避免毀壞設備。因此必須帶上防靜電腕帶并接地。平時操作機房設備時也應該帶上防靜電腕帶.這一點很多人都容易被忽視。二是跳線。有些設備的跳線很多,特別是新換板卡,跳線顏色、插頭都是一樣的.容易跳錯。一定注意不能按經驗跳線,要看說明書或圖紙。否則容易燒毀板卡或設備。跳完線后,最好是請另一個同事根據圖紙核實跳線,確認無誤再對設備上電。
(4)每臺重要設備、系統、平臺的常規(guī)維護都應編寫一個可行的、容易理解的、簡單的操作流程,指導每次常規(guī)操作維護。
每個人對自己管轄的重要設備的操作流程要爛熟于心,并能指導協作的人員一起處理故障。以機房UPS每半年進行一次的充、放電為例,所有開關的開或關是有順序的,且開機或關機的順序是不同的,若關錯一個都會燒壞UPS主機。另外,還有一組開關在正常情況是不能開的,但在關閉某些開關后又是可以開的,而這個功能又是需要的,若開錯順序或開了不該開的開關都會損壞設備,嚴重時會造成主機或電池爆炸,釀成火災。因此必須應有一個可行的操作流程做指導。
對數據庫的數據備份也同樣存在順序的問題或操作漏項問題。如果數據庫沒有完全停下,就不能做完全恢復的數據備份。另外只有數據文件的備份,無日志文件的備份。也不能做完全恢復的數據備份。因此如果沒有數據備份和數據恢復的操作流程指導。數據備份和恢復就容易失誤.造成數據丟失。
(5)重要設備降級使用,修舊利廢。某些設備到了報廢年限。但由于平時保養(yǎng)措施到位,狀況良好的可以降級使用,提高舊設備的利用率。降級的原則是,主設備降為從設備,核心設備降為匯聚設備,存儲設備降為備份設備,服務器降為實驗平臺或監(jiān)控電腦。多臺舊設備拼裝使用,但這種情況通常在重要程度較低的末端使用。
(6)操作系統不要輕易重裝。如果數據備份不全,重裝系統時容易造成用戶數據丟失,另外由于重裝操作系統的時間太長,升級打補丁需要很長的時間,同時目前需要安裝的安全軟件和應用軟件也越來越多。這將會影響用戶辦公。許多操作系統問題可以通過修復系統解決,除非中了系統類的病毒,必須重裝系統。
4、IT信息安全
IT信息安全需從建設和運維兩方面控制風險。從運維的角度就降低信息風險應注意幾點事項。
(1)要有必要的網絡安全監(jiān)控措施,比如端點準人、入侵監(jiān)測、網上行為管理、網絡流量監(jiān)控。
(2)掌控核心網絡設備及出口網絡設備的權限和密碼、數據庫及數據庫平臺的權限和密碼、安裝數據庫平臺的操作系統權限和密碼、業(yè)務管理系統的權限和密碼。以上四類權限和密碼如果有一項掌控不了,或互相串通,都保證不了業(yè)務系統的數據安全。
(3)數據庫安全是信息安全的根。數據庫安全的監(jiān)控手段很多,比如數據庫日志監(jiān)測、非法用戶監(jiān)測、數據庫平臺的非法訪問監(jiān)測、防火墻監(jiān)測。
(4)網路設備、出口設備的安全策略設置優(yōu)化直接影響網絡安全。
(5)網絡拓撲結構一定要保密,只能在有限的范圍內公開.這是網絡攻擊需要的重要資料。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業(yè)務領域、行業(yè)應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領域的管理,全面涵蓋了企業(yè)關注ERP管理系統的核心領域,是眾多中小企業(yè)信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.ezxoed.cn/
本文標題:中型企業(yè)IT運維管理