引言
如何建設一支能夠解決問題、創(chuàng)造價值、有活力的、不斷進取的IT運維團隊,并帶領這支團隊,充分發(fā)揮這個團隊的優(yōu)勢力量,是運維業(yè)務有效開展的關(guān)鍵。運維策略是直接體現(xiàn)運維業(yè)務的經(jīng)濟價值所在。好的運維措施、方法可以延長設備使用壽命,充分發(fā)揮該設備、物品應有的作用,創(chuàng)造更高的經(jīng)濟價值;錯誤的運維措施、方法可能縮短設備使用壽命或毀壞設備,嚴重時會帶來一場巨大的災難。信息安全是IT運維質(zhì)量最重要的指標之一,只有通過有效、可行的管理、監(jiān)控手段才能降低安全風險,防止重要數(shù)據(jù)泄漏,保障數(shù)據(jù)安全。
一 IT運維隊伍組成
IT運維涉及的專業(yè)有:網(wǎng)絡、數(shù)據(jù)庫、操作系統(tǒng)、服務器(包括小型機)、存儲、桌面運維、視頻會議、門戶、美工、業(yè)務管理系統(tǒng)等。這些專業(yè)的專業(yè)性很強,需要專業(yè)化人才進行運維管理。各專業(yè)知識面不一樣,能從事運維工作的業(yè)務面也不一樣。如從事網(wǎng)絡、操作系統(tǒng)專業(yè)的運維人員可以從事桌面運維工作,但從事桌面的運維人員不一定能從事網(wǎng)絡、數(shù)據(jù)庫、存儲維護工作。對涉及信息安全的專業(yè)必須分開運維,如網(wǎng)絡權(quán)限、數(shù)據(jù)庫權(quán)限、操作系統(tǒng)權(quán)限、存儲權(quán)限、業(yè)務管理系統(tǒng)權(quán)限管理這幾個專業(yè)必須獨立,不得互相兼用,但做技術(shù)的可以兼用。IT運維中技術(shù)難度低的工作,工作量較大,人員需求較多,而技術(shù)難度高的工作,工作量相對小,人員需求相對較少。因此以上提到的每個專業(yè)的人員都必須有,但總的工作可以統(tǒng)一協(xié)調(diào)安排。
IT運維管理人員較少,工作量大,因此對人員專業(yè)面、專業(yè)素質(zhì)要求高。對重要專業(yè)要能吃得透,在項目建設中能把握住方案的要害,所組建的設備、系統(tǒng)平臺既要保證運行可靠、高效,還要不浪費,而且便于維護。在運維中要能制定合理可行的運維策略,完全了解所管轄的設備運行和停運的風險。在指揮運維作業(yè)時,能指出不規(guī)范或錯誤的操作,能意識到相應的風險,并能做到不瞎指揮,不違章指揮。
運維人員按專業(yè)設組,每個組至少有一名技術(shù)專家,該專家負責解決該專業(yè)的疑難問題,根據(jù)日常運維業(yè)務量配備相應的技術(shù)人員,在信息安全不互斥的情況下可以兼用。
對以下兩個專業(yè)特別指出:一是網(wǎng)絡專業(yè),該專業(yè)覆蓋面大,專業(yè)性強,影響面大,因此從事網(wǎng)絡專業(yè)人員的數(shù)量有一定要求,并具有5年及以上網(wǎng)絡從業(yè)經(jīng)驗。專業(yè)上具有以下能力:能夠獨立配置該公司所有品牌的網(wǎng)絡設備,能夠隨意組網(wǎng),能夠優(yōu)化網(wǎng)絡設備的安全策略,能夠利用常用工具快速查找、分析、處理故障。二是數(shù)據(jù)庫專業(yè),該專業(yè)風險大,數(shù)據(jù)庫一旦故障可能造成所有業(yè)務管理系統(tǒng)中斷,嚴重會造成數(shù)據(jù)丟失,帶來無法彌補的損失。因此必須取得DBA證書,并具有5年及以上從事數(shù)據(jù)庫開發(fā)或維護工作經(jīng)驗的,才能獨立從事數(shù)據(jù)庫維護工作。
二 IT運維隊伍的管理
一個團隊要有凝聚力,相互協(xié)作,聽指揮。尤其在處理疑難問題和應急情況處理時,更需要團隊的力量。每個運維人員必須有相應的崗位及崗位職責。IT運維的崗位應按以上提到的IT專業(yè)設置。由于工作量的不平衡,在信息安全不互斥的情況下,可以兼任其它崗位,相互滲透。而且便于人才的培養(yǎng)。每臺重要設備確定一個主責任人,特別重要的設備可以增加一個輔助維護人員。
IT技術(shù)更新極快,新技術(shù)學習、專業(yè)相互滲透、常規(guī)培訓必須保證足夠的時間和次數(shù)。每人每周參加一次集體的培訓,相互培訓、相互學習,取長補短。每個專業(yè)的技術(shù)專家每年至少得參加一次一周左右的外送培訓。
每天發(fā)生的運維業(yè)務很多,有常規(guī)的、有臨時的、有應急的。如何使這些業(yè)務不落掉.做到每個運維業(yè)務定人定責,隨時能跟蹤運維進度。因此我們需要利用我們的強項IT技術(shù),建一個問題管理系統(tǒng),對整個業(yè)務執(zhí)行過程進行監(jiān)控。做到定人提報問題或定時發(fā)布常規(guī)任務,定人分配問題。得到任務的人員及時對問題進行處理,如果個人處理不了,可以找相應專業(yè)的技術(shù)專家處理,技術(shù)專家處理不了可以找團隊共同處理,直到問題關(guān)閉。問題的處理過程及措施都在系統(tǒng)中體現(xiàn)。問題處理不及時,或沒達到用戶的要求。將會報警并產(chǎn)生扣分項。
有了以上的問題管理系統(tǒng),就可以監(jiān)控、跟蹤每個運維業(yè)務,提高信息共享、傳輸?shù)男剩瑥亩岣哌\維的工作效率,防止工作失誤。周報、月報及每人的考核、團隊的考核以系統(tǒng)中具體的數(shù)據(jù)為依據(jù)。
應急預案的編制、審核、演練、處理、記錄、分析演練、分析事故處理等整個過程,對這個團隊處理應急情況尤其重要。預案編制一定要可行、責任到位,而且要言簡意賅,容易理解好接收。涉及到的專業(yè)、管理部門都要參與審核并簽字通過。應急預案應定期演練,只有通過演練才能了解這個團隊在處理應急問題時還哪些不足。整個應急預案的演練或事故處理都應該如實按預案要求做記錄,為演練或事故分析提供依據(jù)。演練分析或事故處理分析可以為這個團隊增加事故處理經(jīng)驗,并從中吸取教訓。
三 IT運維策略
運維策略決定了運維的質(zhì)量,直接體現(xiàn)經(jīng)濟價值?梢蕴崆鞍l(fā)現(xiàn)問題、解決問題,把事故扼殺在萌芽狀態(tài)。可以繼續(xù)發(fā)揮舊設備的作用,創(chuàng)造新價值。IT運維策略需要注意幾點。
(1)運維應有側(cè)重點,對管轄的設備劃分重要等級,根據(jù)重要性確定具體設備的運維點、運維措施、運維方法、運維周期。核心機房設備最重要,其次是普通機房設備。
核心機房設備根據(jù)重要性排序:供電系統(tǒng),消防系統(tǒng),溫、濕度控制系統(tǒng),存儲設備,核心交換機,重要服務器,匯聚交換機,普通服務器,邊界設備。塵土、靜電是機房設備最大的敵人,大功率設備的散熱系統(tǒng)最容易產(chǎn)生故障被破壞。散熱系統(tǒng)發(fā)生故障后就直接導致溫度過高,從而毀壞設備,嚴重時會造成火災。因此大功率設備的散熱部位是維護的重點部位。
機房的散熱、防塵、除濕、保濕就顯得更重要。再次是數(shù)據(jù)庫的重要,主要體現(xiàn)在數(shù)據(jù)庫平臺的入侵檢測、安全監(jiān)控,數(shù)據(jù)文件、日志文件的安全備份,異地容災。
(2)重要設備的故障記錄,每臺重要設備的每次故障及故障處理過程都要有記錄。這可以建一個小系統(tǒng),錄入重要設備的臺賬,記錄所關(guān)心的重要參數(shù)。重要設備的維護策略、故障及處理記錄在系統(tǒng)中體現(xiàn),可供查詢,建立動態(tài)臺帳和歷史檔案。當新故障發(fā)生時,可以利用歷時故障及處理過程加以分析,可以幫助新故障的處理。也能為以后維護該類設備提供經(jīng)驗。調(diào)整相應的維護策略
(3)運維方法不當,容易毀壞設備,嚴重時會造成災害,因此必須了解一些注意事項。
運維時重點注意兩方面:一是防靜電。IT設備根據(jù)設備所處的重要等級不同,部分設備的板卡可以熱插拔。熱插拔板卡時一定要注意防止身體上的靜電傳到設備上,避免毀壞設備。因此必須帶上防靜電腕帶并接地。平時操作機房設備時也應該帶上防靜電腕帶,這一點很多人都容易被忽視。二是跳線。有些設備的跳線很多,特別是新?lián)Q板卡,跳線顏色、插頭都是一樣的,容易跳錯。一定注意不能按經(jīng)驗跳線,要看說明書或圖紙。否則容易燒毀板卡或設備。跳完線后,最好是請另一個同事根據(jù)圖紙核實跳線,確認無誤再對設備上電。
(4)每臺重要設備、系統(tǒng)、平臺的常規(guī)維護都應編寫一個可行的、容易理解的、簡單的操作流程,指導每次常規(guī)操作維護。
每個人對自己管轄的重要設備的操作流程要爛熟于心,并能指導協(xié)作的人員一起處理故障。以機房UPS每半年進行一次的充、放電為例,所有開關(guān)的開或關(guān)是有順序的,且開機或關(guān)機的順序是不同的,若關(guān)錯一個都會燒壞UPS主機。另外,還有一組開關(guān)在正常情況是不能開的,但在關(guān)閉某些開關(guān)后又是可以開的,而這個功能又是需要的,若開錯順序或開了不該開的開關(guān)都會損壞設備,嚴重時會造成主機或電池爆炸,釀成火災。因此必須應有一個可行的操作流程做指導。
對數(shù)據(jù)庫的數(shù)據(jù)備份也同樣存在順序的問題或操作漏項問題。如果數(shù)據(jù)庫沒有完全停下,就不能做完全恢復的數(shù)據(jù)備份。另外只有數(shù)據(jù)文件的備份,無日志文件的備份。也不能做完全恢復的數(shù)據(jù)備份。因此如果沒有數(shù)據(jù)備份和數(shù)據(jù)恢復的操作流程指導。數(shù)據(jù)備份和恢復就容易失誤,造成數(shù)據(jù)丟失。
(5)重要設備降級使用,修舊利廢。某些設備到了報廢年限。但由于平時保養(yǎng)措施到位,狀況良好的可以降級使用,提高舊設備的利用率。降級的原則是,主設備降為從設備,核心設備降為匯聚設備,存儲設備降為備份設備,服務器降為實驗平臺或監(jiān)控電腦。多臺舊設備拼裝使用,但這種情況通常在重要程度較低的末端使用。
(6)操作系統(tǒng)不要輕易重裝。如果數(shù)據(jù)備份不全,重裝系統(tǒng)時容易造成用戶數(shù)據(jù)丟失,另外由于重裝操作系統(tǒng)的時間太長,升級打補丁需要很長的時間,同時目前需要安裝的安全軟件和應用軟件也越來越多。這將會影響用戶辦公。許多操作系統(tǒng)問題可以通過修復系統(tǒng)解決,除非中了系統(tǒng)類的病毒,必須重裝系統(tǒng)。
四 IT信息安全
IT信息安全需從建設和運維兩方面控制風險。從運維的角度就降低信息風險應注意幾點事項。
(1)要有必要的網(wǎng)絡安全監(jiān)控措施,比如端點準人、入侵監(jiān)測、網(wǎng)上行為管理、網(wǎng)絡流量監(jiān)控。
(2)掌控核心網(wǎng)絡設備及出口網(wǎng)絡設備的權(quán)限和密碼、數(shù)據(jù)庫及數(shù)據(jù)庫平臺的權(quán)限和密碼、安裝數(shù)據(jù)庫平臺的操作系統(tǒng)權(quán)限和密碼、業(yè)務管理系統(tǒng)的權(quán)限和密碼。以上四類權(quán)限和密碼如果有一項掌控不了,或互相串通,都保證不了業(yè)務系統(tǒng)的數(shù)據(jù)安全。
(3)數(shù)據(jù)庫安全是信息安全的根。數(shù)據(jù)庫安全的監(jiān)控手段很多,比如數(shù)據(jù)庫日志監(jiān)測、非法用戶監(jiān)測、數(shù)據(jù)庫平臺的非法訪問監(jiān)測、防火墻監(jiān)測。
(4)網(wǎng)路設備、出口設備的安全策略設置優(yōu)化直接影響網(wǎng)絡安全。
(5)網(wǎng)絡拓撲結(jié)構(gòu)一定要保密,只能在有限的范圍內(nèi)公開,這是網(wǎng)絡攻擊需要的重要資料。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務領域、行業(yè)應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領域,是眾多中小企業(yè)信息化建設首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文標題:淺談中型企業(yè)IT運維管理
本文網(wǎng)址:http://www.ezxoed.cn/html/consultation/1083965134.html