目前,工業(yè)企業(yè)特別是化工流程行業(yè),DcS得到廣泛應(yīng)用,并在工業(yè)以太網(wǎng)中大量使用服務(wù)器、交換機、網(wǎng)卡、光纖等通信設(shè)備,使DcS的構(gòu)建規(guī)模和復(fù)雜性日益增加,從而對保證系統(tǒng)運行的各方面性能帶來了相當難度。服務(wù)器,是網(wǎng)絡(luò)中的關(guān)鍵設(shè)備,如何恰當?shù)嘏渲,是值得注意的?/P>
從廣義上講,服務(wù)器是指網(wǎng)絡(luò)中能為其他機器提供某些服務(wù)的計算機系統(tǒng);從狹義上講,服務(wù)器是專指某些高性能計算機,它在網(wǎng)絡(luò)操作系統(tǒng)的控制下,可與任何外部設(shè)備相連,并且在穩(wěn)定性、安全性、工作性能等方面要求更高。它是網(wǎng)絡(luò)上一種為客戶端計算機提供各種服務(wù)的高性能計算機。
權(quán)威統(tǒng)計,控制信息的高端工業(yè)級服務(wù)器,作為網(wǎng)絡(luò)上的節(jié)點,存儲和處理著網(wǎng)絡(luò)上80%的數(shù)據(jù)和信息,既為網(wǎng)絡(luò)上的客戶機提供信息共享,又為網(wǎng)絡(luò)用戶提供集中計算、信息顯示及數(shù)據(jù)管理等服務(wù)功能,因此對服務(wù)器依賴程度越來越高。一旦突然停機或意外的網(wǎng)絡(luò)中斷,就會帶來控制系統(tǒng)的嚴重后果。
服務(wù)器安全涉及多方面,包括硬件、系統(tǒng)、網(wǎng)絡(luò)、數(shù)據(jù)、安全運行等。必須采用專用網(wǎng)絡(luò)安全芯片、系統(tǒng)內(nèi)核加固、硬件容錯等先進技術(shù),且必須具備如下的特點:
a)高性能。服務(wù)器的高性能主要體現(xiàn)在高速的運算處理能力、強大的外部數(shù)據(jù)吞吐能力,使服務(wù)器能夠在單位時間內(nèi)處理相當數(shù)量的請求并保證每個服務(wù)的響應(yīng)時間。
b)可靠性。長時間的穩(wěn)定可靠運行,服務(wù)器故障率很低,具有安全保障能力,是普通的PC機所做不到的。
c)可擴展性。服務(wù)器能夠隨著用戶數(shù)量的增加不斷提升性能,具有可管理等方面的突出優(yōu)勢?梢,服務(wù)器必須可靠高效,具有承擔保障服務(wù)質(zhì)量能力。
1、系統(tǒng)組成及網(wǎng)絡(luò)架構(gòu)
某煉油項目8 Mt/a常減壓裝置,其DCS是采用德國西門子公司的PCS7系統(tǒng)實現(xiàn)的。它采用先進的分布式客戶機/111王務(wù)器架構(gòu),并基于該公司標準的Simatic軟件和硬件,支持總線冗余(包括系統(tǒng)總線和現(xiàn)場總線)和組件冗余(包括控制器、Profibus等接口模塊),支持在線組態(tài)修改和故障診斷,是新一代全集成自動化控制系統(tǒng)。
此生產(chǎn)裝置DCS的上位機采用了冗余的操作站服務(wù)器和客戶端的結(jié)構(gòu),即配置了1對互為冗余的547B型工業(yè)級服務(wù)器,1臺工程師站,1臺歸檔服務(wù)器,5臺客戶端操作站,5對冗余的AS控制器和若干I/o卡件,整套系統(tǒng)實際提供I/O點數(shù)1 430點。DCS所配置的工程師站,是用于對DCS進行組態(tài)調(diào)試和系統(tǒng)下裝,并以實時數(shù)據(jù)庫的形式來處理信息;DCS正常投運后,生產(chǎn)操作人員可以通過冗余的服務(wù)器從操作員站對生產(chǎn)工藝過程進行操作和監(jiān)視,并監(jiān)視服務(wù)器和控制器之間的數(shù)據(jù)通道的通信質(zhì)量。
該工業(yè)級服務(wù)器采用雙機熱備和負載均衡技術(shù)。同一時間內(nèi)當其中運行著的一臺服務(wù)器出現(xiàn)故障無法啟動時,另一臺備份服務(wù)器會迅速地自動啟動并運行,從而保證整個網(wǎng)絡(luò)系統(tǒng)的正常運行。整個控制系統(tǒng)可分為三個層次:各操作員站通過工業(yè)級交換機與工程師站和服務(wù)器構(gòu)成上層標準的工業(yè)以太網(wǎng);工程師站和服務(wù)器又通過Scalance系列的模塊化工業(yè)級交換機與各分散的AS控制器連接成環(huán)形的工業(yè)以太網(wǎng),且上述兩層都是1Gbit/s速率的工業(yè)以太網(wǎng)絡(luò);而底層的各AS控制器與現(xiàn)場的I/O(輸入/輸出)卡站(ET200M)相連接,并采用冗余的Profibus—DP現(xiàn)場總線來進行下行通信,通信速率為12 Mbit/s。
該DCS的客戶機/服務(wù)器(Client/Server)即C/S結(jié)構(gòu)特點:客戶機不斷向服務(wù)器發(fā)出服務(wù)請求,服務(wù)器根據(jù)服務(wù)請求類別來完成相應(yīng)的作業(yè)并將處理結(jié)果按輕重緩急回送客戶端。具體講就是該架構(gòu)是把DCS中應(yīng)用程序中的執(zhí)行內(nèi)容劃分成兩部分:客戶機應(yīng)用程序和服務(wù)器數(shù)據(jù)庫程序。當客戶端需要對AS控制站中的數(shù)據(jù)進行任何操作時,客戶程序就自動地尋找服務(wù)器程序,并向其發(fā)出服務(wù)請求,而服務(wù)器程序則根據(jù)預(yù)定的規(guī)則做出應(yīng)答,相應(yīng)地從存儲空間中取得數(shù)據(jù),運算并送回結(jié)果。這樣,現(xiàn)場控制站CPU運行數(shù)據(jù)的負荷比較輕,而與數(shù)據(jù)存取有關(guān)的多數(shù)界面操作部分,則由服務(wù)器中數(shù)據(jù)庫管理系統(tǒng)承擔。其優(yōu)點:充分發(fā)揮工業(yè)以太網(wǎng)中客戶端、服務(wù)器和現(xiàn)場控制站自身獨特的處理優(yōu)勢;極大地減少主干網(wǎng)絡(luò)上的信息流量,避免信道擁擠和堵塞;有效地發(fā)揮了工業(yè)服務(wù)器軟硬件性能可靠、執(zhí)行效率高,數(shù)據(jù)庫管理集中、安全、方便的長處。
2、服務(wù)器的故障現(xiàn)象
該蒸餾裝置于2009年10月初開始試生產(chǎn)。DCS剛投用,于2009年10月9日凌晨,中央控制室有4個操作員站的工藝畫面均讀不到生產(chǎn)數(shù)據(jù),無法進行生產(chǎn)工藝指揮和操作。計算機維護人員迅速將1號服務(wù)器斷電再重新啟動,逐步恢復(fù)了操作站的操作功能。在處理過程中,現(xiàn)場操作人員臨時啟用了現(xiàn)場操作員站進行操作,生產(chǎn)未造成影響。10日凌晨,同樣的故障再次出現(xiàn),因處理及時,未對生產(chǎn)造成影響。11日,工程師全面檢查DCS,拷貝出工業(yè)服務(wù)器上方顯示器中的診斷信息,內(nèi)容如下:
a)窗口上的部分報警信息顯示了1號服務(wù)器與所有AS控制站CPU的通信發(fā)生中斷。
b)窗口上報警信息顯示了l號服務(wù)器與2號服務(wù)器的冗余功能處于中斷狀態(tài)。
c)從Windows的事件記錄器中發(fā)現(xiàn),1號服務(wù)器的網(wǎng)卡CPl613在同一時間內(nèi)出現(xiàn)了故障報警信息。
3、故障問題分析
綜合系統(tǒng)和網(wǎng)絡(luò)設(shè)置,并參照報警信息分析如下:
a)出現(xiàn)問題與現(xiàn)象是與OS操作站連接的網(wǎng)絡(luò)服務(wù)器故障,原因是服務(wù)器內(nèi)部網(wǎng)卡CPl613的故障,造成操作站與服務(wù)器連接失敗。而網(wǎng)卡CPl613的功能是負責建立1號服務(wù)器與所有AS控制站中CPU的通信聯(lián)系,而生產(chǎn)的過程就是所有的操作站要時刻與1號服務(wù)器保持通信,交換信息。當網(wǎng)卡CPl613出現(xiàn)故障時,1號服務(wù)器與所有AS控制站中CPU的通信發(fā)生了中斷,數(shù)據(jù)無法上傳,其結(jié)果與1號服務(wù)器相連接的操作站也就無法讀取動態(tài)的數(shù)據(jù),更無法指導和進行生產(chǎn)操作。
b)工業(yè)服務(wù)器與AS控制站發(fā)生通信故障一般是由硬件問題而引起,對正常運行的計算機系統(tǒng)而言,出現(xiàn)這樣的現(xiàn)象是非常特殊的。經(jīng)過檢查發(fā)現(xiàn)所有操作站均連接在1號服務(wù)器上,而不是各為一半分擔在2臺互為冗余的1號和2號服務(wù)器上,組態(tài)上也未做合理的物理分配,且在冗余服務(wù)器系統(tǒng)的配置表中,冗余切換的選項功能也未使用。冗余服務(wù)器應(yīng)當具備:當冗余1號和2號服務(wù)器與所有控制站之間發(fā)生通信故障時,所有操作站應(yīng)當自動切換到另一個同步運行的服務(wù)器上,而發(fā)生故障時,計算機DCS實際上并未發(fā)生切換動作。
c)經(jīng)過現(xiàn)場分析查證,是因為在計算機系統(tǒng)調(diào)試過程中,組態(tài)人員需要經(jīng)常下裝和更新AS控制站CPU中的內(nèi)容,這樣經(jīng)常造成服務(wù)器與AS控制站CPU通信的中斷,從而使每次組態(tài)工作都產(chǎn)生OS操作站與1號和2號服務(wù)器之問的相互切換。組態(tài)人員為了避免頻繁切換的麻煩,當時取消了對該項功能的設(shè)置;而投用試生產(chǎn)時因遺忘與疏忽,使控制室所有4臺OS操作站即客戶機沒有與服務(wù)器建立有效的冗余連接功能,另外服務(wù)器的負荷分配也存在問題,所以當1號服務(wù)器與所有AS控制站CPU的通信發(fā)生中斷時,冗余功能失效,無法自動切換到2號服務(wù)器上,因而生產(chǎn)操作人員也就無法讀取數(shù)據(jù)和進行操作了。
d)當現(xiàn)場維護人員強制停止1號服務(wù)器的運行后,就相當于強制將所有的OS操作站切換到2號服務(wù)器上,而2號服務(wù)器的工作是正常同步的,所以所有oS操作站可立即恢復(fù)正常操作,但是由于組態(tài)的遺漏,實際服務(wù)器運行只能完成人工干預(yù)操作。
4、故障解決方法
a)更換了1號服務(wù)器的CPl613網(wǎng)卡,對服務(wù)器冗余切換功能選項重新進行組態(tài),并經(jīng)過兩天的運行觀察,沒有發(fā)生類似故障。
b)為了提高系統(tǒng)的可靠性,對1號和2號服務(wù)器的冗余設(shè)置進行了優(yōu)化,如果再出現(xiàn)類似網(wǎng)卡故障的情況時,這兩臺服務(wù)器之間會自動進行切換。
c)為了分散故障危險性,維護人員將這4臺操作員站的默認連接進行了對半分配。即其中2臺以缺省方式連接至1號服務(wù)器上,另外2臺以缺省方式連接至2號服務(wù)器上。這樣,如果l號服務(wù)器發(fā)生故障,不論這兩臺服務(wù)器是否發(fā)生切換,至少能保證有2臺操作站可以操作。
d)在現(xiàn)場,DCS工程師對計算機系統(tǒng)的設(shè)置進行了全面的檢查,包括服務(wù)器的冗余選項、時間同步設(shè)置、多項目結(jié)構(gòu)等,未發(fā)現(xiàn)其他配置上的遺漏。之后,DCS工程師與工藝技術(shù)人員共同做了實驗,模擬出故障時的狀態(tài),驗證了上述推斷的正確。
e)在優(yōu)化了系統(tǒng)的設(shè)置后,再次進行了生產(chǎn)在線試驗。這次,當1號服務(wù)器故障時,操作站能自動切換到2號服務(wù)器上,未發(fā)生影響操作的情況。
5、故障處理的經(jīng)驗啟示
a)要養(yǎng)成良好的程序化軟硬件組態(tài)工作習慣,以免工作忙亂時出現(xiàn)差錯,特別是重大失誤! ∧壳,工業(yè)企業(yè)特別是化工流程行業(yè),DCS得到廣泛應(yīng)用,并在工業(yè)以太網(wǎng)中大量使用服務(wù)器、交換機、網(wǎng)卡、光纖等通信設(shè)備,使DCS的構(gòu)建規(guī)模和復(fù)雜性日益增加,從而對保證系統(tǒng)運行的各方面性能帶來了相當難度。服務(wù)器,是網(wǎng)絡(luò)中的關(guān)鍵設(shè)備,如何恰當?shù)嘏渲,是值得注意的?/P>
從廣義上講,服務(wù)器是指網(wǎng)絡(luò)中能為其他機器提供某些服務(wù)的計算機系統(tǒng);從狹義上講,服務(wù)器是專指某些高性能計算機,它在網(wǎng)絡(luò)操作系統(tǒng)的控制下,可與任何外部設(shè)備相連,并且在穩(wěn)定性、安全性、工作性能等方面要求更高。它是網(wǎng)絡(luò)上一種為客戶端計算機提供各種服務(wù)的高性能計算機。
權(quán)威統(tǒng)計,控制信息的高端工業(yè)級服務(wù)器,作為網(wǎng)絡(luò)上的節(jié)點,存儲和處理著網(wǎng)絡(luò)上80%的數(shù)據(jù)和信息,既為網(wǎng)絡(luò)上的客戶機提供信息共享,又為網(wǎng)絡(luò)用戶提供集中計算、信息顯示及數(shù)據(jù)管理等服務(wù)功能,因此對服務(wù)器依賴程度越來越高。一旦突然停機或意外的網(wǎng)絡(luò)中斷,就會帶來控制系統(tǒng)的嚴重后果。
服務(wù)器安全涉及多方面,包括硬件、系統(tǒng)、網(wǎng)絡(luò)、數(shù)據(jù)、安全運行等。必須采用專用網(wǎng)絡(luò)安全芯片、系統(tǒng)內(nèi)核加固、硬件容錯等先進技術(shù),且必須具備如下的特點:
a)高性能。服務(wù)器的高性能主要體現(xiàn)在高速的運算處理能力、強大的外部數(shù)據(jù)吞吐能力,使服務(wù)器能夠在單位時間內(nèi)處理相當數(shù)量的請求并保證每個服務(wù)的響應(yīng)時間。
b)可靠性。長時間的穩(wěn)定可靠運行,服務(wù)器故障率很低,具有安全保障能力,是普通的PC機所做不到的。
c)可擴展性。服務(wù)器能夠隨著用戶數(shù)量的增加不斷提升性能,具有可管理等方面的突出優(yōu)勢。可見,服務(wù)器必須可靠高效,具有承擔保障服務(wù)質(zhì)量能力。
1、系統(tǒng)組成及網(wǎng)絡(luò)架構(gòu)
某煉油項目8 Mt/a常減壓裝置,其DCS是采用德國西門子公司的PCS7系統(tǒng)實現(xiàn)的。它采用先進的分布式客戶機/服務(wù)器架構(gòu),并基于該公司標準的Simatic軟件和硬件,支持總線冗余(包括系統(tǒng)總線和現(xiàn)場總線)和組件冗余(包括控制器、Profibus等接口模塊),支持在線組態(tài)修改和故障診斷,是新一代全集成自動化控制系統(tǒng)。
此生產(chǎn)裝置DCS的上位機采用了冗余的操作站服務(wù)器和客戶端的結(jié)構(gòu),即配置了1對互為冗余的547B型工業(yè)級服務(wù)器,1臺工程師站,1臺歸檔服務(wù)器,5臺客戶端操作站,5對冗余的AS控制器和若干I/O卡件,整套系統(tǒng)實際提供I/O點數(shù)1430點。DCS所配置的工程師站,是用于對DCS進行組態(tài)調(diào)試和系統(tǒng)下裝,并以實時數(shù)據(jù)庫的形式來處理信息;DCS正常投運后,生產(chǎn)操作人員可以通過冗余的服務(wù)器從操作員站對生產(chǎn)工藝過程進行操作和監(jiān)視,并監(jiān)視服務(wù)器和控制器之間的數(shù)據(jù)通道的通信質(zhì)量。
該工業(yè)級服務(wù)器采用雙機熱備和負載均衡技術(shù)。同一時間內(nèi)當其中運行著的一臺服務(wù)器出現(xiàn)故障無法啟動時,另一臺備份服務(wù)器會迅速地自動啟動并運行,從而保證整個網(wǎng)絡(luò)系統(tǒng)的正常運行。整個控制系統(tǒng)可分為三個層次:各操作員站通過工業(yè)級交換機與工程師站和服務(wù)器構(gòu)成上層標準的工業(yè)以太網(wǎng);工程師站和服務(wù)器又通過Scalance系列的模塊化工業(yè)級交換機與各分散的AS控制器連接成環(huán)形的工業(yè)以太網(wǎng),且上述兩層都是1Gbit/s速率的工業(yè)以太網(wǎng)絡(luò);而底層的各AS控制器與現(xiàn)場的I/O(輸入/輸出)卡站(ET200M)相連接,并采用冗余的Profibus-DP現(xiàn)場總線來進行下行通信,通信速率為12 Mbit/s。
該DCS的客戶機/服務(wù)器(Client/Server)即C/S結(jié)構(gòu)特點:客戶機不斷向服務(wù)器發(fā)出服務(wù)請求,服務(wù)器根據(jù)服務(wù)請求類別來完成相應(yīng)的作業(yè)并將處理結(jié)果按輕重緩急回送客戶端。具體講就是該架構(gòu)是把DCS中應(yīng)用程序中的執(zhí)行內(nèi)容劃分成兩部分:客戶機應(yīng)用程序和服務(wù)器數(shù)據(jù)庫程序。當客戶端需要對AS控制站中的數(shù)據(jù)進行任何操作時,客戶程序就自動地尋找服務(wù)器程序,并向其發(fā)出服務(wù)請求,而服務(wù)器程序則根據(jù)預(yù)定的規(guī)則做出應(yīng)答,相應(yīng)地從存儲空間中取得數(shù)據(jù),運算并送回結(jié)果。這樣,現(xiàn)場控制站CPU運行數(shù)據(jù)的負荷比較輕,而與數(shù)據(jù)存取有關(guān)的多數(shù)界面操作部分,則由服務(wù)器中數(shù)據(jù)庫管理系統(tǒng)承擔。其優(yōu)點:充分發(fā)揮工業(yè)以太網(wǎng)中客戶端、服務(wù)器和現(xiàn)場控制站自身獨特的處理優(yōu)勢;極大地減少主干網(wǎng)絡(luò)上的信息流量,避免信道擁擠和堵塞;有效地發(fā)揮了工業(yè)服務(wù)器軟硬件性能可靠、執(zhí)行效率高,數(shù)據(jù)庫管理集中、安全、方便的長處。
2、服務(wù)器的故障現(xiàn)象
該蒸餾裝置于2009年10月初開始試生產(chǎn)。DCS剛投用,于2009年10月9日凌晨,中央控制室有4個操作員站的工藝畫面均讀不到生產(chǎn)數(shù)據(jù),無法進行生產(chǎn)工藝指揮和操作。計算機維護人員迅速將1號服務(wù)器斷電再重新啟動,逐步恢復(fù)了操作站的操作功能。在處理過程中,現(xiàn)場操作人員臨時啟用了現(xiàn)場操作員站進行操作,生產(chǎn)未造成影響。10日凌晨,同樣的故障再次出現(xiàn),因處理及時,未對生產(chǎn)造成影響。11日,工程師全面檢查DCS,拷貝出工業(yè)服務(wù)器上方顯示器中的診斷信息,內(nèi)容如下:
a)窗口上的部分報警信息顯示了1號服務(wù)器與所有AS控制站CPU的通信發(fā)生中斷。
b)窗口上報警信息顯示了1號服務(wù)器與2號服務(wù)器的冗余功能處于中斷狀態(tài)。
c)從Windows的事件記錄器中發(fā)現(xiàn),1號服務(wù)器的網(wǎng)卡CPl613在同一時間內(nèi)出現(xiàn)了故障報警信息。
3、故障問題分析
綜合系統(tǒng)和網(wǎng)絡(luò)設(shè)置,并參照報警信息分析如下:
a)出現(xiàn)問題與現(xiàn)象是與OS操作站連接的網(wǎng)絡(luò)服務(wù)器故障,原因是服務(wù)器內(nèi)部網(wǎng)卡CPl613的故障,造成操作站與服務(wù)器連接失敗。而網(wǎng)卡CPl613的功能是負責建立1號服務(wù)器與所有AS控制站中CPU的通信聯(lián)系,而生產(chǎn)的過程就是所有的操作站要時刻與1號服務(wù)器保持通信,交換信息。當網(wǎng)卡CPl613出現(xiàn)故障時,1號服務(wù)器與所有AS控制站中CPU的通信發(fā)生了中斷,數(shù)據(jù)無法上傳,其結(jié)果與1號服務(wù)器相連接的操作站也就無法讀取動態(tài)的數(shù)據(jù),更無法指導和進行生產(chǎn)操作。
b)工業(yè)服務(wù)器與AS控制站發(fā)生通信故障一般是由硬件問題而引起,對正常運行的計算機系統(tǒng)而言,出現(xiàn)這樣的現(xiàn)象是非常特殊的。經(jīng)過檢查發(fā)現(xiàn)所有操作站均連接在1號服務(wù)器上,而不是各為一半分擔在2臺互為冗余的1號和2號服務(wù)器上,組態(tài)上也未做合理的物理分配,且在冗余服務(wù)器系統(tǒng)的配置表中,冗余切換的選項功能也未使用。冗余服務(wù)器應(yīng)當具備:當冗余1號和2號服務(wù)器與所有控制站之間發(fā)生通信故障時,所有操作站應(yīng)當自動切換到另一個同步運行的服務(wù)器上,而發(fā)生故障時,計算機DCS實際上并未發(fā)生切換動作。
c)經(jīng)過現(xiàn)場分析查證,是因為在計算機系統(tǒng)調(diào)試過程中,組態(tài)人員需要經(jīng)常下裝和更新AS控制站CPU中的內(nèi)容,這樣經(jīng)常造成服務(wù)器與AS控制站CPU通信的中斷,從而使每次組態(tài)工作都產(chǎn)生OS操作站與1號和2號服務(wù)器之問的相互切換。組態(tài)人員為了避免頻繁切換的麻煩,當時取消了對該項功能的設(shè)置;而投用試生產(chǎn)時因遺忘與疏忽,使控制室所有4臺OS操作站即客戶機沒有與服務(wù)器建立有效的冗余連接功能,另外服務(wù)器的負荷分配也存在問題,所以當1號服務(wù)器與所有AS控制站CPU的通信發(fā)生中斷時,冗余功能失效,無法自動切換到2號服務(wù)器上,因而生產(chǎn)操作人員也就無法讀取數(shù)據(jù)和進行操作了。
d)當現(xiàn)場維護人員強制停止1號服務(wù)器的運行后,就相當于強制將所有的OS操作站切換到2號服務(wù)器上,而2號服務(wù)器的工作是正常同步的,所以所有OS操作站可立即恢復(fù)正常操作,但是由于組態(tài)的遺漏,實際服務(wù)器運行只能完成人工干預(yù)操作。
4、故障解決方法
a)更換了1號服務(wù)器的CPl613網(wǎng)卡,對服務(wù)器冗余切換功能選項重新進行組態(tài),并經(jīng)過兩天的運行觀察,沒有發(fā)生類似故障。
b)為了提高系統(tǒng)的可靠性,對1號和2號服務(wù)器的冗余設(shè)置進行了優(yōu)化,如果再出現(xiàn)類似網(wǎng)卡故障的情況時,這兩臺服務(wù)器之間會自動進行切換。
c)為了分散故障危險性,維護人員將這4臺操作員站的默認連接進行了對半分配。即其中2臺以缺省方式連接至1號服務(wù)器上,另外2臺以缺省方式連接至2號服務(wù)器上。這樣,如果l號服務(wù)器發(fā)生故障,不論這兩臺服務(wù)器是否發(fā)生切換,至少能保證有2臺操作站可以操作。
d)在現(xiàn)場,DCS工程師對計算機系統(tǒng)的設(shè)置進行了全面的檢查,包括服務(wù)器的冗余選項、時間同步設(shè)置、多項目結(jié)構(gòu)等,未發(fā)現(xiàn)其他配置上的遺漏。之后,DCS工程師與工藝技術(shù)人員共同做了實驗,模擬出故障時的狀態(tài),驗證了上述推斷的正確。
e)在優(yōu)化了系統(tǒng)的設(shè)置后,再次進行了生產(chǎn)在線試驗。這次,當1號服務(wù)器故障時,操作站能自動切換到2號服務(wù)器上,未發(fā)生影響操作的情況。
5、故障處理的經(jīng)驗啟示
a)要養(yǎng)成良好的程序化軟硬件組態(tài)工作習慣,以免工作忙亂時出現(xiàn)差錯,特別是重大失誤。
b)要重視系統(tǒng)的冗余架構(gòu),對于CPU卡、服務(wù)器、交換機、網(wǎng)卡、網(wǎng)線等冗余設(shè)備的參數(shù)設(shè)置一定要優(yōu)化,包括在今后系統(tǒng)調(diào)試、運行、維護過程中,要保證參數(shù)設(shè)置統(tǒng)一,克服隨意性。
c)DCS制造工廠的驗收測試內(nèi)容還要細致和深入,測試方案不能粗放,驗收測試的記錄要詳實,報告中要能查閱到當時的測試細節(jié),包括測試方案、內(nèi)容和步驟,同時要完善驗收測試表格及記錄。
d)工廠驗收的測試要按技術(shù)規(guī)范對所有電子部件卡板進行考機試驗,增加抽查比例,盡量將這些分離的控制單元連接起來,并在大系統(tǒng)運行下考證大量交換數(shù)據(jù)負荷的運行對系統(tǒng)架構(gòu)的影響,特別是通信部件的功能效果情況,這樣便于及早發(fā)現(xiàn)問題。
e)做好系統(tǒng)的安全保障。建議將原來的Administrator用戶名改為其他,并且設(shè)置復(fù)雜密碼,經(jīng)常檢查計算機上是否有新的用戶名,一旦發(fā)現(xiàn)莫名其妙多出來的用戶,及時刪除并更改管理員密碼。另外,服務(wù)器上只安裝必須的軟件,盡可能減少其他軟件的安裝。
f)做好DCS服務(wù)器備份策略。由于DCS服務(wù)器擔負著系統(tǒng)的重要功能,如果服務(wù)器系統(tǒng)一旦癱瘓,工藝人員就不能對裝置進行監(jiān)控和操作,更重要的是程序與系統(tǒng)組態(tài)文件等重要文件和數(shù)據(jù)將丟失。即使按常規(guī)重裝的方法恢復(fù)系統(tǒng),不但步驟復(fù)雜,而且還會出錯、將前功盡棄;且再次重裝,不但花費大量時間,而且影響整個裝置的生產(chǎn)。因而對系統(tǒng)做出有效的備份和快速恢復(fù)措施是非常重要的。
g)重視服務(wù)器存儲系統(tǒng)。硬盤作為服務(wù)器數(shù)據(jù)存儲的主要設(shè)備,是一種技術(shù)含量高、制造精密的設(shè)備,服務(wù)器硬盤的發(fā)展目前已達到10 kr/s或15 kr/s,在運行當中,一點細小的故障都有可能造成硬盤物理損壞,所以工業(yè)使用的服務(wù)器必須都采用Raid磁盤陣列存儲,以加強服務(wù)器硬盤的容錯功能。
h)定期進行備份。對于一些非常重要的數(shù)據(jù),要做好相對完善的備份方案,按計算機公司推薦的標準進行操作,切勿盲目操作。如果發(fā)現(xiàn)服務(wù)器數(shù)據(jù)丟失,千萬不要再盲目操作,造成數(shù)據(jù)恢復(fù)機率的降低。應(yīng)該通過正規(guī)渠道來尋找數(shù)據(jù)恢復(fù)的技術(shù)支持,聽取專業(yè)建議或請專業(yè)技術(shù)人員檢查,同時不要再往丟失數(shù)據(jù)的分區(qū)或硬盤里寫入數(shù)據(jù),以減少二次破壞。
b)要重視系統(tǒng)的冗余架構(gòu),對于CPU卡、服務(wù)器、交換機、網(wǎng)卡、網(wǎng)線等冗余設(shè)備的參數(shù)設(shè)置一定要優(yōu)化,包括在今后系統(tǒng)調(diào)試、運行、維護過程中,要保證參數(shù)設(shè)置統(tǒng)一,克服隨意性。
c)DCS制造工廠的驗收測試內(nèi)容還要細致和深入,測試方案不能粗放,驗收測試的記錄要詳實,報告中要能查閱到當時的測試細節(jié),包括測試方案、內(nèi)容和步驟,同時要完善驗收測試表格及記錄。
d)工廠驗收的測試要按技術(shù)規(guī)范對所有電子部件卡板進行考機試驗,增加抽查比例,盡量將這些分離的控制單元連接起來,并在大系統(tǒng)運行下考證大量交換數(shù)據(jù)負荷的運行對系統(tǒng)架構(gòu)的影響,特別是通信部件的功能效果情況,這樣便于及早發(fā)現(xiàn)問題。
e)做好系統(tǒng)的安全保障。建議將原來的Administrator用戶名改為其他,并且設(shè)置復(fù)雜密碼,經(jīng)常檢查計算機上是否有新的用戶名,一旦發(fā)現(xiàn)莫名其妙多出來的用戶,及時刪除并更改管理員密碼。另外,服務(wù)器上只安裝必須的軟件,盡可能減少其他軟件的安裝。
f)做好DCS服務(wù)器備份策略。由于DCS服務(wù)器擔負著系統(tǒng)的重要功能,如果服務(wù)器系統(tǒng)一旦癱瘓,工藝人員就不能對裝置進行監(jiān)控和操作,更重要的是程序與系統(tǒng)組態(tài)文件等重要文件和數(shù)據(jù)將丟失。即使按常規(guī)重裝的方法恢復(fù)系統(tǒng),不但步驟復(fù)雜,而且還會出錯、將前功盡棄;且再次重裝,不但花費大量時間,而且影響整個裝置的生產(chǎn)。因而對系統(tǒng)做出有效的備份和快速恢復(fù)措施是非常重要的。
g)重視服務(wù)器存儲系統(tǒng)。硬盤作為服務(wù)器數(shù)據(jù)存儲的主要設(shè)備,是一種技術(shù)含量高、制造精密的設(shè)備,服務(wù)器硬盤的發(fā)展目前已達到10 la'/s或15 kr/s,在運行當中,一點細小的故障都有可能造成硬盤物理損壞,所以工業(yè)使用的服務(wù)器必須都采用Raid磁盤陣列存儲,以加強服務(wù)器硬盤的容錯功能。
h)定期進行備份。對于一些非常重要的數(shù)據(jù),要做好相對完善的備份方案,按計算機公司推薦的標準進行操作,切勿盲目操作。如果發(fā)現(xiàn)服務(wù)器數(shù)據(jù)丟失,千萬不要再盲目操作,造成數(shù)據(jù)恢復(fù)機率的降低。應(yīng)該通過正規(guī)渠道來尋找數(shù)據(jù)恢復(fù)的技術(shù)支持,聽取專業(yè)建議或請專業(yè)技術(shù)人員檢查,同時不要再往丟失數(shù)據(jù)的分區(qū)或硬盤里寫入數(shù)據(jù),以減少二次破壞。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://www.ezxoed.cn/
本文網(wǎng)址:http://www.ezxoed.cn/html/support/1112154550.html