如何減少DCS系統故障

如何減少DCS系統故障

減少DCS系統故障的實例與措施

1、分散控制系統(dcs)概述

DCS具有通用性強、系統組態靈活、控制功能完善、數據處理方便、顯示操作集中、人機界面友好、安裝簡單規範化、調試方便、運行安全可靠的特點,在國內外電力、石油、化工、冶金、輕工等生產領域特別是大型發電機組有著較為廣泛的應用。目前國內應用較多的的品牌主要有:

(1)國外品牌:霍尼韋爾、ABB、西屋、西門子、橫河等;

(2)國內:國電智深、和利時、新華、浙大中控等。

DCS的安全、可靠與否對於保證機組的安全、穩定運行至關重要,若發生問題將有可能造成機組設備的嚴重損壞甚至人身安全事故。所以非常有必要分析DCS運行中出現的各類問題,採取措施提高火電廠DCS的安全可靠性。

2、DCS在生產過程中的故障情況

每個廠家的DCS都有其各自特點,因此其故障的現象分析和處理不盡相同,但歸納起來由DCS引起機組二類及以上障礙可劃分為三大類:

(1)系統本身問題,包括設計安裝缺陷、軟硬件故障等。

(2)人為因素造成的故障,包括人員造成的誤操作,管理制度不完善及執行環節落實。

(3)系統外部環境問題造成DCS故障。如環境溫度過高、溼度過高或過低、粉塵、振動以及小動物等因素造成異常。

2.1

DCS本身問題故障實例

此類故障在生產過程中較為常見,主要包括系統設計安裝缺陷、控制器(DPU或CPU)死機、脫網等故障,操作員站黑屏,網絡通訊堵塞,軟件存在缺陷,系統配置較低,與其他系統及設備接口存在問題等。

2.1.1 電源及接地問題

(1) 某電廠DCS電源系統採用的是ABB公司Symphony III型電源,但基建時仍按照II型電源的接地方式進行機櫃安裝,與III型電源接地技術要求差異很大。機組投產以來發生多次DCS模件故障、信號跳變、硬件燒壞的情況,疑與接地系統有關。同樣,某電廠在基建期間DCS接地網設計製作安裝存在問題,DCS系統運行後所有熱電阻熱電偶溫度測點出現週期波動。

(2) 某廠因電源連線鬆動而導致汽機側控制系統失效。

經驗教訓:DCS沒有良好的接地系統和合理的電纜屏蔽,不僅系統干擾大,控制系統易誤發信號,還易使模件損壞。可見,ups電源、控制系統接地等存在問題將給電廠投產後DCS的安全穩定運行留下極大隱患。因此,DCS系統電源設計一定要有可靠的後備手段,負荷配置要合理並有一定餘量;DCS的系統接地必須嚴格遵守制造廠技術要求(如製造廠無特殊說明應按照DLT774規定執行),所有進入DSC系統控制信號的電纜必須採用質量合格的屏蔽電纜,並要同動力電纜分開敷設且有良好的單端接地。

2.1.2 系統配置問題

(1) 浙江某電廠DCS(T-ME/XP系統)頻繁故障和死機造成機組停運事故。7、8機組(2*330MW),從1997年2月試生產至5月,兩臺機組共發生22次DCS系統故障和死機,造成機組不正常跳閘8次。之後又多次發生操作畫面故障(8號機組有兩次發生全部6臺操作站“黑屏”),嚴重威脅機組安全。經分析認為其DCS系統存在以下幾個方面的問題:

① DCS工程設計在性能計算軟件、開關量冗餘配置上存在問題。

② 硬件配置不匹配(其中包括T-ME和T-XP兩種系統的匹配和通信問題)。

③ 個別硬件設計不完善。

④ 進一步分析,關鍵的CS275(下層T-ME)通訊總線負荷率過高出現“瓶頸”問題現象。而歐洲T-ME/XP系統用戶在配置合理的前提下,T-ME/XP系統使用情況基本良好。

(2) 某電廠在200MW機組的熱控系統自動化改造上使用的DCS,由於系統配置的負荷率計算不準且為了減少投資,技術指標均接近允許極限,加之該系統有運行時中間虛擬I/O點量大的特點,所以在改造後期調試時發現個別控制器的負荷率竟超過了90%,個別軟手操操作響應竟接近1min,根本無法使用,後經過大幅度調整(系統重新增加配置),才解決了這個問題。

(3) 東北某600MW機組,由於招標技術規範對I/O通道隔離性質表述不到位,因此DCS廠家做的配置很低,結果在調試時燒損了大量的I/O板,後來改變了隔離方式和更改換了硬件,電廠又花費了許多資金,也抵消了當初的招標價格優勢。此外,電纜的質量與屏蔽問題也必須高度重視,重要信號及控制應使用計算機專用屏蔽電纜,許多改造工程正是由於電纜的問題導致電纜不得不重新敷設,影響了工期。

(4) 某電廠300MW機組新華XDPS-400系統工程師站頻繁死機,經檢查發現其運行程序較多:多個虛擬DPU、歷史數據記錄、性能計算、報表等。把歷史數據分配至別的人機接口站問題解決。

2.1.3 控制器(DPU或CPU)故障

(1) 某電廠300MW #2機組HIACS-5000CM控制系統FSSS1的CPU故障,且未將控制權交出,從CPU未能切換為主控,導致該部分系統控制設備無法操作(設備保持原狀態工作)。在對主CPU執行在線更換步序至停電時,從CUP切換主控CPU,系統設備受控,更換原主控CPU後系統一切正常。

(2) ABB早期某時間生產的SYMPHONY 同一PCU機櫃內不同控制器之間通訊出現數據不一致的情況,通過升級固件這一問題得到解決;

(3) 新華控制XDPS系統早期某批次DPU曾多次出現離線、死機現象,經檢查為DPU卡件個別電容問題,經升級更換卡件問題解決。

由於目前DCS的控制器均為冗餘配置,大大減少了主控制器“異常”引發機組跳閘的次數。但是,一旦一對冗餘的控制器同時死機,將直接威脅到安全生產,對於此類情況一定要採取措施切實避免。

2.1.4 DCS網絡故障

(1) 某電廠西屋WDPF控制系統,由於多次改造系統增加了大量測點和自動控制迴路,系統負荷率高達70%以上,造成網絡通訊堵塞,多次出現操作員進行操作、切換畫面時間過長、畫面黑屏等問題。後經升級改造為OVATION系統,系統正常。

(2) 某電廠600MW機組負荷508MW,工況穩定,汽輪機所有調門突然大幅擺動,經檢查故障原因是機組運行時M5 控制器的轉速信號短時間內由3000r/min 變成了0r/min,又馬上恢復,調門擺動的原因也是M3和M5通訊時出現掉數據現象,導致Trip Bias(跳閘偏置)信號在機組運行時由0變為1,引起所有調門大幅擺動。對該問題採取措施:對PCU 控制總線的通訊信號進行多重化處理,對通訊信號增加一定延時,躲過通訊信號瞬間跳變;對重要的通訊信號採用了通訊冗餘。

2.1.5 DCS軟件問題

(1) 某電廠300MW供熱機組DCS調試過程中未對測點品質參數進行修改,致使其模擬量測點只有在斷線的情況下才認為是壞品質測點,未充分起到品質校驗功能。後對所有測點品質參數進行了設置,提高了設備運行的可靠性。

(2) HIACS-5000CM控制系統畫面組態時,雙擊grab組態工具後,彈出c++錯誤窗口無法正常使用。經檢查發現grab.ini 文件被改動過,從其他機器拷貝文件覆蓋後,工具恢復正常。因為grab 非正常退出後保留了錯誤的信息在grab.ini 文件中。

(3) 某電廠除氧器水位控制迴路邏輯是由高加水位控制邏輯拷貝修改而成,修改過程不徹底,PID參數未根據除氧器情況設置整定,造成運行中除氧器上水門發散調節,調節品質惡化。採取措施:檢查邏輯,重新整定PID參數。

2.1.6 系統接口問題

某電廠200MW供熱機組電氣併網信號至DEH只有一路,在機組正常運行的過程中該電氣併網輔助接點故障出現抖動,造成汽輪機跳閘。採取措施:使用屏蔽通訊電纜,增加冗餘接點信號,並進行3取2邏輯判斷。


2.2、人為因素造成DCS故障實例

人為因素造成DCS的故障,在生產過程中也較為常見。包括人員造成的誤操作,管理制度不完善及未按規程規定執行工作步驟等。

2.2.1 未按規程規定執行工作步驟

(1) 某電廠新華XDPS系統DEH的#12DPU故障,對其在線更換,使用的是小機MEH系統的DPU備品。在更換DPU後,只將#32主控DPU拷貝至#12副控未寫電子磁盤,其實質只是將副控DPU的內存內容與主控保持一致,#12DPU電子磁盤內容仍為MEH小機控制邏輯。在系統停電吹灰後,按順序啟動#12DPU成為主控,由於其邏輯為MEH邏輯而非DEH邏輯,造成系統通訊異常、數據頻閃、畫面顯示不正常,人機接口站無法操作。在重新對#12DPU送電,拷貝#32DPU邏輯並寫盤後正常。

(2) 某電廠HIACS-5000CM控制系統,循環水泵房遠程I/O卡件更換,未執行在線更換操作步驟,其卡件未能激活進入工作狀態,導致現場設備狀態與DCS畫面不符,設備無法控制。執行在線更換步序後,系統正常。

2.2.2 人員誤操作

(1) 某電廠機組運行中,在進行處理缺陷時工作人員誤動DCS繼電器櫃繼電器造成引風機跳閘,鍋爐MFT。

(2) 某電廠DCS卡件故障,在進行更換卡件過程中,由於工作人員未認真核對設備、卡件,跳線錯誤導致新更換的卡件燒損。

2.2.3 管理制度不完善

(1) 某電廠DCS系統管理制度不完善,未對軟件升級、備份等工作進行規定。其輔網水處理POK1操作員站在升級打補丁後,未進行備份。該操作員站硬盤出現故障在進行系統恢復後,由於其軟件版本較低,導致與網絡通訊不正常,數據不刷新。

(2) 某電廠操作員站管理不嚴,其放置於集控室的主機USB端口及光驅未進行有效封閉,個別運行人員夜班期間利用操作員站玩遊戲、看電影,導致操作員站死機。

2.3、外部環境因素造成DCS故障實例

外部環境因素造成DCS故障的數量相比於前兩類問題而言相對較少,但在實際生產過程中也時有發生。

(1) 某電廠電子設備間風道口正處於DPU機櫃上方,由於設計和其他原因,機組運行中消防水通過風道流入DCS機櫃,導致DPU、服務器等設備進水燒損,機組停運。

(2) 某電廠循環水泵房遠程IO櫃,由於底部封堵不嚴,造成冬季老鼠竄入,在機櫃上部溫度較高處構築巢穴,最終造成遠程IO脫雙網。

(3) 某電廠電子設備間的封閉性較差,卡件、DPU積灰較為嚴重,曾多次出現故障。在採取完善電子間封閉、加裝空調等措施後卡件、DPU等故障基本杜絕。

通過以上諸多故障實例,我們不難看出,降低DCS系統的故障幾率,必須做好分散控制系統從選型設計到運行、維護的全方位工作。

3、DCS故障防範及維護措施

3.1、DCS的選型設計調試

3.1.1

無論新建機組還是升級改造的DCS,系統和控制器的配置要重點考慮可靠性和負荷率(包括冗餘度)指標。通訊總線負荷率設計必須控制在合理的範圍內,控制器的負荷率要儘可能均衡,要避免因涉及規模大而資金不足所帶來的、影響系統安全運行的“高負荷”問題的發生。

3.1.2

系統控制邏輯的分配,不宜過分集中在某個控制器上,主要控制器應採用冗餘配置。

3.1.3

電源設計必須合理可靠。一是要強調電源設計的負荷率;二是要強調電源的冗餘配置方式,同時一定要保證兩路電源的獨立性。

3.1.4

要注重DCS系統接口的可靠性措施。強調重要接口的冗餘度和接口方式的選擇,主要是注意可靠性和實時性。

3.1.5

對於DCS系統接地一定按廠家要求執行,避免接地問題造成系統大面積故障。應注重考慮系統的抗干擾措施、自診斷和自恢復能力,I/O通道應強調隔離措施。電纜的質量與屏蔽問題也必須高度重視,重要信號及控制應使用計算機專用屏蔽電纜。

3.1.6

要充分考慮主輔設備的可控性,要根據設備的運行特點和各種工況下機組處理緊急故障的要求,配置操作員站和後備手操裝置。緊急停機停爐按鈕配置,應採用與DCS分開的單獨操作迴路。同時,不能盲目地追求人機界面的“簡潔化”,系統配置還應以滿足安全生產為第一位。特殊有關安全的緊急干預性操作不能完全建立在DCS完好的基礎上。

3.1.7

對涉及機組安全的執行機構、閥門等外圍設備,在設計與配置時,要保證這些關鍵設備在失電、失氣、失信號或DCS系統失靈的情況下,能夠向安全方向動作或保持原位。

3.1.8

對於保護系統,應採用多重化信號攝取法,併合理使用閉鎖條件,使信號迴路具有邏輯判斷能力。

3.1.9

在調試期間按照調試大綱和具體辦法,對所有邏輯、迴路、工況進行測試。

3.2

DCS運行、啟停維護

3.2.1 做好維護準備工作

做好DCS系統的維護工作,主要包括:

(1) 維護人員應瞭解系統總體設計思路。熟悉DCS系統結構和功能構成,瞭解系統設備硬件知識,熟知各部件如控制器、IO卡件、電源等正常狀態和異常狀態,熟練掌握DCS組態軟件。

(2) 系統的備份:包括操作系統、驅動程序、引導啟動盤、控制系統軟件、授權盤、控制組態數據庫,並控制組態數據是最新的和完整的。針對實際使用中的光盤容易磨損的缺點,注意多做備份,並採用移動硬盤、U盤、硬盤等備份形式確保各軟件的保存。

(3) 硬件儲備:對易損、使用週期短的部件和關鍵部件如鍵盤鼠標、I/O模塊、電源、通訊卡等都應根據實際情況作適量的備份,保證各類型卡件、模塊備品不少於1個,並按照製造廠要求存放,如有條件應對備品進行校驗,切實掌握備品卡件模塊狀態。

(4) 整理各類產品的售後服務範圍、時間表,形成一份硬件生產廠家、系統設計單位技術支持人員通信錄,充分利用DCS供貨商和系統設計單位技術支持。

3.2.2 日常維護

系統的日常維護是DCS系統穩定高效運行的基礎,主要的維護工作有以下幾點:

(1) 根據25項反措要求、DL/T774檢修維護規程等制度文件規定,完善DCS系統管理制度。

(2) 保證電子設備間的良好封閉,防止小動物竄入,減小粉塵對元件運行及散熱產生的不良影響,保證溫度、溼度符合製造廠規定,避免由於溫度、溼度急劇變化導致在系統設備上的凝露。可考慮將DCS電子間的環境溫度信號引入CRT中,並有報警。

(3) 每天檢查系統各機櫃風扇是否工作正常,風道有無阻塞,以確保系統各設備能長期可靠地運行。

(4) 保證系統供電電源質量且為兩路電源可靠供電,當任一電源失去即報警。

(5) 電子設備間禁止使用無線通訊工具,避免電磁場對系統的干擾,避免移動運行中的操作站、顯示器等,避免拉動或碰傷設備連接電纜和通訊電纜等。

(6) 規範DCS系統軟件和應用軟件管理,軟件的修改、更新、升級必須履行審批授權及負責人制度。嚴禁使用非正版軟件和安裝與系統無關軟件,做好主機USB端口、光驅等的封閉管理工作。

(7) 做好各控制迴路的PID參數、調節器正反作用等系統數據記錄工作。

(8) 檢查控制主機、顯示器、鼠標、鍵盤等硬件是否完好,實時監控工作是否正常。查看故障診斷畫面,是否有故障提示。

(9) DCS設備包括DPU、人機接口站等上電應按照一定次序逐一進行,每臺設備上電觀察正常後再進行下一設備上電,避免出現異常難於分析。上電後,通信接頭不能與機櫃等導電體相碰,互為冗餘的通信線、通信接頭不能碰在一起,以免燒壞通信網卡。

(10) 定期對DCS主系統及與主系統連接的所有相關係統的通信負荷率進行在線測試。檢查冗餘主從設備狀態,條件許可或定期進行主從設備切換,對設備自行切換的原因進行檢查分析。

(11) 增加組態易讀性:對重要組態頁增加了中文描述;對重要保護系統編寫與組態一致的詳細邏輯說明書;編制試驗操作卡並保證隨時更新。規範DCS組態作業,機組運行中儘量不做重大組態修改。必須進行組態時應慎重,充分做好相應的技術措施和安全措施,確保DCS和機組的安全穩定運行。

(12) 定期逐臺重新啟動所有人機接口站一次(建議2、3個月左右),以消除計算機長期運行的累計誤差。

3.2.3 停運維護

機組檢修期間應對DCS 系統應進行徹底的維護,主要包括:

(1) 利用機組檢修時間逐個復位DCS系統的DPU、CPU和操作員站及數據站;刪除組態中的無效I/O點,對組態進行優化。

(2) 系統冗餘測試:對冗餘電源、服務器、控制器、通訊網絡進行冗餘測試。注意觀察系統停運過程中各設備停電時,主從設備切換、網絡、人機接口站是否正常;系統檢修重新上電後對各設備進行切換測試。

(3) 系統灰塵清除:系統停運的情況下,整個系統進行吹灰,包括計算機內部、控制站機籠、電源箱、風扇、機櫃濾網等部件的灰塵清理。

(4) 系統供電線路檢修,對UPS進行供電能力測試和實施放電操作。同時注意檢查DPU主機卡CMOS電池電量,進行定期更換,防止因電池而引起的CMOS數據丟失。

(5) 接地系統檢修。包括端子檢查、對地電阻測試。

(6) 現場設備檢修,根據檢修維護規程,參照有關設備說明書進行。

(7) 檢查DCS系統和其他系統的接口,重要信號冗餘處理,與其他系統的通信視其具體情況,採取單向傳輸和加裝防火牆措施。

(8) 系統上電:系統大修後維護負責人確認條件具備,方可上電。並應嚴格遵照上電步驟進行。

3.2.4 故障檢修維護

系統在發生故障後應進行被動性維護,主要包括以下工作:

(1) 在日常工作中應認真按照25項反措要求,充分做好包括DPU(CPU)死機、網絡通訊崩潰在內的各種事故預想,將運行緊急處理措施、安全措施、技術措施、檢修步驟編寫成冊,確保機組的安全運行。

(2) 處理DCS故障按照製造廠應用手冊中的要求開展工作,更換前確認卡件模塊型號、地址(應確保與其他設備地址不衝突)、跳線等與被更換卡件一致並嚴格執行在線更換程序。

(3) 故障被動維護同樣應嚴格執行工作票制度,避免搶修冒進,應結合具體故障表現進行詳細分析。根據DCS系統自診斷報警、故障現象判斷,找到故障點,通過報警的消除來驗證維修結果。如:通信接頭接觸不良會引起通信故障,確認通信接頭接觸不良後,利用工具重做接頭;通信線破損應及時更換。某個卡件故障燈閃爍或者卡件上全部數據都為零,可能的原因是組態信息有錯、卡件處於備用狀態而冗餘端子連接線未接、卡件本身故障、該槽位沒有組態信息等。當某一生產狀態異常或報警時,可以先找到反映此狀態的儀表,然後順著信號向上傳遞的方向,用儀器逐一檢查信號的正誤,直到查出故障所在。

(4) 現場設備故障檢修必須開具工作票,做好DCS強制和隔離措施。閥門維修時,應起用旁路閥。檢修結束後及時通知集控運行人員進行檢驗,操作人員應將自控迴路切為手動。

(5) 當出現較大規模的硬件故障、原因不明故障或超出本廠維護人員技術水平的故障時,除當時採取緊急備件更換工作外,要及時和廠家取得聯繫,由廠家專業技術支持工程師進一步確認和排除故障。

4

結束語

DCS應進行從設計、施工、調試、運行進行全過程全方位管理,作為系統維護人員應根據系統配置和生產設備控制情況,制定科學、合理、可行的維護策略和方式方法,做到預防性維護、日常維護緊密配合,進行系統的、有計劃的、定期的維護,對運行中出現的各種故障,應具體問題具體分析。減少DCS的故障關鍵是要做到預防第一,保證系統在要求的環境下長期良好地運行。


分享到:


相關文章: