要提高計算機系統的可靠性,就必須解決故障問題!

計算機系統在運行過程中,隨時有可能出現各種各樣的故障。為此,首先應對計算機系統內的各種故障進行分類,然後才可分別採取相應的措施。從不同的角度,可對故障進行不同的分類。

要提高計算機系統的可靠性,就必須解決故障問題!

從計算機系統的組成來看,故障可分為硬件故障和軟件故障兩大類。硬件故障是指計算機的元、器件發生的故障。軟件故障是指為系統運行所編制的程序本身的錯誤,這個程序可能是系統程序,也可能是用戶程序。

從發生故障所延續的時間來看,故障可分為固定性故障和暫時性故障兩種。固定性故障是由電路的元、器件變質,電路內部短路,軟件設計欠考慮等原因引起的必然性故障。這種故障只有通過人工干預才能恢復系統正常。解決固定性故障,可以通過診斷程序來進行故障定位。而暫時性故障是由外界諸如電網電壓的跳動、電磁性的干擾信號或者某電路連接處虛焊等原因所引起的故障。這種故障持續時間較短,往往不用人工干預,系統就能自動恢復正常。解決暫時性故障,可以通過指令復執、程序復算等方法。

要提高計算機系統的可靠性,就必須解決故障問題!

故障保險是指當系統發生故障時,採取適當的措施而使系統能繼續工作下去。

故障弱化是指當系統發生故障時,系統能夠重新組織自己,並將正在發生故障的設備隔離或切斷,而使系統繼續工作下去,但此時系統的能力和效率下降了。

故障的診斷包括兩個方面,即故障檢測和故障定位,前者是發現有無故障,後者是判定故障發生在什麼地方。故障檢測的方法很多,如採用多種檢錯與糾錯編碼,或採用檢測程序等方法發現故障。

要提高計算機系統的可靠性,就必須解決故障問題!

定位故障的方法也有多種,常用的有兩種:一種是故障定位測試法,它是直接以電路作為診斷對象,將被測試的系統劃分為許多測試區,針對不同區域發出多種測試碼,然後根據運行結果的狀態找出故障位置;另一種是利用微程序進行微診斷,首先利用不同的分辨率把系統的故障定位到某一系統,再由該系統定位到某一模塊、某一部件,由粗到細。例如,首先確定故障出現在哪一個大部分,是CPU、主存,還是輸入/輸出?再將分辨率逐漸變小,將故障位置逐漸定位到插板、組件。這種測試法只涉及被測對象的輸入與輸出的關係,因而稱為功能測試法。利用微程序進行功能測試可以將故障分辨得很細,定位得比較精確。


分享到:


相關文章: