要提高计算机系统的可靠性,就必须解决故障问题!

计算机系统在运行过程中,随时有可能出现各种各样的故障。为此,首先应对计算机系统内的各种故障进行分类,然后才可分别采取相应的措施。从不同的角度,可对故障进行不同的分类。

要提高计算机系统的可靠性,就必须解决故障问题!

从计算机系统的组成来看,故障可分为硬件故障和软件故障两大类。硬件故障是指计算机的元、器件发生的故障。软件故障是指为系统运行所编制的程序本身的错误,这个程序可能是系统程序,也可能是用户程序。

从发生故障所延续的时间来看,故障可分为固定性故障和暂时性故障两种。固定性故障是由电路的元、器件变质,电路内部短路,软件设计欠考虑等原因引起的必然性故障。这种故障只有通过人工干预才能恢复系统正常。解决固定性故障,可以通过诊断程序来进行故障定位。而暂时性故障是由外界诸如电网电压的跳动、电磁性的干扰信号或者某电路连接处虚焊等原因所引起的故障。这种故障持续时间较短,往往不用人工干预,系统就能自动恢复正常。解决暂时性故障,可以通过指令复执、程序复算等方法。

要提高计算机系统的可靠性,就必须解决故障问题!

故障保险是指当系统发生故障时,采取适当的措施而使系统能继续工作下去。

故障弱化是指当系统发生故障时,系统能够重新组织自己,并将正在发生故障的设备隔离或切断,而使系统继续工作下去,但此时系统的能力和效率下降了。

故障的诊断包括两个方面,即故障检测和故障定位,前者是发现有无故障,后者是判定故障发生在什么地方。故障检测的方法很多,如采用多种检错与纠错编码,或采用检测程序等方法发现故障。

要提高计算机系统的可靠性,就必须解决故障问题!

定位故障的方法也有多种,常用的有两种:一种是故障定位测试法,它是直接以电路作为诊断对象,将被测试的系统划分为许多测试区,针对不同区域发出多种测试码,然后根据运行结果的状态找出故障位置;另一种是利用微程序进行微诊断,首先利用不同的分辨率把系统的故障定位到某一系统,再由该系统定位到某一模块、某一部件,由粗到细。例如,首先确定故障出现在哪一个大部分,是CPU、主存,还是输入/输出?再将分辨率逐渐变小,将故障位置逐渐定位到插板、组件。这种测试法只涉及被测对象的输入与输出的关系,因而称为功能测试法。利用微程序进行功能测试可以将故障分辨得很细,定位得比较精确。


分享到:


相關文章: