揭示贝叶斯公式应用中的认识误区

揭示贝叶斯公式应用中的认识误区

假定有一组完备且互斥的事件A1,…,An , 它们发生的概率具有初始的假定值P(Ai),…,P(An), 称为先验概率。

在正概率随机事件B发生(被观察到)的条件下(P(B)>0), 这些事件出现的条件概率P(Ai| B),( i = 1,…,n ),称为验后概率。

应用条件概率公式和全概率公式,我们得到下面的贝叶斯公式(贝叶斯定理)

揭示贝叶斯公式应用中的认识误区

(i = 1,…, n)

验后概率P(A i| B)被认为是获得新的信息(事件B)后,对先验概率P(A)的修正。

揭示贝叶斯公式应用中的认识误区

所谓“修正”的说法,其实是不严格的,或者说有条件的。

揭示贝叶斯公式应用中的认识误区

准确地说,条件概率P(A i| B)只是从事件B的角度去观察事件A1,…,An,打个比方,也可能是管窥蠡测,坐井观天。

为了下面分析的简明,我们讨论两组完备且互斥的事件A与A‾,及B与B‾,有下面的条件概率公式和全概率公式:

P(A|B)= P(A)P(B|A)/ P(B)

P(A‾|B)= P(A‾)P(B|A‾)/ P(B)

以及

P(B)= P(A)P(B|A)+ P(A‾)P(B|A‾)

用P(B)的公式代入前面两个公式,就分别得到两个贝叶斯公式。

现在分析下面的应用背景。它蕴含着A是事件的原因,B是事件的结果,从结果来推测原因这样一种相互关系。

假定某社区的全部人口为样本空间,社区出现某种疾病。从社区中随机抽取一人,得这种病为事件A,未得病为事件A‾,根据统计数据估计,得病的概率为p = P(A),未得病的概率为P(A‾)= 1 - p 记为q。

有一种检测疾病的试剂,检测结果呈阳性为事件B,呈阴性为事件B‾。

经过对这种试剂多次检验发现,这种试剂对于已得病的人呈阳性的概率(即检测到得病的准确率)为P(B|A)= α;对于未得病的人,呈阳性的概率(即误诊得病(假阳性)的概率为P(B|A‾)= β。

揭示贝叶斯公式应用中的认识误区

在上面的基本假定条件下,我们应用贝叶斯公式可以得出哪些合理的结论,又可能得出哪些似是而非、实则错误的结论呢?

揭示贝叶斯公式应用中的认识误区

贝叶斯公式在一些领域的应用近年来成为一个热门的课题。

然而,就像在概率统计其他领域以及贝叶斯公式发展历史中,也出现由于混淆(误用)概念,导致不正确的结论。

本文希望通过分析较广泛传播的具体例子(引自近年出版的专业著作,或科普文章),厘清重要的概念,并引起这个领域的学者及爱好者的重视或进一步讨论。

揭示贝叶斯公式应用中的认识误区

第一个例子:“设从某个城市的人口中随机选取一个人作结核病皮肤试验(“简称为皮试”),而试验的结果是阳性,问给出皮试阳性结果(记为事件B)这个人正是结核病患者(记为事件A)的概率是多少?

它假定已从医疗机构得到的信息为:P(A)= 0.01,P(B|A)= 0.98,及P(B|A‾)= 0.05。应用贝叶斯定理计算的结果是P(A|B) = 0.165。

结论是:这个皮试后呈阳性的人确是结核病患者的概率从0.01上升到0.165。

揭示贝叶斯公式应用中的认识误区

第二个例子:“已知某种疾病的发病率是0.001,即1000人中会有1个人得病。现有一种试剂可以检验患者是否得病,它的准确率是0.99,即在患者确实得病的情况下,它有99%的可能呈现阳性。它的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。现有一个病人的检验结果为阳性,请问他确实得病的可能性有多大?

应用贝叶斯定理计算的结果是P(A|B) = 0.019。结论是:这个检验结果为阳性的人得病的概率从0.001上升到0.019。

( 本文在引用时对其中关键的语句用粗体表示。这两个例子是同一个类型。)

揭示贝叶斯公式应用中的认识误区

难道这个令人惊讶的结论是贝叶斯公式的可靠结论吗?

在应用条件概率时容易出现比较隐蔽的错误,即随机事件A和随机事件B的界限以及它们之间的关系被混淆。

如果我们的问题是:一个随机抽取的人在试剂检验呈阳性的条件下得病的概率是多少?

那么,事件A是“在讨论的人群总体中随机抽取的一人得病”,事件B应该是“这个被随机抽取到的人试剂检验呈阳性”,在这样的语境下,文章中所得结果及解释方为正确。

可是,文章提出的问题是:“现有一个病人的检验结果为阳性,请问他确实得病的可能性有多大?”,情况就完全不一样了。

事件b是“某甲的检验结果为阳性”,这是一次检验结果的事件,由于检验结果带有随机性,所以事件b仍然是随机事件。

事件a是“某甲得病”。如果这次阳性检验结果不正确(假阳性),某甲没有得病,按题设,这个概率为0.05;否则,阳性检验结果正确,某甲得病了,这个概率为1 - 0.05 = 0.95。也就是说,某甲确实得病的概率为0.95。

揭示贝叶斯公式应用中的认识误区

类似地,我们可以讨论两类“假阴性”问题。

一个是:一个随机抽取的人在试剂检验呈阴性的条件下得病的概率是多少?

另一个是“现有一个病人的检验结果为阴性,请问他确实得病的可能性有多大?

一种检测试剂如果对于发现疾病的准确性很高,有可能对于未病者的误诊率稍高,出现“假阳性”;一种检测试剂如果对于发现疾病的准确性略低,但对于未病者的误诊率很低,就会出现“假阴性”。

应用贝叶斯方法应该概念清晰,避免掉入陷阱。

它应用的前提是,对于样本空间中随机抽取的样本,以及这些随机样本属于事件B的条件(子范畴,子空间)下,其他随机事件A出现的条件概率。

它只是对于局部的子空间整体成立的公式,并不意味着应用到一个具体的或特定的样本时,一定可以适用同一个公式。

正如我们上面着重指出的,这是两种不同类型的问题。

目前,在介绍贝叶斯公式应用的例子中常常出现的问题,恰恰是在已经获得有关个体呈现阳性时的误诊概率的信息后,仍然套用针对样本空间中随机样本成立的贝叶斯公式,得出不恰当的结论。

揭示贝叶斯公式应用中的认识误区

揭示贝叶斯公式应用中的认识误区

关于“假阳性”的进一步说明

“假阳性”现象说明,判别小概率事件出现特有的困难。

在上面的例子中,如果我们记全体人员为W集合,得某种疾病的人员为A集合,检验呈阳性的人员为B集合。

尽管对每一个被检验的人员若他呈阳性(属于B集合),可以以相当大的概率(比如0.95)判断他得病(属于A集合)(即不得病的误判概率为0.05),但是,由于出现A的概率非常小(比如0.001),在全体不得病人员的集合W-A中,有百分之五的人被误判(即呈阳性但并未得病),其数量以较大比例超过只占全体人员千分之一的得病人员总数。

这就是说,对全体人员而言,如果每个人都去检验,检验结果呈阳性的人员中,只有小部分的人真正得了病,换言之,从总体而言,呈阳性的人群真正得病的概率并不高

,很多人虽然呈阳性而没有得病,属于“假阳性”!

这种对抽样个体与对总体下的结论相左的情况似乎是一个悖论,然而,这的确是一个合理且经得起检验的结果。

应用数学与计算机应用高级工程师,编审;

1957一1963北京大学数学力学系数学专业毕业;

1963一1967中国科学院计算技术研究所概率统计计算专业研究生毕业;

长期从事数学应用研究与计算机应用软件开发工作;

发表论文十余篇,编著出版《随机模型与计算机模拟》一书,译书若干种。

本文系网易新闻·网易号“各有态度”特色内容

本文由超级数学建模社区“灵魂写手”提供

分享、转发请随意

------这里是数学思维的聚集地------

揭示贝叶斯公式应用中的认识误区

「征稿启事」


分享到:


相關文章: