暴发调查系列九:混杂及其机制

上一期我们计算了优势比,对变量"saltegg",同样可以计算其优势比

cc(case,saltegg)

计算的合计有效记录是1089,略高于"case"和"eclair.eat" 交叉列表的合计907.优势比虽然不一样大但有统计学意义。 与分析"eclair" 的优势比类似,图中右边的箱子远大于左边的箱子,表明暴露的比例较大。

乳酪馅和咸蛋的优势比都具有统计学意义,并且有较大比例的参与者食用。检查一下这两个变量间的关系。

cc(saltegg,eclair.eat,graph=FALSE)

上述结果表明可能只有一个真正的病因,另一个只不过是混袭因素,即那些吃咸蛋的参与者也倾向于吃乳酪馅。以下的分层分析给出了混杂的详情。

mhor(case,saltegg,eclair.eat)

如图,上述关于疾病和咸蛋间的关系是按吃乳酪馅的水平分层进行的,它是建立在case,saltegg和eclair.eat三个变量均为有效值得记录基础上的。

分析结果包括两个主要部分,第一部分是由第三个变量定义的每层的暴露优势比,本例为Mantel-Haenszel方法计算的"eclair.cat"的优势比和χ2统计量。第二部分建议这些层的优势比是否可以合并。

我们先把重点放在第一部分,然后再来看第二部分。

两层的优势比都接近1且没有统计学意义,两条线的斜率都比较平稳。Mantel-Haenszcl (M H)优势比是两个优势比的加权平均值,也接近1。

两层的各层优势比和M-H优势比都与1没有统计学意义,但粗优势比有统计学意义。粗优势比与真实的或者调整后的优势比之间的偏差称为混杂。

混杂的原理可以用上图进行解释。位于图形中靠上的线表示吃了乳酪馅的观察对象的子集或层,而下方的线代表的是未吃的。

上方的线远离下方的线,意味着吃乳酪馅人群的危险远远高于未吃者,两条线之间的距离是16到32的优势重叠部分。需要注意的是,本例中吃乳酪馅和咸蛋的对象分布是不均衡的。

在右边(即吃咸蛋者),吃乳酪馅者(上方的箱子)远远多于没有吃的人(下方的箱子),因此右边的中心有向上方箱子的位置靠拢的趋势。

相反,在左边,即没有吃咸蛋的人群中,没有吃乳酪馅的人数(由下方的箱子大小表示)多于吃了的人数,所以左边的中心趋于更接近下方的箱子。即把两层数据合并后,吃咸蛋人群中患病的优势(加权平均)更接近上方的箱子。

左边也是如此,患病的加权平均优势更接近上方的箱子。右边较高的平均优势导致用优势比大于1,该粗优势比使我们错误地认为咸蛋是另一个病因,而事实上它仅是因乳酪馅的混杂干扰。

只有遇到以下两种情况时,混杂的水平才值得关注。首先,分层因素必须是独立的危险因素,其次在分层因素和所关心的暴露因素间的联系必须有统计学意义。

现在,我们来检查吃咸蛋是否会对患病和吃乳酪馅之间的关系产生混杂。

mhor(case,eclair.eat,saltegg)

以saltegg分层,两层的"elair.eat"的优势比(19.3和24.8)和M-H优势比(24.3)都非常接近粗优势比(23.68).

上图显示,各层的两条线非常接近,表明saltegg 不是独立的危险因素。在暴露组和非暴露组,患病的优势都接近加权平均优势,没有受观察对象数量的影像。因此不是独立危险因素的变量,不会对另一个暴露变量产生混杂干预。