“助推”失灵了吗?


“助推”失灵了吗?

在这周三的文章中,我们讲了“影响因子”是如何影响顶级科学期刊的。我还注意到一件事,那就是在这次新冠肺炎疫情的全球暴发中,这些“神刊”的应对速度大大加快了。像知名的《新英格兰医学杂志》,一篇关于新型冠状病毒的论文提交不到48小时就发表了,这在之前是难以想象的。要知道,平时一篇论文提交后经过编辑审核、同行评议到最终发表,一般要花上几个月的时间。

这种快速响应虽然有利于信息共享,但也更容易出问题。之前,印度科学家发表的一篇关于新冠病毒的论文就因为数据和结论有缺陷,遭到了大量同行批评,最终被撤回。

我们都知道,科学是要求“可证伪性”的。可在现实中,如果一个领域的研究成果总是被证伪,那对这个领域而言绝对是一场毁灭性打击。我最近就在《自然·新闻特写》上看到了一篇文章,说当代认知心理学的热门研究领域“社会启动”,正在遭受这样的生存危机。

所谓社会启动(Social Priming),简单来说,就是你能事先通过一些微小的刺激或暗示,左右一个人接下来的行为。很多知名的社会科学读物,像《助推》《思考快与慢》《先发影响力》,都大量引用了社会启动领域的研究成果。

可这篇文章却说,近年来一系列针对社会启动的可重复性实验都失败了。也就是说,这个领域的很多结论都靠不住,这可引发了不小的争议。下面,咱们就一起来看看这是怎么回事。

有一个著名的社会启动效应,你可能听说过,叫“热咖啡效应”。2008年的一项研究宣称,如果人们手里捧着一杯热咖啡,那他们对别人的态度就会更友善,评价也会更正面。

别小看这个结论,它有着很强的实用性。我有一个做保险的朋友就曾经跟我说,她约客户签单时,就会选择请客户去咖啡店,喝上一杯热咖啡,再吃点甜食。她觉得这能增加签单率。你看,这是不是就是一种热咖啡效应?

可问题是,后来针对热咖啡效应所做的重复性实验却失败了,新的研究人员没能再现这个结论。热咖啡效应,没能经得起检验。

还有一些结论也存在问题,比如最经典的“语义启动”。当时,心理学家发现,当人们被一些特定词汇启动后,识别和处理同类词汇的速度也会更快。比如,在看到“医生”这个词后,他们识别“护士”的速度就比识别其他词要快。

最早的启动效应研究,可以追溯到上个世纪七十年代。在这之后,语义启动的研究还拓展到了行为变化上。1996年,纽约大学心理学家约翰·巴赫(John Bargh,热咖啡效应的研究就是他做的)研究发现,如果看到和年老有关的词汇,比如皱纹等等,受试者走出实验室的速度会比对照组更慢,就好像他们真的变老了似的。

还有研究发现,被“金钱”这个词启动过的人会更自私;被“教授”这个词启动过的人,在解谜时的表现会更出色。

这些结论听起来是不是特别有意思?可惜,它们同样没能被成功重复。美国南佛罗里达大学的心理学家道·罗勒(Doug Rohrer)去年6月发表了一篇论文,说他重复了关于“金钱”启动效应的实验,发现实验组的表现和对照组根本没啥差别。

这还不是个例,有几十项社会启动效应的研究成果都无法重复。不少科学家宣布,他们不再把社会启动看作是能影响人们无意识行为的方式。

《心理科学》杂志的副编辑、多伦多大学心理学家迈克尔·因兹利奇(Michael Inzlicht)甚至明确表示,他对社会启动从完全信任变成了彻底怀疑。

那你可能会问:为什么社会启动领域会有这么多的研究成果无法重复呢?难道是科学家故意造假吗?

别说,还真有故意造假的情况,一个著名案例就是荷兰权威社会心理学家德里克·斯塔佩尔(Diederik Stapel)。

斯塔佩尔曾经发表过很多篇人类行为学方面的论文,有些结论很吸引眼球,比如“人在肮脏的环境中更容易种族歧视”“吃肉会让人变得更加自私与不合群”等等。但随后,他却被自己带的学生揭发,说他数据造假多年。

为什么要造假?斯塔佩尔后来解释说,自己从小就喜欢整洁和规律,而实验数据的杂乱让他感到烦躁,于是就把它们改得漂亮些。他追求的不是真相,而是“美”。何况学术期刊也更喜欢发表“美”的数据。

这个解释当然很牵强,但其中也反映了一部分真实情况,比如学术期刊的确更倾向于发表“阳性”的结果,也就是能证明假设的实验结果。可是,实验数据常常没有明确指向性,要想让数据“有意义”,科学家得做点什么。最low的做法,就是造假了。

不过,造假毕竟有身败名裂的风险,于是有些研究者会用一些“巧招”。比如说,他们会用各种统计方法来分析实验数据,然后只挑选某个能侥幸达到显著性的结论,隐瞒其他结果。甚至有个说法是:理论上,只要用一些噪音大的数据,再加上小一点的样本量,研究者就能得到任何想要的结果。

还有研究者是“已知结果后假设”,也就是先看数据怎么样,再改变最初的假设。换句话说先打哪,再指哪,这不就不会出错了吗?

除此之外,在科研中还存在一种“实验者效应”。如果研究者知道自己在研究启动效应,那么他们从实验数据中发现这种效应的可能性就更大。也就是说,研究者自己的潜意识就能左右研究结果。

那么,这是不是意味着社会启动领域的研究成果都不能再相信了呢?倒也不是。

有研究者在使用了更严格的统计方法之后发现,社会启动效应还是存在的,只是比预期的要小得多,而且也存在个体差异。比如用“节食”“瘦”“苗条”这类词启动,确实会让有些人选择更健康的食物,但这些人大多是原本就想减肥或者崇尚健康饮食的人。

这说明什么呢?说明启动效应并不像之前大家认为的那样是普适性的,它有限制条件。目前来看,当启动信息与个人目标相一致的时候,更容易产生启动效果。

不管怎么说,社会启动这个研究领域是衰落了。文章中提到,如今做社会启动研究的人比十年前少多了。一方面这个领域深陷“重复性危机”,研究成果容易遭受质疑;另一方面,社会启动这个课题之前太热门,现在有点过气了。

好在,经过争论和反思,科学家们的研究方法比之前更严谨了。主要有两个积极的变化:

一个是增加了统计样本数,尤其是在做重复实验的时候。文章中提到一个叫Many Labs的项目,就让数十个实验室的本科生分别重复相同的心理学研究,这样就能获得数以千计的样本,可以更全面地检验前人的研究结果,剔除那些有瑕疵的结论。

另一个变化,是“预注册”方法的推广。也就是说,科学家会先把研究的假设和实验方案在期刊上进行预注册,而期刊也承诺,无论实验结果如何都会发表。这就能有效防止研究者“已知结果后假设”的行为,也会防止研究者为了能发表论文而从主观上干预实验结果。

好了,总结一下,在今天的文章中,我跟你分享了社会启动领域陷入可重复性危机背后的原因。简单来说,就是研究者自身的主观意愿和倾向影响了实验结果,制造出了很多站不住脚的结论。

我读这篇文章的时候能明显感觉到,社会启动效应的这场危机让很多人失望了,毕竟这个领域的研究成果往往都特别实用。你想,谁不希望能用微小的成本去影响别人的行为呢?这种四两拨千斤的美梦,我们每个人都做过。不过好在,虽然我们离这个梦更远了,但是我们却离还原世界的本来面目更近了。


分享到:


相關文章: