心理学的可重复危机 (replication crisis) 是如何形成的
作者: 胡传鹏 / 13213次阅读 时间: 2016年4月09日
来源: Know Thyself 标签: 物理学 心理学家 可重复
www.psychspace.com心理学空间网

+DZh%S?K0z-}$i7lv0记得前一段时间,物理学的引力波刷爆朋友圈和微博的时候,一位师兄如此感叹:心理学空间E1j`{v{`3rCa

心理学空间yY)z}9e9E

心理学空间*QiIp9[

对的,上个大新闻就是心理学的研究,遇到了重复危机;没想到的是,下一个大新闻,就是另一些心理学家在science发表文章说,心理学的研究没有重复危机。不管到底有没有重复危机,反正英文的可重复危机(replication crisis)已经成为了wiki peida的词条

Io"L3T!F"wm0心理学空间2\4m:bvP4|N9ro

当然,即使facebook和twitter上关于可重复危机的讨论在心理学家之间已经吵翻了天,在国内也很见到讨论。作为一个万年酱油党,对这个领域的“热点”还是一直在关注。大约四五年前,也曾与人争论,心理学的研究到底是否可靠,也曾以问答的形式,介绍了当时刚刚“兴起”的可重复危机。几年之后,再来看这个问题,发现这个问题不仅没有解决,反而引起了一波又一波更大的争议和骚动。在心理学家之间,甚至引起了人身的攻击(言语上的)。这是我作为一个想要进入心理学学术界的年轻人所没有想到的。心理学空间m3K"nK&M0V

心理学空间n7M] ^e%^

即然有问题,或者说很大一部分人觉得有问题,那么,这个问题到底是什么,如何解决这个问题,就成为了这个领域的必须去面对的。诚然,如许多人所提到的,可重复危机不是心理学一个领域的问题,许多其他领域也存在。但是,记得某位心理学家(忘记了出处和原话):心理学是我们(心理学家)所唯一拥有的。所以,知道其他领域同样存在可重复的问题,并不能是我们忽视这个问题的原因。心理学空间+o1oVd7[wd4I

k0s }n+b8~cBl0可重复性问题到底是从何时开始的?作为一个喜欢追踪文献、每周必看science和nature目录的博士狗,“有幸”在这个危机开始的时候,围观了一系列在science和nature上被报道而引起广泛关注的事件,在这里把个人所了解的相关事件作一个回顾。

0K.i&@htGxY ]E0

$|(g\)XN2I0事件1:Bem (2011)的预见未来的实验。在这个标题为“Feeling the future”的文章中,已经是知名社会心理学教授的Bem在人格与社会心理学的顶级期刊Journal of Personality and Social Psychology上指出:通过9个实验,包括了1000多名被试,他发现了未来发生的事件,可能会影响到被试当前行为反应。在这个颇具有预见性的讨论中,他讨论了统计方法、可重复性和这种预见未来现象的问题。当然,心理学界的人很快提出了质疑,两个研究小组采用贝叶斯统计对他的数据进行了分析,表明无法从数据中得到这个推断。更加晚一些重复实验也没有发现Bem的这个结果。此时,人们还无法预知,这个事件将成为心理学可重复危机的一部分。science此时也只是用相当平淡的口吻给了一个评论:ESP paper rekindles discussion about statistics

7b(gg$o*C$` T5x)^R0

CDIzM_0事件2:到2011年年末,另一重磅事件,彻底让人们开始反思心理学中方法的严谨性了。这就是Stapel的论文造假事件。Stapel本人是荷兰Tilburg University社会心理学的教授,刻板印象方面的专家。2011年4月8号,也就是五年前的今天,他在science上发表一篇题为 “Coping with Chaos: How Disordered Contexts Promote Stereotyping and Discrimination”的论文。这对于当时的我来说,实在是太有趣了:凌乱的环境居然会加重人们的刻板印象,太神奇了!对于这种有趣的研究,我很快在心理学与脑科学的论坛52brain.com上进行了传播。但是到了2011年11月01日,Nature报道,Stapel的这篇论文涉嫌造假,标题是“Report finds massive fraud at Dutch universities”,而Science也撤回了此论文(2011.12.02)。此后,nature 和science都对这个事件进行了持续的关注。Stapel之所以能够被发现是数据造假,是因为他的研究生举报。而Tilburg于2012年12月的调查报告显示,在他职业生涯中发表的137篇论文中,有55篇数据完全是捏造的。此外,还包括他指导的10个博士生博士毕业论文中的数据。在另外10篇论文中,当时还无法断定是否有造假行为。Science在报道这个最终报告的时,提出一个事实:整个心理学领域都有无法推脱的责任(Final Report on Stapel Also Blames Field As a Whole),因为Stapel的55篇数据造假的论文中,审稿过程中完全没有发现问题。而这并不是说审稿的过程是无法发现问题的,因为在2012年,宾大沃顿商学院的Uri Simonsohn通过对Smeesters已经发表的两篇论文结果进行了仔细的检查之后,怀疑作者的数据有问题,随后Smeesters所在的大学对其进行了调查,Smeesters声称自己由于某些客观原因,原始数据丢失,但是其所在大学无法接受他的这个理由,接受了其辞职(见science的报道)。心理学空间3FC(Ww#~#}

心理学空间&|DY G{E

事件3:还是回到2011年,Simmons, Nelson, & Simonsohn 在psychological science上发表了一篇名为False-Positive Psychology的论文,在这个论文中,指出了心理学研究中,有一些比较常见的做法会让整个领域的假阳性过高。不过这个文章仅在学术界引起了一些关注,媒体的报道相对较少。

] W(Zp8X F']C0

5v*n9c4^z9T@Aw b0事件4:2012年1月,无法重复的启动研究。在中国的农历尚未到2012年之时,社会心理学的社交网络圈爆发了一个新闻:著名的老年启动效应无法重复出来。记得在哈佛的幸福课(positive psychology)中,讲课的老师就引用过这个研究,让我印象深刻:当大学生看到一系列老年相关的词汇之后,他们走出实验室的速度会变慢,也就是说,变得更像老年人…….。当时我并没有特别在意这个研究。但是2012年1月,开源杂志Plos One发表了Doyen等人一个研究,声称无法重复出这个著名的效应。他们做了两个实验,第一个实验完全重复Bargh等人的实验,第二个则对参与实验的人进行了某种暗示,再现了这个效应。对于这个结果,科普作者Ed Yong进行了报道,并且开头引用了心理学教科书中著名的历史安全“聪明的汉斯”的故事,暗示原作者们Bargh等在方法上的严谨性。正常情况下,这种无法重复的原因多种多样,对于批评可能也无需太在意。但是Bargh作为自动化加工(automatic process)方面的权威,面对这个研究和报道,表示非常愤怒,在自己的博客上进行了激烈的反击,对重复实验的作者、发表重复实验的杂志以及报道这个重复实验的科普作者进行抨击,语言比较激烈,后来删除了该博客(可以从这里这里找到当时其他博客上的一些引用)。正如其他信息的传播一样,客观理性的内容往往很难引起注意,但是充满情绪的内容总是非常广泛地传播,于是Bargh的博客在社会心理学家之间传播开来。心理学空间8Bs-I-w1u

心理学空间.`U'u!] D/d9x;Y*CF

Bargh这个博客引起广泛争议的同时,应该说是再次让社会心理学家们感受到了可重复问题的压力。于是一个原本不太受到对于的网站进入了大家的视野,这就是http://psychfiledrawer.org/。这个网站的目的是让心理学家把自己未发表的数据上传,以减少在论文发表中对阳性结果偏爱而阴性结果无法发表的这个问题。原本没有人多少人关注这个网站,但是Bargh事件之后,许多人纷纷把自己重复过的数据上传。更有意思的是,诺贝尔经济学奖得主卡尼曼也站出来说话了。在题为“A proposal to deal with questions about priming effects”的邮件中,他老人家让社会心理学家解决自己领域的问题。这个邮件内容也有不少的阅读者。心理学空间J(u)E5lR r#hY[1KK

wG_8x9k(?([U3e/wx0事情发展到2012年,越来越多的重复失败结果被曝光,要么是在一些网站上公开数据,要么是在一些学术期刊上发表。而对于Bem预见未来的实验,也有重复实验的报告在plos one上发表出来。心理学家也开始讨论怎样的重复才能算是一个合格的重复实验。于是有了预先注册(pre-register)、然后按照注册的方法进行实验,最后来报告结果。perspectives on psychological science上,也有专刊来讨论可重复性的问题,这一次非常集中地讨论了与可重复性相关的问题。同样重要的是,2012年,John等人关于可疑研究操作(Questionable Research Practices)的调查报告发表,心理学家们承认,自己在研究的实践中,一些通常的做法其实是大大地增加了假阳性的概率的。心理学空间N+}n^1CX:V} U

3l8q/]Q QST:weRI2s*m0直到2013年,Center for Open Science(COS)才在Virginia University成立,心理学家才有一个非正式的大规模的组织来应对这次可重复危机。COS搭建了开放科学框架的平台(open science framework: osf.io/),开始组织全世界的心理学家进行联合的大规模重复实验。这一年,perspectives on psychological science再次组织特刊讨论了可重复性以及一些实验方法上的问题。这一期中,Lebel将PsychDisclosure.org推出,提出了研究者要完整报告自己研究的方法部分的要求。

3J9qPff0Vk fb0心理学空间 Zy/i:O/~*B%m&|Ck(U6K

2014年,关于重复实验应该如何做,研究者们基本上有一些共识,许多杂志开始鼓励提前注册的重复实验或者提前注册。osf进一步完整,成为一个可以公开注册研究和分享数据的平台。Journal of Experimental Social Psychology上,发表了题为The Replication Recipe: What makes for a convincing replication?的文章。这一年,在social psychology这个杂志5月的一期中,也发表了一系列经过提前注册过的重复研究,能够重复原先实验结果的并不多。不过一个比较积极的消息是,由Klein等人发表的多实验室项目(ManyLab)中,对心理学中经典研究的重复,大部分是有结果的。Cumming 也在psychological science上发表了题为The New Statistics: Why and How的文章,指出需要在统计方法上进行变革。Psychological science也改变了其审稿的政策,对方法部分不再有字数的限制,开始启用一些强制政策来加强方法部分的严谨性,如要求像Lebel指出的那样报告方法部分四个方面的内容,使用效应量和置信区间等。其他的杂志也有一些相应的调整。心理学空间@&z~;WJU6W

)IV;Te)~c^ S02015年,最大的事件就是COS于2013年组织的大规模重复实验的结果得以发表,许多人期待的结果在Science上发表,其结论是对100项研究的重复,大约39%能够重复出来(根据对重复的标准不同,这个比例有一点变化)。这个研究的结果有大量的数据在osf.io上共享,供研究者去挖掘,而确实也有不秒研究者利用这些数据进行了后续的分析。许多人以为,可重复危机基本上就已经确定了,心理学要开始进行艰苦卓绝的方法变革,来提高本领域研究的可重复性了。但是

-L7jw.D3qd}0心理学空间jGW%}_'a7R

2016年,Science上的一个评论再次引起争议,Gilbert等人分析了COS大规模重复实验的数据,认为三个方面的错误使得他们的不足以得到心理学研究的可重复率只有39%的结论。这一评论再次激起了媒体以及心理学家对可重复性的讨论甚至是论战。然而,这些评论与争议,也无法改变另一个非常著名的心理学效应在重复实验前的倒下:自我损耗(ego-depletion)的重复实验也未能重复出其效应,而元分析也显示了相似的结果。这个失败让笼罩在心理学家头上的乌云更加密布,因为这个理论非常符合直觉,大量的心理学家投入时间和精力研究这个问题,大量的研究经费投入在这个问题的研究之中。不是一个人的问题,而是一群人的问题!

G'rS5VQ#iM(D+B0www.psychspace.com心理学空间网
TAG: 物理学 心理学家 可重复
«科学家创造出迄今为止最大的大脑连接地图 科普新闻
《科普新闻》
心理治疗的战争:弗洛伊德要打回来了»
延伸阅读· · · · · ·