心理科学进展 2016, 24 (9): 1504-1518.
胡传鹏 1王非 1过继成思 1宋梦迪 1隋洁 2彭凯平 1
DOI: 10.3724/SP.J.1042.2016.01504
假阳性过高,可疑研究操作是假阳性过高的直接原因,而出版偏见和过度依赖虚无假设检验则是更加深层的原因。面对可重复性问题,研究者从统计方法和研究实践两个方面提出了相应的解决方案,这些方法与实践正在成为心理学研究的新标准。然而,要解决可重复性问题,还需要心理学研究领域的多方参与,尤其是在政策上鼓励公开、透明和开放的研究取向,避免出版偏见。心理学研究者为解决可重复性问题做出的努力,不仅会加强心理学研究的可靠性,也为其他学科解决可重复问题提供了借鉴,推动科学界可重复问题的解决。
摘要:可重复性问题是当前科学界面临的共同问题。最近,心理学研究领域的可重复性问题也受到广泛关注,引起了研究者的积极讨论与探索。通过对2008年发表的100项研究结果进行大规模重复实验,研究者发现,心理学研究的成功重复率约为39%,但该研究仍然存在着巨大的争议,不同的研究者对其结果的解读不尽相同。针对可重复性问题,研究者通过数据模拟、元分析以及调查等多种方法来分析和探索其原因,这些研究表明,可重复性问题本质上可能是发表的研究关键字:可重复性 假阳性 基于估计的统计 开放科学 革新 replicability false positive estimate-based statistic open science reform
1 引言
可重复性(replicability)是判断科学研究结果是否可靠的重要标准(Schmidt,2009),然而可重复性问题困扰着科学研究的许多领域(Begley & Ellis,2012;Chang & Li,2015;Ioannidis,2005;Tajika,Ogawa,Takeshima,Hayasaka,& Furukawa,2015)。早在2005年,就有研究者指出,大部分研究结果可能都是不可靠的(Ioannidis,2005),有些研究领域的可重复率只有11%(Begley & Ellis,2012)。最近Nature杂志对1500多名研究者的调查也表明,90%接受调查的研究者认为,在科学界存在着可重复危机(Baker,2016)。近年来可重复性问题在心理学中也日益受到关注(Schooler,2014;Spellman,2015)。由于心理学研究对法律和政策的影响(胡传鹏,邓晓红,周治金,邓小刚,2011),可重复性问题对政策甚至是法律产生的影响也受到关注(Chin,2014)。因此,心理学研究者近年来积极地讨论可重复性问题的原因及对策,这些努力的结果不仅正在改变心理学研究的格局,也为其他研究领域应对可重复问题提供良好的借鉴。
心理学研究者对可重复性问题的关注始于2011年初,康奈尔大学心理学家Daryl Bem在社会心理领域顶级期刊Journal of Social and Personality Psychology(JPSP)上发表关于预知未来的研究(Bem,2011;Miller,2011),但重复实验却未能得到与其相同的结果(Galak,LeBoeuf,Nelson,& Simmons,2012;Ritchie,Wiseman,& French,2012)。不久,Simmons,Nelson和Simonsohn(2011)在Psychological Science上发表了题为《False Positive Psychology》的论文,揭示心理学研究中假阳性过高的现象及原因,引起广泛重视。同年11月,荷兰心理学家Diederik Stapel数据造假事件被曝光,在心理学研究领域更是投下了重磅炸弹。调查显示,其职业生涯的137篇论文中,有55篇数据均属造假,其中不乏顶级期刊如Science和JPSP发表的论文。调查报告指出,此造假事件除了Stapel个人的原因外,心理学研究方法与审稿标准的严谨性不足也难辞其咎,对心理学研究领域提出了责难(Alberts,2011;Enserink,2012;Ten for 2011)。随后,大量重复实验均未能重复先前研究的结果(如Doyen,Klein,Pichon,& Cleeremans(2012)和Lurquin等(2016),以及PsychFileDrawer:http://psychfiledrawer.org/上的大量报道),使得心理学研究的科学性受到质疑(Pashler & Wagenmakers,2012)。至此,可重复危机(replication crisis)的说法受到广泛关注(Schooler,2014;Yong,2012)。
面对可重复性问题,心理学研究者积极地分析其原因、探索其对策:不仅在学术期刊中组织专刊对可重复性问题进行讨论(Barch & Yarkoni,2013;Pashler & Wagenmakers,2012;Spellman,2012,2013),也召开关于可重复性问题的专题研讨会(如英国心理学会组织的Open Debate on Replication and Reproducibility in Psychological Science)。这些关于可重复性问题的讨论,可能成为心理学学科发展的重要契机。充分了解这些变化对未来的研究有着重要的参考价值。本文旨在分析可重复性问题的现状,探讨可重复性问题的原因和解决方案,希望能在此基础上,促进学术期刊、一线研究人员以及教学工作者对这一问题的了解与关注,从而能够更好地应对。
2 可重复性问题的现状
虽然早已有研究者指出可重复性标准在心理学研究中的重要性(Schmidt,2009),但重复研究并未受到重视。对心理学文献的分析表明,重复研究仅占全部文献量的1.07%(Makel,Plucker,& Hegarty,2012)。对2000年到2002年在精神病领域的83篇高引用率文献进行分析也表明,其中40篇文献未得到任何的重复(Tajika et al.,2015)。正由于重复研究的缺乏,研究者无法准确评估整个心理学领域的可重复性状况。为了解决这一问题,研究者试图采用大规模重复实验直接重复已发表研究,以评估心理学领域的可重复性现状。
2.1 大规模直接重复实验的努力
开放科学中心(Center of Open Science,COS)。该中心创建了开放科学框架(Open Science Framework,OSF)平台,使得全世界的研究者可以合作进行实验,大规模重复实验也成为可能。作为初步的尝试,COS组织了“多实验室项目”(Many Labs Project,以下称为ML2014)。该项目选取13个经典的社会心理学效应进行重复,由多个实验室的研究者共同完成。该项目共收集到了美国和其他地区的36批数据(25个实验室样本,11个线上样本,共6344名被试),其结果显示,11个效应得以重复(99%置信区间不包括0)(Klein et al.,2014)。
尽管完全精确的重复在哲学上是不可能的(Earp & Trafimow,2015),但是尽可能贴近原实验进行直接重复(direct replication),能够相对直观地对已有研究的可重复性进行评估。然而,要对整个心理学研究领域进行大规模的重复实验,仅靠单个研究团队很难实现。在此背景之下,Nosek等创立了为了对整个心理学研究领域进行有代表性的重复,COS开展了“心理学研究可重复性项目”(Reproducibility Project:Psychology,RPP)。该项目选取2008年发表在Psychological Science、Journal of Personality and Social Psychology和Journal of Experimental Psychology:Learning,Memory,and Cognition三本期刊上的100篇论文,包括社会心理学、认知心理学等众多心理学领域。每个实验由一个参与团队认领后,与原文章作者联系以获取材料,并在OSF上提前注册研究信息。2015年,RPP项目参与者以Open Science Collaboration(OSC)团队作者之名,将RPP的结果发表在Science杂志上,结果显示64个重复实验未能得到显著结果,且得到显著结果的实验也出现平均效应量下降的现象。根据项目团队的评定,重复成功率为39%(Open Science Collaboration,2015)(以下简称OSC2015)。
自我反思,体现了科学研究中的自我纠正。一方面,这种自我纠正受到了广泛的赞扬(Nature News,2015;Science News Staff,2015),但另一方面,关于该项目是否客观准确,还存在着一些争议。
OSC2015的发表,产生了巨大的影响,其试图对心理学研究领域的可重复性问题进行评估的努力,表现出了心理学研究者的2.2 关于大规模直接重复实验的争议
Gilbert,King,Pettigrew和Wilson(2016)对OSC2015的结论提出质疑。他们指出,OSC2015存在三个方法问题,导致其过低地估计心理学的可重复性。首先,Gilbert等(2016)指出,OSC2015未考虑到误差(error)对重复实验的影响。即使对100个真实存在的效应进行重复,由于抽样误差等原因,重复实验的结果也有5%的可能落在原实验的95%置信区间之外①。此外,OSC2015在抽样以及其他实验操作上并未完全忠于原实验,可能进一步提高重复失败的基线。Gilbert等(2016)基于多实验室项目的数据(ML2014)指出,如果以重复实验的效应量是否落在原实验效应量95%置信区间作为衡量重复实验是否成功的指标,OSC2015可能的最大重复成功率为65%。即单纯地由于误差的影响,OSC2015中的100个实验中有多于34个实验从统计上讲“注定”是要失败的。其次,Gilbert等(2016)指出,OSC2015实验的统计检验力不足,因为每个实验只重复了一次,而不是像ML2014那样重复了多次。再次,OSC2015的重复实验可能存在偏见,因为有31%实验的原作者并未支持重复实验的程序,而这些未得到原实验作者支持的实验,重复成功率远低于那些得到原实验作者支持的实验。
针对Gilbert等(2016)的批评,OSC团队的部分作者进行了反驳(Anderson et al.,2016)。首先,Anderson等(2016)指出,以置信区间为重复实验的指标,如果仅由于误差的存在,期望的重复成功率大约为78.5%。但OSC2015的实际重复正确率仅为39%,远低于78.5%,因此重复失败有误差之外的原因。其次,Anderson等(2016)指出,Gilbert等(2016)将OSC2015与ML2014进行比较具有误导性,有三个方面的原因:(1)ML2014中,以效应量的置信区间为指标,重复实验效应量置信区间低于或高于原实验置信区间的比例相当,而OSC2015中只有5%的重复实验的置信区间超过了原实验。(2)Gilbert等(2016)使用ML2014中将同一实验在不同地点进行重复时的变异应用于OSC2015中,但未考虑到ML2014中因重复地点导致的变异在不同的实验之间存在差异:能够重复的实验具有较高的跨地点的变异性,而无法重复的实验的跨地点变异较小。如果将ML2014中重复成功的跨地点变异应用于OSC2015中未重复成功的实验中,这将夸大重复的成功率。(3)ML2014选择的是心理学中经典的效应,因此重复的成功率高,而OSC2015则是选择高影响因子杂志中具有代表性的研究。如果使用与ML2014中相似的方法对一些具有代表性的研究进行重复,得到的结果与OSC2015是相似的(见Many Labs第三阶段的重复实验结果(Ebersole et al.,2016))。此外,Anderson等(2016)也指出,在OSC2015中确实存在着由于统计检验力不够而无法检测出真实效应的现象,主要的原因在于重复实验的样本估计是基于原研究的效应量,而原研究报告的效应量由于出版偏见等原因有所夸大,因此难以估计出有足够检验力的样本量。
心理学研究的可重复性问题对于整个心理学研究领域来说至关重要,OSC2015发表以后,研究者仍然在进一步探索重复失败的原因。例如,van Bavel,Mende-Siedlecki,Brady和Reinero(2016)对OSC2015的公开结果进行了分析,让被试对被重复实验的背景敏感性(contextual sensitivity)进行评估,他们发现,被评估为背景敏感性高的研究更不容易被重复出来。这个结果一方面说明重复实验中可能没有考虑到原研究中未报告的关键操作,另一方面,也提示研究者需要对自己研究的背景敏感性进行报告,避免过度解读实验结果。此外,有不少研究者正在开展提前注册的重复实验,重复研究的流程也正在标准化,以减少重复实验的研究者与原实验作者之间的冲突(Brandt et al.,2014;Kahneman,2014)。还有研究者试图从统计方法来对当前心理学的可重复性进行评估,例如Schimmack(2014)提出了可重复指数(R-index)的概念,可以对一定数目的文献进行可重复性估计,但此方法还有待于进一步检验。
从某种程度上说,心理学中是否存在“重复危机”目前还没有定论。但无论“可重复危机”一词是否恰当,当前心理学研究者对可重复问题的讨论仍将具有深远的影响。
3 可重复性问题的原因
面对心理学研究的可重复性问题,许多心理学研究者积极反思其原因,努力寻找对策。从理论上讲,重复失败无外乎两个原因:要么原研究是假阳性,要么重复研究是假阴性。近年的实证研究表明,心理学研究的失败重复,很大程度上是由于原研究的假阳性过高。而这种过高的假阳性,又与当前心理学研究中方法与实践的不严谨密切相关,最明显的表现是研究实践中的可疑研究操作(John,Loewenstein,& Prelec,2012;Simmons et al.,2011),而出版偏见和对虚无假设检验的过度依赖则是造成研究者采用可疑研究操作的深层原因(Cumming,2014;Ioannidis,2008)。
可疑研究操作(questionable research practices)指研究者在研究过程中,采用不合理的手段来达到统计上的显著(即通常所说的p<0.05),也称为p值操纵(p-hacking)(Ioannidis,2008;John et al.,2012;Joober,Schmitz,Annable,& Boksa,2012)。主要的可疑操作包括条件性选择样本量、选择性报告数据或采用多个小样本研究而避免进行一个大样本实验。条件性选择样本即在研究中,不根据统计检验力的方法来计算样本量,而是收集数据的同时对数据进行分析,根据当前结果是否显著来决定是否停止收集数据。根据统计结果增加样本量,会使假阳性的概率增加从0.05增大为7.7%(Simmons et al.,2011),而根据结果停止收集数据,则会使样本量减少,降低研究统计效力,造成一种效应量“通胀”的现象,使得后续研究很难得到显著结果或者效应量减小(Ioannidis,2008)。调查显示,72%的心理学家会在分析数据之后决定是否收集更多的数据,还有36%的心理学家承认在取得想要的结果后便停止数据收集(John et al.,2012)。选择性报告数据则指选择性报告因变量、自变量或为得到显著结果而排除数据。这种做法会增加结果的假阳性(Simmons et al.,2011)。在实际的研究中,这种现象并不少见:40%或以上的研究没有完整报告全部实验条件,70%或者更多的研究未报告全部结果变量(Franco,Malhotra,& Simonovits,2016;John et al.,2012)。此外,还有一种可疑的研究操作是采用多个小样本、低统计效力的研究,选择其中的阳性结果进行报告,而不是进行一个大样本量、统计效力高的研究。这种做法同样造成效应量“通胀”,降低研究的可重复性(Bakker,van Dijk,& Wicherts,2012)。
研究者之所以进行可疑研究操作,可能是论文发表过程中的出版偏见。出版偏见(也叫做文件抽屉效应,file drawer effect)是指学术杂志更倾向于发表具有统计显著性(如,p<0.05)的结果,而没有统计显著的“零结果”(null results)只能放在研究者的抽屉之中(Ferguson & Heene,2012;Rosenthal,1979)。无论是文献分析(Fanelli,2010)、元分析(Bakker et al.,2012)、调查研究(Franco,Malhotra,& Simonovits,2014)还是新统计方法(如P-curve分析)的分析(Simonsohn,Nelson,& Simmons,2014;Simonsohn,Simmons,& Nelson,2015),均表明在心理学领域及相关领域存在严重的出版偏见(Ioannidis,Munafò,Fusar-Poli,Nosek,& David,2014;Kühberger,Fritz,& Scherndl,2014),而且可能是各个研究领域中最严重的(Fanelli,2010)。出版偏见最为直接的消极后果是迫使研究者得到阳性结果以发表论文。迫于职业发展的压力,研究者可能会采用可疑的研究操作来得到统计上显著的结果。出版偏见的存在,筛选掉了阴性的结果,夸大文献中报告的效应量,从而导致后续的重复实验无法得到统计上显著的结果或者效应量严重减小。