心理科学进展 2016, 24 (9): 1504-1518.
胡传鹏 1王非 1过继成思 1宋梦迪 1隋洁 2彭凯平 1
DOI: 10.3724/SP.J.1042.2016.01504
摘要:可重复性问题是当前科学界面临的共同问题。最近,心理学研究领域的可重复性问题也受到广泛关注,引起了研究者的积极讨论与探索。通过对2008年发表的100项研究结果进行大规模重复实验,研究者发现,心理学研究的成功重复率约为39%,但该研究仍然存在着巨大的争议,不同的研究者对其结果的解读不尽相同。针对可重复性问题,研究者通过数据模拟、元分析以及调查等多种方法来分析和探索其原因,这些研究表明,可重复性问题本质上可能是发表的研究假阳性过高,可疑研究操作是假阳性过高的直接原因,而出版偏见和过度依赖虚无假设检验则是更加深层的原因。面对可重复性问题,研究者从统计方法和研究实践两个方面提出了相应的解决方案,这些方法与实践正在成为心理学研究的新标准。然而,要解决可重复性问题,还需要心理学研究领域的多方参与,尤其是在政策上鼓励公开、透明和开放的研究取向,避免出版偏见。心理学研究者为解决可重复性问题做出的努力,不仅会加强心理学研究的可靠性,也为其他学科解决可重复问题提供了借鉴,推动科学界可重复问题的解决。
关键字:可重复性 假阳性 基于估计的统计 开放科学 革新 replicability false positive estimate-based statistic open science reform
1 引言
可重复性(replicability)是判断科学研究结果是否可靠的重要标准(Schmidt,2009),然而可重复性问题困扰着科学研究的许多领域(Begley & Ellis,2012;Chang & Li,2015;Ioannidis,2005;Tajika,Ogawa,Takeshima,Hayasaka,& Furukawa,2015)。早在2005年,就有研究者指出,大部分研究结果可能都是不可靠的(Ioannidis,2005),有些研究领域的可重复率只有11%(Begley & Ellis,2012)。最近Nature杂志对1500多名研究者的调查也表明,90%接受调查的研究者认为,在科学界存在着可重复危机(Baker,2016)。近年来可重复性问题在心理学中也日益受到关注(Schooler,2014;Spellman,2015)。由于心理学研究对法律和政策的影响(胡传鹏,邓晓红,周治金,邓小刚,2011),可重复性问题对政策甚至是法律产生的影响也受到关注(Chin,2014)。因此,心理学研究者近年来积极地讨论可重复性问题的原因及对策,这些努力的结果不仅正在改变心理学研究的格局,也为其他研究领域应对可重复问题提供良好的借鉴。
Klein,Pichon,& Cleeremans(2012)和Lurquin等(2016),以及PsychFileDrawer:http://psychfiledrawer.org/上的大量报道),使得心理学研究的科学性受到质疑(Pashler & Wagenmakers,2012)。至此,可重复危机(replication crisis)的说法受到广泛关注(Schooler,2014;Yong,2012)。
心理学研究者对可重复性问题的关注始于2011年初,康奈尔大学心理学家Daryl Bem在社会心理领域顶级期刊Journal of Social and Personality Psychology(JPSP)上发表关于预知未来的研究(Bem,2011;Miller,2011),但重复实验却未能得到与其相同的结果(Galak,LeBoeuf,Nelson,& Simmons,2012;Ritchie,Wiseman,& French,2012)。不久,Simmons,Nelson和Simonsohn(2011)在Psychological Science上发表了题为《False Positive Psychology》的论文,揭示心理学研究中假阳性过高的现象及原因,引起广泛重视。同年11月,荷兰心理学家Diederik Stapel数据造假事件被曝光,在心理学研究领域更是投下了重磅炸弹。调查显示,其职业生涯的137篇论文中,有55篇数据均属造假,其中不乏顶级期刊如Science和JPSP发表的论文。调查报告指出,此造假事件除了Stapel个人的原因外,心理学研究方法与审稿标准的严谨性不足也难辞其咎,对心理学研究领域提出了责难(Alberts,2011;Enserink,2012;Ten for 2011)。随后,大量重复实验均未能重复先前研究的结果(如Doyen,面对可重复性问题,心理学研究者积极地分析其原因、探索其对策:不仅在学术期刊中组织专刊对可重复性问题进行讨论(Barch & Yarkoni,2013;Pashler & Wagenmakers,2012;Spellman,2012,2013),也召开关于可重复性问题的专题研讨会(如英国心理学会组织的Open Debate on Replication and Reproducibility in Psychological Science)。这些关于可重复性问题的讨论,可能成为心理学学科发展的重要契机。充分了解这些变化对未来的研究有着重要的参考价值。本文旨在分析可重复性问题的现状,探讨可重复性问题的原因和解决方案,希望能在此基础上,促进学术期刊、一线研究人员以及教学工作者对这一问题的了解与关注,从而能够更好地应对。
2 可重复性问题的现状
精神病领域的83篇高引用率文献进行分析也表明,其中40篇文献未得到任何的重复(Tajika et al.,2015)。正由于重复研究的缺乏,研究者无法准确评估整个心理学领域的可重复性状况。为了解决这一问题,研究者试图采用大规模重复实验直接重复已发表研究,以评估心理学领域的可重复性现状。
虽然早已有研究者指出可重复性标准在心理学研究中的重要性(Schmidt,2009),但重复研究并未受到重视。对心理学文献的分析表明,重复研究仅占全部文献量的1.07%(Makel,Plucker,& Hegarty,2012)。对2000年到2002年在2.1 大规模直接重复实验的努力
开放科学中心(Center of Open Science,COS)。该中心创建了开放科学框架(Open Science Framework,OSF)平台,使得全世界的研究者可以合作进行实验,大规模重复实验也成为可能。作为初步的尝试,COS组织了“多实验室项目”(Many Labs Project,以下称为ML2014)。该项目选取13个经典的社会心理学效应进行重复,由多个实验室的研究者共同完成。该项目共收集到了美国和其他地区的36批数据(25个实验室样本,11个线上样本,共6344名被试),其结果显示,11个效应得以重复(99%置信区间不包括0)(Klein et al.,2014)。
尽管完全精确的重复在哲学上是不可能的(Earp & Trafimow,2015),但是尽可能贴近原实验进行直接重复(direct replication),能够相对直观地对已有研究的可重复性进行评估。然而,要对整个心理学研究领域进行大规模的重复实验,仅靠单个研究团队很难实现。在此背景之下,Nosek等创立了为了对整个心理学研究领域进行有代表性的重复,COS开展了“心理学研究可重复性项目”(Reproducibility Project:Psychology,RPP)。该项目选取2008年发表在Psychological Science、Journal of Personality and Social Psychology和Journal of Experimental Psychology:Learning,Memory,and Cognition三本期刊上的100篇论文,包括社会心理学、认知心理学等众多心理学领域。每个实验由一个参与团队认领后,与原文章作者联系以获取材料,并在OSF上提前注册研究信息。2015年,RPP项目参与者以Open Science Collaboration(OSC)团队作者之名,将RPP的结果发表在Science杂志上,结果显示64个重复实验未能得到显著结果,且得到显著结果的实验也出现平均效应量下降的现象。根据项目团队的评定,重复成功率为39%(Open Science Collaboration,2015)(以下简称OSC2015)。
自我反思,体现了科学研究中的自我纠正。一方面,这种自我纠正受到了广泛的赞扬(Nature News,2015;Science News Staff,2015),但另一方面,关于该项目是否客观准确,还存在着一些争议。
OSC2015的发表,产生了巨大的影响,其试图对心理学研究领域的可重复性问题进行评估的努力,表现出了心理学研究者的2.2 关于大规模直接重复实验的争议
Gilbert,King,Pettigrew和Wilson(2016)对OSC2015的结论提出质疑。他们指出,OSC2015存在三个方法问题,导致其过低地估计心理学的可重复性。首先,Gilbert等(2016)指出,OSC2015未考虑到误差(error)对重复实验的影响。即使对100个真实存在的效应进行重复,由于抽样误差等原因,重复实验的结果也有5%的可能落在原实验的95%置信区间之外①。此外,OSC2015在抽样以及其他实验操作上并未完全忠于原实验,可能进一步提高重复失败的基线。Gilbert等(2016)基于多实验室项目的数据(ML2014)指出,如果以重复实验的效应量是否落在原实验效应量95%置信区间作为衡量重复实验是否成功的指标,OSC2015可能的最大重复成功率为65%。即单纯地由于误差的影响,OSC2015中的100个实验中有多于34个实验从统计上讲“注定”是要失败的。其次,Gilbert等(2016)指出,OSC2015实验的统计检验力不足,因为每个实验只重复了一次,而不是像ML2014那样重复了多次。再次,OSC2015的重复实验可能存在偏见,因为有31%实验的原作者并未支持重复实验的程序,而这些未得到原实验作者支持的实验,重复成功率远低于那些得到原实验作者支持的实验。
针对Gilbert等(2016)的批评,OSC团队的部分作者进行了反驳(Anderson et al.,2016)。首先,Anderson等(2016)指出,以置信区间为重复实验的指标,如果仅由于误差的存在,期望的重复成功率大约为78.5%。但OSC2015的实际重复正确率仅为39%,远低于78.5%,因此重复失败有误差之外的原因。其次,Anderson等(2016)指出,Gilbert等(2016)将OSC2015与ML2014进行比较具有误导性,有三个方面的原因:(1)ML2014中,以效应量的置信区间为指标,重复实验效应量置信区间低于或高于原实验置信区间的比例相当,而OSC2015中只有5%的重复实验的置信区间超过了原实验。(2)Gilbert等(2016)使用ML2014中将同一实验在不同地点进行重复时的变异应用于OSC2015中,但未考虑到ML2014中因重复地点导致的变异在不同的实验之间存在差异:能够重复的实验具有较高的跨地点的变异性,而无法重复的实验的跨地点变异较小。如果将ML2014中重复成功的跨地点变异应用于OSC2015中未重复成功的实验中,这将夸大重复的成功率。(3)ML2014选择的是心理学中经典的效应,因此重复的成功率高,而OSC2015则是选择高影响因子杂志中具有代表性的研究。如果使用与ML2014中相似的方法对一些具有代表性的研究进行重复,得到的结果与OSC2015是相似的(见Many Labs第三阶段的重复实验结果(Ebersole et al.,2016))。此外,Anderson等(2016)也指出,在OSC2015中确实存在着由于统计检验力不够而无法检测出真实效应的现象,主要的原因在于重复实验的样本估计是基于原研究的效应量,而原研究报告的效应量由于出版偏见等原因有所夸大,因此难以估计出有足够检验力的样本量。
心理学研究的可重复性问题对于整个心理学研究领域来说至关重要,OSC2015发表以后,研究者仍然在进一步探索重复失败的原因。例如,van Bavel,Mende-Siedlecki,Brady和Reinero(2016)对OSC2015的公开结果进行了分析,让被试对被重复实验的背景敏感性(contextual sensitivity)进行评估,他们发现,被评估为背景敏感性高的研究更不容易被重复出来。这个结果一方面说明重复实验中可能没有考虑到原研究中未报告的关键操作,另一方面,也提示研究者需要对自己研究的背景敏感性进行报告,避免过度解读实验结果。此外,有不少研究者正在开展提前注册的重复实验,重复研究的流程也正在标准化,以减少重复实验的研究者与原实验作者之间的冲突(Brandt et al.,2014;Kahneman,2014)。还有研究者试图从统计方法来对当前心理学的可重复性进行评估,例如Schimmack(2014)提出了可重复指数(R-index)的概念,可以对一定数目的文献进行可重复性估计,但此方法还有待于进一步检验。
从某种程度上说,心理学中是否存在“重复危机”目前还没有定论。但无论“可重复危机”一词是否恰当,当前心理学研究者对可重复问题的讨论仍将具有深远的影响。
3 可重复性问题的原因
面对心理学研究的可重复性问题,许多心理学研究者积极反思其原因,努力寻找对策。从理论上讲,重复失败无外乎两个原因:要么原研究是假阳性,要么重复研究是假阴性。近年的实证研究表明,心理学研究的失败重复,很大程度上是由于原研究的假阳性过高。而这种过高的假阳性,又与当前心理学研究中方法与实践的不严谨密切相关,最明显的表现是研究实践中的可疑研究操作(John,Loewenstein,& Prelec,2012;Simmons et al.,2011),而出版偏见和对虚无假设检验的过度依赖则是造成研究者采用可疑研究操作的深层原因(Cumming,2014;Ioannidis,2008)。
可疑研究操作(questionable research practices)指研究者在研究过程中,采用不合理的手段来达到统计上的显著(即通常所说的p<0.05),也称为p值操纵(p-hacking)(Ioannidis,2008;John et al.,2012;Joober,Schmitz,Annable,& Boksa,2012)。主要的可疑操作包括条件性选择样本量、选择性报告数据或采用多个小样本研究而避免进行一个大样本实验。条件性选择样本即在研究中,不根据统计检验力的方法来计算样本量,而是收集数据的同时对数据进行分析,根据当前结果是否显著来决定是否停止收集数据。根据统计结果增加样本量,会使假阳性的概率增加从0.05增大为7.7%(Simmons et al.,2011),而根据结果停止收集数据,则会使样本量减少,降低研究统计效力,造成一种效应量“通胀”的现象,使得后续研究很难得到显著结果或者效应量减小(Ioannidis,2008)。调查显示,72%的心理学家会在分析数据之后决定是否收集更多的数据,还有36%的心理学家承认在取得想要的结果后便停止数据收集(John et al.,2012)。选择性报告数据则指选择性报告因变量、自变量或为得到显著结果而排除数据。这种做法会增加结果的假阳性(Simmons et al.,2011)。在实际的研究中,这种现象并不少见:40%或以上的研究没有完整报告全部实验条件,70%或者更多的研究未报告全部结果变量(Franco,Malhotra,& Simonovits,2016;John et al.,2012)。此外,还有一种可疑的研究操作是采用多个小样本、低统计效力的研究,选择其中的阳性结果进行报告,而不是进行一个大样本量、统计效力高的研究。这种做法同样造成效应量“通胀”,降低研究的可重复性(Bakker,van Dijk,& Wicherts,2012)。
研究者之所以进行可疑研究操作,可能是论文发表过程中的出版偏见。出版偏见(也叫做文件抽屉效应,file drawer effect)是指学术杂志更倾向于发表具有统计显著性(如,p<0.05)的结果,而没有统计显著的“零结果”(null results)只能放在研究者的抽屉之中(Ferguson & Heene,2012;Rosenthal,1979)。无论是文献分析(Fanelli,2010)、元分析(Bakker et al.,2012)、调查研究(Franco,Malhotra,& Simonovits,2014)还是新统计方法(如P-curve分析)的分析(Simonsohn,Nelson,& Simmons,2014;Simonsohn,Simmons,& Nelson,2015),均表明在心理学领域及相关领域存在严重的出版偏见(Ioannidis,Munafò,Fusar-Poli,Nosek,& David,2014;Kühberger,Fritz,& Scherndl,2014),而且可能是各个研究领域中最严重的(Fanelli,2010)。出版偏见最为直接的消极后果是迫使研究者得到阳性结果以发表论文。迫于职业发展的压力,研究者可能会采用可疑的研究操作来得到统计上显著的结果。出版偏见的存在,筛选掉了阴性的结果,夸大文献中报告的效应量,从而导致后续的重复实验无法得到统计上显著的结果或者效应量严重减小。
可疑研究操作和出版偏见,均与心理学研究中对虚无假设显著性检验(Null Hypothesis Significance Test,NHST)的过度依赖甚至误用有关。NHST是心理学界最主流的统计方法(Cumming et al.,2007;Sterling,Rosenbaum,& Weinkam,1995),但是其存在不少问题(见Bakan(1966)、Cohen(1988)、焦璨和张敏强(2014),详细的总结见Kline(2004))。NHST主要从两方面影响研究的可重复性:第一,NHST中以p值是否小于0.05作为统计显著性的二分思维方式,严重地影响了学术期刊中的出版偏见,继而导致了研究者的可疑研究操作(Gadbury & Allison,2012;Kirk,2008)。第二,p值本身随着抽样变化较大,不适合作为重复研究的统计指标(Cumming,2014;Halsey et al.,2015)(见图1)。更严重的是,大部分研究者对p值所代表的含义并不能正确地理解。向调查者询问关于p值所代表的含义时,即使是心理统计学方向的老师,也只有20%的人能够对关于p值的6个论断全部进行正确的判断(Gigerenzer,2004;Haller & Krauss,2002;Oakes,1986),对国内心理学专业学生的调查也得到相似的结果(图2)。正是由于对p值所代表含义存在着诸多的误解,美国统计学会(American Statistical Association,ASA)最近发布的正式声明,明确指出p值无法用来表明某个研究假设是否正确,不能使用p值作为唯一的指标进行科学的决策②(Wasserstein & Lazar,2016)。
图1 多次重复实验时p值(左侧纵坐标)与效应量的置信区间(绿色线段)变化的示意图。假定实验组与控制组(样本均为n=30人)的总体均值分别是μ[,e]=60和μ[,c]=50,联合的方差为20。使用ESCI软件(Cumming,2012)进行100次模拟(图中显示的是部分结果),p值大于0.1的比例为32%,0.05~0.1之间为12%,小于0.05大于0.01的有30%,19%的在0.01~0.001之间,小于0.001的为7%。这意味着使用p<0.05作为重复研究的标准,一次重复实验有44%的可能性无法成功重复,与先前的模拟数据结果一致(Cumming,2008;Halsey,Curran-Everett,Vowler,& Drummond,2015)。
图2 对p值理解错误的比例。假定p=0.01情况下,参与者对6个关于p值的论断理解情况。6个关于p值的论断为:A,你完全证否了零假设;B,你发现了零假设为真的概率;C,你完全证明实验假设;D,你可推断出实验假设为真的概率;E,你可以得知,你拒绝零假设时犯错的概率;F,如果重复多次实验,99%实验结果显著。调查数据来自本科生(91名)、硕士研究(134名)和博士生(56名)以及取得博士学位的同行(27名)(见电子版补充材料1和补充材料3)。
对可重复性问题原因的分析表明,可疑研究操作是导致心理学研究假阳性率高的直接因素,而出版偏见和对虚无假设的过度依赖则是背后深层的原因。这三个原因主要解释了原研究假阳性所导致的重复研究失败,但也有研究者指出,重复实验本身的统计检验力不够而导致的假阴性,也可能是重复失败的重要原因(Maxwell,Lau,& Howard,2015;Vankov,Bowers,& Munafò,2014),包括大规模的重复实验项目也可能存在这个问题(Etz & Vandekerckhove,2016)。还有研究者指出,由于心理学研究中变量非常微妙,因此直接的重复可能无法得到原有的效应,关键是要对原研究中变量操纵进行重复(Stroebe & Strack,2014)。此外,研究者自身的认知偏差等原因也可能导致研究的结果难以重复(Nuzzo,2015)。可重复性问题背后复杂的原因表明,要解决这个问题,心理学研究需要从多个角度改进。
4 解决可重复性问题——新的统计方法
基于估计的统计方法(estimates-based statistics)(Cumming,2014)等。其中基于估计的统计从60年代起即被研究者所推荐(Cohen,1962,1988,1994),也是美国心理学会(包括APA和APS)推荐使用的统计指标(American Psychological Association,2010;Cumming,2014;Wilkinson,1999)。在可重复性问题受到关注之后,基于估计的统计再次受到重视,正逐渐成为论文必须报告的统计指标(Cumming,2014;Eich,2014)。
由于NHST是可重复性问题背后的主要原因之一,因此不少研究者建议使用新的统计指标来替代NHST或者对其进行补充。这些新的方法包括贝叶斯取向(Bayesian)的假设检验(Wagenmakers,Wetzels,Borsboom,& van der Maas,2011)、稳健的统计方法(robust statistics)(Erceg-Hurn & Mirosevich,2008;Wilcox,2011)和基于估计的统计与NHST的主要区别是采用量化而非二分的思维方式来看待研究,其将单个研究看作是一次随机抽样得到的结果。对研究结果的分析中,使用量化的统计指标而不是二分的显著性检验。具体而言,基于估计的统计鼓励在单个的研究中报告效应量(effect size,又译为效果量)及其置信区间(confidence intervals,CIs),使用元分析对多个研究的效应量进行综合以得到对真实效应更加准确的估计,推进心理学中知识的累积(Cumming,2012,2014)。
4.1 效应量及其置信区间