坎贝尔实验研究效度框架在应用语言学中的应用

作者：鲍贵 / 8772次阅读时间： 2016年2月24日
来源：《外语研究》 2015年03期标签：坎贝尔效度框架效度威胁应用语言学

首页 > 心理学 > C > 33 坎贝尔 | Campbell

www.psychspace.com心理学空间网

0B9R)uK4O.A.K%m0坎贝尔实验研究效度框架在应用语言学中的应用心理学空间JN0u{t

【摘要】：应用语言学广泛使用实验方法探索变量之间的因果关系,但是实验研究的评估缺乏一个相对完整的体系。本文以应用语言学为背景简要评述了最有代表性的实验研究评估体系——坎贝尔效度框架。坎贝尔效度框架以明确的效度分类体系和各种效度的开放性威胁清单为特色,不失为应用语言学研究者开展和评价实验研究的指导性评估体系。心理学空间U~.Awc$aS%o

4l%m:tm1L3p y0【作者单位】：鲍贵南京工业大学英语系; 《外语研究》 2015年03期

-~3i:Lqa tVd z0【关键词】：坎贝尔实验效度框架效度威胁应用语言学心理学空间g~%gy5en

心理学空间^\-uGpl&DH

]+Mk0I SD01. 引言心理学空间TD;bN)|+CqN^t

2@6wy5g[^8z0定量研究质量评估近年来越来越受到学术界的重视，尤其表现在系统评价和元分析中（Lazaraton2000;Plonsky 2014;郑新民 2009;李德俊，洪艳青2012;鲍贵 2014a,2014b）。基于某个研究课题的系统评价和元分析包括两大类。一类是囊括关联性研究和实验研究的系统评价和元分析（Plonsky & Gass2011;Plonsky 2013;何家宁，张文忠 2009）；另一类是对实验研究的元分析（Norris & Ortega 2000;Huang etal. 2012）。较为全面的、不限于某个研究课题的实验研究系统评价则很少（吴旭东 2002）。这在一定程度上说明综合评价实验研究难度很大。

系统回顾和元分析的价值取决于各项实验研究的质量。鉴于实验各个环节所包含的要素的复杂性，前期研究评价主要就实验的若干要素进行评估，致使评价难免以偏概全。应用语言学界似乎普遍缺乏实验研究的系统知识，对实验研究的系统评价体系了解或应用不足。本文主要以应用语言学为背景评述实验研究最有代表性的评估体系-坎贝尔（Campbell）开创的效度框架（validity framework），为全面评估语言学实验研究的质量提供必要的参考依据。心理学空间q-ss @^j7z8V,T

2. 坎贝尔实验研究效度框架

SU'y[K)F&R{ f0Campbel（l1957）首次在实验研究的评估中引入“效度”的概念，将之二分为内部效度（internalvalidity）和外部效度（external validity）。历经半个多世纪，坎贝尔效度研究传统的发展大致经历了三个阶段，每个阶段的发展集中体现为 Campbell 及其同事的代表作。第一个阶段为上个世纪 60 年代，代表作是 Campbell & Stanley（1966）的实验和准实验设计研究。第二阶段为上个世纪 70、80 年代，代表作是Cook & Campbel（l1979）关于准实验设计的研究，提出了效度四分法，即内部效度、统计结论效度（statistical conclusion validity）、构念效度（constructvalidity）和外部效度。本世纪初为 Campbell 效度研究发展的第三个阶段，代表作是 Shadish et al（。2002）关于广义因果推断的实验和准实验设计研究，继承与发展了前一个阶段的效度理论。坎贝尔效度评估框架以效度分类和效度威胁（threats to validity）清单为特色，注重推广理论的构建。下面以 Shadish et al.（2002）为主评述坎贝尔实验研究效度框架。

/~1j&e,G5?3w#Tz"q02.1 效度类型心理学空间)Q:^|B!h{z

#j2nO;l'W0效度指推断的近似真实性（Shadish et al. 2002:34）。“近似”这一限制语表明，我们绝不可能知道什么是真实的，充其量只能知道什么还没有作为错误被排除（Cook & Campbell 1979:37）。效度是推断的属性，不是研究设计或方法的属性（Shadish et al. 2002:34）。在效度分类上，Shadish et al（。2002）沿用了 Cook& Campbell（1979）的效度四分法。

根据 Cook & Campbel（l1979:41），统计结论效度推断在 α 的某个水平上，由方差推定协变异的合理性。Shadish et al。（2002）对 Cook & Campbel（l1979）的统计结论效度的定义做了拓展，包括他们没有给予足够重视的实验效应量（effect size）的大小。

$S+mecZ;_Q0内部效度推断观察到的操纵变量 A（推定的处理）和测量变量 B（推定的结果）之间的协变异是否由A 导致了 B（Shadish et al. 2002:38）。这一定义强调推断处理变量 A 和结果变量 B 之间的因果关系，且在A 和 B 之间加上了限制语“推定的”（presumed）。“推定的”处理和“推定的”结果隐含着实际的研究操作未必就是计划的研究操作，可能还包括外扰因素。心理学空间|gx5v1G1J+?zRg

0K5lj@(oj0Cook & Campbel（l1979:38）将构念效度的指称范围限制为处理和结果（或结果测量），但是 Shadishet al（。2002:38）扩大了指称范围，将构念效度定义为从研究中对人、场景、处理和结果的操作向这些操作可能代表的构念所做推断的合理性。Shadish et al.（2002:38-39）认为，虽然 Cook & Campbel（l1979）将构念效度的应用范围限制在处理和结果测量有一定的道理，但是这种对因果构念效度的重视有时让人觉得对人和场景总体的概括不重要，构念效度理应包括这两个层面。

W$u5]'o%Id)d2DB-r+O0Cook & Campbell（1979:38-39）将外部效度的指称范围限制为人、场景和时间。Shadish et al。（2002:38）则不将时间维度单列，将外部效度定义为在人、场景、处理和结果测量发生变化时推断因果关系成立的有效性。Shadish et al。（2002）定义中的外部效度指称范围等同于构念效度的指称范围，包括 Cook &Campbel（l1979）提到的两类推广---向总体的推广和在子总体之间推广。

2.2 效度威胁种类心理学空间z\Gv$]c

效度威胁是使推断失效的因素。效度威胁可以从不同角度去理解。它们是合理的对立假设（plausible rival hypotheses），即与实验处理有效应假设相对立的假设，也是混淆变量（confounds），或是无效度的来源（sources of invalidity）。心理学空间wn#c,@ pZ)x

8gn6s Bk)q02.2.1 统计结论效度威胁Shadish et al。（2002:42-52）列出九个统计结论效度威胁。这些威胁及其描述如表 1 所示。表 1 中，第一、二个威胁涉及处理变量操作和结果变量测量的信度问题。信度是效度的前提条件。没有信度，就谈不上效度。第三至第五个威胁是统计分析存在的问题，如错误使用统计分析和效应量估计方法或没有对异常值进行必要的诊断与处理。统计效力低不仅与处理和结果测量的信度有关，而且可能是第七至第九个威胁的直接结果。

2.2.2 内部效度威胁Shadish et al。（2002:54-61）也列出九个内部效度威胁。这些威胁及其描述如表 2 所示。原因变量在前，结果变量在后，这是推断因果关系的必要条件之一。在实验研究中，处理变量的操纵发生在因变量的测量之前，研究者不必担心模糊的时序性威胁。表 2 中的第二至第五个威胁与被试特征有关。第六至第八个威胁与实验程序有关。

Eaz ^ c;\yZq,w0第九个威胁反映不同威胁的交互作用。譬如，在包括两个非对等（nonequivalent）组的准实验中，如果一个组的前测成绩不仅明显好于另一个组，而且成绩随时间提升的速度也更快，那么选择和成熟就有可能会加倍提升其后测成绩，产生选择与成熟叠加效应。

2.2.3 构念效度威胁Shadish et al。（2002:72-81）列出十四个构念效度威胁。表 3 概括了十一个构念效度威胁。表 3 中前五个威胁，既适用于处理和结果变量，又适用于人和场景，其他威胁主要针对结果变量的构念效度问题，尤其针对处理变量的构念效度问题。Shadish et al。（2002:73）列出的最后四个威胁（补偿性平等、补偿性竞争、怨恨性怠工和处理扩散）在表中被统称为污染威胁。这样做的目的是减少读者的记忆负荷。当实验处理向处理组提供合意的物品或服务时，管理者或相关人员或许认为控制组受到不平等待遇，于是向控制组提供一些物品或服务作为补偿，这些补偿就会成为实际的处理构念的一部分，由此产生（目标）处理的构念效度威胁。

HzP bX9z%{MG0补偿性竞争威胁指没有接受处理的参与者通过努力试图证明自己的表现不亚于接受处理的参与者。心理学空间QS9E pIh)ju

9aP5u"VB2O+k0这种补偿性竞争包括在实际的处理过程中，对（目标）处理构念的效度构成威胁。参与者的行为结果被公开，表现不佳会产生不良后果，通常都会引发补偿性竞争。怨恨性怠工在某些方面与补偿性竞争相反。处于不利的条件可能激发控制组加倍努力赶上或超过处理组，也可能使控制组产生怨气，消极怠工，削弱行为表现的结果。在外语教学实验研究中，处于不利条件中的控制组意识到隔壁班级的学生得到有利的处理时可能会垂头丧气，对教学产生对立情绪，故意表现不佳或捣乱。这些因素有可能导致实验组和控制组后测的差异。如果把后测差异仅归因于（目标）处理，那就大错特错了。当处理组和控制组距离很近，而且能够与控制组交流处理的信息时，就有可能产生处理扩散威胁。出现处理扩散时，实验结果就会无效，因为处理扩散与（目标）处理构念相混淆。心理学空间2Ymt%j I4e.\

nqS[#F)D/A0表 3 列出的威胁中，不好理解的威胁可能是单一操作偏差、单一方法偏差和对处理敏感的因子结构。心理学空间Sh0l6{4c!Q

LbyE+kL1C6g hB0单一操作偏差和单一方法偏差是由不充分的构念操作引起的效度威胁。单一操作可能不足以代表构念，且包含无关因素。假设你认为男性学生更愿意向女性教师求教外语学习方法，于是将一批男生随机分成两组被试，检验假设的合理性。一组被试阅读关于一位女性教师的文字描述（包括女性化姓名），并附上照片。另一组被试则阅读关于一位男性教师的文字描述（包括男性化姓名），并附上照片。被试随后填写问卷，表明他们向男性或女性教师求教的意愿性程度。由于该例对性别的操作只限于一次描述、一个姓名和一张照片，因而性别的操作定义偏窄，研究发现也许只适合于这一特殊的操作范例。一个更好的操作方法是使用多个描述、多个姓名和多张照片。使用多个范例有助于发现范例的变化是否对测量结果产生影响。实际研究中，自变量的多元操作常常很难实施。相比之下，对因变量进行多个测量则较为容易。心理学空间o4TT.iJ*r[/fo~c A

2[C/a Q+svi0譬如，在研究语言流利度时，我们倾向于使用多个测量指标，以减少或避免使用单个测量造成的构念代表性不足问题。单一方法偏差指使用一种操作方法产生的构念效度威胁。上面举的例子中，尽管我们可以使用多个描述、多个姓名和多张照片消除单一操作偏差，但是对性别的操作只使用了一种方法，采用其他方法（如让被试观看不同性别教师的录像）是否能够得到同样的结果仍有疑问。同样，使用多个测量能够更充分地代表被测量的构念，但是如果测量方法相同，比如只使用自陈报告，则也可能会产生构念效度威胁。心理学空间o4v"D6?$],G7n

关于处理敏感的因子结构威胁，Shadish et al.（2002:77）举了一个种族偏见测量的例子。那些没有接受处理的被试组在对其他种族的态度测量中或许做出大致一致的应答，说明种族偏见为单因子结构。心理学空间f;oo$B8eDc[

;c,G9|3Ny3g-g0那些接受处理的被试组或许由于处理而改变了对测量构念的认识，在态度测量中做出的应答体现种族偏见的多因子性。由测量得到的综合分数在不同组中代表的因子结构是不同的，使构念测量的结果在组间没有了可比性。心理学空间oM\;?Q&R

2.2.4 外部效度威胁Shadish et al。（2002:86-90）列出五个外部效度威胁。这些威胁及其描述如表 4 所示。实验研究中，构念效度未必与因果关系相联系，但是外部效度必须与因果关系相联系。除了最后一个效度威胁之外，表 4 列出的其他四个威胁均反映因果关系与其他因素的交互作用。譬如，如果一个外语教学实验中的处理与外语学习者的外语水平存在交互作用，我们就不能认为同一个实验结果适用于不同水平的外语学习者，因为交互作用意味着处理的效应量和/或效应的方向在不同外语水平组之间是不同的。交互作用的存在限制了处理效应或研究结果的推广。Shadish et al。（2002:86）强调交互作用隐含的概念的重要性，即交互作用概念的本质是寻找因果关系随或不随人和场景等因素的变化而改变的方式。在 Shadish et al。（2002:86-87）看来，外部效度威胁问题能够通过统计意义上的交互作用检验来回答固然好，但是不能用统计检验来回答并不会妨碍研究者寻找外部效度威胁。尽管研究者无法对没有被研究到的人和场景等因素进行交互作用检验，但是他们仍然可以根据专业经验或前期相关研究提出合理的交互作用假设，以此评价研究结果的推广性，设计新的研究。

hmx^&_n(}k3I0依赖于环境的中介作用威胁指环境的变化（包括场景、被试、处理和结果测量性质的变化）造成的因果解释的变化。譬如，在综合性大学实施的大学英语教学改革项目通过小班化教学提高了学习者的语言水平。这一结论或许不能被推广到理工类大学。即使理工类大学的大学英语教学改革项目也提高了学习者的语言水平，但是这一提高可能是通过增加课时量实现的。心理学空间 f M1AtUi2a

I*C5Oxr H(e,th03. 应用坎贝尔实验研究效度框架应注意的问题心理学空间*f9xu;L3^s5B7~*D

6q7K*nmSZgH0坎贝尔实验研究效度框架的发展源于对理论问题的不断反思，更源于对实证研究经验的不断积累。本节主要讨论在实际研究中面临的各种效度之间的权衡、效度威胁的诊断以及外部效度分类问题。心理学空间Z8@a)aA

6I[a9f.Bs03.1 效度之间的权衡心理学空间Zy!]Q^pR6p"An

;h6lug#n)JP1I5D0实验研究的中心目的是发现因果关系，因而在进行效度权衡时，内部效度的考虑通常要优先于其他效度。不过，在内部效度不受到严重威胁的情况下，少量地牺牲内部效度以提高其他效度也是可以的。Cook & Campbell（1979:82-85）认为，效度之间的优先性随研究种类而变化。对于理论性研究来说，构念效度几乎和内部效度同样重要，因为构念在理论构建与检验中发挥着至关重要的作用。理论很少确定背景因素（如目标场景或人类总体），因而外部效度通常让位于统计结论效度。按照这种观点，在理论性实验研究中，背景因素通常应是被控制的，而不是被检验的。Cook & Campbel（l1979:83）由此推测，对于理论性研究者来说，各个效度类型的优先顺序可能是内部效度、构念效度（原因构念效度比结果构念效度可能更重要）、统计结论效度和外部效度。对于应用性研究来说，研究者更关心外部效度，即研究的结果是否能够被外推到研究者感兴趣的场景和人群等情形中去，背景因素往往成为研究的重要变量。此外，应用研究者很可能相对较少地关注处理操作中究竟是什么因素影响了结果，更加关注处理操作是否导致期望的结果，因而可能更重视结果构念的效度。Cook & Campbell（ibid.）推测，应用性实验研究效度优先顺序为：内部效度、外部效度、结果构念效度、统计结论效度和原因构念效度。当然，Cook & Campbell（1979）对于效度优先的排序多少带有主观性。落实到具体研究中，研究者还需要结合研究背景、研究的主要目的和研究计划开展的可行性等因素权衡效度优先考虑的得与失。心理学空间J!Q:AQ&p

3.2 效度威胁的诊断

:L7L?!\`0效度之间的权衡和每种效度的推断都离不开对效度威胁的诊断。坎贝尔效度框架为我们提供了一些常见的效度威胁。研究者在实验研究中要注意三点：心理学空间s#HQ%G!iJ8V

`j"R,k-HA0第一，效度威胁清单中的每个威胁都有合理性，但是每个威胁作用的频率或对结果变量的影响程度并非相同（Cook & Campbell 1979:41-42）。效度威胁是对实验评估的一般性参考，每个威胁的合理性有多大还要结合具体的实验研究。效度威胁清单的作用是使实验者更加意识到设计中残留的缺憾，以便在相关点上能够注意到对数据的不同解释（Campbell& Stanley 1966:34）。

I~'A Kw]0l0|0第二，任何研究都不能排除所有的威胁，有威胁并非意味着研究没有价值。研究者需要根据研究实际对效度威胁的严重性进行诊断。只要效度威胁不至于严重到使结论完全不可信，一项研究在科学上就仍然有用。后期研究可以改进设计，排除前期研究面临的威胁，得出更合理的结论（Heppner et al.2008:83）。

最后，任何研究都有可能存在效度威胁，但是更重要的是确定某个威胁在具体研究中存在的合理性以及该威胁对结论的意义（Heppner et al. 2008:83）。Heppner et al。（ibid.）举了一个非随机分组的例子。一个自愿组接受处理，一个非自愿组不接受处理。实验发现，自愿组比非自愿组的表现更好。该例子中，我们有理由怀疑处理效应的存在。非随机分配不仅是一个合理的威胁，而且还很有可能解释了自愿组更好的表现，因为自愿组接受处理的积极性高，因此统计结论效度值得怀疑。另一方面，如果同样的研究发现处理没有效应，威胁仍然合理，但是不太可能解释结果，因为即便对于积极性高的自愿组，接受处理也没有比不接受处理产生更好的表现。在此情况下，尽管威胁有合理性，但是结论在某种程度上仍有效度。

W1t hqWihT03.3 外部效度分类心理学空间OD}S:}[*z*E o

3Dzg,RNb G0坎贝尔实验研究效度框架没有对外部效度进一步分类，只使用总体效度（population validity）这一统称。总体的对象不仅指人，还指场景等。但是，也有不少研究者有区别地对待人和场景等推广对象，将总体狭义地限定为由被试（通常为人）构成的总体。研究者由此采用不同的术语划分外部效度的类型。在实际研究中，这些分类有广泛的应用性，能够使外部效度的评价更加明确。心理学空间4Adci p*W

外部效度主要有三类：总体效度、生态效度（ecological validity）和时间效度（temporal validity）。

`Ym'bSb]6HOQt0总体效度指研究发现的因果关系向人类（或其他被试）总体（和在子总体之间）推广的程度。生态效度又称生活现实性（mundane realism），指实验场景、处理和测量等与现实生活的相似性。时间效度指研究发现的因果关系在不同时间之间推广的程度。Bracht& Glass（1968）、Gall et al（。2003）和 Kline（2009）将外部效度分为总体效度和生态效度。在他们的分类中，总体效度包括两个层面：向目标总体的推广以及被试个性特征变量和处理的交互作用。总体效度的这两个分类包含在 Cook & Campbel（l1979）和 Shadishet al（。2002）所说的向总体推广和在子总体之间推广的理论之中，只不过后者包括的推广对象不限于人。Fraenkel et al（。2012）也将外部效度分为总体效度和生态效度，但是总体效度仅指向目标总体的推广。Morgan et al（。2006）的分类包括总体效度、生态效度和子群体的检验（testing of subgroups）三类。这里的子群体的检验实际指检验被试个性特征变量和处理的交互作用问题，应属于总体效度的一个子类别。心理学空间+@6D+w-Dw:}"sJ6c

虽然有研究者（Bracht & Glass 1968;Gall et al.2003;Morgan et al. 2006）将时间包括在生态效度中，但是也有研究者（Gould 2002;Marczyk et al. 2005）将时间单列，称之为时间效度。Cook & Campbel（l1979:74）在讨论外部效度威胁时谈到历史和处理的交互作用。不过，时间层面不限于历史意义上的时间，还包括其他时间维度（Gould 2002:342-343）。心理学空间0vU)S@D

4. 结语

6I6LP'w Qg0坎贝尔及其同事以效度分类和效度威胁为视角，构建实验研究的系统评估框架。这一评估体系兼收并蓄，结构清晰，应用性强，有助于我们开展更严谨的实验和更全面的研究质量评估，同时又使我们认识到自身和他人研究的局限性，为后期研究提供明确的改进方向。心理学空间NH4Bt q6r

具体到应用语言学研究中，研究者可以结合本学科和本领域的特点在利用坎贝尔评估框架的同时不必拘泥于其细节，并且可以丰富其内容。譬如，如前所述，我们可以将其他学者对外部效度的分类融入到坎贝尔的效度体系中。再如，坎贝尔传统的体系没有突出测量的时间安排的重要性。鉴于不同测量时间对学习者语言习得效果的影响，我们完全可以将时间安排补充到外部效度评估体系中。另外，我们可以根据实验经验增加新的效度威胁。譬如，Perry（2008:100-101）谈到后测效应威胁。他举了一个使用口语面试作为后测的例子。在实验处理（目的是提高学习者的口语能力）之后，面试者在与被试交流时无意中教会了被试以前并不知晓的某个正确的口语形式，被试于是使用刚学会的口语形式回答了测试问题，造成处理有效应的假象。这个例子说明后测效应是内部效度威胁。

www.psychspace.com心理学空间网

TAG: 坎贝尔效度框架效度威胁应用语言学

«倡导循证决策促进社会发展——第九届Campbell年会纪实

《33 坎贝尔 | Campbell》

让“跳跃”更有意义：断点回归设计(RDD)»