实验的有用性

实验是黄金标准还是只是过度炒作?

威斯康星大学,美国国家经济研究局,德国IZA

单页 全文

电梯游说

计划的非实验评估比较选择参加计划的个人和不参加计划的个人。这种比较存在将非随机选择与其因果效应混为一谈的风险。通过随机分配个人参加或不参加该计划,实验评估消除了非随机选择的可能性,以对参与者和非参与者进行偏见比较。在这样做的过程中,他们为程序效应提供了令人信服的因果证据。同时,实验不是万灵药,需要仔细设计和解释。

快乐与悲伤实验

重要发现

优点

实验解决了非随机选择的问题,因此经常为程序有效性提供令人信服的因果证据。

决策者和其他利益相关者发现实验方法比许多非实验评估方法更容易理解。

一般来说,实验对研究人员来说比非实验评估更难操作。

实验数据为非实验方法的研究提供了一个基准。

缺点

在许多实验中,由于一些被分配到计划中的人没有参与其中,同样,一些被分配到没有接受计划的人可能实际上参加了(或者接受了类似的计划),解释变得复杂。

许多实验评估允许个人选择退出随机分配,这降低了研究结果的普遍性。

为了填补控制组,实验可能需要改变项目规模,或者让项目服务于他们本来不会服务的人。

拒绝参与实验评估的地方项目可能不具有代表性,从而限制了通用性。

作者主要信息

对劳动力市场计划的实验性评估(包括考虑不同运作方式的评估)为感兴趣的政策问题提供了清晰、令人信服的因果答案。实验需要仔细设计、实施和解释,以避免实验特有的潜在弱点,并且它们仍然受到任何实证研究中出现的所有常见问题的影响;尽管如此,它们在项目评估者的工具包中代表了一个非常有价值的工具,并且在整个发达国家仍然没有得到充分利用。

动机

当对同一个活跃的劳动力市场计划进行多次非实验性评估时——所有这些评估都是由声誉良好的研究人员进行的,没有明显的偏见,而且都使用了相同的基础数据源——产生的影响估计暗示了对该计划的截然不同的政策结论,政策制定者应该怎么做?几十年前,美国《综合就业与培训法案》(CETA)就出现了这种情况,导致了对一个正在进行的项目的第一次重大实验性评估,即CETA的后续项目,《就业培训伙伴法案》(JTPA)。[1]。在随后的几十年里,社会实验在美国变得司空见惯,影响了医疗保险、警察对家庭暴力电话的反应、性教育课程和教师培训等各种主题的政策。实验方法也在发展经济学中蓬勃发展,最近,社会实验已经传播到欧洲(部分地区)。然而,学术界、项目管理人员和社会工作者以及媒体中仍然存在怀疑(以及较少关注的,在实验评估失败的政策倡导者中)。这篇文章考虑了社会实验的广泛案例——不仅仅是避免选择偏差——以及它们的局限性。

讨论利弊

实验为项目评估人员提供了许多好处

当涉及到评估时,最根本的问题涉及到项目参与者的非随机选择(以及政策的管辖权,等等)。这个选择问题意味着,将参与者的结果与非参与者的结果进行比较,将以未知的比例,将项目的因果影响和即使没有项目也会出现的差异结合起来。一个执行良好的实验评估和一个足够规模的样本消除了对非随机选择的担忧,因此支持关于一个程序对随机分配的人群的影响的强有力的因果主张。

即使采用最先进的方法对高质量数据进行了强有力的非实验评估,因果关系的主张也总是笼罩着怀疑的阴霾。换句话说,非实验性评估总是会引起对程序中非随机选择的关注。非实验方法和非参与者比较组的观察数据的每一种组合都解决了特定假设下的非随机选择问题,但这些假设至少在一定程度上是不可检验的。

相比之下,实验直接解决了非随机选择的问题,通过随机强迫一些本来会参加一个项目的人不这样做。实验提供了这一重要的因果关系服务,无论他们是试图估计平均治疗效果还是“结构性”参数,如美国负所得税实验中的劳动力供给弹性。因此,虽然实验需要对某些事情进行假设(下面将讨论),但为了对随机分配的人群提供令人信服的因果效应估计,它们不需要对程序的选择过程进行假设。

此外,实验在概念上的简单性有助于使它们提供的证据更容易被非专业人士理解,从而使他们更有说服力。正如著名经济学家加里·伯特利斯(Gary Burtless)所解释的那样:“因为政策制定者可以很容易地掌握一个简单实验的结果和意义,所以他们专注于结果对改变公共政策的影响……政治家更有可能根据他们认为令人信服的结果采取行动。”[2]。大多数人都明白随机化是如何导致因果关系的一个令人信服的案例,特别是在没有体现下面讨论的太多限制的实验中。

此外,实验减少了有意识或无意识的研究者偏见影响影响估计的可能性。采用非实验方法的研究人员通常在选择如何进行分析方面有更多的自由度。例如,在使用匹配方法的评估中,研究人员既选择匹配变量集,也选择匹配过程的细节。即使对专家读者来说,导致估计影响的实质性有意义差异的选择也可能同样合理,正如上文提到的CETA评估。实验并没有使操纵变得不可能,但它们通常会降低操纵的可能性。

最后,实验具有重要的知识溢出效应。一个庞大且不断增长的文献使用实验影响作为基准来检查非实验方法和数据的替代组合的性能。例如,有一组论文利用美国JTPA实验的实验结果,研究了非实验评价设计的各个方面[3]。这些包括特定类型的条件变量的价值,比较结果趋势和结果水平之间的选择,以及是否将比较组定位为与参与者相同的当地劳动力市场的选择。通过比较使用不同计量经济学方法、不同对照组数据和不同条件变量集获得的非实验估计,这些研究提供了关于什么有效、什么无效的证据,这些证据在最近的非实验评估中被证明是有价值的。由于实验的较高财政和政治成本意味着它们永远不会完全取代非实验评估,因此利用实验来了解如何设计更有说服力的非实验评估是一项重要贡献。

在程序评估中使用实验的潜在缺点

尽管实验有明显的好处,但相对于非实验程序评估,实验有一些独特的特征,这可能导致它们产生较差的估计。此外,随机分配可能会加剧一些非实验评估中出现的问题。然而,并非所有的缺陷都适用于所有的实验设计,而且大多数限制了“外部效度”,即将实验结果推广到其他人群的能力,而不是“内部效度”,即对那些实际随机化的人的因果解释。

首先,考虑到当不是治疗组的每个人都接受了这个程序,和/或实验对照组的一些人接受了它或一些类似的程序(尽管他们不应该接受的具体意图)时出现的解释问题。一些被分配到治疗组的人可能无法参与(“没有出现”),或者完全参与(“辍学”)。缺席(和退学)的出现可能是因为治疗小组的成员找到了工作,或者搬家,或者进了监狱,或者只是对一个自愿项目了解得更多,然后决定不喜欢它。同样,控制组的成员可能会通过加入该项目来挫败实验协议,或者,更常见的是,他们可能会从其他来源或使用替代资金获得相同或类似的服务;文献称之为“对照组替代”。缺席和退学的可能性取决于实验设计的特征,例如随机分配和服务接收之间的时间滞后,以及治疗的性质。操纵预算集的治疗(例如收入补贴)通常不会有这些问题,因为个人无论如何都会收到这些问题,而涉及服务收据的治疗通常会。控制组替代还取决于程序化环境:集中式环境中,只有一个机构提供给定的服务类型,它将较少。根据经验,许多实验评估显示,治疗组缺席(和辍学)和对照组在实质上相关的水平上参与相同或类似的项目[4]

文献提供了两个主要的方法来处理这个分配问题。第一种方法将实验对比——实验实验组和实验对照组之间观察到的平均结果的差异——重新解释为实验组的平均影响提供治疗而不是治疗收据。文献称其为“治疗意向”(ITT)参数。在自愿项目的背景下,政府可以提供项目,但不要求它,提供的平均影响回答了一个相关的政策问题:“在现有的项目中增加一个选择的平均影响是什么?”这个答案可能与在实验中得到的政策问题有很大的不同,在实验中,每个治疗组成员都得到了治疗,而对照组成员没有得到治疗,即:“治疗和不治疗的平均影响是什么?”

第二种方法是用实验平均差异除以实验组中接受治疗方案的个体比例与对照组中接受类似治疗方案的个体比例之差。例如,在一个实验评估中,实验实验组参与项目的概率为0.6,对照组成员参与非常相似项目的概率为0.2,则实验均值差按比例放大0.6 - 0.2 = 0.4。为了直观地看出这一点,假设该程序和与其相近的替代程序对每个人的影响都是10,并且两个组的成员都有相同的未经处理的结果100。在本例中,治疗组平均结果为106 = 100 +(0.6)(10),对照组平均结果为102 = 100 +(0.2)(10)。实验平均差等于4(= 106 - 102)。用实验均值差除以参与概率差可以得到10 = 4 / 0.4的共同影响。在更一般的情况下,项目对个体的影响是不同的,重新调整的实验平均差异提供了(在某些,通常是合理的假设下)对个体的平均影响依令行事的人——之所以这么说,是因为他们在被分配到治疗组时接受治疗,而在被分配到对照组时不接受治疗,从而遵守了实验方案。对编纂者的平均影响为ITT政策问题的成本效益分析提供了信息,但对于该项目对那些愿意接受它或类似项目的人的影响,无论他们被分配到治疗组还是对照组,却没有任何说明。

在许多机构设置中,个人必须明确同意参与(即选择加入而不是选择退出)使用随机分配的研究,但可能在没有明确同意的情况下被纳入非实验研究。在实践中,有些人会拒绝接受随机分配。这些人可能有非常高的风险厌恶程度,或者对随机分配有哲学上的反对,或者只是相反或困惑。这类人的数量往往很小(可以通过深思熟虑的营销努力使其更小),但并非微不足道。关于这一现象的非常有限的经验证据提出了这样一种可能性,即治疗对排除自己的个体的平均影响可能不同于对同意参与的个体的平均影响,这意味着实验影响对那些在没有实验的情况下会参与该计划的个体群体的影响提供了一个不完美的指导[5]

在许多情况下,实验中的部分或全部个人将知道他们正在参与的评估可能会产生政策后果,而非实验评估中的个人则不会。这种认识增加了改变行为的可能性,从而改变实验的结果,从而影响政策。例如,文献中包括了一些个案工作者的例子,他们忽略了统计处理规则中关于最佳培训任务的信息,也许是因为他们没有看到其中的价值,或者可能是因为他们认为统计处理规则对他们的工作构成了威胁,并认为他们可以通过在影响评估中导致无效发现的方式来扼杀它[6]。同样,在一项试验性评估中,实验组接受财务绩效激励,对照组的教师可能会出于意识形态的原因,更加努力地工作。这种反应破坏了实验评估的完整性,使其结果对政策的价值有限。

现有项目的实验评估(与示范项目相反)面临着在对照组的规模和在没有实验的情况下保持项目运行规模的愿望之间的权衡。考虑一个每年为大约1000名参与者提供服务的项目。将这些参与者中的一半随机分配到对照组,将服务人数减少到500人。这可能意味着项目工作人员的裁员,或者,如果这些工作人员被保留下来,那么随机分配到治疗组的个人会得到比没有实验时更好的服务。前者可能会引起政治上的麻烦,或者意味着在实验结束后组织希望拥有的有价值的员工的流失,而后者改变了项目的性质,因此使得实验估计成为一个有问题的项目影响指南,因为它通常运作。或者,在某些情况下,项目可以选择从那些没有随机分配就不会服务的参与者中招募额外的参与者。在当前示例中,这将允许将服务数量保持在1,000。但是,如果该计划对新招募的参与者的平均影响不同于该计划正常运行时的参与者,那么实验估计将再次提供正常情况下该计划影响的误导性图片。

实验的最后一个缺点涉及到分散项目中的地方合作。考虑一个通过当地就业中心网络运作的积极劳动力市场项目。以最大的普遍性为目标的评估要么考虑所有的中心,要么考虑它们的一个(足够大的)随机样本。在非实验评估中,让被选中的中心参与通常是很容易的,因为除了分享一些数据外,参与可能对他们要求很少。相比之下,在实验中获得当地合作面临更大的挑战,因为随机分配评估所带来的成本要高得多:选定的站点必须建立、运营和记录随机分配,而且它们必须拒绝向原本可以提供服务的个人提供服务。即使在中央行政机关不需要地方机关参与的情况下,实施随机分配也需要地方机关的高度配合。在美国JTPA实验中,评估人员必须联系600个培训中心中的大约200个(并且必须提供大量的额外支付和其他让步),才能让16个参与实验[7]。不用说,对从这16个中心获得的影响进行概括的合理性的担忧困扰着对实验结果的讨论。

限制和差距

实验,像大多数非实验评估一样,依赖于一个(通常是隐含的)假设,即被评估的项目不会影响没有参与其中的个人。换句话说,大多数实验评估假设对对照组或更大的非参与者群体中的个人没有溢出效应。这种溢出效应会是什么样子?它们的形式可能是劳动力市场上特定类型技能的价格变化,这是由于项目导致的技能供应增加。在一个小城市的劳动力市场上增加100名美发师或焊工,可能会导致这些技能的工资下降,不仅是对实习生,对在职者也是如此。一个培训学校教师新教学技术的项目,如果教师与未接受培训的同事分享新思想,可能会产生“信息溢出效应”。如果有一个项目教一些失业工人如何更有效地找工作,比如提高他们的面试和简历写作技巧,那么这个项目可能会让他们获得一些空缺职位,而如果没有培训,这些职位就会落入不参加培训的人手中。在最后一种情况下,该计划减缓了非参与者(他们中的大多数通常不属于对照组)重返就业的速度。在某种程度上,大多数(或全部)受影响的非参与者都在对照组之外,溢出效应对考虑社会成本效益计算很重要,但对随机分配的实验估计的因果解释没有主要影响。

(有限的)现有证据表明,对非参与者的潜在巨大影响,在某些情况下足以推翻忽略它们的成本效益分析的结论[8]。一个值得注意的评估积极的劳动力市场计划估计影响非参与者通过多层次的实验设计。顶层随机分配在当地劳动力市场服务的符合条件的人口的比例。在一些地方,大多数人都得到了服务,而在另一些地方,只有一小部分人得到了服务。底层按照顶层随机化确定的比例,将符合条件的失业人员随机分配到该计划中。如果在当地劳动力市场水平上的实验影响随着分配给该计划的比例的增加而增加,这表明了对非参与者的负面溢出效应的重要性[9]。大多数评价将缺乏财政和组织(和政治)资源来进行这样的设计;在这种情况下,评估者应该对其特定情况下对非参与者的影响的不重要性提出实质性的论点,或者他们应该考虑任何成本效益计算对从更广泛的文献中得出的对非参与者的影响的合理估计的敏感性。

此外,实验数据(与观测数据一样)不能直接确定评估者可能关心的所有参数[10]。例如,一些参数与随机分配后做出的选择有关,这些选择可能会受到治疗的影响。例如,培训计划对工资的影响具有重大的实质性利益,但工资仅对受雇者进行观察。将治疗组的就业成员的工资与对照组的就业成员的工资进行比较,将治疗对工资的影响与该计划对就业的(可能是选择性的)影响混为一谈。例如,假设实验组有三分之一的工作,工资为12,三分之一的工作,工资为10,三分之一没有工作,而对照组有三分之一的工作,工资为10,三分之二没有工作。在这种情况下,该计划使三分之一的个人的工资增加了2,但由于它也增加了收入为10的工人的就业,因此将就业待遇和对照组成员的工资进行比较,对工资的影响仅为1。

另一个限制出现了,因为实验通常只提供关于因果机制的有限信息(例如,关于他们估计的因果影响来自哪里),甚至这种有限的洞察力通常需要一些评估设计、程序设计和数据收集的巧妙结合。实验与许多非实验评估具有相同的特征,但在实验中频繁依赖行政数据加剧了这个问题。考虑一项针对失业者的积极劳动力市场计划的评估,该计划结合了与社会工作者频繁、相对不愉快的会面(“休闲税”)和单独的高质量求职技巧指导。一项仅使用有关收入的行政数据进行的实验性评估可能会发现,对收入产生了令人信服的、实质性的、有统计学意义的影响,但却无法说明是会议还是求职指导(或两者的某种结合)推动了这种影响。

为了了解项目设计如何提供帮助,假设失业者事先了解了所需的会议,并且他们的求职援助发生在第一次社会工作者会议之后。在这种情况下,对收益影响的时间可能会说明机制问题。特别是,第一次会议之前的收益影响表明了威胁效应的重要性[11]。或者,收集关于求职的质量和数量的数据,可以实验性地估计对这些中介的治疗效果;在求职指导下,找工作行为缺乏变化,这强烈表明,对收入的任何治疗效果都是由社工会议产生的。另一方面,数据显示,大多数失业者在没有得到任何批准的情况下跳过会议,这支持了求职指导会产生任何影响的观点。一般的观点是关于与特定机制有关的行为数据的能力,以提供关于这些机制的重要性(或不重要性)的暗示性证据。

然而,另一个问题出现了,因为一些观察者看到了与实验相关的道德挑战,特别是那些涉及随机拒绝对照组获得潜在有价值的服务的实验。从某种意义上说,控制组成员承担了实际成本,以帮助产生有关项目有效性的公共利益知识。评估人员可以用几种不同的方式来回应这些问题。首先,就像个人为了道路等公共物品而放弃自己的财产得到补偿一样,对照组的成员也可以得到补偿(尽管这可能有其自身的行为影响)。其次,实验评估可以集中在真正忽视项目效果的情况下,因此实验的设计者不清楚,分配给对照组是否意味着错过一个伟大的项目,还是不浪费时间和精力在一个无效的项目上。第三,在超额认购项目的情况下,评估者可以强调随机分配的公平性,作为分配稀缺项目名额的一种手段。第四,实验评估可以关注设计,如参与边际的随机化或参与激励的随机化,这(至少部分地)减轻了伦理问题(同时改变了实验影响估计的实质性意义)。第五,实验性评估可以侧重于项目运作的各个方面(如与社会工作者会面的次数和时间)或其他服务组合(如求职援助与培训),而不是服务与无服务之间的对比[12]

最后,随机化提供了一个令人信服的解决方案,解决了试图从数据中提取评估性知识时出现的许多令人烦恼的问题之一,即将非随机选择纳入程序。这是一个特别重要的问题,但许多其他困扰任何实证评估的问题仍然出现在实验中。例如,依赖调查数据的实验通常会从实验组和对照组得到不同的反应率。根据这种差异损耗的性质,它可能会使影响估计产生偏差。异常值(即不寻常的观察值),无论它们代表测量误差还是不太可能的结果,都可能影响只考虑条件均值的评估。与待遇状况相关的测量误差差异可能会对影响估计产生偏差,因为所研究的待遇将工人从非正规部门转移到正规部门,而用于衡量收入结果的行政数据仅包括正规部门的工作。等等......

摘要及政策建议

实验在程序的接收或其设计和操作方面产生了令人难以置信的有价值的外生变化。这种差异导致了令人信服的因果估计,这些估计回答了许多学术和政策感兴趣的问题,政策制定者和纳税人可以理解和欣赏。

同时,实验不能代替思考。它们有局限性,需要仔细设计和深思熟虑的经验分析,包括考虑跨多个维度的实验估计的敏感性。从实验数据中得出政策含义不仅需要密切关注实证分析,还需要参考制度知识和相关的经济理论。随机分配本身并不能保证高质量的、与政策相关的或具有科学信息的评估。事实上,人们很容易找到高质量的非实验评估,这些评估提供的证据比低质量的实验更可信。

底线是:尽管实验有局限性,但它们有很大的价值。它们在世界范围内仍未得到充分利用,尤其是在美国以外。在质量维度和数量维度上都存在改进的空间,特别是在外部效度、对照组替代类似项目、对非参与者的影响以及对机制的关注等问题上。对这些方面的进一步方法学研究,以及在评价实践中对它们的更多关注,都是可靠的投资。

致谢

作者感谢三位匿名审稿人和IZA劳动世界编辑对早期草稿的许多有益建议。作者以前的工作包含大量的背景参考资料,在这里提出的材料,并已在所有主要部分密集使用的文章[3][4][8][10][11]

相互竞争的利益

IZA劳动世界项目致力于IZA研究诚信指导原则。作者宣称已遵守这些原则。

©Jeffrey A. Smith

证据地图

实验的有用性

完整的引用

完整的引用

数据源(年代)

数据类型(年代)

方法(年代)

国家