劳动世界——实证经济研究中的透明度

单页全文

电梯游说

开放科学和研究透明度运动旨在使研究过程更加可见，并加强结果的可信度。开放研究实践的例子包括开放数据、预注册和复制。开放科学的支持者认为，公开数据和代码使研究人员能够评估一项主张的真实性，并提高其可信度。反对者经常反驳说，重复实验成本高昂，而且开放科学的努力并不总是能得到成果发表的回报。

重要发现

优点

开放科学和研究透明度为提高实证经济研究的可信度提供了潜力。

共享数据和代码可能使其他研究人员能够发现假阳性结果，并提高学术出版物的知名度和突出性。

越来越多的免费数据存储库使研究人员能够更有效地共享信息，从而消除了存储数据和代码的金钱成本。

越来越多的简单、低成本的编辑政策可以很容易地降低出版偏倚的程度。

缺点

以可用的格式共享数据需要知识渊博的人员花费大量的时间和精力。

在某种程度上，对复制研究缺乏资金和兴趣。

透明的做法，如分析前计划，可能会扼杀研究人员的创造力，并可能阻碍探索性分析产生的重要突破。

透明度和开放性可能需要大量的前期成本，而开放科学的努力往往不会得到成果发表的回报。

作者主要信息

开放的科学和研究透明度可以提高实证经济研究的可信度，这是经济政策设计的关键投入。尽管如此，人们仍然对开放科学的相关成本和缺乏透明研究的激励机制感到担忧。尽管存在这些担忧，但潜在的好处证明了这些努力是合理的。因此，研究人员和政策制定者应该密切关注开放研究的最新发展，这可能会减轻一些主要的缺点，例如鼓励注册报告和编辑政策以促进透明的实践。

动机

在许多国家，对循证政策的需求日益增加。经济学家非常适合这项工作，因为他们经常使用大量数据集和复杂的方法来估计因果关系。然而，人们也越来越担心，有限的透明度可能会削弱结果的可信度和可重复性。经济学领域越来越多的证据表明，科学期刊往往只发表了一部分结果，而这些结果可能不能代表全部发现。例如，发现特定计划或政策的显著效果的结果可能比无效结果更有可能最终发表。

此外，越来越多的研究表明，发表在科学期刊上的发现可能不可靠或不可复制。这些问题使决策者和公民对已发表研究的可信度产生了怀疑。这在今天尤为重要，因为，例如，来自综合社会调查的民意调查数据表明，大约58%的美国人对科学界只有一些信心或几乎没有信心。

讨论利弊

向研究透明度转变

当谈到发表研究的偏倚时，两个基本问题涉及作者对测试统计数据的挑选和结果缺乏可重复性。这不是一个新问题，因为早在1983年的一项开创性研究中就已经强调了这一点[1]。然而，新的批判性审查导致实证经济研究中的可信度问题日益严重。最近的研究指出，高达20%的不太显著的结果可能是假阳性，而且在某些领域发表的论文中，约有一半无法被复制[2]，[3]。

也许是为了应对这一可信度问题，研究规范正在迅速改变，而且在很大程度上朝着更好的方向发展。期刊编辑已经提出并实施了一些有希望的解决方案。例如，许多领先的期刊现在要求作者发布他们的数据和代码以供复制(插图）.研究人员还采取了额外的措施，使他们的研究更加透明和可靠。越来越多的经济学家在进行分析之前写下他们的假设，作为所谓的预分析计划的一部分。这种做法旨在通过最大限度地减少研究人员挑选结果的能力来提高研究结果的可信度。

最近这种向开放科学和提高研究透明度的转变在经济学领域并没有遇到太多阻力。最近一项针对全球顶尖项目的博士生和最近在十大经济学期刊上发表论文的研究人员的调查表明，大多数经济学家认为开放科学很重要。此外，约80%的受访经济学家认为，在网上公开发布研究工具对该学科的进步很重要[4]。这种信念对博士生和教授都同样重要。

然而，尽管大多数经济学家似乎支持这一趋势，但提高透明度和公开性可能需要付出巨大的前期成本。例如，以可用的格式共享数据需要研究人员花费大量的时间和精力[5]。此外，目前还没有强烈的动机来分享这些数据。在某种程度上，对复制研究的资金和兴趣也明显缺乏。

尽管很可能会有前期成本，但研究透明度也可能在以后带来相当大的好处。许多经济学家现在使用像预分析计划这样的透明工具来进行更好的因果推理。此外，共享数据和研究项目可能会增加学术出版物的知名度和突出程度。

经济学中的发表偏见和择优(p-hacking)

最近向研究透明的转变有很多原因。其中一个关键原因是越来越多的研究记录了发表偏倚的程度P-hacking(即挑选樱桃)在经济学。在学术研究中，如果一项研究的结果与发表的决定有关，就会发生发表偏倚。例如，如果一项研究发现了统计上显著的影响(或令人惊讶的结果)比一项研究没有发现统计上显著的影响(或不令人惊讶的结果)更有可能被发表，即使这两项研究的研究设计和执行质量相同，也可以声称发表偏倚。换句话说，发表偏倚意味着，在质量的条件下，没有结果的研究比有显著结果的研究更不可能发表。

这是一件大事，因为决策者和公民在制定政策决策和设计项目时，将经验证据作为重要的输入。如果政策制定者和公民只看到研究的一个子集，即显示出重大影响或令人惊讶的结果的发现，那么就不清楚他们应该对所述研究有多少信心。换句话说，如果发现某项政策的显著影响的研究是唯一被发表的，那么这将导致在已发表的文献中对该政策的真实效果的歪曲。

一个相关的问题是p-hacking(也称为择优挑选或规范搜索)。发表偏倚意味着在给定的文献中存在扭曲或错误的表述，p-hacking意味着在给定的研究中存在扭曲。假设一位研究人员对移民对工资的影响感兴趣。研究人员可能会访问一个大的数据集，并可能估计许多不同的模型。如果研究人员将样本限制为总体的一个子集，或者为了将检验统计量移动到统计阈值上而选择不同的协变量，则会发生p黑客行为。换句话说，研究人员可以获得大量的规范，然后他们选择只呈现他或她发现的结果的一个子集。通过选择那些具有统计意义的规范，研究人员描绘了一幅不完整的图景，在这个关于移民对工资影响的例子中，实际上可能没有真正的潜在影响。

已经开发了不同的技术来测量发表偏倚和p黑客的程度。最有名的可能是卡尺测试[６]，它检查发布的测试统计数据的数量，这些统计数据是位于统计显著性阈值之上和之下的临界值。这种方法认为，在阈值的任何一侧都不应该有聚集，因为抽样分布应该反映连续的概率分布。简单地说，观察到高于显著性阈值的发现的可能性应该与观察到低于显著性阈值的发现的可能性大致相同。偏倚程度是用边际显著结果的超额数量来衡量的。

另一种测量p-hacking的方法是将发表文章中测试统计量的分布与一系列其他可能的分布(如“学生的t分布”)进行比较。[2]。p-hacking的程度被定义为与传统显著性阈值周围的其他分布相比，已发表文章中测试统计量的过剩数量。在存在p-hacking的情况下，检验统计量的分布将在常规显著性阈值(即p值为0.05或0.01)周围呈驼峰状。

为了了解问题的范围，2016年的一项研究发现，10-20%的测试被p黑客入侵[2]。这项研究收集了2005年至2011年期间三份最负盛名的经济期刊的数据，结果表明，p-hacking的程度在单作者文章和非终身研究员的论文中更大。相反，理论框架的存在与p黑客的程度呈负相关。本研究的主要结果转载于图1。直观地说，在没有p-hacking的情况下，测试统计量的分布应该在整个区间内呈递减模式。

图1说明检验统计量的(双驼峰)密度函数，其中缺失的p值在0.10和0.25之间，剩余的边际拒绝检验。如前所述，在没有p-hacking的情况下，测试统计量的分布应该在整个区间内呈递减模式，尽管没有观察到这一点。作为识别p-hacking的参考分布，该图显示了一个学生在一个自由度下的t-分布。在这个样本中，大约54%的测试统计量在5%的水平上具有统计学显著性。局部最大值在1.96左右，p值为0.05，说明部分检验统计量被p-hack。

图1也绘制检验统计量的分布，但仅适用于采用随机对照试验方法的研究。这种方法是实验性的，被大多数人认为是因果推理的黄金标准。对于这个子样本，大约37%的测试统计量在5%的水平上具有统计学显著性。这一发现提供了启发性证据，表明某些方法的发表偏倚和p-hacking的程度可能更大或更小。

最近的另一项研究记录了25家顶级经济学期刊的p-hacking和出版偏见的程度[7]。这项研究证实了p-hacking也出现在不太知名的期刊上，并证实了一些方法更倾向于略微拒绝零假设。例如，与依赖工具变量的论文相比，现场实验和回归不连续设计显示的p-hacking要少得多。这些结果表明，在适当规模的样本中执行良好的实验评估可能因此(在某种程度上)消除对p-hacking的担忧，并支持有关计划或政策影响的有力主张[2]，[7]。

综上所述，现在有许多研究在顶级和非顶级经济期刊上记录了与发表偏见和p-hacking相关的问题。然而，随机对照试验(RCT)等特定方法较少受到p-hacking的影响，这一事实提供了启发性证据，表明改进研究设计可能有助于提高实证经济学研究的可信度。

复制和数据可用性策略

经济学文献中的发表偏倚和p-hacking的发现表明，经济学研究的进行和发表方式需要根本性的改变。从积极的方面来看，正在取得进展;在过去的15年里，已经实施了新的举措来提高该领域的研究可信度。最重要的举措可能是请求已发表文章的复制数据和代码。第一个系统地要求数据和代码的一般兴趣期刊是《美国经济评论》。这种做法在2004年成为强制性的，该政策规定，该杂志只会发表“分析中使用的数据是清晰准确的记录，并且任何研究人员都可以随时获得，以便进行复制”的论文。研究者如果不能遵守此规则，必须在投稿时通知编辑。

此后，许多其他经济学期刊也实施了数据和代码可用性政策。图2绘制具有要求和/或鼓励数据可用性政策的前100名经济学期刊的百分比。x轴表示期刊在25种期刊中从高排名期刊到低排名期刊的排名(基于RePEc的综合排名)，y轴表示明确鼓励在其网站上共享数据或具有数据和代码可用性政策的期刊的百分比。排名靠前的期刊比排名靠后的期刊更有可能有数据可用性政策，而且更有可能是强制性的。在排名前50位的期刊中，超过90%的期刊有数据可用性政策(要求或鼓励)，排名51-75位的期刊只有70%多一点，排名76-100位的期刊只有65%左右。此外，排名前25位的期刊中约有60%的数据政策是必需的，而排名26-50位的期刊中只有30%多一点，排名51-100位的期刊中只有不到30%。

期刊的数据和代码可用性策略

数据共享经常被提及的一个问题是，它需要大量的时间和金钱。数据存储过去是昂贵的，这可能是许多期刊缺乏数据共享需求的原因。但是现在存储数据非常容易。许多在线网站为研究人员提供免费的文件存储空间，从而消除了存储数据和代码的金钱成本。期刊也可以使用这些免费的外部数据存储库。

虽然许多领先的期刊现在要求作者发布他们的代码和数据，但不幸的是，很少有验证来确保所提供的数据和代码实际上被用于合法地生成已发表的结果。此外，在顶级经济学期刊上发表的重复性研究很少。最近的一项研究发现，从1974年到2014年，排名前50的经济学期刊上只发表了130篇重复性研究[８]。这意味着，重复研究的比例约占已发表研究总数的0.1%。

重复实验的一个主要问题是选择偏差。最近估计，在主要经济学期刊上发表的论文中，只有大约一半提供了复制所需的数据和代码。这是由于许多原因造成的，包括使用专有数据，这使得复制不可能(或非常昂贵)。另一个选择问题是，复制结果往往最终没有发表。目前，研究人员没有任何动机去做重复性研究。复制很少发表，而出版物是“学术货币”。此外，如果只发表与原始研究结果相反的重复研究，那么重复研究也会受到选择偏差的影响。

近几十年来，进行了少量大规模的复制工作。一个著名的大规模复制是实验经济学复制项目(Experimental Economics replication Project)，该项目试图复制发表在两家主要经济学期刊上的18项研究［9］。大约60%的重复实验产生了与原始研究相同方向的显著效应，尽管重复实验的效应量通常较小。

最近在宏观经济学领域又进行了一次大规模的复制[3]。研究人员试图复制13种经济学期刊上的67篇论文。他们获得了61篇论文中40篇不依赖机密数据的数据和代码，并成功复制了61篇论文中的大约一半。因此，复制成功被定义为重现原始研究的关键定性结论的能力。

整个领域的重复实验数量很少可能与缺乏资金有关。一些研究指出，资助机构应该为复制研究提供更多的资金，并且应该考虑引入明确的复制政策[８]。另一种增加重复次数的方法是通过发表研究成果来重视和奖励进行重复研究的研究人员的工作。

使研究结果更可信的方法

除了上述，期刊编辑最近还采取了其他措施来提高已发表结果的可信度和可重复性。例如，8位卫生经济学期刊的编辑发出了一份编辑声明，旨在减少作者进行p-hack的动机，并提醒审稿人避免对“具有潜在科学和出版价值的研究”产生偏见，而不管这些研究的实证结果是否拒绝了可能指定的零假设。最近的一项研究表明，这种简单、低成本的做法增加了未拒绝零假设(即没有发现显著影响)的已发表研究的数量。[１０]。重要的是，这些期刊的影响因子没有受到这一增长的影响。

该杂志最近采用了另一种方法心理科学该网站开始向报告开放数据和代码的作者颁发徽章。事实证明，这一举措非常成功，据估计，它将数据报告率提高了约35个百分点［11］。这是一个有趣的例子，一个简单的奖励可以激励研究人员分享他们的数据。

系统论的计划

预分析计划通常在干预开始之前或在研究人员获得结果数据之前编写和登记。这样的计划概述了要测试的假设、数据来源和模型规格。它们既有优势，也有成本[12]。

一个关键的优势是，通过在检查数据之前预先注册要进行的分析，p-hacking变得不那么是个问题。因此，预分析计划可能会减少审稿人和编辑怀疑作者在挑选他们的评估结果的可能性。此外，预分析计划有助于研究人员思考他们需要的数据和他们将要测试的假设。这对于现场实验来说尤其重要，因为现场实验往往非常昂贵。

一项对塞拉利昂治理项目的研究证明了预分析计划的有效性[１３]。作者展示了他们的实地实验结果是如何容易被操纵和错误解释的。幸运的是，作者已经提前写下了他们的假设和统计代码。预先分析计划的使用使他们能够约束自己免受p黑客攻击，并保护自己免受来自潜在非中立伙伴(例如政府或非政府组织)的压力。

使用预先分析计划和预先登记实地实验现在是(发展)经济学的普遍做法。2012年，美国经济协会(American Economic Association)的执行委员会建立了一个发布预分析计划的登记处。该登记处目前列出了来自120多个国家的2000多项研究。

的发展经济学杂志最近，他与伯克利社会科学透明度倡议合作，发起了一项倡议，为作者提供提交预分析计划供审查的机会。在结果已知之前，预分析计划可以被接受发表。这种方法，被称为“注册报告”，允许作者仅基于研究计划获得接受。这项倡议的目标之一是直接处理发表偏倚。审稿人和编辑(以及作者)还没有看到研究的结果，因此被迫仅根据研究的设计、统计能力和对文献的潜在贡献来做出发表决定。

尽管有明显的优势，预分析计划也涉及一些重大的挑战。其中一个挑战是，预先指定所有要测试的假设几乎是不可能的。另一个问题涉及偶然性，或缺乏偶然性，这是研究的重要组成部分。意想不到的发现往往会导致新的假设的发展，探索性分析可以引发重要的突破。当使用预分析计划时，这两种情况都不太可能发生，因为它们本质上缩小了数据分析阶段之前的研究范围。同样，通过减少探索性学习的潜力，研究问题与许多未知成为冒险的努力，这进一步减少了意外结果的可能性。

限制和差距

大量的期刊不要求作者发表他们的数据和代码，再加上正在进行(或发表)的复制研究数量很少，这意味着开放科学面临着几个相当大的障碍。一个主要的担忧是，开放科学的努力往往没有得到足够的回报。成熟的研究人员不太习惯遵循开放科学实践，这通常需要更多的时间和精力，因此可能很难在没有强大激励的情况下改变他们的习惯。

另一个担忧是，越来越多地使用政府或企业专有数据可能会阻碍数据共享的发展。机密数据的使用加上对数据敏感性的日益关注是这方面的限制因素。必须作出相当大的努力，提供如何获得这些数据和代码的说明，以便其他研究人员可以重复研究结果。

最后，一些经济学家可能担心，如果他们分享自己的数据和代码，会有被同行盗用的风险。建立一个数据集需要花费大量的时间和精力，他们可能会觉得其他研究人员将从使用他们的数据集中获得不公平的利益。

摘要及政策建议

正在进行的开放科学和研究透明度运动对经济学家和政策制定者来说是一个具有挑战性的时期。支持者面临的关键问题是如何将这些挑战转化为机遇。如何激励研究人员分享他们的数据集和代码，并审查和重新测试以前研究的结论?如何改变激励结构以降低已发表文献的发表偏倚程度?

至少有四项主要行动可以提高经济研究的透明度和可信度。首先，尽管取得了很大进展，但令人惊讶的是，许多科学经济学期刊不要求(或允许)研究人员分享他们的代码和数据集。越来越多的免费和开源数据存储库(如开放科学框架)促进了预印本和工作文件的数据共享，但也可用于已发表的文章。其次，简单、低成本的编辑政策可以很容易地降低发表偏倚的程度。第三，对复制的资助和对复制价值的更大认可是必要的。第四，越来越多的证据表明，改进的研究设计可能会使实证经济学研究更加可信，这表明作者自己在推动开放科学运动方面发挥着关键作用。

致谢

作者感谢匿名审稿人和IZA劳动世界编辑对早期草稿的许多有益建议。作者还感谢Taylor Wright的研究协助。作者以前的工作包含大量的背景参考资料在这里提出的材料，并已在本文的所有主要部分密集使用[2]，[7]，[１０]。

相互竞争的利益

IZA劳动世界项目致力于IZA行为准则。作者声明已经遵守了代码中概述的原则。

证据地图

实证经济研究中的透明度

实证经济研究中的透明度

开放科学可以提高研究的可信度，但前提是要有正确的激励机制

电梯游说

重要发现

优点

缺点

作者主要信息

动机

讨论利弊

向研究透明度转变

经济学中的发表偏见和择优(p-hacking)

复制和数据可用性策略

使研究结果更可信的方法

系统论的计划

限制和差距

摘要及政策建议

致谢

相互竞争的利益

证据地图

P-hacking，也就是所谓的挑选樱桃

将政策影响分解为因果渠道

元回归分析:从不同的证据中产生可信的估计

劳动经济学中的复制

经济学中的大数据

实证经济研究中的透明度

开放科学可以提高研究的可信度，但前提是要有正确的激励机制

电梯游说

重要发现

优点

缺点

作者主要信息

动机

讨论利弊

向研究透明度转变

经济学中的发表偏见和择优(p-hacking)

复制和数据可用性策略

使研究结果更可信的方法

系统论的计划

限制和差距

摘要及政策建议

致谢

相互竞争的利益

证据地图

完整的引用

完整的引用

数据源(年代)

数据类型(年代)

方法(年代)

国家