元回归分析:从不同的证据中得出可信的估计

当证据基础缺乏可信度时,元回归方法可用于制定循证政策

澳大利亚迪肯大学

单页 全文

电梯游说

好的政策需要可靠的科学知识,但存在许多障碍。大多数计量经济学估计缺乏足够的统计能力;有些估计无法复制;发表选择偏差(选择性报告结果)很常见;在大多数政策问题上,依据的证据也存在很大差异。元回归分析提供了一种方法来增加统计力量,纠正一系列偏差的证据基础,并理解不断流动的相互矛盾的计量经济学估计。它使政策制定者能够制定以证据为基础的政策,即使最初的证据基础缺乏可信度。

有缺失估计的研究记录可以通过元回归来改进

重要发现

优点

元回归提供了一个系统的科学方法来研究综合和定量审查的证据基础。

元回归方法可以用于正式检验假设和竞争理论。

元回归对于解释计量经济学估计中广泛差异的来源特别有用。

元回归可以纠正规范偏倚的证据基础,减少发表选择偏倚的影响。

元回归涉及简单的回归分析和标准的软件,有完善的指导方针和协议,很容易实现。

缺点

确定相关研究,提取和编码进行元回归分析所需的数据是非常劳动密集型的。

没有经验的编码人员可能会犯编码错误,从而使估计产生偏差。

研究人员在建模选择时的偏见会对元回归分析产生负面影响,就像它会影响原始数据分析一样。

元回归方法对于只有少量计量经济学研究的研究领域效果较差。

作者的主要信息

为了制定有效的劳动力市场干预措施,政策制定者需要对关键关系进行可靠的估计。然而,报道的证据不能只看表面价值。大多数实证研究报告的估计范围过于广泛,由于发表偏倚,一些证据基础从公共记录中缺失。传统的证据审查容易受到主观解释的影响,可能会扭曲政策结论。政策制定者应该鼓励元回归,以提供对证据的系统回顾,并能够检验理论和纠正影响所报告的计量经济学估计的偏见。

动机

关键参数的评估通常采用数以千计的计量经济学结果的形式。人们如何理解对关键弹性的大量不同且经常相互冲突的估计?决策者根据哪些估计制定政策?是否有些估计比其他的更可靠?当公共记录中缺少部分证据基础时,什么是谨慎的政策?

可信的证据总结需要是全面和客观的,基于统计上有效的方法,识别和纠正报告证据库中的偏见,并考虑到实证结果的多样性。传统的经验论评述不能满足所有这些标准。叙述性评论选择非随机部分的证据,不能提供统计推断,并且容易受到审稿人的主观解释的影响。他们也不能使用统计方法来识别、纠正或减少证据基础中的偏见。幸运的是,元回归分析方法提供了一个实用的解决方案。

正反两面的讨论

元回归的基本原理

无论是与最低工资、工会化、统计生命的价值、移民、儿童保育、培训,还是数百个其他问题有关,以证据为基础的政策都需要建立在可信信息的基础上。大多数证据库的审查员认为研究记录是由无偏倚的估计组成的,从中很容易得出有效的推论。因此,典型的方法是审查非随机的估计样本,通常是那些完全来自领先期刊的样本。这种方法只有在评审的研究能够代表整个证据基础,并且只有在主要期刊报告无偏倚和可靠的估计时才会提供无偏倚的评估。然而,在主要期刊上报道的证据基础远非理想。事实上,主要期刊受到发表选择偏差的影响(由于估计在统计上不显著或不符合研究人员的预期,导致一些证据基础未被报告),而且令人担忧的是无法重复关键结果[2].其他期刊的情况也好不到哪里去。幸运的是,医学、心理学和经济学等不同领域的研究人员早就意识到这些问题,并开发了元分析方法来处理它们。

元回归有两个主要优势。首先,与传统的综述相比,它提供了一种科学的研究综合方法,试图系统和全面地调查整个证据基础。第二,元回归可以检测和纠正文献中的偏差。第一个动机独立于第二个动机;即使没有偏见纠正,元回归也比叙述性回顾提供了更全面、更少倾斜的研究综合,因此为政策评估提供了更可靠的基础。

元回归被称为回归分析中的回归分析,可以用来总结证据基础,识别异质性来源,增加统计效力,纠正或减少发表选择偏倚,揭示新的关联。下面是对这些任务的简要描述。

总结证据基础

元回归方法通过计算可比较的报告效应量(元平均值)的加权平均来综合研究记录,如弹性或部分相关性。这些元平均可以是无条件的,也可以是有条件的一系列调节因素。元平均值的统计显著性通常揭示了潜在关联的存在,而元平均值的经济(或实际)显著性揭示了一个关键利益值(参数)的大小,这使得它对政策有效性至关重要。

抽样和估计误差会导致实证结果出现分歧。元回归分析结合了对相关关系的所有估计,有效地消除了实证结果中抽样误差的任何净影响。对于给定主题所报告的估计数不能假定具有同等的价值,因为有些估计数的报告精度更高。因此,有必要计算汇总估计值的加权平均值,为更精确的估计值分配更多的权重。常用的权重是报告弹性的逆方差、研究收到的引用数、期刊影响因子、样本量和其他质量指标。方差越小,估计关联的精度越高。因此,逆方差权重在元回归中给出了更精确的估计和更大的权重。

元平均也可以汇集个别研究以及不同研究的估计。例如,报告大量估计的研究可以计算所有实证结果的加权元平均。这将使政策制定者和其他审查人员更容易有效地从这些初步研究中提取信息。

识别异质性的来源

实证经济学研究的一个显著特征是过度异质性。研究报告了一系列看似无穷无尽、往往相互矛盾的发现。哪个结果是正确的?政策制定者应该更信任哪些调查结果?正如当劳动力市场现象是多方面的时,回归分析是必要的一样,当研究结果是多方面的时,元回归也是必要的。元回归确定了报告结果中异质性的来源。这可能是所研究的现象所固有的,例如当关键弹性因性别、年龄、行业或国家而变化,或随时间而变化时。然而,异质性通常被发现是研究选择的产物,例如模型规范、函数形式、采样的准确数据或使用的估计器。所有这些异质性来源都可以通过元回归来识别。

提高统计能力

统计力量是可信研究的关键因素。当实证研究能够发现真正的实证效应时,它们具有足够的统计力量;这需要较低的假阴性率(真实的预测但被预测为错误的预测)。一项对大约6700项经济学实证研究的159项元回归分析的调查发现,此类研究的力量严重不足:经济学的统计力量通常不超过18%(与理想的80%相比),在被调查的159个实证经济学领域中,几乎一半的报告结果有90%或更多来自力量不足的研究[2].元回归分析通过结合大量不足的研究结果来提高统计能力。这减少了加权平均效应量的标准误差,从而减少了加权平均周围的置信区间,从而增加了检测到真正经验效应的可能性。

纠正或减少出版物选择偏倚

对证据基础的简单总结通常不足以为政策提供信息。长期以来,人们一直怀疑报告的计量经济学估计是所有已计算估计的不具代表性的样本。也就是说,报告的估计值是从一个大得多的数字中挑选出来的。加拿大著名经济学家哈里·约翰逊(Harry Johnson)有一句著名的俏皮话:“‘假设检验’通常只是一种委婉的说法,用来获得貌似合理的数字,为基于先验基础选择和捍卫的理论提供仪式上的充分性。”[3]第92页。我们可以假设,自利在思想市场中肯定会起作用,就像在其他任何市场中一样。在学术界的激励下,许多研究人员可能会报告与他们先前的理解或学术抱负一致的结果。即使只有一小部分研究人员如此积极,这也足以使研究记录的水变得浑浊,并可能扭曲政策有效性的图景。

现在有很多证据表明,有选择性地报告计量经济学估计是一个普遍存在的问题——有些人可能会说,这几乎是一种流行病。例如,对159个经济学主题的调查发现,实证经济学受到选择偏见的严重污染,据保守估计,大多数报告的影响至少被夸大了两倍[2].毫无疑问,这种人为的弹性膨胀会对政策有效性产生重大影响。

漏斗图提供了一种信息丰富,但简单的方法来说明报告估计的异质性和潜在的选择偏差。这些散点图通常以报告的弹性为横轴,以一些精度测量(例如标准误差的倒数)为纵轴。如果,比如图1的工会成员与工作满意度的部分相关估计的显示,不存在出版物选择偏差,漏斗图应该对称分布在平均弹性周围。相比之下,发表选择偏差意味着一些证据缺失,这导致了截断的情节。因此,插图显示统计生命价值(人们愿意为降低死亡概率而支付的金钱数量)的估计值的不对称分布,值截断为零,而不是围绕特定值对称分布。这种截断是由研究设计选择产生的[1].例如,当统计寿命的值相对较小时,测量和采样误差可以给出负值。从研究记录中删除这些值会截断分布,从而人为地夸大统计寿命平均值的估价值。因此,不对称漏斗图表明存在选择偏差,尽管在某些分布中,不对称可能是自然的,与偏差无关,例如,反映了估计值随时间或跨组的潜在变化。

工会成员资格和工作满意度的部分相关性估计的对称性表明不存在选择偏差

揭示新的关联

通过结合不同研究的结果,元回归分析可以利用不同估计之间的差异来调查新的关联。例如,元回归分析通常用于调查估计的时间变化。由于初级计量经济学研究经常利用不同时间点的样本,即使原始研究没有,元分析师也可以探索弹性的时间变化。例如,一项针对英国CEO薪酬与业绩之间关系的调查发现,随着时间的推移,“要么遵守,要么解释”政策规则的有效性受到了侵蚀。这种规则允许不遵守某些规则的公司解释原因[5].所报告的估计数的时间变化可以反映许多现象。它可能反映了潜在经济关联的结构变化,但也可能反映了研究设计的选择;例如,随着时间的推移,不同的经验方法。或者,它可能反映了报告偏好的变化,早期研究的研究人员更倾向于报告较大的影响,而后续研究的研究人员报告较小的影响,给人一种影响下降的印象。因此,时间变化可能是一个信号,更深入地研究经验文献。

元分析师还可以调查其他上下文关联。例如,研究的估计值可以与采样时的收入水平或劳动力市场法规或其他一些维度相匹配。再一次地,这可能使我们能够研究初级研究中没有考虑到的假设,而这些研究可能会导致新的理论命题。

元回归模型

元回归模型是一种相当传统的多元回归模型。因变量是政策利益参数的估计值,例如,劳动力供给的弹性与儿童保育价格有关,培训与创新之间的相关性,教育回报率,以及性别收入差距。这些估计在元回归分析文献中被称为效应量。元分析师收集所有可比较的效应量估计值,然后通过将其回归到一组解释变量上来解释所报告的效应量的变化。在大多数情况下,来自可信的未发表的研究(如国家经济研究局的工作论文)的估计也将包括在元回归分析中。元回归模型可用于量化数据、规格、测量和估计器类型的差异对所报告的感兴趣参数估计的影响。

元回归模型中一个重要的解释变量是报告弹性的标准误差,它是估计效果准确性的衡量标准。包含此变量将创建漏斗-不对称-精度-效应测试,该测试可用于识别和纠正出版选择偏倚[6].这种检验背后的逻辑是,在缺乏选择性报告的情况下,估计弹性与其标准误差之间不应存在相关性。检测到这种相关性表明存在出版物选择,这意味着主要研究人员正在搜索统计上显著的估计值,并优先报告满足这一要求的估计值。然而,需要指出的是,元回归的修正估计并不依赖于这种出版选择偏倚解释。不管一个估计和它的标准误差(例如小样本偏差)之间的关联的原因是什么,从统计学上讲,将标准误差趋近于零总是更可取的。在其他条件相同的情况下,标准误差越小,估计就越准确可靠。

其他解释变量可用于元回归模型中的异质性建模,并量化模型错误规范的影响。例如,解释变量可以包括在计量经济学模型规范中捕获最佳实践。通常,计量经济规范在元回归中使用二元变量建模。这些变量表明计量经济学研究中包含的控制变量的类型。这些二元变量的系数揭示了规范偏差。然后,元分析人员可以“纠正”错误指定的研究的影响,而不是丢弃这些估计,并丢失其他研究维度的所有相关信息。首选的策略是在元回归中包括所有估计,正式测试规格差异是否会影响报告的结果,并基于最佳实践提出政策建议。

解释变量通常由主要来自初级计量经济学研究的信息组成。然而,如上所述,解释变量可以使用研究本身之外的信息来构建,以探索初级研究中没有检查的维度,如时间变化、国家变化、监管和收入差异。

元回归模型的估计参数可用于导出平均效应量的条件估计——以调节因素为条件的平均效应量估计。这些有条件的估计可以用来为政策提供信息。因此,当构建适当时,元回归模型可用于纠正错误规范和出版选择偏差,建模异质性,提高统计能力,并协助制定有效的劳动力市场政策。

一些应用程序

现在,元回归分析在劳动经济学中有许多应用,包括研究移民、积极的劳动力市场政策、最低工资和劳动力市场法规对就业的影响等等[7][8][9][10].进行了多次元回归分析的两个领域是对统计生命价值的估计和最低工资对就业的影响。下面简要回顾一下。

寿命:统计寿命的价值

统计生命价值的估计是公共卫生、交通和环境项目成本效益分析的重要输入。一些元回归分析估计了统计寿命的价值。例如,一项对39个工资方程估计的元回归分析综合了证据基础并分析了报告值的异质性,得出统计寿命的简单平均值为950万美元(以2000年美元计算)。[11].然而,在这篇或任何其他文献中,不能忽视出版选择偏倚的可能性,因为所有文献都容易受到选择性报道的影响。

统计寿命值的漏斗图显示在插图是不对称的。然而,选择偏差并不是漏斗图不对称的唯一原因。有时原因只是潜在的异质性,例如,因为统计寿命的值可能随着时间和不同群体而变化。确认选择偏差的唯一方法是通过正式的统计检验。一项元回归分析显示,关于统计生命价值的文献可能存在出版选择偏差[1].因此,报告值的平均值将会夸大统计生命的价值。一项使用元回归校正出版选择偏倚的研究得出的统计寿命校正值为274万美元,与未校正的平均值950万美元有显著差异[1].最近的一项元研究使用美国致命职业伤害普查的数据重新讨论了这一争论,也发现了统计上显著的出版物选择偏差[12].然而,这些数据产生的统计寿命价值明显更高,从760万美元到1 100万美元不等。该研究得出的结论是,“没有理由根据出版物选择效应来减少目前用于政策的[统计寿命的价值]。”

最低工资对就业的影响

最低工资对就业的影响是当今最激烈的收入再分配和劳工政策问题之一。报告的计量经济学估计差异很大,但未加权的平均值表明不利的就业影响。一些元回归分析对这一文献进行了调查。一项研究使用最近检测和纠正出版物选择偏差的方法,并对1474个估计最低工资弹性的大样本进行了研究,结果发现,对美国来说,只有出版物选择偏差,没有经济上显著的就业影响[6].这项元研究的更新证实了早期的发现,没有不利的就业影响[9].一项针对英国最低工资标准的调查发现,除了对家庭护理行业有轻微的不利影响外,该标准没有出版物选择偏差,也没有对就业产生重大经济影响[13].另一方面,对规模小得多的发展中国家最低工资文献的元回归分析发现,在修正出版选择偏差后,存在一些不利的就业影响[10].因此,元研究在很大程度上证实了最低工资对就业没有负面影响(尽管有少数例外)。

局限性和差距

为什么从不同的研究中汇集计量经济学估计?为什么不把所有的数据集中起来,进行一个大型的、完善的、可信的计量经济模型呢?简单的答案是,永远不会有一种情况,即任何特定主题的唯一证据都来自于一项大型研究。从另一项研究中,也许是更大的研究中,总是会有更多的东西需要学习。可能存在需要测试的替代规范或替代函数形式,或者有额外的数据可用,开发了新的估计器,或者需要测试新的理论。科学永不停止。研究人员有永不停歇的动机。随着证据基础的增加,理解不断积累的数据和计量经济学估计的必要性也在增加。政策制定者将再次需要借助某种综合研究的方法。

元回归分析的一个常见批评与估计值的可比性有关——
“苹果和橘子的混合”问题。这个问题在荟萃分析文献中进行了详尽的讨论。简而言之,元分析需要可比较的估计。所有元分析指南都非常清楚这一点。元分析人员必须谨慎地收集全面的、可比较的和无偏倚的估计集合。进行严格的、可复制的元分析还有更多的要求,太多了,这里无法讨论。对于任何给定的元分析中所包含的研究的选择持不同意见的批评者,如果他们能够证明替代纳入或排除规则的客观性,他们可以自由地进行自己的独立元分析。此外,如果某些证据基础是不可比较的,这并不会减少对其余可比较估计进行研究综合的需要。如果元分析人员由于缺乏可比性以外的原因而排除部分证据基础,则可能会引入偏倚。(例如,参见统计寿命值的元回归分析中包含的估计偏差的讨论[1])。首选的方法是只强调元回归结果,这些元回归结果对如何测量效应的所有这些合理变化都是稳健的。例如,提高最低工资对就业没有经济上显著的不利影响,这一发现已清楚地表明,与如何衡量这种影响无关。

进行元回归分析的主要挑战是从研究记录中构建完整的可比较估计所需的时间和技能。这是分析中成本最高的部分。元回归分析本身并不比任何其他应用计量经济学分析更复杂;标准的统计软件可以使用加权最小二乘来估计元回归模型。一个相关的问题是,在对初级研究的信息进行编码时,有时可能涉及一些主观性。一些初步研究对所使用的数据、估计模型中包含的变量或如何测量关键变量提供了不够清晰的说明。这种清晰度的缺乏会导致元回归中包含的变量编码的模糊性。当存在歧义时,第二个或者第三个编码员对于解决分歧是必不可少的。在某些情况下,可以联系到主要作者,但这往往是困难的,甚至是不可能的。

另一个问题是,虽然元回归分析减少了分析中的主观性,但它并没有消除主观性。例如,虽然文献提供了一些指导,但通常有许多维度可以编码,例如哪些控制变量、数据特征和上下文变量要编码并包含在元回归中。元分析人员需要决定应该对哪些维度进行编码,因为元回归模型可能很快就会耗尽自由度(分析人员可以改变的计算中值的数量)。

在回顾只有少量研究的新兴文献时,使用元回归的另一个挑战出现了。在这种情况下,元回归提供了相当有限的优势(例如增加客观性和可复制性),并且不太可能解决所有潜在的问题。在这里,更标准的叙事评论,如果平衡和有洞察力,可能更有利于指导未来的研究。

摘要和政策建议

对可靠估算的需求正在不断上升。科学有效的综合研究方法是必不可少的。元回归分析提供了一种独特的方法,可以看穿通常笼罩在实证经济学周围的迷雾,它应该是良好政策制定不可或缺的一部分。它可以增强统计力量,纠正一系列偏差的证据基础,并使大量计量经济学估计变得有意义。虽然元回归有它自己的细微差别和要求,但它是相对直接的。有了几十个可以遵循的例子和完善的指南和协议(如MAER-Net和PRISMA指南),大多数经济研究人员应该能够进行元回归分析。

目前,实证研究的可信度受到了强烈的关注,并提出了一些改变激励和实践的倡议。然而,至少在可预见的未来,可以假设一些自私自利的研究人员将继续报告选定的估计样本。好消息是,由于有方法可以纠正证据基础,这些已经在公共领域的有价值的信息不需要被丢弃。而且,即使对偏差的修正变得没有必要,并且可以根据表面价值进行估计,仍然需要对系统异质性进行正式的假设检验和解释。在任何情况下,随着实践的改进,总是需要客观的综合,使实证研究易于理解,并确定实际的政策影响。政策制定者可以鼓励元研究,并在制定政策时考虑他们的发现。

致谢

作者感谢两位匿名的推荐人和IZA劳动世界的编辑为早期的草稿提供了许多有用的建议。作者以前的作品包含了本文所介绍材料的大量背景参考资料,并在本文的所有主要部分中被大量使用[1][6]斯坦利、T. D.和H.杜库里亚格斯。经济与商业的元回归分析.牛津:劳特利奇出版社,2012年。

相互竞争的利益

IZA劳动世界项目致力于IZA研究诚信指导原则.作者声明他遵守了这些原则。

©Chris Doucouliagos

证据地图

元回归分析:从不同的证据中得出可信的估计

完整的引用

完整的引用

数据源(年代)

数据类型(年代)

方法(年代)

国家