经济学中的大数据

新的数据来源带来的挑战可能需要新的技能

加州大学欧文分校,美国

查普曼大学,美国

单页 全文

电梯游说

大数据指的是规模更大、频率更高、通常更个性化的信息的数据集。例子包括家庭智能传感器收集的数据或Twitter上的推文聚合。在小数据集中,传统计量经济学方法往往优于更复杂的技术。然而,在大型数据集中,机器学习方法显得尤为突出。在经济学中充分利用大数据需要新的分析方法。因此,如果研究人员和政策制定者想要充分利用这些新的大数据来源,就应该密切关注机器学习技术的最新发展。

机器学习技术在大数据分析中的应用

重要发现

优点

现在可以获得复杂的数据,其特点是量大、速度快、种类多,并且能够将多个数据集链接在一起。

来自机器学习的强大的新分析技术越来越多地成为主流计量经济学工具箱的一部分。

大数据可以更好地预测经济现象,改善因果推理。

机器学习技术允许研究人员创建描述非常庞大、复杂的数据集的简单模型。

机器学习方法和大数据也允许复杂的关系建模,预测远远超出样本。

缺点

基于大数据的预测可能会涉及隐私问题。

机器学习方法是计算密集型的,可能没有唯一的解,可能需要高度的微调以获得最佳性能。

大数据的收集和存储成本很高,分析它需要在技术和人力技能方面的投资。

大数据可能会受到选择偏差的影响,这取决于数据是如何产生的以及由谁产生的。

获取这些数据可能需要与限制研究人员自由的公司合作。

作者的主要信息

由于连接数字设备的普及,观测数据集的规模和频率都比传统的调查要大得多,这就是所谓的大数据。这为经济学家和政策制定者创造了机会,以更高的精确度了解经济体系和选择。然而,为了充分利用大数据,还需要新的方法,特别是那些与机器学习相关的方法。此外,政策制定者应该考虑更广泛的敏感数据,研究人员需要检查以避免无意的偏见,经济学家应该学习通用的编码语言。

动机

“大数据”一词大约在2010年进入主流词汇,当时人们开始意识到数据的生成速度呈指数级,主要是通过使用社交媒体[1].工程师和计算机科学家很快意识到,不能单纯从规模上定义大数据;虽然在过去的十年里,数据量确实以数量级增长,但其他因素也改变了信息的格局。

虽然数据传统上只用于特定目的,通常是由国家统计机构收集,但世界正变得越来越量化,即使是最小的公司也在收集和记录详细的、有时是个性化的数据。这是通过一个庞大的软件(应用程序)和硬件(传感器)生态系统来实现的,这些软件(应用程序)和硬件(传感器)嵌入了浩瀚的“智能”技术海洋,包括手机、连接Wi-Fi的电器、汽车和卫星。这种数据雪崩大大增加了数据的种类和记录数据的速度。从以前的非结构化信息(如文本)中创建新数据集的新机会比比皆是[2]和卫星图像[3].这种发展开辟了经济问题的新领域;以前只能在几个月甚至几年之后才能回答的问题现在可以实时解决。因此,经济学家已经从预测转向了临近预测。例如,现在可以使用实时谷歌搜索来预测失业率的变化[4]或Yelp的数据来预测当地的商业模式[5]

讨论利弊

值得注意的是,随着可用数据量的增加,所有方法的预测精度都将趋于提高。然而,近年来,研究人员注意到,机器学习技术的性能有以更快的速度提高的趋势。曾经被认为机器不可能完成的任务(如阅读理解或下复杂的游戏,如围棋)现在已经被最新一代的机器学习工具(如深度神经网络)掌握,它们的性能现在超过了人类专家。那么,这对一般的经济学从业者来说意味着什么呢?如果可用的数据往往很小而且相对简单,那么现有的方法和传统软件包应该足够了。另一方面,如果研究人员发现自己在处理大数据,那么从机器学习中学习新的分析范式,并投资于新的软件工具,将导致显著的性能改进。

对于大数据工具的最新进展,一个常见的误解是,它们只关注预测,而忽略了因果推断。虽然从计算机科学的角度来看,预测确实是机器学习的主要焦点,而因果推理得到的关注相对较少,但这并不意味着这些发展与因果推理无关。事实上,许多计量经济学家已经将注意力转向修改机器学习算法,以更好地执行因果推理[6]

一些基本的机器学习术语

使用机器学习的阻碍之一不是计量经济学与机器学习在概念方法上的差异,而是在后者的文献中发现的不熟悉的术语。通常情况下,机器学习方法与计量经济学方法相似,但由于术语不同,人们对其充耳不闻。例如,经济学家所说的“变量”,机器学习称之为“特征”。因此,在进一步讨论之前,了解一些基本的机器学习术语是有指导意义的。

机器学习又分为无监督学习和有监督学习。这里的“学习”是机器学习对模型与数据的拟合。在监督学习中,目标是使函数与目标相适应。具体来说,每个数据点都有一个关联的标签或目标。监督学习算法的任务是找到一个函数,该函数在每个数据点及其相关标签之间找到一个映射。在计量经济学中,这被简单地称为“回归”。在计量经济学和目前的机器学习中,监督学习占据了将模型与数据拟合的大部分任务。如果目标是预测——也就是说,学习输入和输出之间的函数映射,并将其应用于样本外——机器学习方法,如随机森林、最小绝对选择和收缩算子(LASSO)或深度神经网络,将经常击败计量经济学方法。

相比之下,无监督学习的目标是在数据中找到揭示隐藏结构或有趣结构或模式的模式。在无监督学习中,数据点不是每个都有一个潜在的(相关的)标签。这里的目标没有监督学习那么明确。例如,有人可能试图降低一些非常大的对象(即非常大的数据集)的维度,以便它适合更小的维度空间(节省过程中的硬盘驱动器空间)。目标可能是将观察结果集中到相似的组中,或按主题对大量文档进行分类,从而节省研究人员阅读数千个文档的费力任务。无监督学习的主题非常多,而且还在不断增加,其中很多在经济学中还没有被探索过。

计量经济学中的回归模型和机器学习中的监督学习方法之间的一个关键区别是适合数据的模型的类型。机器学习方法被开发用来处理tb级的数据,比经济学中通常遇到的数据大得多。因此,可以从数据中非参数识别的模型的灵活性通常比经济学中更大。然而,这产生了一个单独的问题:研究人员如何知道他们将真实的关系与数据拟合,而不是那些来自偶然的虚假关系?注意,传统的零假设显著性检验在这里的作用有限。考虑到数百万次观测的样本量,量级比统计显著性更重要。这也是为什么大数据往往意味着不同的方法;因此,研究人员需要新的训练和思维来从如此大的数据集中学习。

机器学习研究人员为确保拟合模型在样本外表现良好而开发的解决方案是,使用基础数据的测试-训练-验证分割来近似样本外拟合。在这种方法中,数据(测试样本)被完全排除在模型拟合过程之外,直到分析的最后才被触及。相反,模型拟合在基础数据的主题(训练样本)上。通常在模型拟合过程中,需要对机器学习方法的参数进行校准或调优。为了确保这个调优过程不会影响拟合,保留了一个训练数据子集(验证样本)来适当地调优参数。一旦选择了调优参数(或一组调优参数),就将调优模型应用于测试示例,以近似模型在正常情况下的表现。

由于数据集相对较小,经济学家经常担心观察数据丢失,即使它们是随机丢失的。有了大数据,这就不是什么大问题了;有足够的数据来估计模型。因此,如果最终能够更准确地测试模型在样本外的表现,那么损失一些观察结果并不是一个巨大的代价。

上面没有提到的一个重要步骤是如何有效地调整调优参数,而不过度拟合或费力地太频繁地返回验证示例。解决方案是被称为“交叉验证”的重复采样过程,这是一种选择最佳调优参数的聪明方法,甚至不求助于验证样本。在k-fold交叉验证时,训练数据首先被划分为k不同的组。然后使用除分区1中的数据外的所有数据拟合模型。然后将这个拟合模型应用于第一个分区中的数据,并仅获得该分区的预测值。这个过程不断重复,直到每一层的观测结果都有预测值为止。这种方法的聪明之处在于,模型的预测永远不会受到观察的因变量值的影响。预测确实是样本外的,或者至少是样本的近似值。交叉验证可以并且经常用于比较各种调优参数的拟合值。最后的选择通常是使观测值和预测值之间的误差最小的选择。

正则化以协助高维贸易政策模型中的变量选择

大数据的挑战之一是必须管理包含许多甚至数千个变量的更大数据集。如果没有对基础数据生成过程的清晰理解来指导人们的工作,时间就会被低效地浪费在搜索选项上。幸运的是,机器学习的一些方法可能对迷失在大数据海洋中的勇敢的研究人员有指导作用。

正则化是一种调整可能性的统计技术,当概率最大化时,人们更喜欢稀疏模型(即变量或参数较少的模型)或将系数值缩小为零的模型。为什么变量较少的模型更可取?原因是,稀疏模型通常更容易解释,也更容易传达给研究人员,最终是政策制定者。如果要在两个表现相同的模型中进行选择,变量较少的模型通常是首选。正则化还有一个额外的好处,即较稀疏的模型往往比“密集”模型或包含许多变量的模型具有更好的样本外预测能力。这对大数据的世界有一定的影响,在大数据中,模型中可能包含的变量的数量可以用数百或数千来衡量。事实上,最近的研究发现,随着数据集的大小,正则化的收益也会增加[7].一旦数据集达到一个临界大小,超出了研究人员猜测数据生成过程的能力,使用正则化或另一种智能模型选择技术从数据中获得额外的见解是必要的。

正则化的一种流行的统计方法是LASSO估计[8].LASSO看起来很像传统的计量经济学方法(即普通最小二乘(OLS)),这是它成为集成到经济学中较为成功的机器学习技术之一的部分原因。LASSO采用标准回归,并增加成本(“收缩惩罚”)来增加回归系数的大小。在一些温和的条件下,如果某些估计系数不能证明对解释因变量有用,这就迫使它们为零。根据所需的稀疏程度,可以使用或多或少的正则化,这是由平滑参数仔细控制的。为了找到最优的正则化量,使用交叉验证来确定哪个参数性能最好。

LASSO正则化在经济学中的一个应用可能是有指导意义的,它用于帮助理解大衰退后预测贸易下降的国家和政策决定因素。国家间贸易模式的数据真的是大数据。双边贸易模式衡量的是一个国家与其所有贸易伙伴之间的贸易,一组数据经过足够长的时间,观察的数量很容易增加到数百万。使问题复杂化的是要选择使用哪些协变量,这些协变量往往大得难以处理。此外,决定包括哪些政策和国家层面的贸易决定因素——如关税、货币制度、银行和其他危机——是留给研究人员的自由裁量权。一个研究小组使用LASSO正则化和随机森林来约束变量的选择,并确定一个预测危机期间贸易流动的模型[9]

作者将调查对象分为培训样本和测试样本,分别涵盖危机前(1970-2008年)和危机后(2009-2011年)的年份。他们拟合危机前年份的模型,在估计系数之后,使用这些系数预测危机后年份,并比较模型拟合。作者发现LASSO的正规化“归零”了双边贸易模型中通常包含的许多变量。此外,该方法在某种意义上揭示了预测双边贸易流量的变量的重要性排序。一些变量——如距离、GDP、共同货币、WTO成员资格和人力资本——仍然是非零的,即使收缩惩罚增加到非常高的水平。其他变量变为零,因为只有一点点的收缩惩罚被应用。换句话说,最可靠的贸易流预测指标是应用正则化收缩后保持非零的变量。这些变量可能更可靠地预测危机期间的贸易流动,而其他变量可能只是增加了统计噪音。

聚类和需求建模

需要注意的是,使用大数据或机器学习并不意味着经济学家需要从完全不同的角度进行分析。通常情况下,机器学习工具通过基于数据的建模决策来增强现有的计量经济学方法论,而不是不可靠的人类直觉,这表现为建模选择。看看机器学习技术在2017年的一项最新研究中的应用[10].目的是建立一个结构化的食品需求模型,并模拟美国不同的产品和营养税的影响。现有的食品交易数据(扫描仪数据)非常庞大,使人们能够确定精确的跨价格弹性(即一种商品的需求变化对另一种商品价格变化的反应),并考虑到社会人口特征和购买环境的详细差异。数据的丰富还意味着,观察到的食品购买超过110万种不同的食品(每一种都由独特的条形码识别)。这是否意味着需要估计一个拥有110万个方程(以及更大的协变量集)的需求系统?这目前是不可行的,即使可行,也无疑只会使结果无法解释,使政策影响变得模糊。如果把产品从更广泛的层面上进行汇总,同样会让人感到困惑(例如,一个饮料类别会合并含糖饮料、无糖苏打水、茶和瓶装水)。在110万种产品的情况下,试图讨论什么是产品的最佳分组是毫无希望的。

在这方面,机器学习可以提供一种更健壮的方法,使用一种算法,根据产品的详细营养成分(如热量、脂肪和糖)将产品聚类到不同的组。把每个产品想象成高维空间中的一个点,每个坐标表示该产品中所含的特定营养物质的含量。在这个空间里,无糖碳酸饮料应该挨个摆放,而且离冷冻披萨很远。在机器学习中,针对这一任务开发了许多聚类算法(这是一个无监督学习任务的例子,因为算法不预测任何东西,而是试图找到数据的底层结构)。该分析采用了一种流行的算法称为k -中位数聚类,它确定每个聚类的中位数,并将所有产品标记为属于其中一个k这种集群。

虽然这可能是可用的最简单算法之一,但它通常也非常有效。例如,它能够了解到无糖苏打水与普通苏打水是一个独立的类别。从政策的角度来看,这是一个重要的事实,因为加糖饮料税将把消费转向非苏打产品,也将鼓励消费者用无糖苏打代替普通苏打。此外,研究发现,糖税的影响比苏打水税大得多,因为糖税的税基要大得多;通过对所有产品的含糖量按比例征税,它阻止了对不健康食品的替代。正确估计完全交叉价格弹性的能力被证明是至关重要的,因为从公共健康的角度来看,对某些产品征税可能会适得其反,因为消费者会转而购买同样不健康的产品。

k-中位数聚类算法具有许多常见的数据科学过程的特性,因此值得对其中一些算法进行思考。特别是:

  • 用户必须选择集群的数量k需要,但这通常是不知道的。的许多值需要重新运行算法k用户选择最适合的。

  • 算法不能保证达到最佳拟合,甚至不能保证提供的解是唯一的。一般来说,聚类相当简单,它需要比较所有可能的组合。实际上,这是不可能的;这样的算法,虽然不能保证全局最优或唯一解,但是提供了一个很好的解决方案,解决了一个否则无法解决的问题。

  • 用户必须选择一个度量来度量维度空间中两点之间的距离。已经构建了数百个这样的度量标准,其中一些可能比其他的更合适。因此,虽然领域知识不是必需的,但它可能是有帮助的。一个计算机科学家可以运行一个聚类算法,但一个经济学或生物学专家可能知道一个距离度量比另一个更适合于给定的问题。

  • 成功运行算法可能需要一些额外的选择;例如,将点初始分配到集群(“选择初始值”)可能会导致不同的结果。类似地,过早地停止迭代可能会导致糟糕的性能。这些选择通常被称为“微调”,在现代数据科学中,它们扮演着重要的角色。不幸的是,这些选择在计算文献中通常记录很少,因此机器学习算法的性能通常很难从一篇论文复制到下一篇。特别是在过去的几年里,越来越多的前沿研究正在工业界进行,而不是学术界,这意味着性能最好的算法的许多非常重要的方面都是私有的,可能永远不会公开。

  • 虽然计算量很大,但该算法易于实现,速度快,可扩展到大型数据集。许多机器学习算法的一个吸引人的特点是,虽然它们需要大量的计算资源,但简单性和可伸缩性使它们在大数据应用中获得成功。

正如这个例子所示,机器学习可以被用作更复杂的经济分析的使能装置,而不必成为研究输出的主要焦点。

改进因果推理的机器学习方法

传统上,机器学习主要集中在预测问题上。虽然许多政策问题的核心是预测问题(例如,政策制定者必须预测失业的持续时间,以便最好地针对职业培训项目),但其他政策问题需要反事实的知识和因果治疗效果的估计。值得注意的是,尽管机器学习方法非常擅长预测,但它不一定能提供结构参数的无偏估计。例如,LASSO系数偏向于零,这将低估或夸大回归变量对因变量的影响,如果它的表面价值。然而,因为相关性并不意味着因果关系,所以即使是无偏的OLS系数也不应该解释为因果关系。理解策略变量的因果影响需要一个单独的框架,比如工具变量、匹配估计器或其他方法。

内曼-鲁宾因果模型是应用经济学中最常见的因果推理框架。最近关于大数据的工作建立在这个框架之上,研究如何使用或修改机器学习方法,以提供对关键参数(如平均治疗效果)的无偏估计。研究人员可能会惊讶地发现,在有关大数据的计算机科学文献中,有几个相互矛盾的因果关系概念。并非所有这些概念都相互一致,可能不适用于经济政策评价。因此,经济学家应该警惕在没有完全理解其理论基础的情况下,将计算机科学文献中被标记为“因果关系”的大数据算法应用于政策分析。幸运的是,因果推理和机器学习交叉领域的计量经济学文献正在取得快速和非常成功的进展。

一个日益增长且成功的计量经济学文献新分支提出,如何在大数据问题中获得对关键结构参数(如平均处理效果)的无偏估计。一个简单的例子涉及在高维回归模型中估计平均治疗效果,其中计量经济学家有数百个潜在的控制变量要考虑。2014年的一项研究表明,通过使用LASSO等标准机器学习方法来降低问题的维度会导致严重的偏颇治疗效果[11].这个问题本质上是一种规格错误,在这种情况下,选择的错误会导致内生性。这个问题现在已经得到了很好的理解。解决方案包括一个被称为“双机器学习”的两步程序。在第一步中,可以使用任何机器学习方法来估计感兴趣的未知函数。在第二步中,利用回归中的误差构建数据的限制条件,然后求解这些限制条件以产生处理效果的无偏估计。为了避免过拟合,该方法还依赖于样本分裂来消除有限样本偏差。值得注意的是,大数据在很大程度上导致了传统计量经济学技术与机器学习概念的融合。机器学习方法可以轻松构建更复杂的数据关系。样本分割确保模型不拟合数据中的噪声。 Big Data has provided a wealth of information to exploit, and machine learning is the tool that disciplines the cavalcade of data.

机器学习用于因果推断的另一个领域是估计异质治疗效果,这在传统上被证明是具有挑战性的[12].任何干预的治疗都可能因参与者的特点而有所不同。例如,一种新的癌症药物可能对老年患者和年轻患者产生不同的影响。使用随机治疗的事后数据,研究人员可能会被指责人为地选择治疗效果最大的亚组。一种解决方案是提供预分析计划,其中在程序初始化之前预先确定分组分析。然而,在参与者数量较少的情况下,可能不可能在分配治疗之前充分细分人群。机器学习中的随机森林方法允许研究人员根据不用于确定治疗效果的数据划分子组。这阻止了数据挖掘来搜索处理效果最高的子组,同时仍然允许前后异质子组分析。

限制和差距

高维个性化数据的生成速度前所未有,这些数据的处理也取得了突破,这意味着大数据带来了许多限制和担忧。首要的问题是保持隐私。调查通常是精心设计的,以匿名化个人,以便敏感信息不指向任何给定的家庭。有了大数据,被去识别的信息可以使用机器学习匹配工具进行事后识别。为了了解问题的严重性,一项研究发现,只要四个时空信用卡数据点,就足以唯一识别一个数据库中90%的个人,该数据库包含据称已被取消识别的信用卡交易[13].在设计数据安全策略时,需要考虑到这一新的现实——更多类型的数据应该被认为是敏感的,并且应该有额外的安全考虑。

另一个担忧是,在政策和商业中广泛使用机器学习预测可能会产生意想不到的后果。种族主义可能会被无意中嵌入到算法中,使用种族的相关关系作为代理。如果这些算法足够不透明,那么种族歧视可能连算法构建者自己都不知道。因此,需要进行强有力的检查,以确保算法预测达到预期效果,而不是无意中助长种族偏见。

根据数据生成的方式,大数据可能会受到选择偏差的影响。并非每个人都有相同的使用数字设备、应用程序或网站的倾向,这可能会导致偏见,特别是在对恰巧出现在数据中的子群体进行概括时。必须使用适当的加权和选择方法,以确保结果具有代表性而没有强烈的警告。另一个担忧是,许多有价值的大数据来源通常被私人公司控制,限制了研究人员的自由。在数据共享协议中经常看到否决权,这可能导致在允许发表的结果方面的发表偏倚。鼓励企业在这方面保持透明,并允许研究人员自由,政策制定者应该考虑政策来解决这个问题。

总结及政策建议

对于雄心勃勃的经济学家、政策制定者或社会科学家来说,大数据的崛起是一个令人兴奋的时刻。以前从未有过如此多的数据可以用来检验现有的理论并发展新的理论。经济学家在这方面有天然的优势,因为他们习惯于处理复杂的数据。然而,这一优势正在迅速下降。来自机器学习的新方法正在扩大大规模处理大数据的能力,如果不将这些方法纳入研究工具包,研究人员可能会被切断与前沿领域的联系。经济学家知道如何构建和测试因果关系陈述,这使得他们的技能在一个数据饱和的世界中非常有价值。挑战在于学习如何大规模地实施这些方法。

研究人员和政策制定者应该认真对待大数据的局限性和差距,但也要重视它的潜力。隐私、选择偏差和私人公司控制来自其数据的研究结果的问题仍然是严重关切的问题。除了上面讨论的处理这些问题的有限建议之外,应该鼓励计算机科学家和数据科学家之间进一步合作,发展双向知识共享。经济学家也被鼓励“动手动手”,学习用更通用的语言(如Python或R)编写代码,以在理论上和实践上理解机器学习方法。最终,这些方法应该作为研究生课程核心实证序列的一部分来教授,就像计量经济学被扩展到包括因果估计方法一样,政策组织应该考虑提供这些方法的培训课程。

致谢

作者感谢一位匿名的推荐人和IZA世界劳工编辑对早期草案提出了许多有益的建议。

相互竞争的利益

IZA劳工世界项目致力于IZA研究完整性指导原则.作者宣称自己遵守了这些原则。

©Matthew Harding和Jonathan Hersh

证据地图

经济学中的大数据

完整的引用

完整的引用

数据源(年代)

数据类型(年代)

方法(年代)

国家