2020年7月

IZA DP No. 13459:大数据集的探索性数据分析:西班牙社会保障数据中工资变化的例子

在线发表于:BRQ商业研究季刊,2020年9月9日首次出版

当在分析中使用一个相当大的数据库时,数据可视化出现了新的挑战。对于许多数据点,经典的散点图由于点的杂乱而没有信息。相反,简单的图,如箱线图,在小样本中用途有限,但在广泛样本的情况下,提供了促进群体比较的巨大潜力。本文介绍了当涉及大型数据集时有用的探索性数据分析(EDA)方法。EDA方法(由Tukey在他1977年的开创性著作中介绍)包含了一套统计工具,旨在使用简单的图形工具从数据中提取信息。在本文中,使用现代图形计算设备(例如,热图)重新审视和增强了一些EDA方法,并使用西班牙社会保障数据说明了它们的使用,如箱线图和散点图。我们探讨了收入如何随着年龄、性别、职业类型和合同等几个因素而变化,特别是,工资的性别差距在与职业类型相关的各个维度上得到了可视化。EDA方法也适用于评估竞争回归收益作为因变量。讨论的方法应该有助于研究人员评估数据的异质性,跨组变异,和经典的诊断图残差从替代模型拟合。