2020年7月
在线发表于:BRQ商业研究季刊,2020年9月9日首次出版
当在分析中使用一个相当大的数据库时,数据可视化出现了新的挑战。对于许多数据点,经典的散点图由于点的杂乱而没有信息。相反,简单的图,如箱线图,在小样本中用途有限,但在广泛样本的情况下,提供了促进群体比较的巨大潜力。本文介绍了当涉及大型数据集时有用的探索性数据分析(EDA)方法。EDA方法(由Tukey在他1977年的开创性著作中介绍)包含了一套统计工具,旨在使用简单的图形工具从数据中提取信息。在本文中,使用现代图形计算设备(例如,热图)重新审视和增强了一些EDA方法,并使用西班牙社会保障数据说明了它们的使用,如箱线图和散点图。我们探讨了收入如何随着年龄、性别、职业类型和合同等几个因素而变化,特别是,工资的性别差距在与职业类型相关的各个维度上得到了可视化。EDA方法也适用于评估竞争回归收益作为因变量。讨论的方法应该有助于研究人员评估数据的异质性,跨组变异,和经典的诊断图残差从替代模型拟合。
下载
这些必需的cookies是激活网站核心功能所必需的。无法选择退出这些技术。
为了进一步完善我们的服务和我们的网站,我们收集匿名数据进行统计和分析。例如,在这些cookie的帮助下,我们可以确定访问者的数量和我们网站上某些页面的效果,并优化我们的内容。