2008年10月
修订版发表为“代理不可观测变量与互联网文档频率”:Journal of European Economic Association, 2013, 11 (1), 137-165
互联网和其他大型文本数据库包含数十亿份文档:关于不同主题的文档数量中是否有有用的信息?我们提出,基于一个现象的发生会增加人们写它的可能性这一前提,讨论一个现象的文档的相对频率可以用来代表相应的出现频率。在确定这种代理可能成功的条件后,我们为美国的许多人口变量以及各国和美国州和城市的腐败构建了代理,分别获得与发生频率的平均相关性为0.47和0.61。我们还复制了两篇独立发表的论文的结果,分别在州和国家层面建立了腐败的相关性。最后,我们构建了美国城市的第一个腐败指数,并研究了其相关性。
下载
这些必需的cookies是激活网站核心功能所必需的。无法选择退出这些技术。
为了进一步完善我们的服务和我们的网站,我们收集匿名数据进行统计和分析。例如,在这些cookie的帮助下,我们可以确定访问者的数量和我们网站上某些页面的效果,并优化我们的内容。