2008年10月

IZA DP第3809号:从网络人群中下载智慧

修订版发表为“代理不可观测变量与互联网文档频率”:Journal of European Economic Association, 2013, 11 (1), 137-165

互联网和其他大型文本数据库包含数十亿份文档:关于不同主题的文档数量中是否有有用的信息?我们提出,基于一个现象的发生会增加人们写它的可能性这一前提,讨论一个现象的文档的相对频率可以用来代表相应的出现频率。在确定这种代理可能成功的条件后,我们为美国的许多人口变量以及各国和美国州和城市的腐败构建了代理,分别获得与发生频率的平均相关性为0.47和0.61。我们还复制了两篇独立发表的论文的结果,分别在州和国家层面建立了腐败的相关性。最后,我们构建了美国城市的第一个腐败指数,并研究了其相关性。