开放式访问
2018年6月 大数据中的统计天堂和悖论(I):大人口定律、大数据悖论与2016年美国总统大选
孟晓丽
附录申请。斯达。 12(2): 685-726 (2018年6月)。 内政部:10.1214/18-AOAS1161SF

摘要

统计学家越来越多地面临发人深省甚至自相矛盾的问题,挑战我们进入大数据创造的统计天堂的资格。通过制定数据质量的衡量标准,本文提出了一个框架来解决这样一个问题:“我应该更信任哪一个:一个回复率为60%的1%调查,还是一个覆盖80%人口的自报告管理数据集?”,样本平均值之间的差异{X}(X)_{n} $和人口平均值${X}(X)_{N} $是三项的乘积:(1)a数据质量测量$\rho{{R,X}}$,$X{j}$和响应/记录指示符$R{j}$之间的相关性;(2) 一个数据量measure,$\sqrt{(N-N)/N}$,其中$N$是人口规模;和(3)a问题难度度量,$\sigma\{X}$,$X$的标准差。这种分解提供了多种见解:(I)概率抽样通过将$\rho{{R,X}}$控制在$N^{-1/2}$级别,确保了高数据质量;(二) 当我们失去这个控制时,$N$的影响不再被$\rho_{{R,X}}$抵消,导致大人口定律(LLP),即我们的估计误差,相对于基准利率$1/\sqrt{n}$,随着$\sqrt}n}$的增加而增加;(III)此类大数据的“大”(用于人口推断)应通过相对大小$f=n/n$,而不是绝对尺寸$n$;(四) 当组合数据源进行人口推断时,那些相对较小但质量较高的数据源应该得到比其大小建议的权重大得多的权重。

根据2016年美国总统选举的合作国会选举研究(CCES)得出的估计,自我报告投票给唐纳德·特朗普的费用约为0.005美元。由于LLP,这种看似微小的数据缺陷相关性意味着,自报的特朗普投票偏好的简单样本比例来自1%的美国合格选民,即大约2万美元{,}300万美元{,}000美元,与一个真正的简单随机样本的相应样本比例具有相同的均方误差,样本大小约为$n\approx400$,样本大小减少了$99.98\%$(因此我们有信心)。CCES的数据生动地展示了LLP:平均而言,该州的选民人数越多,特朗普的实际投票份额与基于样本比例的通常95%的置信区间越远。这应该提醒我们,在不考虑数据质量的情况下,使用大数据进行人口推断会受到大数据悖论数据越多,我们就越有把握欺骗自己。

引用

下载引文

孟晓丽。 “大数据中的统计天堂和悖论(I):大人口定律、大数据悖论和2016年美国总统大选。” 附录申请。斯达。 12 (2) 685 - 726, 2018年6月。 https://doi.org/10.1214/18-AOAAS1161SF

问询处

收到日期:2017年12月1日;修订日期:2018年4月1日;发布日期:2018年6月
欧几里德项目首次推出:2018年7月28日

zbMATH公司:06980472
数学科学网:3834282马来西亚令吉
数字对象标识符:10.1214/18-AOAS1161SF

关键词:偏差-方差权衡,数据保密和隐私,数据缺陷相关性,数据缺陷指数,数据质量-数量权衡,欧拉恒等式,蒙特卡罗和准蒙特卡罗(MCQMC),无反应偏倚

版权所有©2018数学统计研究所

第12卷•第2期•2018年6月
返回页首