Statistical paradises and paradoxes in big data (I): Law of large populations, big data paradox, and the 2016 US presidential election

Xiao-Li Meng

doi:10.1214/18-AOAS1161SF

2018年6月大数据中的统计天堂和悖论（I）：大人口定律、大数据悖论与2016年美国总统大选

孟晓丽

附录申请。斯达。 12(2): 685-726 （2018年6月）。内政部：10.1214/18-AOAS1161SF

摘要

统计学家越来越多地面临发人深省甚至自相矛盾的问题，挑战我们进入大数据创造的统计天堂的资格。通过制定数据质量的衡量标准，本文提出了一个框架来解决这样一个问题：“我应该更信任哪一个：一个回复率为60%的1%调查，还是一个覆盖80%人口的自报告管理数据集？”，样本平均值之间的差异{X}（X）_{n} $和人口平均值${X}（X）_{N} $是三项的乘积：（1）a数据质量测量$\rho{{R，X}}$，$X{j}$和响应/记录指示符$R{j}$之间的相关性；（2）一个数据量measure，$\sqrt｛（N-N）/N｝$，其中$N$是人口规模；和（3）a问题难度度量，$\sigma\{X}$，$X$的标准差。这种分解提供了多种见解：（I）概率抽样通过将$\rho{{R，X}}$控制在$N^{-1/2}$级别，确保了高数据质量；（二）当我们失去这个控制时，$N$的影响不再被$\rho_{{R，X}}$抵消，导致大人口定律（LLP），即我们的估计误差，相对于基准利率$1/\sqrt{n}$，随着$\sqrt}n}$的增加而增加；（III）此类大数据的“大”（用于人口推断）应通过相对大小$f=n/n$，而不是绝对尺寸$n$；（四）当组合数据源进行人口推断时，那些相对较小但质量较高的数据源应该得到比其大小建议的权重大得多的权重。

根据2016年美国总统选举的合作国会选举研究（CCES）得出的估计，自我报告投票给唐纳德·特朗普的费用约为0.005美元。由于LLP，这种看似微小的数据缺陷相关性意味着，自报的特朗普投票偏好的简单样本比例来自1%的美国合格选民，即大约2万美元{，}300万美元{，}000美元，与一个真正的简单随机样本的相应样本比例具有相同的均方误差，样本大小约为$n\approx400$，样本大小减少了$99.98\%$（因此我们有信心）。CCES的数据生动地展示了LLP：平均而言，该州的选民人数越多，特朗普的实际投票份额与基于样本比例的通常95%的置信区间越远。这应该提醒我们，在不考虑数据质量的情况下，使用大数据进行人口推断会受到大数据悖论数据越多，我们就越有把握欺骗自己。