克里斯托弗·德罗万迪(Christopher C.Drovandi)。;克里斯托弗·霍姆斯。;詹姆斯·麦克格雷(James M.McGree)。;蒙格森,克里;西尔维亚·理查森;伊丽莎白·瑞安。 大数据分析实验设计原则。 (英语) Zbl 1442.62174号 统计科学。 32,第3号,385-404(2017). 摘要:大数据集是一种地方性数据集,但由于其规模、异质性和质量,通常很难进行分析。本文的目的是就现代决策理论优化实验设计方法的潜力展开讨论,这些方法就其本质而言,传统上都是前瞻性的应用,通过回顾性设计抽样来改进大数据分析,以回答特定的问题。通过引用一系列示例,可以看出,大数据建模和分析的这种观点具有广泛的通用性以及有利的推理和计算特性。我们强调了在使用回顾性设计时围绕高效计算优化的当前障碍和开放研究问题,本文在一定程度上呼吁优化和实验设计社区在大数据分析领域共同努力。 引用于12文件 MSC公司: 62K05美元 最佳统计设计 62兰特 大数据和数据科学的统计方面 关键词:主动学习;大数据;尺寸缩减;实验设计;亚采样 软件:ElemStatLearn(电子状态学习) PDF格式BibTeX公司 XML格式引用 \textit{C.C.Drovandi}等人,《统计科学》。32,第3号,385--404(2017;Zbl 1442.62174) 全文: 内政部 欧几里得 参考文献: [1] Amzal,B.、Bois,F.Y.、Parent,E.和Robert,C.P.(2006年)。通过相互作用的粒子系统进行贝叶斯优化设计。J.Amer。统计师。协会101 773-785·Zbl 1119.62308号 [2] 奥斯汀,P.C.(2011)。介绍在观察性研究中减少混淆影响的倾向评分方法。多变量。贝哈夫。第46号决议399-424。 [3] Bardenet,R.、Doucet,A.和Holmes,C.(2014)。向上扩展马尔可夫链蒙特卡罗:一种自适应子采样方法。第31届国际机器学习会议(ICML-14)论文集405-413。 [4] Bardenet,R.、Doucet,A.和Holmes,C.(2015)。关于高数据的马尔可夫链蒙特卡罗方法。预打印。可从arXiv:1505.02827[stat.ME]获取·Zbl 1433.68394号 [5] Bouveyron,C.和Brunet-Saumard,C.(2014)。基于模型的高维数据聚类:综述。计算。统计师。数据分析71 52-78·Zbl 1306.65033号 ·doi:10.1016/j.csda.2012.12.008 [6] Box,G.E.P.(1980)。科学建模和稳健性中的抽样和贝叶斯推理。J.R.Stat.Soc.,A 143 383-430·兹伯利0471.62036 [7] Brick,J.M.和Montaquila,J.M(2009)。无响应和加权。抽样调查:设计、方法和应用。统计手册29 163-185。阿姆斯特丹爱思唯尔。 [8] 钱伯斯,R.(1988)。带有选择性偏差的设计调整回归。申请。统计数字37 323-334。 [9] Chen,C.、Grennan,K.、Badner,J.、Zhang,D.、Jin,E.G.L.和Li,C.(2011)。消除表达微阵列数据分析中的批量效应:六种批量调整方法的评估。公共科学图书馆ONE 6 e17238。 [10] Cichosz,P.(2015)。数据挖掘算法:使用英国R.Wiley解释·Zbl 1305.62001号 [11] Dagostino,R.B.(1998年)。生物统计学教程:在治疗与非随机对照组的比较中减少偏差的倾向性评分方法。统计医学17 2265-2281。 [12] Drovandi,C.C.、McGree,J.M.和Pettitt,A.N.(2013)。离散数据贝叶斯序贯设计实验的序贯蒙特卡罗方法。计算。统计师。数据分析57 320-335·Zbl 1365.62318号 [13] Drovandi,C.C.和Tran,M.-N.(2016年)。使用随机拟蒙特卡罗提高实验的完全贝叶斯优化设计的效率。可在http://eprints.qut.edu.au/97889。 ·Zbl 06873721号 [14] Duffull,S.B.、Graham,G.、Mengersen,K.和Eccleston,J.(2012)。药代动力学研究设计中优化采样时间的前后分布评估。J.生物制药。统计22 16-29。 [15] Efron,B.、Hastie,T.、Johnstone,I.和Tibshirani,R.(2004)。最小角度回归。统计年鉴32 407-499·Zbl 1091.62054号 ·doi:10.1214/009053604000000067 [16] Elgamal,T.和Hefeeda,M.(2015)。分布式环境下PCA算法分析。预打印。可从arXiv:1503.05214v2[cs.DC]获得。 [17] Espiro-Hernandez,G.、Gustafson,P.和Burstyn,I.(2011年)。在一项单独匹配的病例对照研究中对连续暴露中测量误差的贝叶斯校正。BMC医学研究方法1167-77。 [18] Fan,J.、Feng,Y.和Rui Song,R.(2011)。稀疏超高维可加模型中的非参数独立筛选。J.Amer。统计师。协会106 544-557·Zbl 1232.62064号 [19] Fan,J.、Han,F.和Liu,H.(2014)。大数据分析的挑战。国际注册科学。版次:1 293-314。 [20] Fan,J.和Lv,J.(2008)。确保超高维特征空间的独立筛选。J.R.统计社会服务。B.统计方法70 849-911·Zbl 1411.62187号 [21] Fedorov,V.V.(1972年)。最佳实验理论。纽约学术出版社。 [22] Fouskakis,D.、Ntzoufras,I.和Draper,D.(2009年)。使用成本调整BIC的贝叶斯变量选择,应用于卫生保健质量的成本效益衡量。附录申请。统计数字3 663-690·Zbl 1166.62082号 [23] Gama,J.、Zhi liobit,I.、Bifet,A.、Pechenizkiy,M.和Bouchachia,A.(2014)。概念漂移适应研究综述。ACM计算调查(CSUR)46第44条·Zbl 1305.68141号 [24] Gandomi,A.和Haider,M.(2015)。除了炒作:大数据概念、方法和分析。国际。J.通知。管理科学35 137-144。 [25] Gelman,A.(2007)。与调查权重和回归建模进行斗争(讨论)。统计师。科学22 153-164·Zbl 1246.62043号 [26] Guhaa,S.、Hafen,R.、Rounds,J.、Xia,J.、Li,J.、Xi,B.和Cleveland,W.S.(2012)。大型复杂数据:使用RHIPE进行拆分和重组(D&R)。统计数据153-67。 [27] Hastie,T.、Tibshirani,R.和Friedman,J.(2009)。《统计学习的要素:数据挖掘、推断和预测》,第二版,纽约斯普林格出版社·兹比尔1273.62005 [28] Karvanen,J.、Kulathinal,S.和Gasbara,D.(2009年)。根据观察到的二进制或存活结果和非遗传协变量选择个体进行基因分型的最佳设计。计算。统计师。数据分析53 1782-1793·Zbl 1453.62124号 [29] Kettaneha,N.、Berglund,A.和Wold,S.(2005)。PCA和PLS具有非常大的数据集。计算。统计师。数据分析48 68-85·Zbl 1429.62220号 [30] Kish,L.和Hess,I.(1950)。关于样本住宅的非覆盖。J.Amer。统计师。协会53 509-524。 [31] Kleiner,A.、Talwalkar,A.,Sarkar,P.和Jordan,M.I.(2014)。大规模数据的可扩展引导。J.R.统计社会服务。B.统计方法76 795-816·Zbl 07555464号 ·doi:10.1111/rssb.12050 [32] Kück,H.、de Freitas,N.和Doucet,A.(2006)。贝叶斯最优非线性设计的SMC采样器。卑诗省温哥华不列颠哥伦比亚大学技术报告。 [33] Lehmann,H.P.和Goodman,S.N.(2000年)。贝叶斯通信:一种具有临床意义的电子通信范式。《美国医学杂志》。协会7 254-266。 [34] Leskovec,J.、Rajaraman,A.和Ullman,J.D.(2014)。海量数据集的挖掘。剑桥大学出版社,剑桥。 [35] Lessler,J.T.和Kalsbeek,W.D.(1992年)。调查中的非抽样错误。纽约威利·Zbl 0850.62161号 [36] Levy,P.S.和Lemeshow,S.(1999年)。《人口抽样:方法与应用》,第三版,威利出版社,纽约·Zbl 0920.62010号 [37] Liang,F.、Cheng,Y.、Song,Q.、Park,J.和Yang,P.(2013)。用于分析大型地质统计数据的基于重采样的随机近似方法。J.Amer。统计师。协会108 325-339·兹伯利06158346 [38] Liberty,E.(2013)。简单而确定的矩阵草图。第19届ACM SIGKDD知识发现和数据挖掘国际会议论文集581-588。纽约ACM。 [39] Long,Q.、Scavino,M.、Tempone,R.和Wang,S.(2013年)。基于拉普拉斯近似的贝叶斯实验设计预期信息增益的快速估计。计算。方法应用。机械。工程编号259 24-39·Zbl 1286.62068号 [40] Mason,A.、Best,N.、Plewis,I.和Richardson,S.(2012年)。使用贝叶斯方法在观测研究中建模非随机缺失数据机制的策略。J.关闭状态28 279-302。 [41] McCarron,C.E.、Pullenayegum,E.M.、Thabane,L.、Goere,R.和Tarride,J.-E.(2011年)。贝叶斯层次模型结合不同研究类型并调整协变量失衡:评估模型性能的模拟研究。公共图书馆ONE 6 e25635。 [42] Mentré,F.、Mallet,A.和Baccar,D.(1997年)。随机效应回归模型中的优化设计。生物特征84 429-442·Zbl 0882.62069号 [43] Muff,S.、Riebler,A.、Held,L.、Rue,H.和Saner,P.(2015)。使用集成嵌套拉普拉斯近似对测量误差模型进行贝叶斯分析。J.R.统计社会服务。C.申请。统计数据64 231-252。 [44] Müller,P.(1999)。基于仿真的优化设计。贝叶斯统计,6(Alcoceber,1998)459-474。牛津大学出版社,纽约·Zbl 0974.62058号 [45] Myers,R.H.、Montgomery,D.C.和Anderson-Cook,C.M.(2009)。响应面方法:使用设计实验优化工艺和产品,第3版,新泽西州霍博肯威利出版社·Zbl 1269.62066号 [46] Nawarathna,L.S.和Choudhary,P.K.(2015)。具有重复测量的方法比较数据的异方差测量误差模型。Stat.Med.34 1242-1258·数字对象标识代码:10.1002/sim.6424 [47] Ogungbenro,K.和Aarons,L.(2007)。利用先验信息设计人群药代动力学实验。异种生物学37 1311-1330。 [48] Oleson,J.J.、He,C.、Sun,D.和Sheriff,S.(2007年)。当抽样设计地层与研究领域不同时,在小范围内进行贝叶斯估计。调查。方法33 173-185。 [49] Oswald,F.L.和Putka,D.J.(2015)。大数据的统计方法。工作中的大数据:数据科学革命与组织心理学。纽约州劳特利奇。 [50] Pitchforth,J.和Mengersen,K.(2012年)。贝叶斯元分析。贝叶斯统计案例研究121-144。纽约威利。 [51] Pukelsheim,F.(1993)。实验的优化设计。纽约威利·Zbl 0834.62068号 [52] Reinikainen,J.、Karvanen,J.和Tolonen,H.(2016)。后续研究中重复协变量测量的最佳个体选择。统计方法医学研究25 2420-2433。 [53] Richardson,S.和Gilks,S.(1993)。使用条件独立模型解决流行病学测量误差问题的贝叶斯方法。美国流行病学杂志138 430-442。 [54] Rue,H.、Martino,S.和Chopin,N.(2009年)。使用集成嵌套拉普拉斯近似对潜在高斯模型进行近似贝叶斯推断(带讨论)。J.R.统计社会服务。B.统计方法71 319-392·Zbl 1248.62156号 [55] Ryan,E.G.、Drovandi,C.C.和Pettitt,A.N.(2015)。混合效应模型的基于仿真的完全贝叶斯实验设计。计算。统计师。数据分析92 26-39·Zbl 1468.62169号 ·doi:10.1016/j.csda.2015.06.007 [56] Savage,L.J.(1972年)。《统计学基础》,修订版,多佛出版社,纽约·Zbl 0276.62006号 [57] Schifano,E.D.、Wu,J.、Wang,C.、Yan,J.和Chen,M.-H.(2016)。大数据环境中统计推断的在线更新。技术计量58 393-403。 [58] Schmid,C.H.和Mengersen,K.(2013年)。生态学与进化元分析手册。145-173贝叶斯元分析。普林斯顿大学出版社,普林斯顿。 [59] Scott,S.L.,Blocker,A.W.和Bonassi,F.V.(2013)。贝叶斯和大数据:共识蒙特卡罗算法。贝叶斯250。 [60] Si,Y.、Pillai,N.和Gelman,A.(2015)。贝叶斯非参数加权抽样推断。贝叶斯分析10 605-625·Zbl 1334.62024号 [61] Suykens,J.A.K.、Signoretto,M.和Argyriou,A.(2015)。正则化、优化、内核和支持向量机。查普曼和霍尔/CRC,佛罗里达州博卡拉顿·Zbl 1305.68030号 [62] Tan,F.E.S.和Berger,M.P.F.(1999)。随机效应模型的时间点优化分配。通信统计28 517-540·Zbl 0929.62081号 [63] Toulis,P.、Airoldi,E.和Renni,J.(2014)。广义线性模型随机梯度方法的统计分析。第31届机器学习国际会议论文集667-675。 [64] Trost,S.G.、Loprinzi,P.D.、Moore,R.和Pfeiffer,K.A.(2011年)。预测青少年活动强度的加速计切点比较。医学科学。体育运动43 1360-1368。 [65] Wang,C.、Chen,M.H.、Schifano,E.、Wu,J.和Yan,J.(2015)。大数据统计方法和计算调查。预印本。可在arXiv:1502.07989v1[stat.CO]购买。 [66] Wolpert,R.L.和Mengersen,K.L.(2004年a)。调整了从质量和设计不同的研究中合成经验证据的可能性:环境烟草烟雾的影响。统计师。科学3 450-471·Zbl 1100.62621号 [67] Wolpert,R.L.和Mengersen,K.L.(2004b)。调整了从质量和设计不同的研究中合成经验证据的可能性:环境烟草烟雾的影响。统计师。科学.19 450-471·Zbl 1100.62621号 [68] Woods,D.C.、Lewis,S.M.、Eccleston,J.A.和Russell,K.G.(2006)。具有多变量和模型不确定性的广义线性模型的设计。技术计量学48 284-292。 [69] Xi,B.、Chen,H.、Cleveland,W.S.和Telkamp,T.(2010)。网络工程互联网VoIP流量的统计分析和建模。电子。《美国联邦法律大全》第4卷第58-116页·兹比尔1329.62480 [70] Yoo,C.、Ramirez,L.和Juan Liuzzi,J.(2014)。医学中使用现代统计和机器学习方法进行大数据分析。《国际神经病学杂志》18 50-57。 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。