跳到主要内容
研究论文

复杂广义线性模型串行推理算法的大规模并行化

出版:2013年1月1日出版历史
跳过抽象节

摘要

近年来,在发生了一系列引人注目的药物安全灾难之后,许多国家正在加倍努力,确保许可医疗产品的安全。索赔数据库或电子健康记录系统等大规模观测数据库在这方面引起了特别关注,但也存在着重大的方法和计算问题。在本文中,我们展示了高性能统计计算(包括图形处理单元,相对便宜的高度并行计算设备)如何在大型数据库中实现复杂方法。我们将重点放在循环坐标下降方法的优化和大规模并行化上,以适应贝叶斯环境中涉及数千万个观测值和数千个预测值的条件广义线性模型。我们发现总体运行时间有了显著的改进。坐标下降法在高维统计中普遍存在,我们提出的算法开辟了令人兴奋的新方法学可能性,有可能显著提高药物安全性。

工具书类

  1. Baskaran,M.和Bordawekar,R.,2009年。优化GPU上的稀疏矩阵-向量乘法。IBM研究报告RC24704。谷歌学者谷歌学者
  2. Bell,N.和Garland,M.,2009年。CUDA中的高效稀疏矩阵-向量乘法。ACM/IEEE超级计算会议记录(SC)纽约ACM。谷歌学者谷歌学者
  3. Chatterjee,A.和Lahiri,S.,2011年。引导套索估计器。J.Amer。统计师。协会106,608年至625年。谷歌学者谷歌学者交叉引用交叉引用
  4. Coplan,P.、Noel,R.、Levitan,B.、Ferguson,J.和Mussen,F.,2011年。制定一个框架,以提高药物的收益-风险平衡的透明度、再现性和交流。临床。药物治疗学89, 312--315.谷歌学者谷歌学者交叉引用交叉引用
  5. Curtis,J.、Cheng,H.、Delzell,E.、Fram,D.、Kilgore,M.、Saag,K.、Yun,H.和DuMouchel,W.,2008年。贝叶斯数据挖掘算法对纵向索赔数据的适应性:以coxib安全性为例。医疗保健46,9, 969--975.谷歌学者谷歌学者交叉引用交叉引用
  6. Dennis Jr.,J.和Schnabel,R.1989年。无约束优化视图。操作手册。资源管理。科学。1, 1--72.谷歌学者谷歌学者数字图书馆数字图书馆
  7. 德埃索波,d.1959。凸规划过程。海军研究后勤。夸脱。6,1, 33--42.谷歌学者谷歌学者交叉引用交叉引用
  8. Efron,B.和Tibshirani,R.,1986年。标准误差、置信区间和其他统计准确性度量的自举方法。统计科学。1, 54--75.谷歌学者谷歌学者交叉引用交叉引用
  9. Farrington,C.1995年。疫苗安全性评估病例序列的相对发病率估计。生物计量学51, 228--235.谷歌学者谷歌学者交叉引用交叉引用
  10. Funk,M.、Westreich,D.、Wiesen,C.、Stürmer,T.、Brookhart,M.和Davidian,M.,2011年。因果效应的双重稳健估计。阿默尔。《流行病学杂志》。173,7, 761--767.谷歌学者谷歌学者交叉引用交叉引用
  11. Genkin,A.、Lewis,D.和Madigan,D.,2007年。文本分类的大尺度贝叶斯逻辑回归。技术计量49,3, 291--304.谷歌学者谷歌学者交叉引用交叉引用
  12. Harris,M.,2010年。优化CUDA中的并行还原。nVidia,在线。谷歌学者谷歌学者
  13. Jin,H.、Chen,J.、He,H.、Williams,G.、Kelman,C.和O'Keefe,C.,2008年。挖掘意外的时间关联:在检测药物不良反应中的应用。IEEE传输。生物识别信息技术。12,4, 488--500.谷歌学者谷歌学者数字图书馆数字图书馆
  14. Kulldorff,M.、Davis,R.、Kolczak,M.,Lewis,E.、Lieu,T.和Platt,R.,2011年。药物和疫苗安全监测的最大序贯概率比检验。顺序。分析。30,1, 58--78.谷歌学者谷歌学者交叉引用交叉引用
  15. Kyung,M.、Gill,J.、Ghosh,M.和Casella,G.,2010年。惩罚回归、标准误差和贝叶斯套索。海湾。分析。5,2, 369--412.谷歌学者谷歌学者
  16. Lange,K.,1995年。梯度算法局部等价于EM算法。J.罗伊。统计社会服务。乙57, 425--437.谷歌学者谷歌学者
  17. Lee,A.、Yau,C.、Giles,M.、Doucet,A.和Holmes,C.,2010年。利用图形卡对高级蒙特卡罗方法进行大规模并行模拟。J.计算。图表。统计数据19,4, 769--789.谷歌学者谷歌学者交叉引用交叉引用
  18. Li,L.2009年。药物安全监测的有条件序贯抽样程序。统计医学28,25, 3124--3138.谷歌学者谷歌学者交叉引用交叉引用
  19. Madigan,D.、Ryan,P.、Simpson,S.和Zorych,I.,2011年。药物警戒中的贝叶斯方法。贝叶斯统计9牛津大学出版社,英国牛津,421-438。谷歌学者谷歌学者
  20. Nelder,J.和Wedderburn,R.1972年。广义线性模型。J.罗伊。统计社会服务。A(概述)135, 370--384.谷歌学者谷歌学者交叉引用交叉引用
  21. Norén,G.、Bate,A.、Hopstadius,J.、Star,K.和Edwards,I.,2008年。趋势和瞬态效应的时间模式发现:其在病历中的应用。第14届ACM SIGKDD知识发现和数据挖掘国际会议纪要美国机械工程师协会,纽约,963-971。谷歌学者谷歌学者数字图书馆数字图书馆
  22. Park,M.和Hastie,T.2007年。广义线性模型的L1正则化路径算法。J.罗伊。统计社会服务。B 69,4, 659.谷歌学者谷歌学者交叉引用交叉引用
  23. Ryan,P.、Suchard,M.和Madigan,D.,2012年。从流行病学中学习:解释大规模观测数据库研究的框架。正在审查中.谷歌学者谷歌学者
  24. Schneeweiss,S.、Rassen,J.、Glynn,R.、Avorn,J、Mogun,H.和Brookhart,M.,2009年。使用医疗索赔数据进行治疗效果研究中的高维倾向得分调整。流行病学20,4, 512--522.谷歌学者谷歌学者交叉引用交叉引用
  25. Silberstein,M.、Schuster,A.、Geiger,D.、Patney,A.和Owens,J.,2008年。通过软件管理的缓存高效计算GPU上的和产品。第22届超级计算国际年会会议记录ACM,纽约,309--318。谷歌学者谷歌学者数字图书馆数字图书馆
  26. Simpson,S.2011年。大规模纵向数据中上市后药物安全监测的自我控制方法。哥伦比亚大学博士论文。谷歌学者谷歌学者
  27. Stang,P.、Ryan,P.,Racoosin,J.,Overhage,J.、Hartzema,A.、Reich,C.、Welebob,E.、Scarneccia,T.和Woodcock,J.2010年。推进主动监测科学:观察医疗结果伙伴关系的理论基础和设计。《内科学年鉴》153,9, 600--606.谷歌学者谷歌学者交叉引用交叉引用
  28. Suchard,M.和Rambaut,A.,2009年。统计系统发育学的许多核心算法。生物信息学25,11, 1370--1376.谷歌学者谷歌学者数字图书馆数字图书馆
  29. Suchard,M.、Wang,Q.、Chan,C.、Frelinger,J.、Cron,A.和West,M.,2010年。了解用于统计计算的GPU编程:大规模并行大规模混合的研究。J.计算机。图表。统计数据19,2, 419--438.谷歌学者谷歌学者交叉引用交叉引用
  30. Tibbits,M.、Haran,M.和Liechty,J.,2011年。并行多元切片采样。统计计算。21, 415--430.谷歌学者谷歌学者数字图书馆数字图书馆
  31. Tibshirani,R.1996年。通过套索回归收缩和选择。J.罗伊。统计社会服务。B 58中,1267-268之间。谷歌学者谷歌学者交叉引用交叉引用
  32. Veldhuizen,T.1995年。表达式模板。C++报告7,5, 26--31.谷歌学者谷歌学者
  33. Warga,J.1963年。最小化某些凸函数。《社会工业杂志》。申请。数学。11,3, 588--593.谷歌学者谷歌学者交叉引用交叉引用
  34. Wilkinson,D.2006年。并行贝叶斯计算。并行计算和统计手册查普曼和霍尔/CRC,纽约,481-512。谷歌学者谷歌学者
  35. Wu,T.和Lange,K.,2008年。套索惩罚回归的坐标下降算法。附录申请。统计数据2,1, 224--244.谷歌学者谷歌学者交叉引用交叉引用
  36. Wu,T.、Chen,Y.、Hastie,T.、Sobel,E.和Lange,K.,2009年。用lasso惩罚logistic回归进行全基因组关联分析。生物信息学25,6, 714--721.谷歌学者谷歌学者数字图书馆数字图书馆
  37. Zhang,T.和Oles,F.,2001年。基于正则化线性分类方法的文本分类。参考文献4,1, 5--31.谷歌学者谷歌学者数字图书馆数字图书馆
  38. Zhou,H.、Lange,K.和Suchard,M.,2010年。图形处理单元和高维优化。统计科学。25,3, 311--324.谷歌学者谷歌学者交叉引用交叉引用

索引术语

  1. 复杂广义线性模型串行推理算法的大规模并行化

    建议

    评论

    阿莫斯·奥拉根古

    如今,具有多核中央处理单元(CPU)和多图形处理单元(GPU)的计算机可以加速计算密集型统计预测算法的并行处理。不幸的是,现有的一些统计算法[1]用于应对医疗等领域中记录保存系统的即时审查,但它们仍然是连续的,因此计算能力不足。如何设计有效的统计算法来揭示和使用医疗索赔数据库中的当前和历史趋势,以可靠地预测与心肌梗死或严重肾、肝衰竭等不良事件相关的医疗产品_?_本文作者批评了现有统计算法在处理医疗行业监管和合规问题方面的局限性。他们认识到需要探索GPU的并行化能力,以解决涉及计算密集型对数似然函数求解的广义线性模型(GLM)。不熟悉计算统计学的读者应该先浏览Kennedy和Gentle的序贯算法介绍[1],以解决无约束优化和非线性回归问题,然后再探索本文中用于求解具有贝叶斯先验或不定参数正则化的GLM的有见地的并行算法。作者提出了一种序列循环坐标下降算法,用于拟合常见的贝叶斯自控案例序列。该算法以一维梯度和Hessian矩阵的耗时计算为目标,以实现大规模并行化。他们巧妙地展示了如何并行表示和操作稀疏矩阵和密集向量,以导出梯度和Hessian,并应用并行算法计算众多医疗观测数据库的最大后验概率(MAP)估计。与使用CPU执行稀疏或密集计算相比,使用GPU执行稀疏运算显著提高了MAP估计的速度。利用并行算法将复杂的GLM拟合到巨大的数据集,为将不良事件与特定药物联系起来提供了新的机会,同时控制了协变量,如患者人口统计学、共存疾病和重合药物。然而,该模型中缺少对整个未识别参数集的完整贝叶斯分析。显然,作者认识到交叉验证和自举在估计模型超参数中的作用。然而,正如作者所声称的那样,模型超参数的精确估计在计算上真的不可行吗我强烈鼓励所有计算统计学家阅读这篇富有洞察力的论文,并对这个问题进行权衡。在线计算评论服务

    访问计算机文献的批评性评论在这里

    成为评论员计算评论。

    评论

    登录选项

    检查您是否可以通过登录凭据或您的机构访问本文。

    登录

    完全访问权限

    • 发布于

      封面图像ACM建模与计算机仿真汇刊
      美国计算机学会模型和计算机仿真汇刊 第23卷第1期
      统计中蒙特卡罗方法专题
      2013年1月
      207页
      国际标准编号:1049-3301
      EISSN公司:1558-1195
      内政部:10.1145/2414416
      期刊目录

      版权所有©2013 ACM

      如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]

      出版商

      计算机协会

      美国纽约州纽约市

      出版历史

      • 出版:2013年1月1日
      • 认可的:2012年6月1日
      • 修订过的:2012年4月1日
      • 收到:2011年10月1日
      发布于托马克第23卷第1期

      权限

      请求有关此文章的权限。

      请求权限

      检查更新

      限定符

      • 研究论文
      • 研究
      • 推荐

    PDF格式

    以PDF文件查看或下载。

    PDF格式

    电子阅读器

    使用eReader联机查看。

    电子阅读器