×

将样本相似性集成到潜在类分析中:一种树结构收缩方法。 (英语) Zbl 1522.62177号

摘要:本文研究如何使用多元二元观测值来估计具有科学意义的未观测类的概率。我们将重点放在这样一个设置上,在这个设置中,有关样本相似性的附加信息可用,并由根加权树表示。给定树中的每一片叶子都包含多个样本。树上叶子之间的距离越短,表示类概率向量的先验相似性越高。我们提出了一种对具有树结构收缩的经典潜在类模型的新的数据集成扩展。该方法能够(1)跨叶借用信息,(2)使用不同的类概率向量估计数据驱动的叶组,以及(3)给定观测到的多元二进制测量值的个体级概率类分配。我们在变分贝叶斯框架中推导并实现了一种可扩展的后验推理算法。广泛的仿真表明,与次优使用额外样本相似性信息的备选方案相比,类概率的估计更准确。使用人畜共患传染病的应用来说明所提出的方法。本文最后简要讨论了模型的局限性和扩展。
{©2021国际生物识别学会。}

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析

软件:

PRMLT公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Airoldi,E.M.&Bischof,J.M.(2016)改进和评估主题模型和其他文本模型。美国统计协会杂志,1111381-1403。
[2] Albert,P.S.&Dodd,L.E.(2004)关于在没有黄金标准的情况下估计诊断错误的潜在类模型的稳健性的警告说明。生物统计学,60427-435·兹比尔1274.62486
[3] Avila,D.、Keiser,O.、Egger,M.、Kouyos,R.、Böni,J.、Yerly,S.等人(2014)《社会与分子相遇:结合系统发育和潜在类别分析来了解瑞士的HIV‐1传播》。《美国流行病学杂志》,1791514-1525。
[4] Bandeen‐Roche,K.、Miglioretti,D.L.、Zeger,S.L.和Rathouz,P.J.(1997)《多离散结果的潜在变量回归》。美国统计协会杂志,921375-1386·Zbl 0912.62121号
[5] Bishop,C.M.(2006)模式识别和机器学习。柏林:斯普林格·Zbl 1107.68072号
[6] Blei,D.M.、Kucukelbir,A.和McAuliffe,J.D.(2017)《变量推断:统计学家评论》。美国统计协会杂志,112859-877。
[7] Carbonetto,P.&Stephens,M.(2012)回归中贝叶斯变量选择的可缩放变分推理及其在遗传关联研究中的准确性。贝叶斯分析,773-108·Zbl 1330.62089号
[8] Dunson,D.和Xing,C.(2009)多元分类数据的非参数Bayes建模。美国统计协会杂志,1041042-1051·Zbl 1388.62151号
[9] Durante,D.,Rigon,T.(2019)逻辑模型的条件共轭平均场变分Bayes。统计科学,34772-485·Zbl 1429.62318号
[10] Felsenstein,J.(1985)系统发育和比较方法。《美国自然主义者》,125,1-15。
[11] Formann,A.K.(1992)多体数据的线性logistic潜在类分析。《美国统计协会杂志》,87476-486。
[12] Ghahramani,Z.,Jordan,M.I.&Adams,R.P.(2010)《分层数据的树结构木条分解》。神经信息处理系统进展,23,19-27。
[13] Giordano,R.,Broderick,T.,&Jordan,M.(2015)平均场变分Bayes精确协方差估计的线性响应方法。第28届神经信息处理系统国际会议记录,1141-1449。
[14] Goodman,L.(1974)使用可识别和不可识别模型进行探索性潜在结构分析。《生物特征》,第61期,第215-231页·Zbl 0281.62057号
[15] Grimmer,J.(2011)《通过变分近似的贝叶斯推理导论》。政治分析,19,32-47。
[16] Huang,G.‐H.&Bandeen‐Roche,K.(2004)构建一个可识别的潜在类别模型,该模型对潜在变量和测量变量具有协变量效应。《心理测量学》,69,5-32·Zbl 1306.62433号
[17] Hubert,L.和Arabie,P.(1985)比较分区。分类杂志,2193-218。
[18] Jaakkola,T.S.&Jordan,M.I.(2000)《通过变分方法进行贝叶斯参数估计》。统计与计算,10,25-37。
[19] Johndrow,J.E.,Bhattacharya,A.和Dunson,D.B.(2017)张量分解和稀疏对数线性模型。统计年鉴,45,1·Zbl 1367.62180号
[20] Johnson,J.R.、Delavari,P.、O'Bryan,T.T.、Smith,K.E.和Tatini,S.(2005)社区市场零售食品的污染,特别是土耳其的污染(明尼苏达州,1999-2000年),带有抗微生物和肠外致病性大肠杆菌。食源性病原体与疾病,238-49。
[21] Johnson,J.R.&Russo,T.A.(2002)肠外致病性大肠杆菌:“另一种坏大肠杆菌”。实验室和临床医学杂志,139155-162。
[22] Lazarsfeld,P.F.(1950)潜在结构分析的逻辑和数学基础。收录于:Stouffer,S.(编辑)(编辑),《美国士兵:二战中的社会心理学研究》,第四卷,第362-412页。新泽西州普林斯顿:普林斯顿大学出版社。
[23] Lindsay,J.A.和Holden,M.T.(2004)金黄色葡萄球菌:超级细菌,超级基因组?微生物趋势,12378-385。
[24] Liu,C.M.、Stegger,M.、Aziz,M.,Johnson,T.J.、Waits,K.、Nordstrom,L.等人(2018)作为食源性泌尿病原体的大肠杆菌ST131‐H22。mBio,9,e00470-18。
[25] Maiden,M.C.,Bygraves,J.A.,Feil,E.,Morelli,G.,Russell,J.E.,Urwin,R.等人(1998)多焦点序列分型:一种便携式方法,用于识别致病微生物种群中的克隆。《美国国家科学院院刊》,953140-3145。
[26] Ormerod,J.T.和Wand,M.P.(2010)解释变分近似。美国统计学家,64140-153·Zbl 1200.65007号
[27] Pepe,M.S.和Janes,H.(2006)《诊断测试性能潜在类别分析的见解》。生物统计学,8474-484·兹比尔1144.62100
[28] Price,L.B.、Hungate,B.A.、Koch,B.J.、Davis,G.S.和Liu,C.M.(2017)《机会主义病原体(警察)的殖民:我们所有人身上的野兽》,《公共科学图书馆·病原体》,13,e1006369。
[29] Ranganath,R.、Tang,L.、Charlin,L.和Blei,D.(2015)深指数族。机器学习研究论文集,38,762-771。
[30] Ren,L.,Du,L.、Carin,L.和Dunson,D.B.(2011)《物流破杆流程》。机器学习研究杂志,12·Zbl 1280.62079号
[31] Rodriguez,A.和Dunson,D.B.(2011)通过概率破解过程的非参数贝叶斯模型。贝叶斯分析(在线),6·Zbl 1330.62120号
[32] Roy,D.M.、Kemp,C.、K,M.V.和Tenenbaum,J.B.(2006)从关系数据学习带注释的层次结构。神经信息处理系统进展,19475-482。
[33] Scornavaca,C.、Delsuc,F.和Galtier,N.(2020)《基因组时代的系统发育学》。没有商业出版商|作者打开访问本。
[34] Shin,M.和Liu,J.S.(2021)贝叶斯稀疏线性回归的神经化先验。美国统计协会杂志,1-16。出现。
[35] Thomas,E.G.、Trippa,L.、Parmigiani,G.和Dominici,F.(2019)使用树结构收缩的多结果回归估计细颗粒物对432种心血管疾病的影响。美国统计协会杂志,115,1-11。
[36] Titsias,M.&Lázaro‐Gredilla,M.(2011)多任务和多核学习的尖峰和平板变分推理。神经信息处理系统进展,24,2339-2347。
[37] Tüchler,R.(2008)使用辅助混合抽样的逻辑模型贝叶斯变量选择。计算与图形统计杂志,17,76-94。
[38] Willis,A.&Bell,R.(2018)系统发育树估计的不确定性。计算与图形统计杂志,27542-552·Zbl 07498931号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。