×

基因表达数据集贝叶斯模型下真实相关性和样本相关性之间的关系。 (英语) Zbl 1398.92119号

摘要:在最初诊断后立即预测癌症预后和转移潜能是当前临床研究的一大挑战。这种签名的相关性是显而易见的,因为它将使许多患者摆脱与辅助化疗相关的痛苦和毒性副作用,而辅助化疗是自动进行的,有时是不经意的。受这个问题的启发,之前的几项工作提出了一个贝叶斯模型,得出了以下结论:需要数千个样本才能生成一个稳健的基因列表来预测结果。这一结论基于一些统计假设的存在,包括样本相关性的渐近独立性。当前的工作有两个主要贡献:(1)它表明,虽然以前的论文讨论的贝叶斯模型的假设似乎是非限制性的,但它们相当强大。为了证明这一点,一些标准稀疏模型和高斯模型不包括在与这些假设在数学上一致的模型集中。(2) 结果表明,用于测试相关假设的经验贝叶斯方法没有检测到严重违规,因此可能会高估所需的样本量。最后,我们建议,在某些正则性条件下,可以将当前的理论结果用于开发一种新的方法来测试渐近独立性假设。

MSC公司:

92 C50 医疗应用(通用)
92C40型 生物化学、分子生物学
2015年1月62日 贝叶斯推断
62页第10页 统计学在生物学和医学中的应用;元分析
92B15号机组 普通生物统计学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Alam,K.(1979):“样本相关系数的分布”,Nav。Res.Logist.公司。,26, 327-330. ·兹比尔0401.62041
[2] Alam,K.&M.H.S.Rizvi(1976):“最大多重相关系数的选择:精确样本大小情况”,《Ann.Stat.》,第4614-620页·Zbl 0329.62024号
[3] Caravlho,C.,J.Chang,J.Lucas,J.Nevins,Q.Wang和M.West(2008):“高维稀疏因子建模:在基因表达基因组学中的应用”,JASA,103,1438-1456·Zbl 1286.62091号
[4] Cui,X.和J.Wilson(2008):“关于应用微阵列数据正确选择大k群体的概率”,《生物统计学杂志》,50833-870·Zbl 1442.62325号
[5] Cui,X.,H.Zhao和J.Wilson(2010):“微阵列实验中应用的特征选择的优化排序和选择方法”,《生物医药杂志》。统计,20,223-239。
[6] Dobra,A.、C.Hans、B.J.J.N.G.Y.和M.West(2004):“探索基因表达数据的稀疏图形模型”。《多元分析杂志》。,90, 196-212. ·Zbl 1047.62104号
[7] Donoho,D.(2000):高维数据分析:维度的诅咒和祝福。AMS数学挑战讲座。
[8] Ein-Dor,L.,O.Zuk和E.Domany(2006年):“需要数千个样本来生成一个可靠的基因列表来预测癌症的结果。”。国家。阿卡德。科学。美国,103,5923-5928。
[9] Ferguson,T.(1996):大样本理论课程,查普曼和霍尔,伦敦·Zbl 0871.6202号
[10] Fisher,R.(1915):“来自无限大群体的样本中相关系数值的频率分布。”Biometrika,10507-521。
[11] Fisher,R.(1921):“关于从小样本推导出的相关系数的可能误差”,《Metron》,第1期,第3-32页。
[12] Guyon,I.和A.Elisseeff(2003):“变量和特征选择简介”,J.Mach。学习。第3号决议,1157-1182·Zbl 1102.68556号
[13] Hall,M.(1998):机器学习中基于相关性的特征选择。新泽西州汉密尔顿怀卡托大学计算机科学系博士论文。
[14] Isserlis,L.(1918):“关于任意数量变量中正态频率分布任意阶次的乘积矩系数的公式”,《生物统计学》,第12期,第134-139页。
[15] Jacobovic,R.和O.Zuk(2017):“关于独立高斯种群选择程序的渐近效率”,《电子》。《美国联邦法律大全》,第11卷,第5375-5405页·Zbl 1387.62027号
[16] Knowles,D.和Z.Ghahramani(2011):“非参数贝叶斯稀疏因子模型在基因表达建模中的应用”,Ann.Appl。统计,51534-1552·Zbl 1223.62013年
[17] Levy,K.(1975):“从K个二项总体中选择最佳总体,或从K个双变量正常总体中选择相关系数最大的总体。”《心理测量学》,40,121-122·Zbl 0319.62014号
[18] Levy,K.(1977):“从K个双变量正常人群中选择相关系数最大的人群的合适样本量。”教育。精神病。测量。,37, 61-66.
[19] McDowell,I.C.,D.Manandhar,C.Vockley,A.Schmid和T.Reddy(2018):“使用无限高斯过程混合模型对基因表达时间序列数据进行聚类。”PLoS Comput。生物,14,e1005896。
[20] Pakman,A.和L.Paninski(2014):“截断多元高斯函数的精确哈密顿蒙特卡罗”,《计算杂志》。图表。统计,23,518-542。
[21] Ramberg,J.(1977):“选择最佳预测变量。”Commun。统计理论方法,11133-1147·Zbl 0375.62029号
[22] Rizvi,M.H.H.S.(1973):“最大多重相关系数的选择:渐近情况”,《美国统计协会杂志》,68,184-188·Zbl 0262.62028号
[23] Spiegel,M.R.(1968):公式和表格的数学手册。沙姆。
[24] Wilcox,R.(1978):“关于从几个二项总体或相关系数最大的二元正态总体中选择最佳总体的一些评论。”《心理测量学》,43,127-128。
[25] Yeung,K.,C.Fraley,A.Murua,A.Raftery和W.Ruzzo(2001):“基因表达数据的基于模型的聚类和数据转换”,《生物信息学》,17,977-987。
[26] Yu,L.和H.Liu(2003):“高维数据的特征选择:基于快速相关性的过滤解决方案”,《第二十届机器学习国际会议论文集》,第856-863页。
[27] Zuk,O.,L.Ein-Dor和E.Domany(2007):“不确定性下的排名”,UAI,466-473。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。