×

兹马思-数学第一资源

癌症体细胞突变研究中的错误发现率。(英语) Zbl 1454.62410
摘要:癌症基因组测序研究的目的是确定典型癌症中存在的改变的性质和类型,并发现高频突变的基因。在这篇文章中,我们讨论了分析这些研究中产生的体细胞突变频率数据的统计方法。我们特别强调由T。舍布洛姆等。[“人类乳腺癌和结直肠癌的一致编码序列”,《科学》314,第5797268-274号(2006;doi:10.1126/science.1133427)]. 在这方面,我们描述和比较统计方法来构造分数,这些方法可以用来为进一步的研究确定候选基因的优先级,并评估由此确定的候选基因的统计显著性。早期癌症基因组研究中使用的近似值所提供的错误发现率估计值的可靠性一直存在争议。为了解决这些问题,我们开发了一个半参数贝叶斯模型,它能精确地拟合数据。我们使用这个模型来生成大量的现实场景集合,并评估这些集合的替代方法。我们的评估是公正的,因为用于生成数据的模型没有被任何比较过的方法使用。这是客观的,因为场景是由一个适合数据的模型生成的。我们的结果量化了与经验Bayes方法和多重检验方法相比,Benjamini和Hockberg方法对错误发现率的保守控制[J。D。层数,J。R。统计Soc.,Ser。B、 统计方法。64,第3号,479–498(2002年;Zbl 1090.62073)]. 仿真结果还表明,对于所使用的方法,与目标的错误发现率的偏差可以忽略不计[Sjöblom等人,loc。引文]。

理学硕士:
第62页 统计学在生物学和医学科学中的应用;荟萃分析
62J15 配对和多重比较;多重测试
软件:
GSM网络;博亚
PDF格式 双歧杆菌 引用
全文: 内政部
参考文献:
[1] 宾杰米尼,Y。还有霍克伯格(1995年)。控制错误发现率:一种实用而有效的多重测试方法。J。罗伊。统计学家。Soc。爵士。乙57 289-300·Zbl 0809.62014
[2] 宾杰米尼,Y。还有叶库铁利(2001年)。依赖下多重测试中错误发现率的控制。安。统计学家。1165-1188年·Zbl 1041.62061
[3] 布莱克威尔,D。麦奎因,J。B(1973年)。通过Pólya urn计划的Ferguson分布。安。统计学家。1353-355年·Zbl 0276.62010
[4] 癌症基因组图谱计划(2008年)。全面的基因组特征定义了人类胶质母细胞瘤基因和核心通路。自然455 1061-1068。
[5] 程,C。还有磅(2007年)。微阵列基因表达数据统计分析的错误发现率范例。生物信息1 436-446。
[6] Dudoit,S.,吉尔伯特,H。还有Laan,M。五。D(2008年)。基于重采样的经验Bayes多测试方法控制广义尾概率和期望值误差率:重点研究错误发现率和仿真研究。生物。J。50716-744。
[7] Dudoit,S.,沙弗,J。P。还有Boldj。C(2003年)。微阵列实验中的多重假设检验。统计学家。科学。1871-103·Zbl 1048.62099
[8] 邓森,D。B(2010年)。非参数贝叶斯在生物统计学中的应用。在贝叶斯非参数学中。坎布。爵士。统计概率。数学。223-273。剑桥大学出版社,剑桥。
[9] 埃夫隆,B(2003年)。罗宾斯,经验贝叶斯和微阵列。安。统计学家。31366-378·Zbl 1038.62099
[10] 埃夫隆,B.,蒂比拉尼,R.,斯托瑞,J。D。还有塔瑟,V(2001年)。微阵列实验的经验Bayes分析。J。阿默尔。统计学家。协会96 1151-1160·Zbl 1073.62511号
[11] 埃斯科巴,M。D。还有韦斯特,M(1995年)。贝叶斯密度估计和混合推理。J。阿默尔。统计学家。协会90 577-588·Zbl 0826.62021
[12] 法科梅尼,A(2008年)。现代多重假设检验综述,特别关注错误发现比例。医学统计方法。第17 347-388号决议·Zbl 1156.62048
[13] 弗格森,T。美国(1973年)。一些非参数问题的贝叶斯分析。安。统计学家。1209-230年·中银0255.62037
[14] 福利斯,W。F。卡维特,G(2007年)。对“人类乳腺癌和结直肠癌的一致编码序列”的评论。《科学》3171500(作者回复1500)。
[15] 格茨,G.,霍夫林,H.,梅西罗夫,J。P、 高卢,T。R、 ,梅耶森,M.,蒂比拉尼,R。还有兰德,E。美国(2007年)。对“人类乳腺癌和结直肠癌的一致编码序列”的评论。《科学》317(5844)1500。
[16] 格林曼,C.,伍斯特,R.,富特,P。A、 ,斯特拉顿,M。R。还有伊斯顿。F(2006年)。肿瘤体细胞突变致病性的统计分析。遗传学173 2187-2198。
[17] Jones,S.,Zhang,X.,帕森斯,D。W、 ,林,J。C。H、 ,李瑞,R。J、 ,Angenedt,P.,Mankoo,P.,Carter,H.,Kamiyama,H.,Jimeno,A.,Hong,S。M、 ,傅,B.,林,M。T、 ,卡尔霍恩,E。S、 ,Kamiyama,M.,Walter,K.,Nikolskaya,T.,Nikolsky,Y.,Hartigan,J.,Smith,D。R、 ,伊达尔戈,M.,利奇,S。D、 ,克莱恩,A。P、 ,杰菲,E。M、 ,Goggins,M.,Maitra,A.,Iacobuzio Donahue,C.,Eshleman,J。R、 ,克恩,S。E、 ,赫鲁班,R。H、 ,卡钦,R.,帕帕多普洛斯,N.,帕米吉亚尼,G.,沃格尔斯坦,B.,维库莱斯库,V。E。还有金兹勒。W(2008年)。全球基因组分析揭示人类胰腺癌的核心信号通路。科学321 1801-1806。
[18] 卡夫,P(2006年)。基于假阳性报告概率的有效两阶段全基因组关联设计。派克靴。辛普森。生物计算。523-534年。
[19] 米勒,P。还有金塔纳。A(2004年)。非参数贝叶斯数据分析。统计学家。科学。19 95-110·Zbl 1057.62032
[20] Parmigiani,G.,Lin,J.,博卡,S。M、 ,Sjöblom,T.,琼斯,S.,伍德,L。D、 帕森斯,D。W、 ,Barber,T.,Buckhaults,P.,马科维茨,S。D、 ,公园,B。H、 ,巴赫曼,K。E、 ,帕帕佐普洛斯,N.,沃格尔斯坦,B.,金兹勒,K。W。还有维库莱斯库。E(2007年a)。对“人类乳腺癌和结直肠癌的一致编码序列”评论的回应。
[21] Parmigiani,G.,Lin,J.,博卡,S.,Sjöblom,T.,Kinzler,K.,Velculescu,V。还有沃格尔斯坦(2007年b)。癌症基因组测序分析的统计方法。工作文件126。约翰霍普金斯大学生物统计学系工作文件。在提供。
[22] Parmigiani,G.,博卡,S.,Lin,J.,Kinzler,K。还有维库莱斯库(2009年)。癌症全基因组体细胞突变研究中的设计与分析问题。基因组学93 17-21。
[23] 帕森斯,D。W、 ,Jones,S.,Zhang,X.,Lin,J。C。H、 ,李瑞,R。J、 ,Angenedt,P.,Mankoo,P.,Carter,H.,Siu,I。M、 ,加利亚,G。五十、 ,奥利维,A.,麦克伦登,R.,拉希德,B。A、 ,Keir,S.,Nikolskaya,T.,Nikolsky,Y.,Busam,D。A、 ,泰克莱布,H.,迪亚兹,L。A、 ,哈蒂根,J.,史密斯,D。R、 ,斯特劳斯伯格,R。五十、 ,玛丽,S。K。N、 ,新竹,S。M。O、 ,Yan,H.,里金斯,G。J、 ,比格纳,D。D、 ,卡钦,R.,帕帕多普洛斯,N.,帕米吉亚尼,G.,沃格尔斯坦,B.,维库莱斯库,V。E。还有金兹勒。W(2008年)。人类多形性胶质母细胞瘤的基因组综合分析。科学321 1807-1812。
[24] 鲁宾,A。F。还有格林,P(2007年)。对“人类乳腺癌和结直肠癌的一致编码序列”的评论。
[25] 萨塔戈潘,J。M。还有埃尔斯顿。C(2003年)。基于群体的关联研究中的最优两阶段基因分型。吉奈特。埃皮迪米尔。25149-157。
[26] 萨塔戈潘,J。M、 ,Venkatraman,E。美国。贝格,C。B(2004年)。具有样本量限制的基因疾病关联研究的两阶段设计。生物识别60 589-597·兹布1274.62868
[27] 萨塔戈潘,J。M、 ,韦贝尔,D。A、 ,Venkatraman,E。S、 ,Offit,K。E。贝格,C。B(2002年)。基因疾病关联研究的两阶段设计。生物特征58 163-170·Zbl 1209.62326
[28] Sjöblom,T.,Jones,S.,L.伍德。D、 ,帕森斯,D。W、 ,林,J.,理发师,T。D、 ,曼德尔克,D.,李瑞,R。J、 ,普塔克,J.,西里曼,N.,萨博,S.,巴克豪茨,P.,法雷尔,C.,米厄,P.,马科维茨,S。D、 ,威利斯,J.,道森,D.,威尔森,J。K。五、 ,加兹达尔,A。F、 ,Hartigan,J.,Wu,L.,Liu,C.,Parmigiani,G.,Park,B。H、 ,巴赫曼,K。E、 ,帕帕佐普洛斯,N.,沃格尔斯坦,B.,金兹勒,K。W。还有维库莱斯库。E(2006年)。人类乳腺癌和结直肠癌的一致编码序列。科学314 268-274。
[29] 斯科尔,A。D、 斯科特,L。J、 ,阿贝卡西斯,G。R。还有博恩克(2006年)。在两阶段全基因组关联研究中,联合分析比基于复制的分析更有效。纳特。吉奈特。38209-213。
[30] 史密斯,B(2007年)。boa:MCMC输出收敛性评估和后验推理的R包。统计软件杂志21 1-37。
[31] 斯托里,J。D(2002年)。错误发现率的直接方法。J。R。统计Soc。爵士。统计方法。64479-498·Zbl 1090.62073
[32] 斯特拉顿,M。R、 ,坎贝尔,P。J。未来世界,P。A(2009年)。癌症基因组。自然458 719-724。
[33] 文图里尼,S.,多米尼克,F。帕米吉亚尼,G(2008年)。重尾分布的伽马形状混合。安。申请。统计学家。2756-776·Zbl 1400.62292
[34] 王,H。斯特拉姆,D。O(2006年)。基于错误发现率的两阶段全基因组关联优化设计。计算机。统计学家。数据分析。51457-465·Zbl 1157.62543
[35] 伍德,L。D、 ,帕森斯,D。W、 ,Jones,S.,Lin,J.,Sjöblom,T.,Leary,R。J、 ,沈,D.,博卡,S。M、 ,巴伯,T.,普塔克,J.,西里曼,N.,萨博,S.,德佐,Z.,乌斯特扬斯基,V.,尼科尔斯卡亚,T.,尼科尔斯基,Y.,卡钦,R.,威尔逊,P。A、 ,卡明克,J。S、 ,Zhang,Z.,Croshaw,R.,Willis,J.,Dawson,D.,Shipitsin,M.,Willson,J。K。五、 ,苏库马尔,S.,波利克,K.,帕克,B。H、 ,佩蒂雅戈达,C。五十、 ,裤子,P。五。K、 ,巴林格,D。G、 ,火花,A。B、 ,哈蒂根,J.,史密斯,D。R、 ,Suh,E.,帕帕多普洛斯,N.,巴克豪茨,P.,马科维茨,S。D、 ,Parmigiani,G.,Kinzler,K。W、 维库莱斯库,V。E。还有沃格尔斯坦(2007年)。人类乳腺癌和结直肠癌的基因组图谱。科学318 1108-1113。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。