×

研究AIC在选择系统发育模型中的性能。 (英语) Zbl 1296.92182号

摘要:流行的基于似然的模型选择准则Akaike's Information Criteria(AIC)是从信息论中得出的一个突破性的数学结果。AIC是Kullback-Leibler(KL)散度的近似值,其推导依赖于似然函数具有有限二阶导数的假设。然而,对于系统发育估计,由于树空间相对于树拓扑是离散的,因此违反了具有有限二阶导数的连续似然函数的假设。本文在系统发育树估计的背景下,研究了候选模型的期望对数似然和期望KL散度之间的关系。我们发现,给定树拓扑,AIC是预期KL散度的无偏估计。然而,当树拓扑未知时,AIC往往会低估系统发育模型的预期KL差异。模拟结果表明,不同系统发育模型的低估程度不同,因此即使对于大样本量,AIC的偏差也可能导致选择错误的模型。由于系统发育模型的选择对统计系统发育推断至关重要,因此在系统发育学背景下提高模型选择标准的准确性至关重要。

MSC公司:

92D15型 与进化有关的问题
92D10型 遗传学和表观遗传学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abdo,Z.,V.Minin,P.Joyce和J.Sullivan(2005):“树拓扑结构中的会计不确定性对系统发育估计中模型选择的决策理论方法几乎没有影响。”《分子生物学》。演变。,2691-703页。;
[2] Akaike,H.(1974):“统计模型识别的新视角”,IEEE Trans。自动控制,19716-723·Zbl 0314.62039号
[3] Alfaro,M.和J.Huelsenbeck(2006):“贝叶斯和基于aic的系统发育模型不确定性度量的比较性能”,系统。生物学,55,89-96。;
[4] Anisimova,M.和O.Gascuel(2006):“分支近似似然比测试:快速、准确和强大的替代方法”,系统。生物学,55,539-552。;
[5] Boettiger,C.、G.Coop和P.Ralph(2012年):“你的系统发育史能提供信息吗?衡量比较方法的力量”,《进化》,第66期,第2240-2251页。;
[6] Bos,D.和D.Posada(2005):“利用核苷酸进化模型构建系统发育树”,《发育与比较免疫学》,第29期,第211-227页。;
[7] Buckley,T.和C.Cunningham(2002):“核苷酸替代模型假设对非参数自举支持估计的影响”,《分子生物学》。演变。,19, 394-405.;
[8] Burham,K.和D.Anderson(2004):模型选择和多模推理,Springer-Verlag:纽约。;
[9] Cunningham,C.,H.Zhu和D.Hillis(1998):“系统发育推断的最佳拟合最大似然模型:已知系统发育的经验测试”,《进化》,52,978-987。;
[10] Darriba,D.、G.Taboada、R.Doallo和D.Posada(2012):“Jmodeltest 2:更多模型、新启发式和并行计算”,《自然方法》,9772。;
[11] Davison,A.(2003):《统计模型》,剑桥大学出版社:纽约·兹比尔1044.62001
[12] Evans,J.和J.Sullivan(2010):“生物进化论中bic和dt方法中模型选择的近似模型概率”,《分子生物学》。演变。,28, 343-349.;
[13] Felsenstein,J.(1981):“dna序列的进化树:最大似然方法”,《分子进化杂志》。,17, 368-376.;
[14] Frati,F.(1997):“弹尾线虫线粒体coii基因的进化”,《分子进化杂志》。,44, 145-158.;
[15] Guindon,S.和O.Gascuel(2003):“一种通过最大似然估计大型系统发育的简单、快速和准确的方法,”Syst。生物学,52,696-704。;
[16] Hayasaka,K.、T.Gojobori和S.Horai(1988):“灵长类线粒体DNA的分子系统发育和进化”,《分子生物学》。演变。,5, 626-644.;
[17] Holder,M.,P.Lewis和D.Swofford(2010):“无自行车信息标准不会选择非通用机制模型”,系统。生物学,59,477-485。;
[18] Huelsenbeck,J.和K.Crandall(1997):“使用最大似然进行系统发育估计和假设检验”,《年鉴》。经济评论。进化。系统。,42, 247-264.;
[19] Huelsenbeck,J.、B.Larget和M.Alfaro(2004):“使用可逆跳马尔可夫链蒙特卡罗选择贝叶斯系统发育模型”,《分子生物学》。演变。,21, 1123-1133.;
[20] Hurvich,C.和C.-L.Tsai(1989):“小样本中的回归和时间序列模型选择”,《生物统计学》,76297-307·Zbl 0669.62085号
[21] Ishiguro,M.、Y.Sakamoto和G.Kitagawa(1997):“自举对数似然和eic,aic的扩展”,Ann.I.Stat.Math。,49, 411-434.; ·Zbl 0935.62033号
[22] Jerminin,L.、V.Jayaswal、F.Ababneh和J.Robinson(2008):“系统发育模型评估”,《分子生物学方法》。,452,31-64中的一个。;
[23] Johnson,J.和K.Omland(2004):“生态学和进化中的模型选择”,《生态趋势》。演变。,19, 101-108.;
[24] Jukes,T.和C.Cantor(1969年):“蛋白质分子的进化”,In:Munro,H.N.(编辑),哺乳动物蛋白质代谢。学术出版社:纽约,21-132。;
[25] Kelchner,S.(2009):“非编码Dna的系统发育模型和模型选择”,《植物系统》。演变。,282, 109-126.;
[26] Kelchner,S.和M.Thomas(2007):“系统发育学中的模型使用:九个关键问题”,《趋势生态学》。演变。,282, 109-126.;
[27] Kimura,M.(1980):“通过核苷酸序列的比较研究估算碱基替代进化速率的简单方法”,《分子进化杂志》。,16, 111-120.;
[28] Luo,A.,H.Qiao,Y.Zhang,W.Shi,Y.Ho,W.Xu,A.Zhang和C.Zhu(2010):“crtiteria在系统发育学中选择进化模型的性能:基于模拟数据集的综合研究”,BMC进化。生物学,10242。;
[29] Minin,V.,Z.Abdo,P.Joyce和J.Sullivan(2003):“基于性能的系统发育评估似然模型选择”,系统。生物学,52,674-683。;
[30] Pol,D.(2004):“模型选择的分层似然比检验的经验问题”,Syst。生物学,53,949-962。;
[31] Posada,D.(2008):“Jmodeltest:系统发育模型平均”,《分子生物学》。演变。,25, 1253-1256.;
[32] Posada,D.和T.Buckley(2004):“系统发育学中的模型选择和模型平均:akaike信息标准和baysian方法相对于似然比测试的优势”,系统。生物学,53,793-808。;
[33] Posada,D.和K.Crandall(1998):“模型测试:测试DNA替代模型”,生物信息学,14817-818。;
[34] Posada,D.和K.Crandall(2001):“选择核苷酸取代的最佳拟合模型”,Syst。生物,50580-601。;
[35] Rambaut,A.和N.Grassly(1997):“Seq-gen:沿着系统发育树的dna序列进化的蒙特卡罗模拟应用”,计算。申请。生物科学。,13, 235-238.;
[36] Rippinger,J.和J.Sullivan(2008):“模型选择是否影响最大似然分析?”。生物学,57,76-85。;
[37] Schwarz,G.(1978):“估算模型的维数”,《Ann.Stat.》,第6卷,第461-464页·Zbl 0379.62005年
[38] Self,S.和K.-Y.Liang(1987):“非标准条件下最大似然估计量和似然比检验的渐近性质”,《美国统计协会杂志》,82,605-610·Zbl 0639.62020号
[39] Shapiro,B.、A.Rambaut和A.Drummond(2006):“为蛋白质编码序列的系统发育分析选择合适的替代模型”,《分子生物学》。演变。,23, 7-9.;
[40] Sullivan,J.和P.Joyce(2005):“系统发育学中的模型选择”,《年度》。经济评论。进化。系统。,36, 445-466.;
[41] Sullivan,J.和D.Swofford(1997):“豚鼠是啮齿动物吗?适当模型在分子系统发育学中的重要性”,J.Mamm。演变。,4, 77-86.;
[42] Tavaré,S.(1986):“dna序列分析中的一些概率和统计问题,”Lect。数学。生命科学。(美国数学学会),17,57-86·Zbl 0587.92015号
[43] Wu,C.,M.Suchard和A.Drummond(2013):“核苷酸替代模型的贝叶斯选择及其位置分配”,《分子生物学》。演变。,30, 669-688.;
[44] Yang,Z.(1994):“基于位点上可变速率的dna序列的最大似然系统发育估计:近似方法”,《分子进化杂志》。,39, 306-314.;
[45] Zharkikh,A.(1994):“核苷酸序列之间进化距离的估计”,《分子进化杂志》。,39, 315-329.;
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。