×

量化统计和遗传学研究中用于假设检验的缺失信息的比例。 (英语) Zbl 1329.62092号

摘要:许多实际研究依赖于应用于缺失信息数据集的假设检验程序。分析的一个重要部分是确定缺失数据对测试性能的影响,这可以通过适当量化可用信息的相对(完整数据)量来实现。这一问题的直接动机是应用于研究,例如连锁分析和基于单倍型的关联项目,旨在确定复杂疾病的遗传贡献。在遗传学研究中,实验设计、技术比较、数据解释以及理解一些推理工具的行为都需要相关的信息度量。构建此类信息度量的主要困难来自于实践中的多重目标,有时甚至是相互冲突的目标。对于大样本,我们表明,通过使用适当形式的相对Kullback–Leibler信息,存在一个令人满意的、基于似然的一般解,并且考虑到观测数据的最大似然,所提出的度量在计算上是便宜的。分别在零假设和替代假设下引入了两种度量方法。我们举例说明了对炎症性肠病和糖尿病绘图研究数据的测量。对于在实践中经常出现的小样本问题,有时以变相的形式出现(例如,测量个人对大型研究的贡献),稳健的贝叶斯方法具有很大的前景,尽管选择通用的“默认先验”是一个非常具挑战性的问题。我们还报告了在我们的研究中遇到的一些有趣的联系,例如与EM算法的基本恒等式的联系,与第二个CR(Chapman-Robbins)下界的联系,和熵的联系,以及似然比和贝叶斯因子之间的联系。我们希望,这些看似无关的联系,以及我们的具体建议,将在这一理论上引人入胜且实际需要的领域中引发一场广泛的讨论和研究。

MSC公司:

62F03型 参数假设检验
62页第10页 统计学在生物学和医学中的应用;元分析
10层62层 点估计
62B10型 信息论主题的统计学方面
92D10型 遗传学和表观遗传学
第94页第17页 信息的度量,熵
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abecasis,G.R.、Cardon,L.R.和Cookson,W.O.C.(2000)。核心家族数量性状相关性的一般检验。阿默尔。《人类遗传学杂志》66 279-292。
[2] Abreu,P.、Greenberg,D.和Hodge,S.(1999)。复杂疾病连锁分析中简单lod评分和npl评分之间的直接功率比较。阿默尔。《人类遗传学杂志》65 847-857。
[3] Aitchison,J.(1975)。预测拟合良好。生物特征62 547-554。JSTOR公司:·Zbl 0339.62018号 ·doi:10.1093/biomet/62.3547
[4] Akaike,H.(1985)。预测和熵。《庆祝统计学:ISI百年诞辰》第1-24卷(A.Atkinson和S.Fienberg编辑)。纽约州施普林格·Zbl 0576.62009号
[5] 查普曼,D.C.和罗宾斯,H.(1951)。无规律假设的最小方差估计。安。数学。统计师。22 581-586. ·Zbl 0044.34302号 ·doi:10.1214/oms/1177729548
[6] Chernoff,H.(1979)。序列分析和优化设计。宾夕法尼亚州费城SIAM·Zbl 0265.62024号
[7] Cho,J.H.、Nicolae,D.L.、Gold,L.H.和Fields,C.T.等人(1998年)。炎症性肠病新易感性位点的鉴定。程序。国家。阿卡德。科学。美国95 7502-7507。
[8] Cleves,M.A.和Elston,R.C.(1997)。两个基因座之间连锁的替代测试。遗传流行病学14 117-131。
[9] Cover,T.M.和Thomas,J.A.(1991年)。信息论要素。威利,纽约·兹比尔0762.94001
[10] Cox,D.R.和Hinkley,D.(1974年)。理论统计。查普曼和霍尔,伦敦·Zbl 0334.62003号
[11] Daw,E.W.、Thompson,E.A.和Wijsman,E.M.(2000)。多点链接分析中因地图错误指定而产生的偏差。遗传流行病学19 366-380。
[12] Dempster,A.P.(1997)。直接使用似然进行显著性测试。统计师。计算。7 247-252. ·Zbl 0367.62004号
[13] Dempster,A.P.、Laird,N.M.和Rubin,D.B.(1977年)。通过EM算法获得不完整数据的最大似然(讨论后)。J.罗伊。统计师。Soc.序列号。B 39 1-37。JSTOR公司:·Zbl 0364.62022号
[14] Devlin,B.和Risch,N.(1995年)。精细制图中连锁不平衡测度的比较。基因组学29 311-322。
[15] Evans,D.E.和Cardon,L.R.(2004)。全基因组连锁研究中的基因分型指南:单核苷酸多态性图与微卫星图。阿默尔。《人类遗传学杂志》75 687-692。
[16] Excoffier,L.和Slatkin,M.(1995)。二倍体群体中分子单倍型频率的最大似然估计。分子生物学。进化。12 921-927.
[17] Falk,C.T.和Rubinstein,P.(1987)。单倍型相对风险:为风险计算构建适当控制样本的简单可靠方法。人类遗传学51 227-233。
[18] George,E.、Feng,L.和Xu,X.(2006)。改进了Kullback-Leibler损失下的最小最大预测密度。安。统计师。34 78-91. ·Zbl 1091.62003号 ·doi:10.1214/0090536000000155
[19] Grant,S,F.、Thorleifsson,G.、Reynisdottir,I.、Benediktsson,R.、Manolescu,A.和Sainz,J.等人(2006年)。转录因子7样2(TCF7L2)基因变异与2型糖尿病风险相关。《自然遗传学》38 320-323·Zbl 0827.90010号 ·doi:10.1007/BF01079497
[20] Gretarsdottir,S.、Thorleifsson,G.和Reynisdottir,S.T.等人(2003年)。编码磷酸二酯酶4d的基因具有缺血性中风的风险。《自然遗传学》35 131-138。
[21] Gudbjartsson,D.F.、Jonasson,K.、Frigge,M.L.和Kong,A.(2000)。Allegro,一个新的多点联动分析程序。《自然遗传学》25 12-13。
[22] Hawley,M.和Kidd,K.(1995年)。HAPLO:一个使用EM算法来估计多位点单倍型频率的程序。J.遗传86 409-411。
[23] Helgason,A.、Palsson,S.、Thorleifsson,G.和Grant,S.F.等人(2007年)。完善TCF7L2基因变体对2型糖尿病和适应性进化的影响。《自然遗传学》39 218-225。
[24] Kong,A.和Cox,N.J.(1997年)。通道共享模型:Lod分数和准确的联动测试。阿默尔。《人类遗传学杂志》61 1179-1188。
[25] Kruglyak,L.(1997)。在连锁研究中使用双等位基因标记的遗传图。《自然遗传学》17 21-24。
[26] Kruglyak,L.、Daly,M.J.、Reeve-Daly,M.P.和Lander,E.S.(1996)。参数和非参数联动分析:统一的多点方法。阿默尔。《人类遗传学杂志》58 1347-1363。
[27] Lam,J.C.、Roeder,K.和Devlin,B.(2000年)。进化树的单体型精细映射。阿默尔。《人类遗传学杂志》66 659-673。
[28] Lander,E.S.和Green,P.(1987年)。人类多位点遗传连锁图谱的构建。程序。国家。阿卡德。科学。美国84 2363-2367。
[29] Lange,C.和Laird,N.M.(2002a)。一类基于家庭的关联测试的分析样本量和功效计算:二分法特征。阿默尔。《人类遗传学杂志》71 575-584。
[30] Lange,C.和Laird,N.M.(2002b)。关于遗传学中基于家庭的关联研究的一般条件检验:渐近分布、条件幂和最优性考虑。遗传流行病学23 165-180。
[31] Long,J.C.、Williams,R.C.和Urbanek,M.(1995)。多基因座单倍型的E-M算法和测试策略。阿默尔。《人类遗传学杂志》59 799-810。
[32] Martin,E.R.、Monks,S.A.、Warren,L.L.和Kaplan,N.L.(2000)。一般家系中连锁和关联的检验:家系不平衡检验。阿默尔。《人类遗传学杂志》67 146-154。
[33] Matsuzaki,H.、Loi,H.和Dong,S.等人(2004年)。在高密度寡核苷酸阵列上使用单引物分析对10000多个snp进行并行基因分型。基因组研究14 414-425。
[34] McPeek,M.S.和Strahs,A.(1999)。通过单倍型共享的衰退来评估连锁不平衡,并应用于精细遗传作图。阿默尔。《人类遗传学杂志》65 858-875。
[35] Meng,X.-L.(1994年)。关于ECM算法的收敛速度。安。统计师。22 326-339. ·Zbl 0803.65146号 ·doi:10.1214/aos/1176325371
[36] 孟晓乐(2000)。K.Lange、D.Hunter和I.Yang对“使用替代目标函数进行优化转移”的讨论。J.计算。图表。统计师。9 35-43. JSTOR公司:·doi:10.2307/1390605
[37] 孟晓乐(2001)。非协调性下多重插补推理的研究综述。《调查无回应》(R.Groves、D.Dillman、J.Eltinge和R.Little编辑)343-356。纽约威利。
[38] Meng,X.-L.和Rubin,D.B.(1991)。使用EM获得渐近方差-方差矩阵:SEM算法。J.Amer。统计师。协会86 899-909。
[39] Meng,X.-L.和Rubin,D.B.(1993)。通过ECM算法的最大似然估计:一般框架。生物特征80 267-278。JSTOR公司:·Zbl 0778.62022号 ·doi:10.1093/biomet/80.2.267
[40] Meng,X.-L.和van Dyk,D.(1996年)。最小信息比和相对增强函数。美国统计协会统计计算部会议记录73-78。
[41] Meng,X.-L.和van Dyk,D.A.(1997年)。EM算法是一首古老的民歌,用一个快速的新曲调演唱(带讨论)。J.罗伊。统计师。Soc.序列号。乙59 511-567。JSTOR公司:·Zbl 1090.62518号 ·数字对象标识代码:10.1111/1467-9868.00082
[42] Middleton,F.A.等人(2004年)。利用高密度单核苷酸多态性(snp)基因分型分析对双相情感障碍进行全基因组连锁分析:与微卫星标记分析的比较以及发现与染色体6q22的显著连锁。阿默尔。《人类遗传学杂志》74 886-897。
[43] Morris,A.P.、Whittaker,J.C.和Balding,D.J.(2002年)。通过破碎的系谱合并模型精细绘制疾病位点。阿默尔。《人类遗传学杂志》70 686-707。
[44] Nicolae,D.L.(1999)。基因作图中的等位基因共享模型:一种似然方法。芝加哥大学统计系博士论文。
[45] Nicolae,D.L.(2006年a)。检测非类型等位基因(TUNA)——在全基因组关联研究中的应用。遗传流行病学30 718-727。
[46] Nicolae,D.L.(2006年b)。量化遗传关联研究中缺失信息的数量。遗传流行病学30 703-717。
[47] Nicolae,D.L.和Kong,A.(2004年)。测量等位基因共享连锁研究中的相关信息。生物统计学60 368-275。JSTOR公司:·Zbl 1115.62361号 ·doi:10.1111/j.0006-341X.2004.00181.x
[48] 牛涛、秦振生、徐晓和刘建生(2002)。多连锁单核苷酸多态性的贝叶斯单倍型推断。阿默尔。《人类遗传学杂志》71 1242-1247。
[49] Ott,J.(1991)。人类遗传连锁分析。约翰·霍普金斯大学出版社,巴尔的摩。
[50] Ott,J.(2001)。lod评分法的主要优点和缺点。高级遗传学42 125-132。
[51] Peer,I.、de Bakker,P.I.、Maller,J.、Yelensky,R.、Altshuler,D.和Daly,M.J.(2006)。使用固定标记集评估和提高全基因组关联研究的能力。《自然遗传学》38 663-667。
[52] Pritchard,J.K.、Stephens,M.、Rosnberg,N.A.和Donnelly,P.(2000)。结构化人群中的关联映射。阿默尔。《人类遗传学杂志》67 170-181。
[53] Rubin,D.B.(1976年)。推断和缺失数据。生物特征63 581-592。JSTOR公司:·Zbl 0344.62034号 ·doi:10.1093/biomet/63.3.581
[54] Schaid,D.J.、Guenther,J.C.、Christensen,G.B.、Hebbring,S.、Rosenow,C.、Hilker,C.A.、McDonnell,S.K.、Cunningham,J.M.、Slager,S.,Blute,M.L.和Thibodeau,S.N.(2004)。前列腺癌易感基因座基因组连锁筛查中微卫星与单核苷酸多态性的比较。阿默尔。《人类遗传学杂志》75 948-965。
[55] Shannon,C.E.(1949年)。传播的数学理论。贝尔系统。技术期刊27 623-656·Zbl 1154.94303号 ·doi:10.1002/j.1538-7305.1948.tb01338.x
[56] Stephens,M.、Smith,N.J.和Donnelly,P.(2001年)。从群体数据重建单倍型的一种新的统计方法。阿默尔。《人类遗传学杂志》68 978-989。
[57] Teng,J.和Siegmund,D.O.(1998年)。使用受影响的亲缘对和部分信息标记进行多点连锁分析。生物统计学54 1247-1265。JSTOR公司:·Zbl 1058.62661号 ·doi:10.2307/2533654
[58] Terwilliger,J.D.和Ott,J.(1992年)。基于单倍型的“单倍型相对风险”方法检测等位基因关联。人类遗传42 337-346。
[59] Thalamuthu,A.、Mukhopadhyay,I.、Ray,A.和Weeks,D.E.(2005)。微卫星和单核苷酸多态性标记在两种信息含量测量方面的比较。BMC遗传学6(补遗1)S27。
[60] 国际HapMap联合会(2003年)。国际hapmap项目。自然426 789-796。
[61] Whittemore,A.S.和Halpern,J.(1994)。使用受影响谱系成员进行的一类连锁测试。生物统计学50 118-127·兹比尔0824.62100 ·doi:10.2307/2533202
[62] Zellner,A.(2003)。贝叶斯信息处理历史的一些方面。芝加哥大学商学院技术报告。
[63] Zollner,S.和Pritchard,J.K.(2005)。基于聚合的关联映射和复杂性状位点的精细映射。遗传学169 1071-1092。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。