摘要
背景
结果
结论
背景
方法
GWAS的三步方法
从基因型推断LD阻滞
组数估计
选择与响应相关的组
实施
竞争方法
-
明确考虑区块结构信息的两种方法:PLINK基因组关联分析工具的单倍型关联模块[ 23 ],并且Group Lasso应用于真正的SNP组。 后一种方法不能在实际中应用,但对于分析所提方法的不同步骤的贡献非常有用。 我们将此方法称为“oracle Group Lasso”。
绩效评估
SNP和区块级评估
模拟设置
结果和讨论
模拟数据结果
区块级与SNP级评估
LD块推理的效率
每个区块因果SNP数量的影响
小等位基因频率分布的影响
半模拟数据结果
-
CHC-Gap:提出的约束层次聚类,然后是Gap统计。 -
CI:PLINK中使用的默认置信区间方法。
HIV数据分析
数据集
块推理
HIV数据结果
结论
缩写
资产负债表: -
曲线下面积 光头: -
利用联系不平衡的分块方法 财务总监: -
错误发现率 转发: -
家庭错误率 GWAS: -
全基因组关联研究 艾滋病毒: -
人类免疫缺陷病毒 劳埃德: -
连锁不平衡 最大允许流量: -
次等位基因频率 座椅模块组件: -
单标记分析 SNP公司: -
单核苷酸多态性
参考文献
Manolio TA、Collins FS、Cox NJ、Goldstein DB、Hindorff LA、Hunter DJ等。寻找复杂疾病的缺失遗传力。 自然。 2009; 461(7265):747–53. Burton PR、Clayton DG、Cardon LR、Craddock N、Deloukas P、Duncanson A等。对14000例七种常见疾病和3000例共享对照的全基因组关联研究。 自然。 2007; 447(7145):661–78. Sham PC,Purcell SM。大规模遗传研究中的统计能力和显著性测试。 Nat Rev基因。 2014; 15(5):335–46。 Yi H,Breheny P,Imam N,Liu Y,Hoeschele I。数量性状全基因组关联研究的惩罚多标记与单标记回归方法。 遗传学。 2015年; 199(1):205–22. Li M-X,Gui H-S,Kwan JS,Sham PC.Gates:一种使用扩展simes程序的快速而强大的基于基因的关联测试。 美国人类遗传学杂志。 2011; 88(3):283–93. Tibshirani R.通过套索回归收缩和选择。 J R Stat Soc Ser B(方法学)。 1996; 58(1):267–88. 邹H,Hastie T.通过弹性网进行正则化和变量选择。 J R Stat Soc Ser B(统计方法)。 2005; 67(2):301–20. Abraham G,Kowalczyk A,Zobel J,Inouye M.复杂人类疾病遗传预测中惩罚和非惩罚方法的性能和稳健性。 基因流行病学。 2013; 37(2):184–95. Waldmann P,Mészáros G,Gredler B,Fuerst C,Sölkner J.基因组关联研究中套索和弹性网的评估。 前发电机。 2013; 4:4–270. de Maturana EL、Ibáñez-Escriche N、González-Recio Oh、Marenne G、Mehrban H、Chanock SJ等。GWAS中的下一代建模:比较不同的遗传结构。 人类遗传学。 2014; 133(10):1235–53. Dalmasso C、Carpentier W、Meyer L、Rouzioux C、Goujard C、Chaix M-L等。不同遗传位点控制HIV-1感染中的血浆HIV-RNA和细胞HIV-DNA水平:ANRS基因组广泛关联01研究。 公共科学图书馆一号。 2008; 3(12):3907. 袁明,林毅。分组变量回归中的模型选择和估计。 J R Stat Soc Ser B(统计方法)。 2005; 68(1):49–67. Tibshirani R,Walther G,Hastie T。通过间隙统计估计数据集中的簇数。 J R Stat Soc Ser B(统计方法)。 2001; 63(2):411–23. JH小病房。 分层分组以优化目标函数。 《美国统计学会杂志》,1963年; 58(301):236–44. Schölkopf B,Smola AJ。 使用内核学习:支持向量机、正则化、优化等(自适应计算和机器学习)。 伦敦剑桥:麻省理工学院出版社; 2001 Caliáski T,Harabasz J.聚类分析的枝晶方法。 公共统计理论方法。 1974; 3(1):1–27. Hartigan JA公司。 聚类算法。 纽约州纽约市:Wiley; 1975 Krzanowski WJ,Lai Y.使用平方和聚类确定数据集中组数的标准。生物统计学。 1988; 44(1):23–34. Mohajer M、Englemeier K-H、Schmid VJ。 带对数函数和不带对数函数的Gap统计定义的比较。 2011 http://arxiv.org/abs/103.4767 . Grandvalet Y、Chiquet J、Ambroise C.以最坏情况下的二次罚分稀疏比赛。 2012 网址:http://arxiv.org/abs/1210-2077 . Clayton D.snpStats:SnpMatrix和XSnpMatrix-类和方法。 R软件包版本1.12.0。 2013 Clayton D,Leung H-T.全基因组关联研究分析的R包。 人类遗传。 2007; 64(1):45–51. Purcell S、Neale B、Todd-Brown K、Thomas L、Ferreira MA、Bender D等.PLINK:全基因组关联和基于群体的连锁分析的工具集。 美国人类遗传学杂志。 2007; 81(3):559–75. Gabriel SB、Schaffner SF、Nguyen H、Moore JM、Roy J、Blumenstiel B等。人类基因组中单倍型块的结构。 科学。 2002; 296(5576):2225–9. 秦志胜,牛涛,刘建生。 分区-期望最大化算法,用于单核苷酸多态性单倍型推断。 美国人类遗传学杂志。 2002; 71(5):1242. Wu TT,Chen YF,Hastie T,Sobel E,Lange K。通过套索惩罚逻辑回归进行全基因组关联分析。 生物信息学。 2009; 25(6):714–21. Bühlmann P.高维线性模型的统计意义。 伯努利。 2013; 19:1212–42. Chatterjee A,Lahiri SN.引导套索估值器。 2011年美国统计协会; 106(494):608–25. Kwee LC,Liu D,Lin X,Ghosh D,Epstein MP。数量性状的强大而灵活的多点关联测试。 Am J人类基因。 2008; 82(2):386–97. Meinshausen N.变量重要性的层次测试。 生物特征。 2008; 95(2):265–78. Mandozzi J,Bühlmann P.相关变量高维回归的序贯拒绝检验方法。 2015 http://arxiv.org/abs/1502.03300 .