×

异质数据基于协方差的样本选择:在基因表达和孤独症风险基因检测中的应用。 (英语) Zbl 1457.62227号

小结:数百个基因的基因突变会影响孤独症的风险。根据发现,具有高度相关基因表达的基因在功能上是相互关联的,“关联负罪感”方法(如DAWN)已被开发用于识别这些孤独症风险基因。此前的研究分析了BrainSpan数据集,该数据集包含不同区域和发育阶段脑组织的基因表达。由于已知脑组织的时空特性会影响基因表达的协方差,因此之前的研究仅关注特定样本子集,以避免异质性问题。当检测风险基因时,该分析会导致潜在的能量损失。在本文中,我们开发了一种称为基于协方差的样本选择(COBS)的新方法,以找到更大、更均匀的样本子集,这些样本共享相同的总体协方差矩阵,用于下游DAWN分析。为了证明COBS的有效性,我们使用2014年和2020年获得的两个连续数据冻结的遗传风险评分。我们表明,当使用旧数据冻结的风险分数作为输入时,COBS提高了DAWN预测新数据冻结中检测到的风险基因的能力。

MSC公司:

62J15型 配对和多重比较;多次测试
62页第10页 统计学在生物学和医学中的应用;元分析

软件:

HD测试
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Alamgir,M.和Von Luxburg,U.(2012),“随机k-最近邻图中的最短路径距离”,arXiv编号1206.6381。
[2] 2010年自闭症和发育障碍监测网络监测主要研究员,“8岁儿童自闭症谱系障碍的患病率——自闭症与发育障碍监测网,11个网站,美国,2010年”,《发病率和死亡率周报:监测摘要》,63,1-21(2014)
[3] 巴克斯鲍姆,J.D。;Daly,M.J。;德夫林,B。;Lehner,T。;罗德,K。;州,M.W。;自闭症测序联合会,“自闭症序列联合会:自闭症谱系障碍中的大规模高通量测序,神经元,76,1052-1056(2012)·doi:10.1016/j.neuron.2012.12.008
[4] 蔡,T。;刘伟。;Xia,Y.,“高维稀疏环境下的双样本协方差矩阵测试和支持恢复,美国统计协会杂志,108,265-277(2013)·Zbl 06158341号 ·doi:10.1080/01621459.2012.758041
[5] Chang,J.等人。;周,W。;周,W.-X。;Wang,L.,“弱依赖结构条件下大协方差矩阵的比较及其在基因聚类中的应用,生物统计学,73,31-41(2017)·Zbl 1366.62206号 ·doi:10.111/生物量12552
[6] 陈,J。;Saad,Y.,“密集子图提取及其在社区检测中的应用,IEEE知识与数据工程汇刊,241216-1230(2010)·doi:10.1109/TKDE.2010.271
[7] 切尔诺朱科夫,V。;Chetverikov,D。;Kato,K.,“高维随机向量和最大值的高斯近似和乘数自举法,统计年鉴,412786-2819(2013)·Zbl 1292.62030 ·doi:10.1214/13-AOS1161
[8] 科特尼,J。;穆勒,R.A。;Sanders,S.J。;刘,L。;Willsey,A.J。;牛,W。;刘伟。;克莱,L。;Lei,J。;Yin,J.,“自闭症相关染色质修饰物CHD8在人类神经发育过程中调节其他自闭症风险基因,自然通讯,66404(2015)·doi:10.1038/ncomms7404
[9] De Rubeis,S。;何,X。;Goldberg,A.P。;Poultney,C.S。;萨莫查,K。;Cicek,A.E。;寇,Y。;刘,L。;弗罗默,M。;沃克,S。;Singh,T.,“自闭症中突触、转录和染色质基因被破坏,自然,515209-215(2014)·doi:10.1038/nature13772
[10] Dobriban,E.(2018),“利用FACT算法进行灵活的多重测试”,arXiv编号1806.10163。
[11] Dong,S。;沃克,M.F。;新泽西州Carriero。;DiCola,M。;Willsey,A.J。;Adam,Y.Y。;瓦卡尔,Z。;冈萨雷斯,L.E。;奥弗顿,J.D。;弗拉姆,S。;Keaney,J.F.III,“父系遗传的重新插入和删除与自闭症谱系障碍相关,细胞报告,9,16-23(2014)·doi:10.1016/j.celrep.2014.08.068
[12] Funke,T。;Becker,T.,“随机块模型:变量和推断方法的比较,PLoS One,14,e0215296(2019)·doi:10.1371/journal.pone.0215296
[13] Greene,C.S。;Krishnan,A。;Wong,A.K。;Ricciotti,E。;塞拉亚共和国。;Himmelstein,D.S。;张,R。;哈特曼,B.M。;Zaslavsky,E。;Sealfon,S.C.,“利用人体组织特异性网络了解多细胞功能和疾病,自然遗传学,47,569(2015)·doi:10.1038/ng.3259
[14] Hahn,G.,“多种测试程序类的封闭特性,AStA统计分析进展,102,167-178(2018)·Zbl 1421.62047号 ·doi:10.1007/s10182-017-0297-0
[15] 何,X。;Sanders,S.J。;刘,L。;De Rubeis,S。;Lim,E.T。;Sutcliffe,J.S。;谢伦伯格,G.D。;Gibbs,R.A。;Daly,M.J。;巴克斯鲍姆,J.D。;State,M.W.,“De Novo和遗传遗传变异的综合模型产生了更大的识别风险基因的能力,公共科学图书馆遗传学,9,e1003671(2013)·doi:10.1371/journal.pgen.1003671
[16] 伊娃·F。;Paganoni,A.M。;Tarabelloni,N.,“多元和函数数据分析中基于协方差的聚类”,《机器学习研究杂志》,17,4985-5005(2016)·Zbl 1392.62184号
[17] Kang,H.J。;川川庆,Y.I。;Cheng,F。;Zhu,Y。;Xu,X。;李,M。;Sousa,A.M。;普莱提科斯,M。;Meyer,K.A。;塞德马克,G。;Guennel,T.,“人脑时空转录组,自然,478,483-489(2011)·doi:10.1038/nature10523
[18] Kanner,L.,《情感接触的自闭症障碍,紧张的孩子》,217-250(1943)
[19] Leek,J.T。;Storey,J.D.,“通过替代变量分析捕捉基因表达研究中的异质性,《公共科学图书馆·遗传学》,3,e161(2007)·doi:10.1371/journal.pgen.0030161
[20] Lei,J.(2018),“使用图根分布的网络表示”,arXiv编号1802.09684。
[21] Lei,J。;Rinaldo,A.,“随机块模型中谱聚类的一致性,统计年鉴,43,215-237(2015)·兹比尔1308.62041 ·doi:10.1214/14-AOS1274
[22] 刘,F。;Choi,D。;谢林。;Roeder,K.,“动态网络中的全球光谱聚类,美国国家科学院学报,115,927-932(2018)·Zbl 1418.91430号 ·doi:10.1073/pnas.1718449115
[23] 刘,H。;Han,F。;袁,M。;Lafferty,J。;Wasserman,L.,“高维半参数高斯Copula图形模型,统计年鉴,40,2293-2326(2012)·Zbl 1297.62073号 ·doi:10.1214/12-AOS1037
[24] 刘,H。;Lafferty,J。;Wasserman,L.,“非超常:高维无向图的半参数估计”,机器学习研究杂志,102295-2328(2009)·Zbl 1235.62035号
[25] 刘,L。;Lei,J。;Roeder,K.,“揭示自闭症遗传基础的网络辅助分析,应用统计年鉴,9,1571-1600(2015)·Zbl 1454.62354号 ·doi:10.1214/15-AOAS844
[26] 刘,L。;Lei,J。;Sanders,S.J。;Willsey,A.J。;Kou,Y.先生。;Cicek,A.E。;克莱,L。;卢,C。;何,X。;Li,M.,“DAWN:利用基因表达和遗传学识别自闭症基因和子网络的框架,分子自闭症,5,22(2014)·doi:10.1186/2040-2392-5-22
[27] Meinshausen,北卡罗来纳州。;Bühlmann,P.,“高维图和拉索变量选择,统计年鉴,341436-1462(2006)·Zbl 1113.62082号 ·doi:10.1214/0090536000000281
[28] 穆勒,P。;Parmigiani,G。;Rice,K.,“FDR和贝叶斯多重比较规则,贝叶斯统计,8349-470(2006)·Zbl 1252.62025号
[29] 北卡罗来纳州帕里克沙克。;罗,R。;张,A。;韩元,H。;Lowe,J.K。;Chandran,V。;Horvath,S。;Geschwind,D.H.,“综合功能基因组分析对自闭症的特定分子通路和电路的影响,细胞,1551008-1021(2013)·doi:10.1016/j.cell.2013.10.031
[30] 罗曼诺,J.P。;Wolf,M.,“多假设检验的精确和近似逐步下降方法”,《美国统计协会杂志》,10094-108(2005)·Zbl 1117.62416号 ·doi:10.1198/016214500000539
[31] Rutter,M.,“儿童自闭症的诊断和定义,自闭症和儿童精神分裂症杂志,8139-161(1978)·doi:10.1007/BF01537863
[32] Sanders,S.J。;何,X。;Willsey,A.J。;Ercan-Sencicek,A.G。;Samocha,K.E。;Cicek,A.E。;Murtha,M.T。;巴尔,V.H。;Bishop,S.L。;Dong,S。;Goldberg,A.P.,“从71个风险位点透视自闭症谱系障碍基因组结构和生物学,神经元,87,1215-1233(2015)·doi:10.1016/j.neuron.2015.09.016
[33] Satterstrom,F.K。;Kosmicki,J.A。;王,J。;Breen,M.S。;De Rubeis,S。;An,J.-Y。;彭,M。;柯林斯,R。;格罗夫,J。;克莱,L。;Stevens,C.,“大规模外显子序列研究意味着自闭症神经生物学的发育和功能变化,细胞,180,568-584(2020)·doi:10.1016/j.cell.2019.12.036
[34] Šestan,N.,“自闭症谱系障碍的新兴生物学,科学,3371301-303(2012)·doi:10.1126/science.1224989
[35] Tsourakakis,C.E.(2014),“寻找近团的新方法:三角形最简子图问题”,arXiv编号1405.1477。
[36] Bonchi,F。;Gionis,A。;Gullo,F。;Tsiarli,M.,《第19届ACM SIGKDD国际知识发现和数据挖掘会议论文集》,“密度高于密度的子图:在质量保证的情况下提取最佳准流体”,104-112(2013),ACM·doi:10.145/2487575.2487645
[37] Von Luxburg,美国。;Radl,A。;Hein,M.,“大型随机邻域图中的碰撞和通勤时间,机器学习研究杂志,151751-1798(2014)·Zbl 1319.05118号
[38] Willsey,A.J。;Sanders,S.J。;李,M。;Dong,S。;Tebbenkamp,A.T。;穆勒,R.A。;赖利,S.K。;林,L。;Fertuzinhos,S。;Miller,J.A。;Murtha,M.T.,“共表达网络在自闭症发病机制中对人类胎儿深部皮层投射神经元的影响,细胞,155997-1007(2013)·doi:10.1016/j.cell.2013.10.020
[39] 薛,L。;Zou,H.,“高维非超常图形模型的基于正则秩的估计”,《统计年鉴》,402541-2571(2012)·Zbl 1373.62138号 ·doi:10.1214/12-AOS1041
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。