×

定制的最近邻对基因表达数据进行缺失值插补。 (英语) Zbl 1371.92048号

摘要:基因表达和RNA序列等高维数据通常包含缺失值。基于这些不完整数据的后续分析和结果可能会受到这些缺失值的严重影响。已经开发了几种方法来插补基因表达数据中的缺失值,但由于数据的高维性(基因数量),这项任务很难完成。这里提出了一种使用加权最近邻的插补方法。不使用由包含所有基因的距离定义的最近邻,而是为容易影响插补值准确性的基因计算距离。该方法旨在避免维数灾难,这种灾难通常发生在将局部方法作为最近邻应用于高维设置时。将提出的加权最近邻算法与现有的缺失值插补技术(如均值插补、KNNimpute和最近提出的随机森林插补)进行了比较。我们使用来自人类癌症研究的RNA序列和微阵列数据来比较这些方法的性能。仿真和实际研究的结果表明,对于预测器数量大于样本数量的高维数据结构,加权距离过程可以成功地处理缺失值。该方法通常优于考虑的竞争对手。

MSC公司:

92C40型 生物化学、分子生物学
92B15号机组 普通生物统计学
62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Alizadeh,A.A.,M.B.Eisen,R.E.Davis,C.Ma,I.S.Lossos,A.Rosenwald,J.C.Boldrick,H.Sabet,T.Tran,X.Yu和J.I.Powell(2000):“通过基因表达谱确定的弥漫性大B细胞淋巴瘤的不同类型”,《自然》,403,503-511。;Alizadeh,A.A。;艾森,M.B。;Davis,R.E。;马,C。;Lossos,I.S。;罗森瓦尔德,A。;Boldrick,J.C。;萨贝特,H。;Tran,T。;Yu,X。;Powell,J.I.,通过基因表达谱确定的弥漫性大b细胞淋巴瘤的不同类型,《自然》,403,503-511(2000)
[2] Anders,S.,P.T.Pyl和W.Huber(2015):“HTSeq——一种处理高通量测序数据的Python框架”,生物信息学,3166-169。;安德斯,S。;Pyl,P.T。;Huber,W.,HTSeq——一个处理高通量测序数据的Python框架,生物信息学,31166-169(2015)
[3] Bö,T.H.,B.Dysvik和I.Jonassen(2004):“LSimpute:用最小二乘法准确估计微阵列数据中的缺失值”,《核酸研究》,32,e34。;Bø,T·H。;Dysvik,B。;Jonassen,I.,L插补:用最小二乘法准确估计微阵列数据中的缺失值,《核酸研究》,32,e34(2004)
[4] Brás,L.P.和J.C.Menezes(2007):“改进基于聚类的dna微阵列数据缺失值估计”,《生物分子》。工程师,24,273-282。;Brás,L.P。;Menezes,J.C.,《改进基于聚类的dna微阵列数据缺失值估计》,Biomol。工程师,24,273-282(2007)
[5] Breiman,L.(2001):“随机森林”,马赫。学习。,45, 5-32.; Breiman,L.,《随机森林》,马赫。学习,45,5-32(2001)·Zbl 1007.68152号
[6] Brock,G.N.,J.R.Shaffer,R.E.Blakesley,M.J.Lotz和G.C.Tseng(2008):“在表达谱中使用哪种缺失值插补方法:比较研究和两种选择方案”,BMC生物信息学,9,12。;布洛克,G.N。;Shaffer,J.R。;布莱克斯利(R.E.Blakesley)。;洛茨,M.J。;Tseng,G.C.,《在表达谱中使用哪种缺失值插补方法:比较研究和两种选择方案》,BMC生物信息学,9,12(2008)
[7] Dobin,A.、C.A.Davis、F.Schlesinger、J.Drenkow、C.Zaleski、S.Jha、P.Batut、M.Chaisson和T.R.Gingeras(2013):“STAR:超快通用RNA-seq比对器”,生物信息学,29,15-21。;Dobin,A。;Davis,C.A。;施莱辛格,F。;Drenkow,J。;Zaleski,C。;Jha,S。;巴图特,P。;Chaisson,M。;Gingeras,T.R.,STAR:超快通用RNA-seq对准器,生物信息学,29,15-21(2013)
[8] Dudoit,S.、J.Fridlyand和T.P.Speed(2002):“利用基因表达数据对肿瘤分类的鉴别方法的比较”,《美国统计协会杂志》,97,77-87。;Dudoit,S。;Fridlyand,J。;Speed,T.P.,《利用基因表达数据对肿瘤分类的判别方法比较》,美国统计学会杂志,97,77-87(2002)·Zbl 1073.62576号
[9] Feten,G.、T.Almoy和A.H.Aastveit(2005):“微阵列缺失值的预测和混合模型评估预测因子的使用”,《统计应用》。遗传学。分子生物学。,4, 10.; 胎儿,G。;Almoy,T。;Aastveit,A.H.,预测微阵列中的缺失值并使用混合模型评估预测因子,统计应用。遗传学。《分子生物学》,4,10(2005)·Zbl 1083.62109号
[10] Frazee,A.C.,B.Langmead和J.T.Leek(2011):“重新计数:可供分析的RNA-seq基因计数数据集的多实验资源,”BMC生物信息学,12449。;弗雷泽,A.C。;Langmead,B。;Leek,J.T.,Recount:分析成熟RNA-seq基因计数数据集的多实验资源,BMC生物信息学,12449(2011)
[11] Hastie,T.、R.Tibshirani、B.Narasimhan和G.Chu(2013):“插补:插补:微阵列数据的插补”,R包版本1.36.0。;哈斯蒂,T。;Tibshirani,R。;Narasimhan,B。;Chu,G.,估算:估算:微阵列数据的估算,r包版本1.36,0(2013)·Zbl 1439.62022号
[12] Jung,K.、A.Gannoun、B.Sitek、H.E.Meyer、K.Stühler和W.Urfer(2005):“动态蛋白质表达数据分析”,《RevStat-Stat.J.》,第399-111页。;Jung,K。;甘农,A。;Sitek,B。;Meyer,H.E。;Stühler,K。;Urfer,W.,动态蛋白质表达数据分析,RevStat-Stat.J,3,99-111(2005)·Zbl 1108.62114号
[13] Jung,K.,A.Gannoun,B.Sitek,O.Apostolov,A.Schramm,H.E.Meyer,K.Stühler和W.Urfer(2006):“肿瘤研究动态蛋白表达数据分析方法的统计评估”,RevStat-Stat.J.,467-80。;Jung,K。;甘农,A。;Sitek,B。;阿波斯托洛夫。;Schramm,A。;Meyer,H.E。;Stühler,K。;Urfer,W.,《肿瘤研究动态蛋白表达数据分析方法的统计评估》,RevStat-Stat.J,4,67-80(2006)·Zbl 1158.92313号
[14] Khan,J.,J.S.Wei,M.Ringner,L.H.Saal,M.Ladanii,F.Westermann,F.Berthold,M.Schwab,C.R.Antonescu,C.Peterson和P.S.Meltzer(2001):“使用基因表达谱和人工神经网络对癌症进行分类和诊断预测”,《自然医学》,第7期,第673-679页。;Khan,J。;Wei,J.S.(魏建新)。;Ringner先生。;萨尔,L.H。;拉达尼,M。;韦斯特曼,F。;Berthold,F。;施瓦布,M。;Antonescu,C.R。;彼得森,C。;Meltzer,P.S.,《利用基因表达谱和人工神经网络对癌症进行分类和诊断预测》,《自然医学》,7673-679(2001)
[15] Kim,K.-Y.,B.-J.Kim和G.-S.Yi(2004):“在微阵列分析中重复使用插补数据可提高插补效率”,BMC生物信息学,5160。;Kim,K.-Y。;Kim,B.-J;Yi,G.-S.,在微阵列分析中重复使用插补数据可提高插补效率,BMC生物信息学,5160(2004)
[16] Klambauer,G.,T.Unterthiner和S.Hochreiter(2013):“Dexus:识别未知条件下RNA-seq研究中的差异表达”,《核酸研究》,41,e198。;Klambauer,G。;Unterthiner,T。;Hochreiter,S.,“Dexus:识别未知条件下RNA-seq研究中的差异表达”,《核酸研究》(2013)
[17] Kruppa,J.、F.Kramer、T.Beißbarth和K.Jung(2016):“高通量测序或蛋白质组学实验中特征子集相关计数数据的模拟框架”,《统计应用》。遗传学。分子生物学。15, 401-414.; Kruppa,J。;Kramer,F。;北巴特,T。;Jung,K.,高通量测序或蛋白质组学实验中特征子集相关计数数据的模拟框架,Stat.Appl。遗传学。《分子生物学》,第15期,第401-414页(2016年)·Zbl 1359.92034号
[18] Montgomery,S.B.、M.Sammeth、M.Gutierrez-Arcelus、R.P.Lach、C.Ingle、J.Nisbett、R.Guigo和E.T.Dermitzakis(2010):“在高加索人群中使用第二代测序的转录组遗传学”,《自然》,464773-777。;蒙哥马利,S.B。;Sammeth,M。;古铁雷斯-阿塞勒斯,M。;拉赫,R.P。;英格尔,C。;Nisbett,J。;吉戈,R。;Dermitzakis,E.T.,《在白人人群中使用第二代测序的转录组遗传学》,《自然》,464773-777(2010)
[19] Ouyang,M.,W.J.Welsh和P.Georgopoulos(2004):“微阵列数据的高斯混合聚类和插补”,生物信息学,20917-923。;欧阳,M。;威尔士,W.J。;Georgopoulos,P.,微阵列数据的高斯混合聚类和插补,生物信息学,20917-923(2004)
[20] Pickrell,J.K.,J.C.Marioni,A.A.Pai,J.F.Degner,B.E.Engelhardt,E.Nkadori,J.-B.Veyrieras,M.Stephens,Y.Gilad和J.K.Pritchard(2010):“通过rna测序了解人类基因表达变异的机制”,《自然》,464,768-772。;Pickrell,J.K。;马里奥尼,J.C。;Pai,A.A。;Degner,J.F。;Engelhardt,B.E。;恩卡多里,E。;韦里埃拉斯,J.-B。;斯蒂芬斯,M。;吉拉德,Y。;Pritchard,J.K.,《通过rna测序了解人类基因表达变异的机制》,《自然》,464768-772(2010)
[21] Sehgal,M.S.B.,I.Gondal和L.Dooley(2004):“微阵列数据分类基于K级协方差的缺失值估计”,《In:混合智能系统》,2004年。他04岁。日本IEEE第四届国际会议。第274-279页。;Sehgal,M.S.B。;贡达尔,I。;Dooley,L.,基于K级协方差的基因芯片数据分类缺失值估计,274-279(2004)·Zbl 1151.62359号
[22] Schäfer,J.和K.Strimmer(2005):“大规模协方差矩阵估计的收缩方法及其对功能基因组学的影响”,Stat.Appl。遗传学。分子生物学,4,32。;Schäfer,J。;Strimmer,K.,《大规模协方差矩阵估计的收缩方法及其对功能基因组学的影响》,Stat.Appl。遗传学。《分子生物学》,4,32(2005)
[23] Städler,N.和P.Bühlmann(2014):“高维缺失数据的模式交替最大化算法”,J.Mach。学习。1903-1928年第15号决议。;北卡罗来纳州施特勒。;Bühlmann,P.,高维缺失数据的模式交替最大化算法,J.Mach。学习。Res,151903-1928(2014年)·Zbl 1319.62114号
[24] Stekhoven,D.J.和P.Bühlmann(2012):“森林错位:混合型数据的非参数缺失值插补”,生物信息学,28,112-118。;斯特霍芬,D.J。;Bühlmann,P.,Missforest:混合型数据的非参数缺失值插补,生物信息学,28,112-118(2012)
[25] Templ,M.、A.Alfons、A.Kowarik和B.Prantner(2013):“VIM:缺失值的可视化和插补”,r软件包版本4.0.0。;坦普尔,M。;Alfons,A。;科瓦里克,A。;Prantner,B.,VIM:缺失值的可视化和插补,r包版本4.0,0(2013)
[26] Tritchler,D.、E.Parkhomenko和J.Beyene(2009):“筛选用于聚类和网络分析的基因”,BMC生物信息学,10,193,http://doi.org/10.1186/1471-2105-10-193。; Tritchler,D。;Parkhomenko,E。;Beyene,J.,为聚类和网络分析筛选基因,BMC生物信息学,10, 193 (2009) ·Zbl 1276.92071号
[27] Troyanskaya,O.,M.Cantor,G.Sherlock,P.Brown,T.Hastie,R.Tibshirani,D.Botstein和R.B.Altman(2001):“dna微阵列的缺失值估计方法”,生物信息学,17,520-525。;特罗扬斯卡娅,O。;康托,M。;Sherlock,G。;布朗,P。;哈斯蒂,T。;Tibshirani,R。;博茨坦,D。;Altman,R.B.,dna微阵列缺失值估计方法,生物信息学,17,520-525(2001)
[28] Tuikkala,J.,L.L.Elo,O.S.Nevalainen和T.Aittokalio(2008):“缺失值插补改进了基因表达微阵列数据的聚类和解释”,BMC生物信息学,9202。;Tuikkala,J。;Elo,L.L。;俄亥俄州纳瓦莱恩。;Aittokalio,T.,缺失值插补改进了基因表达微阵列数据的聚类和解释,BMC生物信息学,9202(2008)
[29] Tutz,G.和S.Ramzan(2015):“通过最近邻方法对缺失数据进行插补的改进方法”,Comput。统计数据分析。,90, 84-99.; Tutz,G。;Ramzan,S.,《用最近邻法插补缺失数据的改进方法》,计算。统计数据分析,90,84-99(2015)·Zbl 1468.62198号
[30] Waljee,A.K.、A.Mukherjee、A.G.Singal、Y.Zhang、J.Warren、U.Balis、J.Marrero、J.Zhu和P.D.Higgins(2013):“医学中缺失实验室数据插补方法的比较”,BMJ Open,3,e002847。;Waljee,A.K。;穆克吉,A。;辛格尔,A.G。;Zhang,Y。;沃伦,J。;巴利斯,美国。;Marrero,J。;朱,J。;Higgins,P.D.,《医学中缺失实验室数据插补方法的比较》,BMJ Open,3,e002847(2013)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。