×

一种用于基因功能预测的分层多标签分类算法。 (英语) Zbl 1461.62188号

摘要:基因功能预测是一项复杂且具有挑战性的层次多标签分类(HMC)任务,其中基因可能同时具有多种功能,并且这些功能是按层次组织的。本文基于基因本体(GO)提出了一种新的HMC算法来解决这一问题,该算法的层次结构是一个有向无环图(DAG),并且更难处理。该算法首先将HMC任务转化为一组二进制分类任务。然后,在算法中通过考虑学习过程中的层次结构,实现了两种措施来提高HMC性能。首先,提出了与SMOTE方法相关联的负实例选择策略,以缓解数据集不平衡问题。其次,引入节点交互方法来组合二值分类器的结果。它可以保证预测与层次约束一致。在基因本体论注释的八个基准酵母数据集上的实验表明,与其他最先进的算法相比,所提出的算法具有良好的性能。

MSC公司:

第62页第10页 统计学在生物学和医学中的应用;元分析
62H30型 分类和区分;聚类分析(统计方面)
92D10型 遗传学和表观遗传学

软件:

SMOTE公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Madjarov,G。;迪米特洛夫斯基,I。;Gjorgjevikj,D。;季洛斯基,S;多标签分类中不同数据衍生标签层次的评估:Cham,瑞士,2014,19-37.
[2] 塞里·R。;巴帕,G.L。;卡瓦略,A.C.P.L.F。;Freitas,A.A。;基于决策树的层次化多标签分类方法和性能度量的扩展评估;计算。智力:2013; 第31卷,1-46页。
[3] 洛芒,L.M。;尼沃拉,J.C。;分层多标签分类问题:一种LCS方法;第十二届分布式计算和人工智能国际会议论文集:Cham,瑞士2015,97-104.
[4] Blockeel,H。;Schietgat,L。;斯特鲁伊夫,J。;季洛斯基,S。;克莱尔,A。;层次化多标签分类的决策树:功能基因组学的一个案例研究;第十届欧洲数据库知识发现原则与实践会议论文集:柏林/海德堡,德国2006,18-29.
[5] Bi,W。;郭,J.T。;贝叶斯最优层次多标签分类;IEEE传输。知识。数据工程:2015年;第27卷,2907-2918。
[6] Merschmann,L.H.D.C。;Freitas,A.A;用于预测蛋白质和基因功能的扩展局部层次分类器:德国柏林/海德堡,2013,159-171.
[7] 阿什伯恩,M。;球,C.A。;布雷克,J.A。;博茨坦,D。;巴特勒,H。;Cherry,J。;A.戴维斯。;Dolinski,K。;德怀特,S。;Eppig,J。;基因本体论:生物学统一的工具。基因本体联盟;自然遗传学:2015; 第25卷,25-29页。
[8] 阿尔维斯,R.T。;德尔加多,M.R。;Freitas,A.A;人工免疫系统蛋白质功能的多标签层次分类:柏林/海德堡,德国2008,1-12.
[9] 桑托斯,A。;卡努托,A。;半监督学习在分层多标签分类中的应用;2014年国际神经网络联合会议(IJCNN)会议记录:,872-879.
[10] 塞里·R。;巴罗斯,R.C。;de Carvalho,A。;蛋白质功能预测的层次化多标签分类:基于神经网络的局部方法;第十一届智能系统设计与应用国际会议论文集:,337-343.
[11] 拉米雷斯·科罗纳,M。;Sucar,L.E。;莫拉莱斯,E.F;树和有向非循环图层次的多标签分类:Cham,瑞士2014,409-425. ·Zbl 06386477号
[12] 阿尔维斯,R.T。;德尔加多,M.R。;Freitas,A.A。;基于人工免疫系统的蛋白质功能分层多标签分类知识发现;2010年IEEE模糊系统国际会议论文集(FUZZ):,1-8.
[13] 文斯,C。;斯特鲁伊夫,J。;Schietgat,L。;季洛斯基,S。;Blockeel,H。;分层多标签分类的决策树;机器。学习。:2008; 第73卷,185-214·Zbl 1470.62098号
[14] 博尔赫斯,H.B。;尼沃拉,J.C。;竞争神经网络用于蛋白质功能预测的多标记层次分类;神经网络国际联合会议论文集:,1-8.
[15] 陈,B。;段,L。;胡,J。;基于复合核的SVM分层多标签基因功能分类;国际神经网络联合会议论文集:,1-6所示。
[16] 巴鲁库奥卢,Z。;夏皮雷,R。;俄勒冈州特罗扬斯卡娅。;基因功能的层次多标记预测;生物信息学:2006;第22卷,830-836。
[17] 瓦伦蒂尼,G。;用于全基因组基因功能预测的真路径规则层次集成;IEEE/ACM传输。计算。生物信息:2011; 第8卷,832-847。
[18] 罗宾逊,P.N。;Frasca,M。;科勒,S。;诺塔罗,M。;关于M。;瓦伦蒂尼,G。;DAG结构分类的层次集成方法;计算机科学讲稿:Cham,瑞士,2015;第9132卷,15-26页。
[19] Otero,F.E.B。;Freitas,A.A。;约翰逊,C.G。;一种用于蛋白质功能预测的分层多标签分类蚁群算法;梅梅特。计算:2010; 第2卷,165-181。
[20] Stojanova,D。;Ceci先生。;Malerba,D。;Dzeroski,S。;利用PPI网络自相关在层次多标签分类树中进行基因功能预测;BMC生物信息:2013; 第14卷,3955-3957。
[21] Parikesit,A.A。;斯坦纳,L。;斯塔德勒,P.F。;S.J.普罗哈斯卡。;基因组注释中确定偏差的陷阱——计算真核生物可比蛋白质结构域分布;马来人。J.芬丹。申请。科学:2014年;第10卷,64-73。
[22] 新墨西哥州查拉。;K.W.鲍耶。;洛杉矶霍尔。;Kegelmeyer,W.P。;SMOTE:合成少数人过采样技术;J.阿蒂夫。智力。研究结果:2011年;第16卷,321-357·兹比尔0994.68128
[23] 西拉,C.N。;弗雷塔斯,A.A。;跨不同应用领域的层次分类综述;数据挖掘与知识发现:2011年美国纽约州纽约市;第22卷,31-72·Zbl 1235.68190号
[24] 拉米雷斯·科罗纳,M。;Sucar,L.E。;莫拉莱斯,E.F。;基于路径评估的层次化多标签分类;国际期刊近似原因:2016; 第68卷,179-193年·Zbl 1346.68163号
[25] 丹达姆隆格维特,S。;Vateekul,P。;库巴特,M。;多标签文本分类领域中的无关属性和不平衡类;智力。数据分析:2011; 第15卷,843-859。
[26] Sun,A。;林,E.P。;刘,Y。;基于SVM的非平衡文本分类策略的比较研究;Decis公司。支持系统:2009; 第48卷,191-201。
[27] Lin,H.T。;Lin,C.J。;翁,R.C。;关于支持向量机的Platt概率输出的注记;机器。学习。:2007; 第68卷,267-276·Zbl 1471.68220号
[28] 瓦伦蒂尼,G。;蛋白质功能预测的层次集成方法;内部附表。研究编号:2014年;2014年第1-34卷。
[29] 特罗扬斯卡娅,O.G。;Dolinski,K。;A.B.欧文。;奥特曼,R.B。;博茨坦,D。;组合异质数据源进行基因功能预测的贝叶斯框架(酿酒酵母);程序。国家。阿卡德。科学。美国:2003年;第100卷,8348-8353。
[30] 李,H。;刘,C。;比尔格(Bürge,L.)。;Ko,K.D.公司。;西南部绍瑟兰。;利用全贝叶斯网络预测蛋白质相互作用;IEEE生物信息学和生物医学研讨会国际会议记录:,544-550.
[31] 克莱尔,A。;R.D.金。;酿酒酵母基因功能预测;生物信息学:2003;第19卷,ii42-ii49。
[32] Bi,W。;郭,J.T。;基于树和DAG结构层次的多标签分类;第28届国际机器学习会议论文集:,17-24.
[33] 梁熙,C。;洪飞,L。;云翠,H。;简·W。;Y.Zhihao。;基于基因本体层次结构的基因功能预测;《公共科学图书馆·综合》:2013年;第9卷,896-906。
[34] Radivojac,P。;W.T.克拉克。;奥隆,T.R。;Schnoes,A.M。;Wittkop,T。;Sokolov,A。;格雷姆,K。;Funk,C。;Verspoor,K。;Ben-Hur,A。;计算蛋白质功能预测的大规模评估;自然方法:2013年;第10卷,221-227。
[35] Aleksovski,D。;科切夫,D。;Dzeroski,S。;功能基因组学分层多标签分类中距离测度的评价;从多标签数据学习(MLD)第一次研讨会会议记录:,5-16.
[36] 陈,Y。;李,Z。;胡,X。;刘杰。;利用动态阈值SVM集成进行基因功能预测的层次分类;第六届高级数据挖掘与应用国际会议论文集(ADMA):,第336-347页。
[37] Vateekul,P。;库巴特,M。;Sarinnapakorn,K。;基于SVM的层次多标签分类:基因功能预测的一个案例研究;智力。数据分析:2014年;第18卷,717-738。
[38] 阿莱迪,N。;Reddy,C.K。;Fotouhi,F。;利用标签依赖进行层次化多标签分类;第十六届亚太地区知识发现和数据挖掘进展会议记录:,294-305.
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。