×

标签空间分割法鉴定小鼠蛋白质功能。 (英语) Zbl 1489.92049号

概述:蛋白质对几乎所有生物都非常重要,因为它参与最复杂和最基本的生物过程。确定特定蛋白质的功能是蛋白质科学中最基本的问题之一。这种测定可以通过传统的实验进行。然而,实验方法总是耗时且成本高昂。近年来,计算方法为识别蛋白质功能提供了有用的帮助。本研究提出了一种新的多标记分类器,用于识别小鼠蛋白质的功能。由于分类过程中被称为标签的功能类型数量众多,因此采用标签空间划分方法将标签划分为若干分区。在每个分区上构造一个多标签分类器。该分类器集成了基于所有划分的分类器。交叉验证结果证明了所提出的分类器具有良好的性能。带有标签分区的分类器优于没有标签分区或带有随机标签分区的分类。

MSC公司:

92C40型 生物化学、分子生物学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] R、 每个细胞体积的蛋白质分子总数是多少?呼吁重新思考一些已发表的价值观,Bioessays,351050-1055(2013)·doi:10.1002/bies.201300066
[2] Z、 《细胞分裂中的蛋白质组学》,蛋白质组学,17,1600100(2017)·doi:10.1002/pmic.201600100
[3] M、 DNA复制许可蛋白:癌症中的圣人和罪人,塞明。癌症生物学。,58, 11-21 (2019) ·doi:10.1016/j.semcancer.2018.11.009
[4] D、 定量蛋白质组学中的酶动力学课程,Curr。操作。生物技术。,46, 81-89 (2017) ·doi:10.1016/j.copbio.2017.02.007
[5] S、 基本局部对齐搜索工具,J.Mol.Biol。,215, 403-410 (1990) ·doi:10.1016/S0022-2836(05)80360-2
[6] C、 PROSITE,功能表征和注释的蛋白质域数据库,核酸研究,38,D161-D166(2010)·doi:10.1093/nar/gkp885
[7] R、 Pfam:部族、网络工具和服务,核酸研究,34,D247-D251(2006)·doi:10.1093/nar/gkj149
[8] Y、 FATCAT:用于柔性结构比较和结构相似性搜索的web服务器,《核酸研究》,32,W582-W585(2004)·doi:10.1093/nar/gkh430
[9] 五十、 基于加权蛋白质相互作用网络和蛋白质杂交特性的小鼠蛋白质功能预测,PLoS One,6,e14556(2011)·doi:10.1371/journal.pone.0014556
[10] G、 通过多种方法探索小鼠蛋白质功能,PLoS One,11,e0166580(2016)·doi:10.1371/journal.pone.0166580
[11] X、 ATC-NLSP:使用基于网络的标签空间划分方法预测解剖治疗化学物质的类别,Front。药理学。,10, 971 (2019) ·doi:10.3389/fphar.2019.00971
[12] 十、 STS-NLSP:一种基于网络的标签空间划分方法,用于使用结构和语义相似性的混合特征预测膜转运蛋白底物的特异性,Front。比昂。生物技术。,7, 306 (2019) ·doi:10.3389/fbioe.2019.00306
[13] A、 小鼠功能基因组数据库(MfunGD):根据细胞背景对蛋白质的功能注释,核酸研究,34,D568-D571(2006)·doi:10.1093/nar/gkj074
[14] 五、 大型网络中社区的快速发展,J.Stat.Mech-Theory E.,2008,P10008(2008)·Zbl 1459.91130号 ·doi:10.1088/1742-5468/2008/10/P10008
[15] G.Tsoumakas,I.Vlahavas,《随机k-标签集:多标签分类的集成方法》,收录于《欧洲机器学习会议》,(2007),406-417<a href=“https://doi.org/10.1007/978-3-540-74958-5_38“target=”_blank“>https://doi.org/10.1007/978-3-540-74958-5_38</a>
[16] C、 支持向量网络,马赫。学习。,20, 273-297 (1995) ·Zbl 0831.68098号 ·doi:10.1007/BF00994018
[17] L;布雷曼;随机森林<i> 马赫,随机森林,马赫。学习。,45, 5-32 (2001) ·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[18] M、 生物学家的本体论:基因本体论——解开网络。诺华基金会专题讨论会(编辑:N.基金会),威利在线图书馆,24766-80(2002)·doi:10.1002/0470857897.ch6
[19] E、 基因本体注释(GOA)项目:在SWISS-PROT中实现GO。TrEMBL和InterPro,基因组研究,13,662-672(2003)·数字对象标识代码:10.1101/gr.461403
[20] K、 使用功能域组成和支持向量机预测蛋白质亚细胞位置,J.Biol。化学。,277, 45765-45769 (2002) ·doi:10.1074/jbc。M204161200型
[21] K、 通过功能域组成预测蛋白质结构类别。生物化学,生物。Res.Co.,3211007-1009(2004)·doi:10.1016/j.bbrc.2004.07.059
[22] 五十、 ECS:基于功能域组成的自动酶分类器,Compute。生物化学。,31, 226-232 (2007) ·Zbl 1125.92027 ·doi:10.1016/j.compbiochem.2007.03.008
[23] H、 Hum-mPLoc 3.0:通过建模基因本体和功能域特征的隐藏相关性预测人类蛋白质亚细胞定位的增强,生物信息学,33,843-853(2017)·doi:10.1093/bioinformatics/btw723
[24] L.Chen,K.Y.Feng,Y.D.Cai,K.C.Chou,H.P.Li,通过结合化合物相似性和功能域组成预测底物-酶-产物三联体的网络,BMC生物信息学,(2010),293<a href=“https://doi.org/10.1186/1471-2105-11-293“target=”_blank“>https://doi.org/10.1186/1471-2105-11-293</a>
[25] M、 InterPro蛋白质家族和结构域数据库:20年后,核酸研究,49,D344-D354(2021)·数字对象标识代码:10.1093/nar/gkaa977
[26] T.Mikolov,K.Chen,G.Corrado,J.Dean,向量空间中单词表示的有效估计,预印本,arXiv:1301.3781v3。
[27] K、 Word2Vec,Nat.Lang.Eng.,23,155-162(2017)·doi:10.1017/S1351324916000334
[28] B.Perozzi,R.Al-Rfou,S.Skiena,《Deepwalk:社会表征的在线学习》,第20届ACM SIGKDD国际知识发现和数据挖掘会议,(2014),701-710<a href=“https://doi.org/10.1145/2623330.2623732“target=”_blank“>https://doi.org/10.1145/2623330.2623732</a>
[29] A.Grover,J.Leskovec,node2vec:网络的可扩展特征学习,第22届ACM SIGKDD国际知识发现和数据挖掘会议,(2016),855-864<a href=“https://doi.org/10.1145/2939672.2939754“target=”_blank“>https://doi.org/10.1145/2939672.29339754</a>
[30] H、 用于基因功能分析的多网络拓扑的紧凑集成,细胞系统。,3, 540-548 (2016) ·doi:10.1016/j.cels.2016.10.017
[31] H、 利用从网络中学习的嵌入特征确定蛋白质亚细胞位置,Curr。蛋白质组学,18646-660(2021)·doi:10.2174/1570164617999201124142950
[32] 十、 通过结合网络嵌入方法鉴定人膜蛋白类型,IEEE Access,7140794-140805(2019)·doi:10.1109/ACCESS.2019.2944177
[33] X.Pan,L.Chen,M.Liu,Z.Niu,T.Huang,Y.D.Cai,用基于嵌入的node2loc识别蛋白质亚细胞位置,IEEE ACM Trans</i> <i>计算。Bi</i><b> 2021年(2021年)<a href=“https://doi.org/10.109/TCBB.2021.3080386“target=”_blank“>https://doi.org/10.109/TCBB.2021.3080386</a>
[34] 十、 用网络和功能嵌入物鉴定蛋白质亚细胞定位,Front。遗传学。,11, 626500 (2021) ·doi:10.3389/fgene.2020.626500
[35] D、 STRING v10:蛋白质相互作用网络。整合于生命之树,《核酸研究》,43,D447-D452(2015)·数字对象标识代码:10.1093/nar/gku1003
[36] H.Tong,C.Faloutsos,J.Pan,《带重启的快速随机行走及其应用》,第六届国际数据挖掘会议,(2006),613-622<a href=“https://doi.org/10.109/ICDM.2006.70“target=”_blank“>https://doi.org/10.109/ICDM.2006.70</a>
[37] S、 行走交互组以确定候选疾病基因的优先顺序。,82, 949-958 (2008) ·doi:10.1016/j.ajhg.2008.02.013
[38] G、 《多标签分类:概述》,《国际数据仓库》,3,1-13(2007)
[39] J、 MEKA:对WEKA,J.Mach的多标签/多目标扩展。学习。决议,17,1-5(2016)·Zbl 1360.68708号
[40] J、 iATC-NRAKEL:用于识别药物解剖治疗化学类别的高效多标签分类器,生物信息学,361391-1396(2020)·doi:10.1093/bioinformatics/btz757
[41] 五十、 确定关键序列特征以提高CRISPR sgRNA效率,IEEE Access,5,26582-26590(2017)·doi:10.1109/ACCESS.2017.2775703
[42] J、 iATC FRAKEL:一个简单的多标签网络服务器,仅用指纹识别药物的解剖治疗化学类别,生物信息学,363568-3569(2020)·doi:10.1093/bioinformatics/btaa166
[43] Y、 识别SARS-CoV-2感染的转录组特征和规则,Front。细胞发育生物学。,8, 627302 (2021) ·doi:10.3389/fcell.2020.627302
[44] Y、 检测气道平滑肌因子特异性炎症效应的多组学特征,Front。遗传学。,11, 599970 (2021) ·doi:10.3389/fgene.2020.599970
[45] Y、 iMPTCE-Hnetwork:一种多标签分类器,用于识别具有异质网络的化学品和酶的代谢途径类型,Compute。数学。方法M,2021,6683051(2021)·doi:10.1155/2021/6683051
[46] Y、 使用带随机森林的递归特征选择改进低相似度序列的蛋白质结构类预测,计算。数学。方法M,2021,5529389(2021)·doi:10.1155/2021/5529389
[47] J.Platt,《使用序列最小优化快速训练支持向量机》,麻省理工学院出版社,1998年。
[48] Y、 通过使用多种药物和疾病网络识别药物-疾病关联,Curr。生物信息。,17, 48-59 (2022) ·doi:10.2174/1574893616666210825115406
[49] Y、 用于预测化合物代谢途径的基于相似性的机器学习模型,IEEE Access,8130687-130696(2020)·doi:10.1109/ACCESS.2020.3009439
[50] 十、 一种基于相似性的方法,用于预测具有异质信息的药物副作用,Math。生物科学。,306, 136-144 (2018) ·Zbl 1409.92127号 ·doi:10.1016/j.ms.2018.09.010
[51] K、 AFP-Pred:根据序列衍生特性预测抗冻蛋白的随机森林方法,J.Theor。生物学,27056-62(2011)·doi:10.1016/j.jtbi.2010.1037
[52] Y、 Mirnacle:使用SMOTE和随机森林进行机器学习以提高miRNA前体从头开始预测的选择性,BMC生物信息学,17,474(2016)·doi:10.1186/s12859-017-1508-0
[53] G、 RSARF:使用随机森林法从蛋白质序列预测残留溶剂可及性,蛋白质肽Lett。,19,50-56(2011年)·doi:10.2174/092986612798472875
[54] M、 通过齐方检验和随机森林算法进行基因组岛预测,计算。数学。方法M,2021,9969751(2021)·doi:10.1155/2021/9969751
[55] M、 我们需要数百个分类器来解决实际的分类问题吗?,J.马赫。学习。Res.,153133-3181(2014年)·Zbl 1319.62005号
[56] R.Kohavi,精度估计和模型选择的交叉验证和引导研究,<i>国际人工智能联合会议</i>,(1995),1137-1145。
[57] W、 iMPT-FDNPL:用功能域和自然语言处理方法鉴定膜蛋白类型,计算。数学。方法M,2021,7681497(2021)·数字对象标识代码:10.1155/2021/7681497
[58] J、 iDRBP_MMC:基于多标记学习模型和基于基序的卷积神经网络识别DNA结合蛋白和RNA结合蛋白,J.Mol.Biol。,432, 5860-5875 (2020) ·doi:10.1016/j.jmb.2020.09.008
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。