×

兹马思-数学第一资源

iBLP:一种基于XGBoost的生物发光蛋白识别预测因子。(英语) Zbl 07314318
摘要:生物发光蛋白(BLPs)是一类广泛分布于生物体内的蛋白质,其发光机制包括生物发光和化学发光。生物发光已广泛应用于细胞过程的各种分析研究方法,如基因表达分析、药物发现、细胞成像、毒性测定等。然而,生物发光蛋白的鉴定具有挑战性,因为它们之间的序列相似性很差。本文简要回顾了BLPs计算识别的研究进展,提出了一种基于极端梯度boosting算法(XGBoost)并利用序列特征进行BLPs识别的预测框架。为了训练模型,我们收集了细菌、真核生物和古生菌的BLP数据。然后,为了得到更有效的预测模型,我们考察了不同特征提取方法及其组合以及分类算法的性能。最后,在优化模型的基础上,构造了一个新的预测因子iBLP来识别BLPs。通过训练和独立数据集的实验,证明了iBLP的鲁棒性。与其他已发表的方法的比较进一步证明了该方法的有效性,可以为BLP的识别提供良好的性能。BLP识别的Web服务器和软件包可在http://lin-group.cn/server/iBLP.

理学硕士:
92Cxx型 生理学、细胞学和医学专题
PDF格式 BibTeX公司 XML 引用
全文: 内政部
参考文献:
[1] 黑线鳕。;莫林,文学硕士。;凯斯,J.F.,海洋中的生物发光,海洋科学年鉴,2443-493(2010)
[2] Lee,J.,生物发光机制、光化学和光生物学展望,93,2,389-404(2017)
[3] 罗,L。;迪基奇,E。;Daunert,S.,工程生物发光蛋白质:扩展其分析潜力,分析化学,81218662-8668(2009)
[4] Sharifian,S。;霍梅,A。;亨马蒂,R。;Khajeh,K.,《海洋中的发光奇迹和生物发光在新生物技术中的卓越应用》,光化学和光生物学杂志B:Biology,172115-128(2017)
[5] 威尔逊,T。;哈斯廷斯,J.W.,生物发光,细胞和发育生物学年鉴,14,1197-230(1998)
[6] Widder,E.A.,海洋中的生物发光:生物、化学和生态多样性的起源,科学,3285979704-708(2010)
[7] 布罗德尔,E。;温克勒,A。;Macheroux,P.,细菌生物发光的分子机制,计算和结构生物技术杂志,16551-564(2018)
[8] 张博士。;关志新。;张志明。;李海生。;道,费伊。;唐,H。;Lin,H.,计算预测生物发光蛋白质的最新发展,当前药物设计,25,40,4264-4273(2019年)
[9] 埃雷斯,Y。;宿星前,I。;格普什坦,R。;平托·达席尔瓦,L。;埃斯特夫斯达席尔瓦,J.C。;Huppert,D.,D-荧光素和氧化荧光素光解反应的比较研究,物理化学杂志。A、 116287452-7461(2012年)
[10] 坎达斯瓦米,K.K。;普加伦西,G。;哈兹拉蒂,M.K。;卡利,K.U。;Martinetz,T.,BLProt:基于支持向量机和relieff特征选择的生物发光蛋白质预测,BMC生物信息学,12,1,1-7(2011)
[11] 赵,X。;李,J。;黄,Y。;马,Z。;Yin,M.,使用进化轮廓的自协方差变换预测生物发光蛋白质,国际分子科学杂志,13,3,3650-3660(2012)
[12] 风扇,G.L。;Li,Q.Z.,通过将平均化学位移和进化信息纳入周氏伪氨基酸组成的一般形式来识别生物发光蛋白质,理论生物学杂志,334,45-51(2013)·Zbl 1397.92524号
[13] Huang,H.L.,序列生物发光蛋白预测和表征的倾向分数,公共科学图书馆,1,9,5,文章e97158(2014)
[14] 纳特,A。;Subbiah,K.,生物发光蛋白质的无监督学习辅助稳健预测,生物和医学计算机,68,27-36(2016)
[15] 张杰。;柴,H。;杨,G。;Ma,Z.,使用序列衍生特征和谱系特异性方案预测生物发光蛋白,BMC生物信息学,18,1(2017)
[16] 张,T。;谭,P。;王,L。;金,N。;李,Y。;张,L。;杨,H。;胡,Z。;张,L。;胡,C。;李,C。;钱,K。;张,C。;黄,Y。;李,K。;林,H。;Wang,D.,RNA定位:RNA亚细胞定位的资源,核酸研究,45,D135-D138(2017)
[17] 梁志勇。;赖海英。;杨,H。;张春杰。;杨,H。;魏海华。;陈,X.X。;赵永伟。;苏,Z.D。;李伟。;邓恩智。;唐,H。;陈,W。;Lin,H.,Pro54DB:实验验证的sigma-54启动子数据库,生物信息学,33,3467-469(2017)
[18] 郑,L。;杨,H。;赵,H。;裴,X。;施,H。;孙,J。;张,Y。;王,Z。;Zhou,M.,MetSigDis:疾病代谢特征的人工资源,生物信息学简报,20,1203-209(2019)
[19] 阿尔特舒尔公司。;马登,T.L。;沙弗,A.A。;张杰。;张,Z。;米勒W。;Lipman,D.J.,间隙爆破和PSI-BLAST:新一代蛋白质数据库搜索程序,核酸研究,25,17,3389-3402(1997)
[20] 邓,M。;余,C。;梁,Q。;他,R.L。;Yau,S.S.,一种新的基因序列特征化方法:具有生物距离的基因组空间及其应用,公共科学图书馆1,6,3,文章e17293(2011)
[21] 李,Y。;田,K。;尹,C。;他,R.L。;Yau,S.S.,60维蛋白质空间中的病毒分类,分子系统发育和进化,99,53-62(2016)
[22] 李,Y。;他,L。;他,R.L。;Yau,S.S.,Zika和黄病毒基于无比对自然载体方法的系统发育,DNA和细胞生物学,36,2,109-116(2017)
[23] Tan,J.X。;李,S.H。;张志明。;陈,C.X。;陈,W。;唐,H。;Lin,H.,《基于机器学习方法的激素结合蛋白识别》,《数学生物科学与工程》,16,4,2466-2480(2019年)
[24] 杜布恰克,I。;穆奇尼克,I。;霍尔布鲁克,S.R。;Kim,S.H.,利用氨基酸序列的全局描述预测蛋白质折叠等级,美国国家科学院学报,92,19,8700-8704(1995)
[25] 托米,K。;Kanehisa,M.,蛋白质序列比较和结构预测的氨基酸指数和突变矩阵分析,蛋白质工程,9,1,27-36(1996)
[26] 陈,Z。;赵,P。;李,F。;莱尔,A。;马奎斯·拉戈,T.T。;王,Y。;韦伯,G.I。;史密斯,A.I。;戴利,R.J。;周国庆。;Song,J.,iFeature:从蛋白质和肽序列中提取和选择特征的Python包和web服务器,生物信息学,34,14,2499-2502(2018)
[27] 郑建华。;杨,H。;刘先生。;苏,W。;冯,下午。;丁,H。;陈,W。;Lin,H.,使用杂交特征、化学计量学和智能实验室系统预测宿主细胞中的噬菌体蛋白质,180,64-69(2018)
[28] 巴辛,M。;Raghava,G.P.,基于氨基酸组成和二肽组成的核受体分类,生物化学杂志,279,22,23262-23266(2004)
[29] 唐,H。;赵永伟。;邹平。;张春梅。;陈,R。;黄,P。;Lin,H.,HBPred:识别生长激素结合蛋白的工具,国际生物科学杂志,14,8,957-964(2018)
[30] 陈,W。;冯,P。;Nie,F.,iATP:基于序列的抗结核肽识别方法,药物化学,16,5,620-625(2020)
[31] 周国庆,用伪氨基酸组成预测蛋白质细胞属性,蛋白质,43,3,246-255(2001)
[32] 杨,H。;唐,H。;陈,X.X。;张春杰。;朱,P.P。;丁,H。;陈,W。;Lin,H.,使用伪氨基酸组成鉴定结核分枝杆菌分泌蛋白,生物医药研究国际,2016(2016)
[33] 唐,H。;陈,W。;Lin,H.,使用特征选择技术使用周氏伪氨基酸成分识别免疫球蛋白,分子生物系统,12,4,1269-1275(2016)
[34] 道,费伊。;低压,高。;王,F。;冯建奎。;丁,H。;陈,W。;Lin,H.,使用两步特征选择技术识别酿酒酵母中复制的起源,生物信息学,35,12,2075-2083(2019)
[35] 陈,X.X。;唐,H。;李伟。;吴,H。;陈,W。;丁,H。;Lin,H.,通过伪氨基酸组成鉴定细菌细胞壁裂解酶,生物医药研究国际,2016(2016)
[36] 戈特弗里斯,J。;Eriksson,L.,氨基酸描述的扩展,分子多样性,14,4709-718(2010)
[37] 德莫尔,新泽西州。;卡塔琳娜,麻省理工学院。;德克尔,F.J。;费舍尔,M.J。;赫克,A.J。;Liskamp,R.M.,蛋白质弹性和配体刚性:基于ITAM的配体与Syk串联SH2结合的热力学和动力学研究,化学生物化学,6,12,2261-2270(2005)
[38] 《遗传密码的简并律,生命起源与生物圈演化》,18,1-2,65-70(1988)
[39] 陈,T。;Guestrin,C.,XGBoost:一个可扩展的树提升系统,第22届ACM SIGGDD国际知识发现和数据挖掘会议论文集
[40] 刘克。;陈,W。;Lin,H.,XG-PseU:一种基于极限梯度提升的伪尿苷位点识别方法,分子遗传学和基因组学,295,1,13-21(2020)
[41] 钟,J。;太阳,Y。;彭伟。;谢,M。;杨,J。;Tang,X.,XGBFEMF:基于XGBoost的基本蛋白质预测框架,IEEE纳米生物科学汇刊,17,3,243-250(2018)
[42] 李,W。;阴,Y。;全,X。;Zhang,H.,基于XGBoost算法的基因表达值预测,遗传学前沿,10(2019)
[43] 赖海英。;冯建奎。;张志勇。;唐,H。;陈,W。;林浩,机器学习在肿瘤识别中的应用简介,当代基因治疗,18,5,257-267(2018)
[44] 刘先生。;苏,W。;关志新。;张博士。;陈,W。;刘,L。;丁浩,用机器学习方法预测蛋白质亚叶绿体定位的综述,当代蛋白质与肽科学,21(2020)
[45] 郑,L。;庄,H。;杨,S。;江,H。;王,S。;《关于糖尿病的因果关系的研究》,第9期,Mendelian 2型糖尿病的随机遗传学研究
[46] 曹,R。;弗雷塔斯,C。;陈,L。;太阳,M。;江,H。;Chen,Z.,ProLanGO:基于递归神经网络的神经机器翻译的蛋白质功能预测,分子,22,10,1732(2017)
[47] 斯特里纳,D.L。;凯恩,J.,大鹏下面是什么?接收器操作特性曲线简介,加拿大精神病学杂志。加拿大精神病学评论,52121-128(2007)
[48] 赵,T。;胡,Y。;彭杰。;Cheng,L.,DeepLGP:为lncRNA靶基因排序的新的深度学习方法,生物信息学,36,16,4466-4472(2020)
[49] 王,G。;王,Y。;冯,W。;王,X。;Yang,J.Y。;赵勇。;王,Y。;刘勇,雄激素依赖性和非依赖性前列腺癌细胞的转录因子和microRNA调控,BMC基因组学,9,S22(2008)
[50] Sonnhammer,E.L。;埃迪,S.R。;Durbin,R.,Pfam:基于种子排列的蛋白质结构域家族的综合数据库,蛋白质:结构,功能和生物信息学,28,3405-420(1997)
[51] 李,W。;Godzik,A.,Cd-hit:聚类和比较大量蛋白质或核苷酸序列的快速程序,生物信息学,22,13,1658-1659(2006)
[52] UniProt联盟,UniProt:蛋白质信息中心,核酸研究,43,D1,D204-D212(2015)
[53] Le,T.T。;乌尔巴诺维奇,R.J。;摩尔,J.H。;McKinney,B.A.,统计推断救济(STIR)特征选择,生物信息学,35,8,1358-1365(2019年)
[54] 约瑟夫,A.P。;阿加瓦尔,G。;马哈扬,S。;盖利,J.-C。;斯瓦普纳,洛杉矶。;奥夫曼,B。;学员,F。;博尔诺,A。;泰吉,M。;瓦拉迪,H。;施耐德,B。;埃切贝斯特,C。;斯里尼瓦桑,N。;de Brevern,A.G.,蛋白质块的简短调查,生物物理评论,2,3,137-145(2010)
[55] 强成;周洪波;郑洁,费舍尔-马尔可夫选择器:高维数据多类分类的快速选择最大可分离特征子集,模式分析与机器智能IEEE汇刊,33,6,1217-1233(2011)
[56] 萨拉瓦南,V。;Lakshmi,P.T.V.,SCLAP:一种预测植物蛋白质亚叶绿体定位的自适应增强方法,组学:整合生物学杂志,17,2,106-115(2013)
[57] 冯勇,基因治疗在路上,当代基因治疗,19,1(2019)
[58] 巴斯特,S。;马纳瓦兰,B。;申,T.H。;Lee,G.,SDM6A:基于网络的综合机器学习框架,用于预测水稻基因组中6mA位点,分子治疗-核酸,18131-141(2019)
[59] 马纳瓦兰,B。;巴斯特,S。;申,T.H。;魏,L。;Lee,G.,Meta-4mCpred:基于序列的元预测因子,用于使用有效特征表示精确预测DNA 4mC位点,分子治疗-核酸,16733-744(2019年)
[60] 张博士。;徐志忠。;苏,W。;Yang,Y.H。;低压,高。;杨,H。;Lin,H.,iCarPS:通过新编码特征识别蛋白质羰基化位点的计算工具,生物信息学(2020)
[61] 巴斯特,S。;马纳瓦兰,B。;申,T.H。;Lee,G.,iGHBP:使用极随机树从序列中计算识别生长激素结合蛋白,计算和结构生物技术杂志,16412-420(2018)
[62] 哈桑,医学硕士。;巴斯特,S。;哈顿,硕士。;李,G。;马纳瓦兰,B。;Kurata,H.,《Meta-i6mA:通过利用整合机器学习框架中的信息特征识别植物基因组DNA N6甲基腺嘌呤位点的种间预测因子》,《生物信息学简报》(2020年)
[63] 桑卡里,E.S。;217种蛋白质分类模式,基于不同的膜生物分类方法,2017年
[64] 陈,W。;冯,P。;丁,H。;Lin,H.,使用组蛋白修饰对外显子跳过事件中包含和排除的外显子进行分类,遗传学前沿,9433(2018)
〔65〕 费尔坦,A。;费伊·博德雷奥·巴特尔斯,G。;Besio,W.,《使用拉普拉斯EEG自动检测大鼠癫痫发作并用人类癫痫信号进行验证》,《生物医学工程年鉴》,41,3645-654(2013)
[66] 弗兰克,E。;霍尔,M。;特里格,L。;福尔摩斯,G。;Witten,I.H.,使用Weka进行生物信息学中的数据挖掘,生物信息学,20,15,2479-2481(2004)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。