BGFE:基于改进序列信息的ncRNA-蛋白相互作用预测深度学习模型
摘要
1.简介
2.结果
2.1. 绩效评估
2.2. 三种基本模型与最终集成模型BGFE的比较
2.3. 预测与BGFE等方法的比较
3.讨论
4.材料和方法
4.1. 数据集集合
4.2. 职位特定评分矩阵
4.3. PSSM的双粒度特征提取
4.4. 用K-mers稀疏矩阵和SVD表示ncRNA序列
4.5. 堆叠式自动编码器和微调
4.6. 叠加信号群
4.7. 预测方法和评价标准
5.结论
作者贡献
基金
利益冲突
工具书类
哈罗,J。; A.Frankish。; 冈萨雷斯,J.M。; Tapanari,E。; Diekhans,M。; 科科辛斯基,F。; 阿肯,B.L。; 巴雷尔,D。; Zadisa,A。; 塞尔,S。; 等。GENCODE:ENCODE项目的参考人类基因组注释。 基因组研究。 2012 , 22 , 1760. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] 你,Z.-H。; Lei,Y.-K。; 朱,L。; 夏,J。; Wang,B.利用集成极值学习机和主成分分析从氨基酸序列预测蛋白质相互作用。 BMC生物信息。 2013 , 14 ,S10。 [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] [ 绿色版本 ] 李俊秋。; 你,Z.-H。; 李,X。; Z.Ming。; Chen,X.PSPEL:使用集成学习从氨基酸序列中对自交互蛋白质进行电子预测。 IEEE/ACM传输。 计算。 生物信息。 (TCBB) 2017 , 14 , 1165–1172. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] 贝鲁奇,M。; 阿戈斯蒂尼,F。; 马辛,M。; Tartaglia,G.G.预测蛋白质与长非编码RNA的关联。 自然方法 2011 , 8 ,444。 [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] 潘,X。; 风扇,Y.X。; 严,J。; Shen,H.B.IPMiner:使用堆叠自动编码器进行隐藏的ncRNA-protein交互序列模式挖掘,以实现准确的计算预测。 BMC基因组学 2016 , 17 , 582. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] 科尔特斯,C。; Vapnik,V.支持向量网络。 机器。 学习。 1995 , 20 , 273–297. [ 谷歌学者 ] [ 交叉参考 ] [ 绿色版本 ] Wang,L。; 你,Z.-H。; 黄,D.-S。; Zhou,F.将高速ELM学习与深度卷积神经网络特征编码相结合,用于预测蛋白质-RNA相互作用。 IEEE/ACM传输。 计算。 生物信息。 2018 . [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] 森古普塔,D.J。; 张,B。; 克莱默,B。; 波查特,P。; 菲尔兹,S。; Wickens,M.体内检测RNA-蛋白质相互作用的三杂交系统。 程序。 国家。 阿卡德。 科学。 美国 1996 , 93 , 8496–8501. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] Hall,K.B.RNA–蛋白质相互作用。 货币。 操作。 结构。 生物。 2002 , 12 , 283–288. [ 谷歌学者 ] [ 交叉参考 ] 郭毅。; Yu,L。; 温,Z。; Li,M.使用支持向量机结合自协方差预测蛋白质序列中的蛋白质相互作用。 核酸研究。 2008 , 36 , 3025–3030. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] [ 绿色版本 ] Ge,M。; 李,A。; Wang,M.一种基于二部网络的方法,用于预测长非编码RNA–蛋白质相互作用。 基因组蛋白质组学生物信息。 2016 , 14 , 62–71. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] Alipanahi,B。; 德隆,A。; M.T.Weirauch。; Frey,B.J.通过深度学习预测DNA和RNA-结合蛋白的序列特异性。 自然生物技术。 2015 , 33 , 831–838. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] [ 绿色版本 ] 加伦斯基,A.R。; 乌尔,M。; Zhang,Y。; Lin,Y.Y。; 尼科纳夫斯,Y.S。; V.R.Ramnarine。; 马利克,R。; 冯,F。; Chinnaiyan,A.M。; 柯林斯,C.C。; 等人MechRNA:从RNA–RNA和RNA–蛋白质相互作用预测lncRNA机制。 生物信息学 2018 , 34 , 3101–3110. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] 苏雷什,V。; 刘,L。; Adgeroh,D。; Zhou,X.RPI-Pred:使用序列和结构信息预测ncRNA-蛋白质相互作用。 核酸研究。 2015 , 43 , 1370. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] 雷·D。; Kazan,H。; Chan,E.T。; 佩尼亚·卡斯蒂略,L。; 乔杜里,S。; Talukder,S.公司。; Blencowe,B.J。; 莫里斯,Q。; Hughes,T.R.对RNA结合蛋白的RNA识别特异性进行快速系统分析。 自然生物技术。 2009 , 27 , 667–670. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] 严,J。; 弗里德里希,S。; Kurgan,L.DNA和RNA-结合残基序列预测因子的综合比较综述。 生物信息简报。 2016 , 17 , 88. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] Yi,H.-C。; 你,Z.-H。; 黄,D.-S。; 李,X。; 蒋,T.-H。; Li,L.-P.利用进化信息稳健准确预测ncRNA-蛋白质相互作用的深度学习框架。 摩尔-热- 核酸 2018 , 11 , 337–344. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] Wang,L。; 你,Z.-H。; 严,X。; 夏,S.-X。; 刘,F。; 李,L。; 张伟。; Zhou,Y.使用二维主成分分析和旋转森林预测蛋白质-蛋白质相互作用。 科学。 代表。 2018 , 8 , 12874. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] 英国Muppirala。; 霍纳瓦尔,V.G。; Dobbs,D.仅使用序列信息预测RNA-蛋白相互作用。 BMC生物信息。 2011 , 12 ,第489页。 [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] Wang,Y。; 陈,X。; 刘振鹏。; 黄,Q。; Wang,Y。; 徐,D。; 张,X.S。; 陈,R。; Chen,L.从序列信息对RNA与蛋白质相互作用的从头预测。 分子生物晶体。 2013 , 9 , 133. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] H.M.伯曼。; 韦斯特布鲁克,J。; Z.Feng。; Gilliland,G。; 巴特,T.N。; 韦西格,H。; Shindyalov,I.N。; 伯恩,P.E.蛋白质数据库,1999-。 内部表格水晶图。 2000 , 67 , 675–684. [ 谷歌学者 ] 扎希里,J。; 穆罕默德·努里,M。; 易卜拉欣普尔,R。; Saadat,S。; Bozorgmehr,J.H。; Goldberg,T。; Masoudi-Nejad,A.LocFuse:通过使用蛋白质定位信息的分类器融合预测人类蛋白质-蛋白质相互作用。 基因组学 2014 , 104 , 496. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] 李,L.-P。; Wang,Y.-B。; 你,Z.-H。; 李毅。; An,J.-Y.PCLPred:结合相关向量机模型和低秩矩阵近似预测蛋白质-蛋白质相互作用的生物信息学方法。 国际分子科学杂志。 2018 , 19 , 1029. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] 你,Z.H。; 周,M。; 罗,X。; Li,S.预测蛋白质相互作用的高效框架。 IEEE传输。 赛博。 2017 , 47 , 731–743. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] Wang,Y.-B。; 你,Z.-H。; 李,L.-P。; 黄,D.-S。; 周,F.-F。; Yang,S.使用堆积稀疏自动编码器和PSSM剖面改进自交互蛋白质的预测。 国际生物学杂志。 科学。 2018 , 14 , 983–991. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] 你,Z.-H。; 黄,Z.A。; 朱,Z。; 严,G.Y。; 李,Z.W。; 温,Z。; Chen,X.PBMDA:一种新的有效的基于路径的miRNA-疾病关联预测计算模型。 公共科学图书馆计算。 生物。 2017 , 13 ,e1005455。 [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] U.P.UniProt联盟:蛋白质信息中心。 核酸研究。 2015 , 43 ,D204。 [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] 海亚特,M。; Khan,A.通过将复合蛋白质序列特征融合到伪氨基酸组成中来预测膜蛋白类型。 J.西奥。 生物。 2011 , 271 , 10. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] Wang,L。; 你,Z.H。; 夏,S.-X。; 陈,X。; 严,X。; 周,Y。; Liu,F.一种改进的高效旋转森林算法,用于预测蛋白质之间的相互作用。 软计算。 2018 , 22 ,3373–3381。 [ 谷歌学者 ] [ 交叉参考 ] 安J.Y。; 你,Z.H。; 陈,X。; 黄,D.S。; 李,Z.W。; 刘,G。; Wang,Y.通过探索嵌入在PSI-BLAST构建的位置特异性评分矩阵中的进化信息来识别自交蛋白。 Oncotarget公司 2016 , 7 , 82440–82449. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] Salwinski,L。; 密勒,C.S。; A.J.史密斯。; 佩蒂特,F.K。; 鲍伊,J.U。; Eisenberg,D.相互作用蛋白质数据库:2004年更新。 核酸研究。 2004 , 32 ,D449–D451。 [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] 查特拉亚蒙特里,A。; 布莱特克鲁兹,B.J。; Oughtred,R。; Boucher,L。; 海尼克,S。; 陈,D。; 斯塔克,C。; Breitkreutz,A。; 北卡罗来纳州科拉斯。; 奥唐纳,L。; 等。BioGRID交互数据库:2015年更新。 核酸研究。 2015 , 43 ,D470。 [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] Paliwal,K.K.公司。; Sharma,A。; 莱昂斯,J。; Dehzangi,A.一种基于三图的特征提取技术,使用位置特定评分矩阵的线性概率进行蛋白质折叠识别。 IEEE传输。 纳米生物学。 2013 , 320 , 41. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] Bouchaffra,D。; Tan,J.使用结构隐马尔可夫模型进行蛋白质折叠识别。 《模式识别国际会议论文集》,中国香港,2006年8月20日至24日; 第186-189页。 [ 谷歌学者 ] 陈,Z.-H。; 你,Z.-H。; 李,L.-P。; 王,Y.-B。; Li,X.RP-FIRF:使用随机投影分类器结合有限脉冲响应滤波器预测自交互蛋白质。 2018年8月15日至18日,中国武汉,智能计算国际会议论文集; 第232-240页。 [ 谷歌学者 ] Chmielnicki,W。; Stapor,K。蛋白质折叠识别的一种混合鉴别/生成方法。 神经计算 2012 , 75 , 194–198. [ 谷歌学者 ] [ 交叉参考 ] 陈,H。; 基于K-SVD的医学图像特征提取与融合算法。 第九届P2P、并行、网格、云和互联网计算国际会议论文集,中国广东,2014年11月8日至10日; 第333–337页。 [ 谷歌学者 ] 文森特,P。; 拉罗谢尔,H。; 我·拉朱伊。; Y.本吉奥。; Manzagol,P.A.堆叠去噪自动编码器:使用局部去噪标准学习深层网络中的有用表示。 J.马赫。 学习。 物件。 2010 , 11 , 3371–3408. [ 谷歌学者 ] 北斯利瓦斯塔瓦。; 辛顿,G。; Krizhevsky,A。; Sutskever,I。; Salakhutdinov,R.Dropout:防止神经网络过度拟合的简单方法。 J.马赫。 学习。 物件。 2014 , 15 , 1929–1958. [ 谷歌学者 ] 苏,S.Z。; 刘,Z.H。; 徐,S.P。; Li,S.Z。; Ji,R.基于稀疏自动编码器的特征学习用于深度图像中的人体检测。 信号。 过程。 2015 , 112 , 43–52. [ 谷歌学者 ] [ 交叉参考 ] Dahl,G.E。; 塞纳,T.N。; Hinton,G.E.使用校正线性单位和缺失改进LVCSR的深度神经网络。 在IEEE声学、语音和信号国际会议论文集上。 加工,加拿大不列颠哥伦比亚省温哥华,2013年5月26日至31日; 第8609–8613页。 [ 谷歌学者 ] Breiman,L.随机森林。 机器。 学习。 2001 , 45 , 5–32. [ 谷歌学者 ] [ 交叉参考 ] [ 绿色版本 ] 潘,X.Y。; 田,Y。; 黄,Y。; Shen,H.B.通过一种新的集成方法提高上位性微阵列剖面数据缺失值估计的准确性。 基因组学 2011 , 97 , 257–264. [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] [ 绿色版本 ] Töscher,A。; Jahrer,M.Netflix大奖的大混乱解决方案。 Netflix Prize文档 , 2009. [ 谷歌学者 ] 佩德雷戈萨,F。; 瓦洛奎,G。; Gramfort,A。; 米歇尔,V。; 蒂里昂,B。; O.格栅。; 布隆德尔,M。; 普雷滕霍弗,P。; 韦斯,R。; 杜堡,V。; 等。Scikit-learn:Python中的机器学习。 J.马赫。 学习。 物件。 2011 , 12 , 2825–2830. [ 谷歌学者 ] Jeong,E。; I.-F.钟。; Miyano,S.蛋白质中RNA相互作用残基识别的神经网络方法。 基因组信息。 2004 , 15 , 105–116. [ 谷歌学者 ] [ 公共医学 ] Hansen,L.K。; Salamon,P.神经网络集成。 IEEE传输。 模式分析。 机器。 智力。 1990 , 12 , 993–1001. [ 谷歌学者 ] [ 交叉参考 ] [ 绿色版本 ] Zhang,H.朴素贝叶斯的最优性。 2004年5月12日至14日,美国佛罗里达州迈阿密海滩,国际弗莱尔斯会议记录。 [ 谷歌学者 ] 你,Z.H。; 李,X。; K.C.陈。 基于氨基酸替换矩阵和旋转森林集成分类器的蛋白质相互作用的改进序列预测协议 ; 爱思唯尔科学出版社:荷兰阿姆斯特丹,2017年。 [ 谷歌学者 ] Statnikov,A。; Wang,L。; Aliferis,C.F.基于微阵列的癌症分类的随机森林和支持向量机的综合比较。 BMC生物信息。 2008 , 9 ,1-10。 [ 谷歌学者 ] [ 交叉参考 ] [ 公共医学 ] Y.本吉奥。; Grandvalet,Y.没有k倍交叉验证方差的无偏估计量。 J.马赫。 学习。 物件。 2004 , 5 , 1089–1105. [ 谷歌学者 ] Matthews,B.W.T4噬菌体溶菌酶预测和观察二级结构的比较。 生物化学。 生物物理学。 Acta(BBA)蛋白质结构。 1975 , 405 , 442–451. [ 谷歌学者 ] [ 交叉参考 ]