×

信使RNA多聚腺苷化位点的分类预测模型。 (英文) Zbl 1460.92157号

信使RNA多聚腺苷酸化是真核基因表达过程中的重要加工步骤之一。聚腺苷酸化位点[(poly(A)site]标志着转录本的结束,也就是基因的结束。一个能够识别poly(A)位点的计算程序不仅将被证明对基因组注释在寻找基因末端方面有用,而且还可以预测其他poly(A)位点。现在可以从poly(A)站点数据集中提取定义poly(A)站点的特征来构建此类预测模型。利用K图模式、Z曲线、特定位置评分矩阵和一阶非齐次马尔可夫子模型等方法,生成了大量特征,并将其放置在原始特征空间中。为了选择最有用的特征,采用了信息增益和熵等属性选择算法。然后基于贝叶斯网络建立训练模型,确定最优特征子集。建立了与训练模型相对应的测试模型,以预测聚(A)位点拟南芥还有大米。因此,构建了一个称为Poly(a)位点分类器或PAC的预测模型。模型的唯一性在于其结构,每个子模型都可以被替换或扩展,而特征生成、选择和分类都是独立的过程。它的模块化设计使它很容易适应不同的物种或数据集。通过对多个数据集的测试,证明了该算法的高度特异性和敏感性,在最佳组合下,它们都达到了95%。该软件包可用于基因组注释和优化转基因结构。

MSC公司:

92D20型 蛋白质序列,DNA序列
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Brent,M.R.,自动化基因组注释准确性方面的稳步进展和最新突破,《自然评论遗传学》,第9期,第62-73页(2008年)
[2] 陈,C。;陈立新。;邹晓勇。;Cai,P.X.,利用Chou的伪氨基酸组成和支持向量机概念预测蛋白质二级结构含量,《蛋白质和肽通讯》,16,27-31(2009)
[3] Cheng,Y。;Miura,R.M。;Tian,B.,用支持向量机预测mRNA多聚腺苷化位点,生物信息学,222320-2325(2006)
[4] Chou,K.C.,使用伪氨基酸成分预测蛋白质细胞属性,蛋白质结构功能和遗传学,43,246-255(2001)
[5] Chou,K.C.,《伪氨基酸组成及其在生物信息学、蛋白质组学和系统生物学中的应用》,《现代蛋白质组学》,第6期,第262-274页(2009年)
[6] Chou,K.C。;Elrod,D.W.,蛋白质亚细胞位置预测,蛋白质工程,12,107-118(1999)
[7] Chou,K.C。;Shen,H.B.,Cell-PLoc:预测各种生物体中蛋白质亚细胞定位的Web服务器包,《自然协议》,3153-162(2008)
[8] Chou,K.C。;Shen,H.B.,ProtIdent:通过融合功能域和序列进化信息来识别蛋白酶及其类型的web服务器,生物化学和生物物理研究通讯,376321-325(2008)
[9] Chou,K.C。;Shen,H.B.,蛋白质亚细胞定位预测的最新进展,分析生物化学,370,1-16(2007)
[10] Chou,K.C。;Shen,H.B.,《评论:开发用于预测蛋白质属性的网络服务器的最新进展》,《自然科学》,第263-92页(2009年)
[11] Chou,K.C。;张春涛,蛋白质结构类预测,生物化学与分子生物学评论,30,275-349(1995)
[12] 德莱尼,K.J。;Xu,R。;张杰。;李秋秋。;Yun,K.Y。;Falcone,D.L。;Hunt,A.G.,钙调素与拟南芥多聚腺苷化因子亚基的RNA结合活性相互作用并调节其活性,《植物生理学》,1401507-1521(2006)
[13] Diehn,S.H。;Chiu,W.L。;De Rocher,E.J。;Green,P.J.,苏云金芽孢杆菌毒素基因编码区内多个位点的过早多聚腺苷酸化,《植物生理学》,1171433-1443(1998)
[14] Frey,L.、Edgerton,M.、Fisher,D.和Levy,S.,2007年。肺癌中树桩分类器和基因表达特征的集成。收录于:Kuhn,K.A.,Warren,J.R.,Leong,T.Y.(编辑),Medinfo 2007:第十二届世界卫生大会会议记录。IOS出版社,阿姆斯特丹,第1255-1259页。;Frey,L.、Edgerton,M.、Fisher,D.和Levy,S.,2007年。肺癌中树桩分类器和基因表达特征的集成。收录于:Kuhn,K.A.,Warren,J.R.,Leong,T.Y.(编辑),Medinfo 2007:第十二届世界卫生大会会议记录。IOS出版社,阿姆斯特丹,第1255-1259页。
[15] 弗里德曼,N。;盖革,D。;Goldszmidt,M.,贝叶斯网络分类器,机器学习,29,131-163(1997)·Zbl 0892.68077号
[16] Georgiou,D.N。;卡拉卡西迪斯,T.E。;涅托,J.J。;Torres,A.,《使用模糊聚类技术和矩阵对氨基酸进行分类及其对周氏伪氨基酸组成的影响》,《理论生物学杂志》,257,17-26(2009)·Zbl 1400.92393号
[17] 格雷伯,J.H。;康托,C.R。;莫尔,S.C。;Smith,T.F.,新酵母前mRNA 3′末端处理信号的基因组检测,核酸研究,27888-894(1999)
[18] 哈贾纳维斯,A。;科尔夫,I。;Durbin,R.,秀丽隐杆线虫3′末端形成的概率模型,核酸研究,32,3392-3399(2004)
[19] 胡,J。;Lutz,C.S。;Wilusz,J。;Tian,B.,《人mRNA多聚腺苷化相关候选顺调控元件的生物信息学鉴定》,RNA,111485-1493(2005)
[20] 吉,G。;吴,X。;郑洁。;沈毅。;李庆秋,《植物mRNA Poly(A)位点建模:软件设计与实现》,《计算理论纳米科学杂志》,41365-1368(2007)
[21] 吉,G。;郑洁。;沈毅。;吴,X。;江,R。;Lin,Y。;Loke,J.C。;Davis,K.M.,植物信使RNA多聚腺苷化位点的预测建模,BMC生物信息学,8,43(2007)
[22] Kedarisetti,K.D。;库根,L。;Dick,S.,不同同源性蛋白质结构类预测的分类器集成,生物化学和生物物理研究通讯,348981-988(2006)
[23] Koh,C.H。;Wong,L.,从拟南芥基因组序列中识别多聚腺苷化位点,基因组信息,19,73-82(2007)
[24] 李秋秋。;Hunt,A.G.,《植物中RNA的多聚腺苷化》,《植物生理学》,115,321-325(1997)
[25] Liang,C。;刘,Y。;刘,L。;A.C.戴维斯。;沈毅。;Li,Q.Q.,带有cDNA末端的ESTs-以前在莱茵衣原体的基因注释和转录组探索中忽略的资源,遗传学,179,83-93(2008)
[26] Liang,C.、Wang,G.、Liu,L.、Ji,G.,Liu,Y.、Chen,J.、Webb,J.S.、Reese,G.和Dean,J.F.,2007年。WebTraceMiner:用于处理和挖掘EST序列跟踪文件的web服务。核酸研究35,W137-142。;Liang,C.、Wang,G.、Liu,L.、Ji,G.,Liu,Y.、Chen,J.、Webb,J.S.、Reese,G.和Dean,J.F.,2007年。WebTraceMiner:一个用于处理和挖掘EST序列跟踪文件的web服务。核酸研究35,W137-142。
[27] Lin,W.Z。;Xiao,X。;Chou,K.C.,GPCR-GIA:通过灰色关联分析识别G蛋白偶联受体及其家族的网络服务器,蛋白质工程设计与选择,22,699-705(2009)
[28] 刘,H。;Han,H。;李,J。;Wong,L.,《预测人类序列中多聚腺苷酸化信号的电子方法》,Genome Inform Ser Workshop Genome Info,14,84-93(2003)
[29] Loke,J.C。;Stahlberg,E.A。;斯特兰斯基,D.G。;哈斯,B.J。;木材,P.C。;李庆秋,拟南芥mRNA多腺苷化信号的编译揭示了一种新的信号元件和潜在的二级结构,《植物生理学》,1381457-1468(2005)
[30] Lutz,C.S.,《选择性聚腺苷酸化:mRNA 3′末端形成的扭曲》,ACS化学生物学,3609-617(2008)
[31] Mitra,P。;Murthy,C.A。;Pal,S.K.,使用特征相似性的无监督特征选择,IEEE模式分析和机器智能汇刊,24301-312(2002)
[32] 奎萨达,V。;院长,C。;Simpson,G.G.,《调控拟南芥开花的RNA加工》,《国际发育生物学杂志》,49,773-780(2005)
[33] Rabiner,L.,语音识别中隐藏马尔可夫模型和选定应用的教程,IEEE学报,77,257-286(1989)
[34] Shen,H.B。;Chou,K.C.,蛋白质折叠模式识别的集成分类器,生物信息学,221717-1722(2006)
[35] Shen,H.B。;Chou,K.C.,《增强预测人类蛋白质亚细胞定位能力的自上而下方法:Hum-mPLoc 2.0》,分析生物化学,394,269-274(2009)
[36] 沈毅。;吉,G。;哈斯,B.J。;吴,X。;郑洁。;Reese,G.J。;李庆秋,水稻mRNA 3′端加工信号和选择性聚腺苷酸化的基因组水平分析,核酸研究,363150-3161(2008)
[37] 沈毅。;刘,Y。;刘,L。;Liang,C。;李庆秋,莱茵衣原体核mRNA多聚(A)信号和选择性多聚腺苷化的独特特征,遗传学,179167-176(2008)
[38] Witten,I.H。;Frank,E.,《数据挖掘:实用机器学习工具和技术》。(2005),爱思唯尔:爱思唯尔旧金山·Zbl 1076.68555号
[39] Xiao,X。;Lin,W.Z。;Chou,K.C.,《使用灰色动态模型和伪氨基酸组成预测蛋白质结构类别》,《计算化学杂志》,292018-2024(2008)
[40] Xiao,X。;邵,S。;丁,Y。;黄,Z。;Chou,K.C.,使用细胞自动机图像和伪氨基酸组成预测蛋白质亚细胞位置,《氨基酸》,30,49-54(2006)
[41] Xiao,X。;邵,S。;丁,Y。;黄,Z。;黄,Y。;Chou,K.C.,使用复杂性度量因子预测蛋白质亚细胞位置,《氨基酸》,28,57-61(2005)
[42] Xiao,X。;王,P。;Chou,K.C.,GPCR-CA:预测G蛋白偶联受体功能类别的细胞自动机图像方法,计算化学杂志,30,1414-1423(2009)
[43] Xiao,X。;王,P。;Chou,K.C.,用伪氨基酸组成预测蛋白质结构类:使用细胞自动机图像几何矩的方法,理论生物学杂志,254691-696(2008)·兹比尔1400.92416
[44] Xing,D。;赵,H。;Xu,R。;Li,Q.Q.,拟南芥PCFS4,酵母多聚腺苷化因子Pcf11p的同源物,调节FCA替代加工并促进开花时间,《植物杂志》,54,899-910(2008)
[45] 曾Y.H。;郭永中。;肖瑞秋。;Yang,L。;Yu,L.Z。;Li,M.L.,基于自协方差方法使用增强的周伪氨基酸组成预测蛋白质亚线粒体位置,理论生物学杂志,259366-372(2009)·Zbl 1402.92193号
[46] 张,C.-T。;Wang,J.,酵母基因组中蛋白质编码基因的识别优于95
[47] 张,H。;Lee,J.Y。;Tian,B.,人类组织中的选择性偏倚聚腺苷酸化,基因组生物学,6,R100(2005)
[48] 张,T.L。;丁Y.S。;Chou,K.C.,用伪氨基酸组成预测蛋白质结构类:近似熵和疏水性模式,理论生物学杂志,250186-193(2008)·Zbl 1397.92551号
[49] 周国平,《关于蛋白质结构类预测的有趣争议》,《蛋白质化学杂志》,17,729-738(1998)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。