×

幂律能帮助我们理解基因和蛋白质组信息吗? (英语) Zbl 1383.92029号

摘要:蛋白质是由一个或多个块组成的生物化学实体,通常以3D模式折叠。每个区块(一种多肽)是生物化学结合在一起的氨基酸的单一线性序列。蛋白质中的氨基酸序列由基于DNA的遗传密码中编码的一个或多个基因的序列定义。这种遗传密码通常使用20种氨基酸,但在某些生物体中,遗传密码还可以包含其他两种氨基酸。在蛋白质合成过程中连接氨基酸后,每个氨基酸成为蛋白质中的残基,然后进行化学修饰,最终改变并定义蛋白质的功能。在这项研究中,作者使用无比对方法分析氨基酸序列,旨在确定蛋白质组和蛋白质组中的结构模式,而无需任何其他先前假设。本文首先通过使用固定长度氨基酸词(元组)的直方图分析氨基酸序列数据。在创建初始相对频率直方图之后,对其进行转换和处理,以便生成用于信息提取和图形可视化的定量结果。使用来自两个参考数据集的选定样本,结果表明,该方法能够根据蛋白质序列/蛋白质组分析等领域的当前科学知识生成相关输出。

MSC公司:

92C40型 生物化学、分子生物学
第92天20分 蛋白质序列,DNA序列

软件:

;GGobi公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] M.Tyers和M.Mann,“从基因组学到蛋白质组学”,《自然》,第422卷,第193-1197页,2003年·doi:10.1038/nature01510
[2] P.Nicodeme、T.Doerks和M.Vingron,“基于基序统计的蛋白质组分析”,《生物信息学》,第18卷,第2期,第S161-S171页,2002年·doi:10.1093/bioinformatics/18.suppl_2.S161
[3] J.Bock和D.Gough,“全蛋白质组相互作用挖掘”,生物信息学,第19卷,第1期,第125-134页,2003年。
[4] E.Nabieva、K.Jim、A.Agarwal、B.Chazelle和M.Singh,“通过相互作用图的图形理论分析预测蛋白质功能的全蛋白质组”,《生物信息学》,第21卷,第1号补充,第i302-i310页,2005年·doi:10.1093/bioinformatics/bti1054
[5] D.Nelson和M.Cox,《莱宁格生物化学原理》,沃斯出版社,2000年第3版。
[6] 国际纯粹与应用化学联合会,http://www.iupac.org/。
[7] S.Vinga和J.Almeida,“无对齐序列比较——综述”,《生物信息学》,第19卷,第4期,第513-523页,2003年·doi:10.1093/bioinformatics/btg005
[8] A.Costa、J.Machado和M.Quelhas,“基于直方图的DNA分析用于染色体、基因组和物种信息的可视化”,《生物信息学》,第27卷,第9期,第1207-1214页,2011年·doi:10.1093/生物信息系统/btr131
[9] O.Weiss、M.Jimenez-Montano和H.Herzel,“蛋白质序列的信息含量”,《理论生物学杂志》,第206卷,第3期,第379-386页,2000年·doi:10.1006/jtbi.2000.2138
[10] Q.Dai和T.Wang,“蛋白质k字统计度量的比较研究:从序列到‘序列空间’”,BMC生物信息学,第9卷,第394期,第1471-2105页,2008年·doi:10.1186/1471-2105-9-394
[11] C.Hemmerich和S.Kim,“蛋白质序列中残基相关性的研究及其在序列分类中的应用”,《EURASIP生物信息学和系统生物学杂志》,2007年第7卷,文章ID 873562007·doi:10.1155/2007/87356
[12] NCBI基因组下载/FTP,ftp://ftp.ncbi.nlm.nih.gov/genemos/H_sapiens/CHR_01/。
[13] A.Clauset、C.R.Shalizi和M.E.J.Newman,“经验数据中的幂律分布”,《SIAM评论》,第51卷,第4期,第661-703页,2009年·Zbl 1176.62001号 ·doi:10.1137/07071011
[14] C.M.A.Pinto、A.Mendes Lopes和J.A.T.Machado,“现实生活现象中幂律的回顾”,《非线性科学与数值模拟中的通信》,第17卷,第9期,第3558-3578页,2012年·Zbl 1248.60020号 ·doi:10.1016/j.cnsns.2012.01.013
[15] 通用蛋白质资源,ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/。
[16] M.Kendall,“等级相关性的新测量”,《生物特征》,第30卷,第1-2期,第81-89页,1938年·Zbl 0019.13001号
[17] D.Sculley,“类似项目的排名汇总”,载于第七届SIAM国际会议记录,SIAM,美国宾夕法尼亚州费城,2007年。
[18] G.Jurman、S.Riccadonna、R.Visintainer和C.Furlanello,“排名名单上的堪培拉距离”,收录于《排名和神经信息处理系统进步会议录》(NIPS’09),S.Agrawal、C.Burges和K.Crammer,Eds.,第22-27页。
[19] J.Lin,“基于香农熵的散度度量”,《信息理论汇刊》,第37卷,第1期,第145-151页,1991年·Zbl 0712.94004号 ·数字对象标识代码:10.1109/18.61115
[20] S.H.Cha,“标称类型直方图距离度量的分类”,《2008年美国应用数学会议论文集》,第325-330页,WSEAS。
[21] I.Borg和P.Groenen,《现代多维尺度》,《统计学中的Springer系列》,Springer,纽约,纽约,美国,1997年,《理论与应用》·Zbl 0862.62052号
[22] GGobi软件包,http://www.ggobi.org/。
[23] M.Huynen和E.Nimwegen,“完整基因组中基因家族大小的频率分布”,《分子生物学与进化》,第15卷,第5期,第583-589页,1998年·doi:10.1093/oxfordjournals.molbev.a025959
[24] J.Qian、N.Luscombe和M.Gerstein,“基因组中的蛋白质家族和折叠发生:幂律行为和进化模型”,《分子生物学杂志》,第313卷,第4期,第673-681页,2001年·doi:10.1006/jmbi.2001.5079
[25] G.Karev、Y.Wolf、A.Rzhetsky、F.Berezovskaya和E.Koonin,“蛋白质结构域的生与死:进化的简单模型解释幂律行为”,BMC进化生物学,第2卷,第18期,2002年·doi:10.1186/1471-2148-2-18
[26] R.Murray、D.Bender、V.Rodwell、K.Botham、P.Kennelly和P.A.Weil,Harper’s Illustrated Biochemistry,麦格劳-希尔出版社,2009年第28版。
[27] Q.Pan、O.Shai、L.J.Lee、B.J.Frey和B.J.Blencowe,“通过高通量测序深入研究人类转录组中的选择性剪接复杂性”,《自然遗传学》,第40卷,第12期,第1413-1415页,2008年·doi:10.1038/ng.259
[28] A.Arneodo、C.Vaillant、B.Audit、F.Argoul、Y.Aubenton-Carafa和C.Thermes,“基因组信息的多尺度编码:从DNA序列到基因组结构和功能”,《物理报告》,第498卷,第45-188页,2010年。
[29] UniProtn、,网址:http://www.uniprot.org/。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。