×

基于k字和粗糙集理论的DNA序列系统发育分析。 (英语) Zbl 1395.92100号

摘要:在无对齐的序列比较方法中,(k)-单词频率模型是一个发展得很好的模型。然而,大多数现有的基于单词的方法忽略了(k)-单词频率之间的关系,而其他一些方法只关注(k)单词的相关性,而忽略了单词频率本身。本文提出了一种新的(k)字方法,成功地解决了这两个问题。通过DNA序列的特征序列,我们构建了一个(3×2^k)维完整的基于单词的向量。然后,我们提出了一种基于粗糙集理论(RST)的特征选择方案,以提取信息量最大的单词,并仅使用这些选择的特征来表示DNA序列。为了评估我们的方法的有效性,我们在三个数据集上通过系统发育分析进行了测试。第一个被用作训练集,通过该训练集选择了869个排名靠前的单词。其他两个用作测试集。结果表明,该方法能够捕获更重要的信息,对分子系统发育分析更有效。

MSC公司:

92D15型 与进化有关的问题
92D20型 蛋白质序列,DNA序列

软件:

DV-曲线
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Otu,H.H。;Sayood,K.,用于构建系统发育树的新序列距离度量,生物信息学,192122-2130,(2003)
[2] Jeffrey,H.J.,基因结构的混沌博弈表示,核酸研究,18,2163-2170,(1990)
[3] Nandy,A.,长DNA序列的图形表示,Curr。科学。,66, 821, (1994)
[4] 南迪,A。;Basak,S.C.,基于DNA序列的图形表示和数字表征的药物与DNA相互作用的新方法,Curr。计算。辅助药物设计。,6, 283-289, (2010)
[5] Ghosh,A。;Nandy,A.,蛋白质序列的图形表示和数学表征及其在病毒蛋白质中的应用,高级蛋白质化学。结构。生物学,83,1-42,(2011)
[6] 张,R。;Zhang,C.T.,“(Z)曲线,可视化和分析DNA序列的直观工具”,J.Biomol。结构。动态。,11, 767-782, (1994)
[7] Zhang,C.T。;Wang,J.,酵母基因组中蛋白质编码基因的识别优于95
[8] Randić,M。;弗拉契科,M。;南迪,A。;Basak,S.C.,《DNA初级序列的三维图形表示及其数值表征》,J.Chem。Inf.计算。科学。,401235-1244,(2000年)
[9] Randić,M。;弗拉契科,M。;莱什,N。;Plavsić,D.,DNA序列的新型二维图形表示及其数值表征,化学。物理学。莱特。,368, 1-6, (2003)
[10] Randić,M。;Balaban,A.T.,《关于DNA初级序列的四维表示》,J.Chem。Inf.计算。科学,43,532-539,(2003)
[11] Randić,M。;诺维克,M。;Plavsić,D.,《图形生物信息学里程碑》,国际量子化学杂志。,113, 2413-2446, (2013)
[12] Randić,M。;Zupan,J。;Balaban,A.T。;Vikic-Topic,D。;Plavsić,D.,蛋白质的图解表示,化学。版本111,790-862,(2011)
[13] Yau,S.T。;Wang,J.S。;Niknejad,A。;吕春霞。;Jin,N。;Ho,Y.K.,无简并的DNA序列表示,核酸研究,313078-3080,(2003)
[14] 邓,M。;Yu,C.L。;梁,Q。;He,R.L。;Yau,S.T.,《表征遗传序列的新方法:具有生物距离的基因组空间及其应用》,《公共科学图书馆·综合》,6,3,e17293,(2011)
[15] Zhang,Y.S。;Tan,M.S.,基于3DD曲线的DNA序列可视化,J.Math。化学。,44, 206-216, (2008) ·Zbl 1145.92318号
[16] Zhang,Z.J.,DVcurve:一种新的直观工具,用于可视化和分析DNA序列,生物信息学,251112-1117,(2009)
[17] Liao,B。;Liao,B.Y。;卢,X.G。;Cao,Z.,蛋白质序列的新型图形表示及其应用,J.Compute。化学。,32, 2539-2544, (2011)
[18] 谢国顺。;Mo,Z.X.,基于DNA的分类及其应用的DNA一级序列的三种3D图形表示,J.Theoret。生物学,269123-130,(2011)·Zbl 1307.92311号
[19] 李,C。;Tang,N。;Wang,J.,DNA序列的有向图及其数值表征,J.Theoret。《生物学》,241,173-177,(2006)·Zbl 1447.92306号
[20] 李,C。;于小强。;Yang,L。;郑晓强。;Wang,Z.F.,蛋白质序列的三维图和耦合数,Physica A,3881967-1972,(2009)
[21] Qi,Z.H。;李,L。;Qi,X.Q.,《使用哈夫曼编码方法可视化和分析DNA序列》,J.Compute。化学。,32, 3233-3240, (2011)
[22] Randic,M。;Novic,M。;弗拉科,M。;Plavsic,D.,使用部分排序研究蛋白质组图谱,J.Theoret。生物学,266,21-28,(2010)·Zbl 1407.92049号
[23] Randic,M.,《核苷酸比对的高效搜索》,J.Compute。化学。,34, 77-82, (2013)
[24] 何,P.A。;Wang,J.,DNA一级序列的特征序列,J.Chem。Inf.计算。科学。,42, 1008-1085, (2002)
[25] Lempel,A。;Ziv,J.,《有限序列的复杂性》,IEEE Trans。通知。理论,22,75-81,(1976)·Zbl 0337.94013号
[26] Burrows,M。;Wheeler,D.J.,一种块分类无损数据压缩算法,SRC研究报告,124,(1994)
[27] Mantaci,S。;Restivo,A。;Sciortino,M.,Burrows-Wheeler变换和Sturmian单词,Inform。过程。莱特。,86, 241-246, (2003) ·Zbl 1162.68511号
[28] Mantaci,S。;Restivo,A。;Rosone,G。;Sciortino,M.,Burrows-Wheeler变换的扩展,定理。计算。科学。,387, 298-312, (2007) ·Zbl 1144.68024号
[29] Mantaci,S。;Restivo,A。;Sciortino,M.,《生物序列的距离度量:一些最新方法》,《国际期刊近似原因》。,47, 109-124, (2008) ·Zbl 1183.92035号
[30] Mantaci,S。;Restivo,A。;Rosone,G.公司。;Sciortino,M.,《序列比较的新组合方法》,理论计算。系统。,42, 411-429, (2008) ·Zbl 1136.68047号
[31] 李,C。;李,Z.X。;郑晓强。;马,H。;Yu,X.Q.,Lempel-Ziv复杂性的推广及其在蛋白质序列比较中的应用,J.Math。化学。,48330-338(2010年)·Zbl 1196.92014号
[32] 郑,X。;李,C。;Wang,J.,基于复杂度的度量及其在系统发育分析中的应用,J.Math。化学。,46, 1149-1157, (2009) ·Zbl 1197.92038号
[33] 郑,X。;李,C。;Wang,J.,《蛋白质结构类预测的信息理论方法》,J.Compute。化学。,31, 1201-1206, (2010)
[34] Zhang,Y。;Hao,J.K。;周春杰。;Chang,K.,归一化Lempel-Ziv复杂性及其在生物序列分析中的应用,J.Math。化学。,46, 1203-1212, (2009) ·兹比尔1197.92020
[35] Yang,L.P。;Chang,G.S。;Zhang,X.D.,使用Burrows-Wheeler相似性分布比较蛋白质,氨基酸,39,887-898,(2010)
[36] 卡林,S。;Burge,C.,《二核苷酸相对丰度极值:基因组特征》,《遗传学趋势》。,11, 283-290, (1995)
[37] Hao,B.L。;齐,J。;Wang,B.,基于无序列比对的完整基因组的原核系统发育,现代物理学。莱特。B、 17、1-4、(2003)
[38] 齐,J。;王,B。;Hao,B.L.,《无序列比对的全蛋白质组原核生物系统发育:a(k)-字符串合成方法》,《分子生物学杂志》。,58, 1-11, (2004)
[39] 高,L。;齐,J。;Sun,J.D。;Hao,B.L.,原核生物系统发育与分类学:组成载体树与系统细菌学的详尽比较,Sci。中国生命科学。,50, 587-599, (2007)
[40] Wang,H。;徐,Z。;高,L。;Hao,B.L.,基于82个完整基因组的真菌系统发育研究,使用合成向量方法,BMC Evol。生物学,195,1-13,(2009)
[41] 戴奇。;Wang,T.,蛋白质的(k)字统计度量的比较研究:从序列到“序列空间”,BMC生物信息学,9,394,(2008)
[42] 戴奇。;刘晓强。;Yao,Y.H。;Zhao,F.,词频的数值特征及其在序列比较中的相异性度量中的应用,J.Theoret。生物学,276174-180,(2011)·Zbl 1405.92213号
[43] 吴晓明。;蔡,Z。;Wan,X.F。;Hoang,T。;Goebel,R。;Lin,G.H.,使用全基因组进行HIV-1亚型中的核苷酸组成字符串选择,生物信息学,231744-1752,(2007)
[44] Zhang,Y。;王,X。;Kang,L.,预测蝗虫吡喃和表征蝗虫吡喃的A(k)-mer方案,生物信息学,271771-776,(2011)
[45] 杨晓伟。;Wang,T.M.,基于单词计数的序列比较的一种新的统计方法,J.Theoret。生物学,291-100,(2013)·Zbl 1406.92477号
[46] 于小强。;郑晓强。;Meng,L.Y。;李,C。;Wang,J.,基于支持向量机的聚合酶链反应成功预测方法,Comb。化学。高通量屏幕,15486-491,(2012)
[47] 刘,Z。;孟,J。;Sun,X.,《一种新的基于特征的无比对全基因组系统发育分析方法:在HEV基因分型和亚型中的应用》,《生物化学》。生物物理学。Res.Commun.公司。,368, 223-230, (2008)
[48] 丁世勇。;戴奇。;刘海明。;Wang,T.M.,DNA序列系统发育分析的简单特征表示载体,J.Theoret。生物学,265618-623,(2010)
[49] 黄Y.J。;Yang,L.P。;Wang,T.M.,基于广义伪氨基酸组成的DNA序列系统发育分析,J.Theoret。生物学,269217-223,(2011)·Zbl 1307.92286号
[50] Walczak,B。;马萨特,D.L.,《粗糙集理论教程》,化学计量学。智力。实验室系统。,47, 1-16, (1999)
[51] 胡庆华。;赵,H。;谢振新。;Yu,D.R.,基于一致性的属性约简,(PAKDD,计算机科学讲义,第4426卷,(2007)),96-107
[52] C.Z.Wang,W.Du,《关于覆盖粗糙集属性约简》,载于:2010年第二届WRI全球智能系统大会,2010年第2卷,第96-99页。
[53] Wang,C.Z。;Chen,D.G。;胡庆华,序信息系统在同态下的一些不变性质,科学。中国信息科学。,53, 1816-1825, (2010) ·Zbl 1497.68471号
[54] 姚,P.P。;朱海平。;邓,X.Z。;徐,F。;谢瑞华。;姚明。;翁,J.Q。;Zhang,Y。;杨振强。;朱志勇,浙江省汉坦病毒分子进化分析,中国。J.Virol。,26, 465-470, (2010)
[55] 卢,L。;李,C。;Hagedorn,C.H.,《全球戊型肝炎病毒序列的系统发育分析:遗传多样性、亚型和人畜共患疾病》,《医学评论》。,16, 5-36, (2006)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。