鲍拉·博尼佐尼;克莱莉亚·德·费利塞;阿莱西亚·佩特斯西亚;尤里·皮罗拉;瑞兹、拉斐拉;Jens Stoye;罗科·扎卡尼诺;罗莎尔巴·齐扎 我们可以用数字签名代替读取吗?林登指纹作为机器学习排序读取的表示。 (英语) Zbl 1477.92012年9月 Martín-Vide,Carlos(编辑)等人,《计算生物学算法》。2021年6月7日至11日,第八届国际会议,AlCoB 2021,美国MT米苏拉。诉讼程序。查姆:斯普林格。莱克特。注释计算。科学。12715, 16-28 (2021). 摘要:有助于序列比较的生物序列的表示在一些生物信息学任务中至关重要。最近,Lyndon因子分解被证明可以在重叠读取中保留公共因子[第一作者等人,Theor.Compute.Sci.862,24-41(2021;Zbl 1502.68251号)],从而产生了使用序列的因子分解来定义读取之间的相似性度量的想法。在本文中,我们建议作为序列的签名读取以下概念指纹即基于Lyndon的读取因子分解中连续因子的长度序列。令人惊讶的是,读取指纹能够有效地保持序列相似性,同时提供读取的紧凑表示,因此,从指纹(称为“k”指)中提取的“k”字可以用于捕获读取之间的序列相似性。我们首先提供一个概率框架来估计指纹的行为。然后,我们通过实验评估了这种表示对于生物序列分类的机器学习算法的有效性。特别是,我们考虑了将RNA-Seq读取分配给最可能产生它们的基因的问题。我们的结果表明,指纹可以提供一种有效的机器学习可解释表示,成功地保持了序列的相似性。关于整个系列,请参见[Zbl 1476.92001号]. 引用于1文件 MSC公司: 92D20型 蛋白质序列,DNA序列 68T05型 人工智能中的学习和自适应系统 关键词:序列分析;林登因子分解;读取表示法;机器学习;序列挖掘 引文:Zbl 1502.68251号 PDF格式BibTeX公司 XML格式引用 \textit{P.Bonizzoni}等人,Lect。注释计算。科学。12715,16-28(2021;Zbl 1477.92012) 全文: 内政部 链接 参考文献: [1] Asgari,E。;Mofrad,MR,深层蛋白质组学和基因组学生物序列的连续分布式表示,PLoS ONE,10,11,e0141287(2015)·doi:10.1371/journal.pone.0141287 [2] 德国柏林。;科伦,S。;下巴,CS;德雷克,JP;兰多林,JM;Phillippy,AM,用单分子测序和位置敏感散列组装大基因组,自然生物技术。,33, 6, 623-630 (2015) ·doi:10.1038/nbt.3238 [3] 伯斯特尔,J。;Perrin,D.,《组合数学在单词上的起源》,Eur.J.Comb。,28, 3, 996-1022 (2007) ·Zbl 1111.68092号 ·doi:10.1016/j.ejc.2005.07.019 [4] 博尼佐尼,P。;De Felice,C。;扎卡尼诺,R。;R.齐扎。;Leporati,A。;马丁·维德,C。;夏皮拉,D。;Zandron,C.,《林登词与反向林登词:后缀和加边词的查询》,《语言与自动机理论与应用》,385-396(2020),查姆:斯普林格,查姆·Zbl 1446.68130号 ·doi:10.1007/978-3-030-40608-0_27 [5] 博尼佐尼,P。;De Felice,C。;扎卡尼诺,R。;Zizza,R.,《逆Lyndon词和词的逆Lynden因式分解》,高级应用程序。数学。,101, 281-319 (2018) ·Zbl 1402.68143号 ·doi:10.1016/j.aam.2018.08.005 [6] Bonizzoni,P.,De Felice,C.,Zaccagnino,R.,Zizza,R.:关于逆Lyndon因式分解中后缀的最长公共前缀和其他属性。西奥。计算。科学。862, 24-41 (2021) ·Zbl 1502.68251号 [7] 陈,KT;右侧狐狸;林登,RC,《自由微分学》,IV.下中心级数的商群,《数学年鉴》。,68, 1, 81-95 (1958) ·Zbl 0142.22304号 ·doi:10.2307/1970044 [8] Delgrange,O。;Rivals,E.,STAR:搜索串联近似重复的算法,生物信息学,20,16,2812-2820(2004)·doi:10.1093/bioinformatics/bth335 [9] Denti,L.等人:鲨鱼:RNA-Seq样本中与捕鱼相关的读数。生物信息学(2021) [10] Duval,JP,在有序字母表上分解单词,J.算法,4,4,363-381(1983)·Zbl 0532.68061号 ·doi:10.1016/0196-6774(83)90017-2 [11] Kimothi,D.、Soni,A.、Biyani,P.、Hogan,J.M.:生物序列分析的分布式表示。arXiv预印arXiv:1608.05949(2016) [12] 库马尔,P。;Krishna,公关;Raju,SB,《使用序列数据挖掘的模式发现:应用和研究》(2011),美国:IGI出版社,美国 [13] Köppl,D.,Hashimoto,D.,Hendrian,D.,Shinohara,A.:就地双射Burrows-Wheeler变换。In:组合模式匹配(2020)·兹伯利07651112 [14] Lothaire,M.,《单词组合学》(1967),剑桥:剑桥大学出版社,剑桥·Zbl 1001.68093号 [15] 林登,RC,关于伯恩赛德的问题,Trans。数学。Soc.,77,2,202-215(1954)·Zbl 0058.01702号 [16] Motomura,K。;Fujita,T。;津美,M。;Kikuzato,S。;中村,M。;Otaki,JM,《蛋白质氨基酸序列的单词解码与可用性分析:语言学方法》,《公共科学图书馆·综合》,第7、11、e50039页(2012年)·doi:10.1371/journal.pone.0050039 [17] Ondov,BD,Mash:使用minhash快速估算基因组和元基因组距离,基因组生物学。,17, 1, 132 (2016) ·doi:10.1186/s13059-016-0997-x [18] Srinivasan,SM;Vural,S。;国王,BR;Guda,C.,挖掘蛋白质序列分类中的类特异性基序,BMC Bioninform。,14, 1, 96 (2013) ·doi:10.1186/1471-2105-14-96 [19] Tan,P.N.,Steinbach,M.,Kumar,V.:数据挖掘简介。培生教育印度(2016) [20] 弗里斯,JK;Liu,X.,基于n-gram模式的蛋白质亚家族特异性保护谱,BMC Bioninform。,9, 1, 72 (2008) ·doi:10.1186/1471-2105-9-72 此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。