MSC 92-04中最近的zbMATH文章 https://zbmath.org/atom/cc/92-04 2024-04-15T15:10:58.286558Z Werkzeug公司 CONSULT-II:使用位置敏感哈希的分类识别 https://zbmath.org/1530.92008 2024-04-15T15:10:58.286558Z “⑩apc,阿里·奥斯曼·伯克” https://zbmath.org/authors/?q=ai:sapci.ali-奥斯曼·伯克 “拉希特曼,埃莉诺拉” https://zbmath.org/authors/?q=ai:rachtman.eleonora “西瓦什,米拉拉布” https://zbmath.org/authors/?q=ai:mirarab.siavash 摘要:宏基因组学广泛用于利用环境样本研究微生物组,而reads的分类分类是许多此类数据分析的先驱。分类分类要求将样本读数与已知生物的参考数据集进行比较。至关重要的是,样本中所代表的基因组在系统发育上可能与参考集中最接近的基因组相去甚远。因此,简单地将读取映射到基因组是不够的;我们需要找到距离较大的物种的不精确匹配。虽然基于k-mer的方法,如Kraken,已经证明很受欢迎,但它们与远距离分类群的匹配能力有限。在本文中,我们使用位置敏感散列来设计一种基于k-mer的方法,该方法可以将读取内容与现有方法相比具有更高距离的基因组进行匹配。我们在早期污染检测方法CONSULT的基础上增加了分类分类能力。我们在一系列实验中表明,当精度大致相同时,我们的方法CONSULT-II比其他方法具有更高的召回率。它的结果也可以进行总结,以获得分类概况,我们表明,在某些测量标准方面,它优于领先的方法。CONSULT-II位于\url{https://github.com/bo1929/CONSULT-II(咨询-II)}.整个系列见[Zbl 1525.92003]。 计算细胞反应网络中用于路径推理的最短超路径 https://zbmath.org/1530.92052 2024-04-15T15:10:58.286558Z “斯宾塞·克里格” https://zbmath.org/authors/?q=ai:krieger.spencer “凯切西奥卢,约翰” https://zbmath.org/authors/?q=ai:kececioglu.john-d日 摘要:信号传递和代谢途径是细胞生物学的基石,由一系列反应组成,这些反应从源化合物中产生目标分子。包含此类路径的细胞反应网络可以用\textit{定向超图}精确建模,其中每个反应对应一个超边,从其反应物集定向到其产物集。给定由有向超图表示的这样一个网络,从给定的源集合中推断产生给定目标的最可能的反应集合相当于找到一个\textit{最短超路径},即NP-完全。目前可用于最短超路径的最佳方法要么无法保证最佳性,要么排除包含循环的超路径,即使循环在实际生物路径中非常丰富。我们导出了超路径的一个新的图理论表征,并将其作为一个整数线性程序用于一般最短超路径问题的新公式中,该程序首次处理包含循环的超路径,并提出了一个新算法这可以在实践中解决这个整数规划的最优化问题。这是相对于最佳先前精确算法的一大进步,该算法仅限于非循环超路径(因此无法为所有超路径实际上都是循环的许多生物实例找到解决方案)。在来自标准\texttt{NCI-PID}和\texttt}Reactome}数据库的数千个实例的综合实验中,我们证明了我们的裁剪算法可以快速找到一个\textit{最优超路径},平均运行时间不到10秒,最长运行时间约为30分钟,甚至在有数千个反应的大型实例上。在名为\texttt{Mmunin}的新工具中实现最短超路径的割平面算法的源代码可在\url免费用于研究{http://mmunin.cs.arizona.edu}.关于整个系列,请参见[Zbl 1524.92002]。 Kappa中的计数器:语义、模拟和静态分析 https://zbmath.org/1530.92055 2024-04-15T15:10:58.286558Z “皮埃尔,精品店” https://zbmath.org/authors/?q=ai:精品店皮埃尔 “克里斯特斯库,爱奥那” https://zbmath.org/authors/?q=ai:cristescu.ioana-多姆尼纳 “费雷特,杰罗姆” https://zbmath.org/authors/?q=ai:feret.jerome 概述:Site-graph重写语言,如Kappa或BNGL,提供了简洁的方法来描述蛋白质间机械相互作用的高度组合系统。然后可以有效地模拟这些系统。然而,涉及计数的建模机制(例如许多磷酸化位点)需要Kappa中指数数量的规则。在BNGL中,在系统当前状态下更新规则的潜在应用集归结为子图同构问题(这是NP完全问题)。在本文中,我们对Kappa进行了扩展,以节省和高效地处理计数器。我们为带有计数器的Kappa提出了一个单一的push-out语义。我们展示了如何将带计数器的Kappa编译为不带计数器的Kappa(不需要指数数量的规则)。我们设计了一个基于仿射关系的静态分析,以识别计数器的含义并相应地限定其范围。整个系列见[Zbl 1408.68010]。 频谱保持平铺支持稀疏和模块化参考索引 https://zbmath.org/1530.92166 2024-04-15T15:10:58.286558Z “粉丝,杰森” https://zbmath.org/authors/?q=ai:fan.jason “汗,贾姆谢德” https://zbmath.org/authors/?q=ai:khan.jamshed “皮比里,朱利奥·埃尔曼诺” https://zbmath.org/authors/?q=ai:pibiri.giulio-埃尔马诺 “保罗·罗布” https://zbmath.org/authors/?q=ai:patro.rob 小结:(k)-聚体的参考索引问题是对参考基因组序列(mathcal{R})的集合进行预处理,以便能够快速识别任何被查询的(k)聚体的所有出现位置。对于生物信息学中的许多任务来说,有效且可扩展的解决方案是至关重要的。在这项工作中,我们引入了\textit{保谱平铺}(SPT),这是\(\mathcal{R}\)的一般表示,它指定了一组\textit}平铺如何重复出现以拼写出\(\mathcal{R}\)中的组成参考序列。通过编码\textit{tiles}出现的顺序和位置,SPT可以实现和分析一类通用的模块化索引。SPT上的索引将(k)-mers的参考索引问题分解为:(1)(k)-mer-toil映射;以及(2)平铺到出现的映射。最近引入的构造紧致索引元集的工作可以有效地实现单元到单元的映射。然而,就空间而言,实现平铺到出现的映射仍然代价高昂。随着参考集合变得越来越大,平铺到出现映射的空间需求占主导地位,因为前者取决于总序列的数量,而后者取决于(mathcal{R})中唯一的(k)个数。为了解决这一问题,我们为SPT引入了一类采样方案,以牺牲速度来减小平铺到参考映射的大小。我们在工具\texttt{pufferfish2}中使用这些采样方案实现了一个实用的索引。当索引超过30000个细菌基因组时,\texttt{pufferfish2}将平铺-出现映射的大小从86.3 GB减少到34.6 GB,而从测序读取集查询(k)-单体时只会导致3.6倍的速度减慢。可用性:\texttt{河豚鱼2}在Rust中实现,可在\url中获得{https://github.com/COMBINE-lab/pufferfish2网站}.关于整个系列,请参见[Zbl 1524.92002]。