TKSM: highly modular, user-customizable, and scalable transcriptomic sequencing long-read simulator

Fatih Karaoğlanoğlu; Baraa Orabi; Ryan Flannigan; Cedric Chauve; Faraz Hach

doi:10.1093/bioinformatics/btae051

生物信息学。2024年2月；40（2）：btae051。

2024年1月25日在线发布。数字对象标识：10.1093/生物信息学/btae051

预防性维修识别码：项目编号：10868325

PMID：38273664

TKSM：高度模块化、用户自定义和可扩展的转录组测序长读模拟器

法提赫·卡拉奥·拉诺·卢, 巴拉亚·奥拉比, 瑞恩·弗兰尼根,塞德里克·乔夫,和法拉斯·哈奇

Anthony Mathelier，助理编辑

作者信息文章注释版权和许可信息 PMC免责声明

关联数据

补充资料: btae051_补充数据。
btae051_补充数据.pdf（260万）
GUID:3502AB57-AA6C-4C1E-99B9-B9E8C5B903C3

数据可用性声明: TKSM是一个开源软件，位于github.com/vpc-ccg/tksm对于MCF7数据集，本手稿中使用的数据集可通过registry.opendata.aws/sgnex/公开获取，对于N1样本，可通过doi.org/10.6084/m9.图23155145公开获取。本手稿中使用的TKSM版本的档案可在doi.org/10.6084/m9.图24970317.v1上找到。

摘要

动机

转录组学长读（LR）测序是一种用于探测各种RNA特征的成本效益越来越高的技术。已经开发了许多工具来处理各种转录组测序任务（例如异构体和基因融合检测）。然而，缺乏丰富的金标准数据集阻碍了此类工具的基准测试。因此，模拟LR测序是一种重要而实用的选择。虽然现有的LR模拟器旨在模拟测序机噪声并针对特定的文库协议，但它们缺乏一些重要的文库制备步骤（如PCR），并且很难适应新的和不断变化的文库制备技术（如单细胞LR）。

结果

我们提出了TKSM，这是一个模块化和可扩展的LR模拟器，其设计使每个RNA修改步骤都明确地由特定模块针对。这允许用户将模拟管道组装为TKSM模块的组合，以模拟特定的测序设计。此外，TKSM所有核心模块的输入/输出遵循相同的简单格式（分子描述格式），允许用户使用针对新库准备步骤的新模块轻松扩展TKSM。

可用性和实施

TKSM是一个开源软件，位于https://github.com/vpc-ccg/tksm.

1引言

在许多基因组和转录组测序任务中，长读（LR）测序技术已成为短读（SR）测测序的经济高效的替代方案(Amarasinghe公司等。2020). LR被证明对许多转录组任务有用，例如替代亚型检测(科瓦卡等。2019,唐等。2020,奥拉比等。2023)、基因融合检测(线路接口单元等。2020,卡拉奥格拉诺格鲁等。2022)，转录水平表达分析(胡等。2021)或单细胞转录组分析(田等。2021,易卜拉希米等。2022,你等。2023).

然而，由于LR测序作为一种新兴技术的性质，很少有成熟的基准数据集或金标准数据集来评估转录组LR生物信息学工具。针对这些任务的此类生物信息学工具需要真实的模拟，以评估其准确性和性能。这包括明确模拟特定库或细胞过程的能力，如单细胞条形码和UMI标记、PCR或分子截断。

现有LR模拟器，如Badread(威克2019)、DeepSimulator(锂等。2020)，伊卡洛斯(蒙罗等。2023)、PBSIM3(小野等。2022)和Nanosim(杨等。2017)，通常侧重于模拟测序过程，即测序平台与RNA/DNA分子的接触点。一些扩展专注于特定的测序文库，如Trans-Nanosim转录组学和质粒模拟(哈菲兹科拉尼等。2020)，Meta-Nanosim Meta-genomic模拟(杨等。2023)，SLSim单细胞模拟(你等。2023a）和SQANTI-SIM替代拼接模拟(梅斯特雷·托马斯等。2023). 然而，这些工具的设计并没有考虑到模块化，不能轻易修改以解决库准备协议中的更改，例如添加条形码标签或模拟PCR过程。long-read tools目录中提供了对长阅读工具（包括模拟工具）的全面调查(阿马拉辛格等。2021).

我们描述了TKSM，一个模拟真实转录组长读数据集的软件。TKSM模块化设计允许针对广泛的库/单元过程。TKSM的强大之处在于两个关键方面：（i）可以轻松地修改其模拟管道以满足特定的测序设计；（ii）在时间和内存使用方面的高性能。TKSM是开源的，可以通过GitHub访问。

2方法

TKSM很灵活，既可以模拟各种数据集，也可以扩展。它由几个独立的模块组成，每个模块代表一个细胞（例如聚腺苷酸化）或一个修饰核酸分子的文库制备（例如PCR）过程。这种设计允许用户通过使用TKSM的模块在各种安排中模拟不同的测序协议，模拟所需测序协议中的不同步骤。此外，这种模块化设计允许TKSM易于扩展，未来的模块将针对额外的库和蜂窝进程。为了实现这种模块化，我们设计了TKSM的模块，以我们称为分子描述格式（MDF）的相同格式获取和生成文件。MDF文件是一种表格文件，通过列出每个分子的基因组间隔以及对这些间隔的任何序列水平修改（例如替换）来描述分子。使用表格格式的基本原理是编写自己的脚本来生成或修改中间MDF文件。我们在中详细介绍了MDF文件补充截面S1此设计模式的唯一例外是入口模块，该模块从转录物丰度剖面生成初始分子集，出口模块通过模拟给定分子的序列生成读取。

TKSM的每个模块都可以作为单独的进程运行(tksm<模块名称>）。作为TKSM的一部分，我们还提供蛇制造(莫尔德等。2021)用户可以配置脚本来指定各种模拟实验，并将它们作为单个命令运行。此外，为了优化计算时间，我们利用Snakemake的管道输入/输出特性，允许模块在收到前一个模块的任何输入时立即开始运行，而不必等待前一模块终止。

TKSM可以使用实际序列数据集来参数化其模块的行为，或者，这些参数可以由用户手动指定。例如，TKSM包含预处理模块，用于从给定的真实样本计算转录物的表达谱，然后使用该真实样本在初始MDF文件中生成分子，下一个模块将模拟根据所选协议对其进行排序。

2.1 TKSM模块

TKSM包含三类模块，由其输入和输出的特性定义：（i）入口点模块启动TKSM管道并输出MDF文件，（ii）核心模块将MDF文件作为输入并输出另一个MDF文件；（iii）出口（排序）模块以MDF文件为输入并生成FASTA/FASTQ文件作为输出。此外，TKSM中的一些预处理实用程序可以获取实际序列数据集，并为一些TKSM模块输出模型参数。实施的TKSM模块列表如所示图1A详细信息请参见补充截面S1附加的模块和实用程序可以实现并容易地集成到TKSM中，以便针对替代测序协议中的特定步骤。

在单独的窗口中打开

图1。

（A）现有TKSM模块和实用程序及其高级描述。TKSM的设计考虑了模块化；用户可以通过链接任意数量的TKSM模块（包括多次使用同一模块的可能性）来指定自己选择的模拟管道。（B）模拟Trans-Nanosim工作流的典型RNA-seq仿真管道。（C）单细胞长读模拟管道。该管道利用过滤和合并模块将短读Illumina适配器和10×Genomics细胞条形码仅添加到带有标签的分子上，该标签表示分子应该具有细胞条形码。

2.2使用Snakemake的可定制TKSM管道

TKSM的一个重要设计选择是使其易于用户自定义，即使用TKSM模块轻松构建可能复杂的仿真管道。为了实现这一点，我们将TKSM与Snakemake和配置脚本打包在一起，用户可以编辑这些脚本来添加新模块或使用任何TKSM模块排列来定义模拟实验。为了定义模拟管道，用户列出所需TKSM模块的名称，并为需要构建模型的模块指定构建此类模型的真实样本。此外，使用合并模块，用户可以构建由不同线性管道组成的复杂管道。配置脚本的示例如所示补充清单S1.

3结果

为了说明TKSM并评估其性能，我们设计了三条模拟管道来模拟标准转录组测序协议的示例。具体来说，我们模拟了一个标准的体RNA测序实验、一个混合的长-短读取单细胞RNA测序（scRNA-seq）实验，以及一个与体RNA测测序实验类似但添加了100个随机基因融合事件的RNA测序试验。指定这些仿真管道的Snakemake配置文件显示在补充清单S2–S4.

在标准体RNA-seq实验中，我们主要将其与Trans-Nanosim进行比较(哈菲兹科拉尼等。2020)并尝试使用TKSM模块符合其管道设计。对于体细胞和基因融合实验，我们使用从MCF7细胞系生成的RNA-seq样本陈等。(2021)（直接RNA，复制1，运行2）。我们于2020年6月17日通过以下途径首次访问了SG-NEx数据https://registry.opendata.aws/sgnex网站/对于scRNA-seq实验，我们使用了一个内部数据集，命名为N1，首先由易卜拉希米等。(2022).N1遵循之前文献中描述的短长单细胞混合协议(古普塔等。2018,辛格等。2019,田等。2021). 在这份手稿中，我们使用了一个随机的N1子样本 $\sim$ 1M长读。三条TKSM管道如所示图1B和C和补充图S11.

使用这些实验，我们的目标是在多个指标上评估TKSM：（i）模拟数据与输入实际数据在诸如转录表达、分子序列截断、单细胞条形码检测率和基因融合生成等度量方面的相似性，（ii）各个步骤的时间和内存占用，以及（iii）生成可由标准基因融合工具检测到的基因融合事件的能力。所有这些实验的结果显示在补充章节S2请注意，所有这些结果都可以使用TKSM GitHub存储库中提供的Snakemake脚本进行复制。

4结论

TKSM是一个模块化、准确和高效的转录组LR测序模拟器。它的模块化设计使用户能够以最小的工作量构建大量的测序实验。TKSM模块的标准化输入和输出允许TKSM用户添加新的模块，这些模块针对TKSM目前没有针对的现有和未来的库准备技术。例如，很容易设想一种替代转录模块的入口点模块，该模块通过DNA片段生成核酸分子，同时仍然使用TKSM模块的其余部分。TKSM在生成具有与其模拟的真实数据集相匹配的特征的真实数据集中方面也表现良好。此外，TKSM在设计时考虑了高效的CPU和内存使用，并且在这些指标上的性能非常出色。

补充材料

btae051_补充数据

单击此处查看其他数据文件。^{（260万，pdf）}

参与者信息

法提赫·卡拉奥·拉诺·卢，加拿大BC V5A 1S6伯纳比西蒙·弗雷泽大学计算科学系。

巴拉·奥拉比，加拿大不列颠哥伦比亚大学计算机科学系，温哥华，BC V6T 1Z4。

瑞安·弗兰尼根，不列颠哥伦比亚大学泌尿系，加拿大不列颠颠哥伦比亚省温哥华市，邮编：V5Z 1M9。温哥华前列腺中心，加拿大不列颠哥伦比亚省温哥华V6H 3Z6。

塞德里克·乔夫，加拿大BC V5A 1S6伯纳比西蒙·弗雷泽大学数学系。

法拉兹·哈奇，加拿大不列颠哥伦比亚大学计算机科学系，温哥华，BC V6T 1Z4。不列颠哥伦比亚大学泌尿系，加拿大不列颠颠哥伦比亚省温哥华市，邮编：V5Z 1M9。温哥华前列腺中心，加拿大不列颠哥伦比亚省温哥华V6H 3Z6。

作者贡献

Fatih Karaoglanoglu（概念化[equal]，数据管理[Supporting]，形式分析[equal]，调查[equall]，方法论[equal/]，软件[equals]，可视化[equal.]，写作初稿[equal-]，写作审查和编辑[equale]），巴拉奥拉比、资金获取[支持]、调查[equal]、方法[equal]、软件[equall]、可视化[equals]、写作初稿[equalt]、写作审查和编辑[equalve]）、Ryan Flannigan（数据管理[lead]、资源[supporting]）、Cedric Chauve（资金获取[领导]、项目管理[equals]、监督[equalc]、Writing-review&editing[equal]）和Faraz Hach（数据管理[lead]、资金获取[lead]]、项目管理[equal]、资源[lead]、监督[equall]、Writing-review&editing[equal]]）。

补充数据

补充数据可在生物信息学在线。

利益冲突

未申报。

基金

这项工作得到了加拿大国家科学与工程委员会（NSERC）发现拨款的支持[授予编号RGPIN-05952至F.H.和RGPIN-03986至C.C.]；迈克尔·史密斯健康研究基金会（MSFHR）学者奖[授予F.H.SCH-2020–0370号]；以及NSERC Alexander Graham Bell加拿大研究生奖学金（CGS D）授予B.O。

数据可用性

TKSM是一个开源软件，位于github.com/vpc-ccg/tksm对于MCF7数据集，本手稿中使用的数据集可通过registry.opendata.aws/sgnex/公开获取，对于N1样本，可通过doi.org/10.6084/m9.图23155145公开获取。本手稿中使用的TKSM版本的档案可在doi.org/10.6084/m9.图24970317.v1上找到。

工具书类

Amarasinghe SL、Su S、Dong X。等。长期测序数据分析的机遇和挑战.基因组生物学2020;21:30–16. 10.1186/s13059-020-1935-5。[PMC免费文章][公共医学] [交叉参考][谷歌学者]
Amarasinghe SL、Ritchie ME、Gouil Q。。long-read-tools.org：一个长读测序数据分析方法的交互式目录.Giga科学2021;10.[PMC免费文章][公共医学][谷歌学者]
Chen Y、Davidson NM、Wan YK。等。用于人类细胞系转录水平分析的纳米孔长读RNA测序系统基准.生物Rxiv，10.1101/2021.04.21.4407362021，预印本：未经同行评审。[交叉参考][谷歌学者]
易卜拉希米G、奥拉比B、罗宾逊M。等。在单细胞RNA-seq实验的短读和长读之间快速准确地匹配细胞条形码.iScience公司2022;25：104530.10.1016/j.isci.2022.104530。[PMC免费文章][公共医学] [交叉参考][谷歌学者]
Gupta I、Collier PG、Haase B。等。单细胞亚型RNA测序表征了数千个小脑细胞中的亚型.Nat生物技术2018;36:1197–202. 10.1038/nbt.4259。[公共医学] [交叉参考][谷歌学者]
Hafezqorani S、Yang C、Lo T。等。Trans-NanoSim表征和模拟纳米孔RNA测序数据.Giga科学2020;9.10.1093/gigascience/giaa061。[PMC免费文章][公共医学] [交叉参考][谷歌学者]
胡毅，方力，陈曦。等。LIQA：长篇亚型量化和分析.基因组生物学2021;22：182.10.1186/s13059-021-02399-8。[PMC免费文章][公共医学] [交叉参考][谷歌学者]
Karaoglanoglu F、Chauve C、Hach F。。Genion，一种从长转录组学读数中检测基因融合的准确工具.BMC基因组学2022;23：129.10.1186/s12864-022-08339-5。[PMC免费文章][公共医学] [交叉参考][谷歌学者]
Kovaka S，Zimin AV，Pertea GM公司。等。与StringTie2长读RNA-seq比对的转录组组装.基因组生物学2019;20:278–13. 10.1186/s13059-019-1910-1。[PMC免费文章][公共医学] [交叉参考][谷歌学者]
李毅、王仕、毕晨。等。DeepSimulator1.5：一个更强大、更快、更轻的纳米孔测序模拟器.生物信息学2020;36:2578–80. 10.1093/bioinformatics/btz963。[PMC免费文章][公共医学] [交叉参考][谷歌学者]
Liu Q、Hu Y、Stucky A。等。LongGF：通过长阅读转录组测序快速准确检测基因融合的计算算法和软件工具.BMC基因组学2020;21:793–12. 10.1186/s12864-020-07207-4。[PMC免费文章][公共医学] [交叉参考][谷歌学者]
Mestre-Tomás J、Liu T、Pardo-Palacios F。等。SQANTI-SIM:lrRNA-seq基准的受控转录新颖性模拟器.生物Rxiv预印本：未经同行评审。[PMC免费文章][公共医学][谷歌学者]
Mölder F，Jablonski KP，Letcher B。等。使用Snakemake进行可持续数据分析.F1000分辨率2021;10：33.10.12688/f1000研究。29032.2。[PMC免费文章][公共医学] [交叉参考][谷歌学者]
Munro RJ、Payne A、Loose MW。。Icarust，牛津纳米孔自适应采样实时模拟器.生物Rxiv2023.05.16.540986，预印本：未经同行审查。[谷歌学者]
小野Y、滨田M、浅井K。。PBSIM3：用于所有类型PacBio和ONT长读取的模拟器.NAR Genom生物信息2022;4:. 1093/nargab/lqac092年10月10日。[PMC免费文章][公共医学] [交叉参考][谷歌学者]
奥拉比B、谢恩N、麦康吉B。等。Freddie：使用长阅读测序对转录组选择性剪接亚型进行非注释性检测和发现.核酸研究2023;51：e11.10.1093/nar/gkac1112。[PMC免费文章][公共医学] [交叉参考][谷歌学者]
Singh M、Al-Eryani G、Carswell S。等。高通量靶向长读单细胞测序揭示了淋巴细胞的克隆和转录景观.国家公社2019;10:3120–13. 10.1038/s41467-019-11049-4。[PMC免费文章][公共医学] [交叉参考][谷歌学者]
Tang AD、Soulette CM、van Baren MJ。等。慢性淋巴细胞白血病SF3B1突变的全长转录特征显示保留内含子下调.国家公社2020;11：1438.10.1038/s41467-020-15171-6。[PMC免费文章][公共医学] [交叉参考][谷歌学者]
Tian L、Jabbari JS、Thijssen R。等。人和小鼠单细胞全长亚型的长读测序综合表征.基因组生物学2021;22:310–24. 10.1186/s13059-021-02525-6。[PMC免费文章][公共医学] [交叉参考][谷歌学者]
右后Wick。Badread：模拟容易出错的长读取.JOSS公司2019;4：1316.10.21105/joss.01316。[交叉参考][谷歌学者]
Yang C、Chu J、Warren RL。等。NanoSim：基于统计特征的纳米孔序列读取模拟器.Giga科学2017;6:1–6.[PMC免费文章][公共医学][谷歌学者]
Yang C、Lo T、Nip KM。等。基于Meta-Nanosim的宏基因组纳米孔测序数据的表征与模拟.Giga科学2023;12：giad013。[PMC免费文章][公共医学][谷歌学者]
You Y，Prawer YD，De Paoli-Iseppi R。等。用BLAZE识别长读单细胞RNA-seq中的细胞条形码.基因组生物学2023;24:66.[PMC免费文章][公共医学][谷歌学者]

文章来自生物信息学由以下人员提供牛津大学出版社