摘要

越来越复杂的实验,再加上大规模的计算模型,有可能系统地测试生物假说,以推动我们对多细胞系统的理解。在这篇简短的综述中,我们探讨了实现健壮、可重复数据驱动的多细胞系统生物学必须克服的关键挑战。如果这些挑战能够得到解决,我们就可以超越目前孤立的工具和数据集的状态,发展成为由互操作数据、软件实用程序和计算建模平台组成的社区驱动的生态系统。我们可以取得进展,但需要社区(和财政)的承诺。

背景

在过去的十年中,我们在测量、注释、分析、理解甚至操纵单细胞的系统生物学方面取得了巨大进展。我们不仅可以在高通量下进行单细胞多组分测量(例如[1–3]),但我们可以操纵单个细胞(例如,通过CRISPR系统[4])我们可以通过DNA条形码等新技术追踪单细胞历史[5].

随着这些技术的成熟,出现了新的问题:单细胞特性如何影响多细胞系统?细胞如何沟通和协调?混合细胞类型的系统如何在组织中创建特定的时空和功能模式?多细胞生物如何应对单细胞突变和其他错误?相反,给定一组功能设计目标,我们如何操纵单细胞行为来实现我们的设计目标?这些问题是多细胞系统生物学的核心。当我们从理解转向设计多细胞行为时,我们到达了多细胞系统工程。

高通量的多重实验准备创建难以置信的高分辨率数据集,描述三维组织系统中许多细胞的分子和行为状态(例如[6]]). 计算模型(包括动态仿真模型和机器学习方法)有助于理解这些数据。

建模者将生物学家当前的一组假设“转化”为模拟规则,然后及时模拟系统。他们将这些结果与实验数据进行比较,以评估假设,并对其进行完善,直到模拟与实验相匹配[7,8]. 计算模型允许我们提出“假设”问题[9]. 如果我们在混合中添加新的细胞类型会怎么样?如果我们拼接了一条新的信号通路怎么办?我们的制度将如何改变?

机器学习和生物信息学补充了动态建模方法:可以挖掘大型数据集的分析,尤其是用专家选择的生物学和临床特征进行注释时,以发现单细胞状态和行为、多细胞组织和涌现功能之间的新关系。这反过来又可以推动仿真模型中的新假设。此外,机器学习可以提供对仿真数据的新颖分析,增加我们从中学习到的内容。

这些方法的例子主要表现为孤立的努力。大多数小组寻找自己的数据源(之前发布的数据和定制的实验),建立自己的模型,并进行自己的分析。大部分工作都使用内部创建的工具来处理数据集特别的,不可互操作的数据元素(参见图1). 因此,任何一个小组的工作基本上都与其他小组的工作不兼容,阻碍或完全阻碍了有价值数据和软件的复制研究和模块化重用。

目前,数据驱动的工作流基本上是并行的,具有定制的、不兼容的数据和工具。
图1:

目前,数据驱动的工作流基本上是并行的,具有定制的、不兼容的数据和工具。

它不一定是这样的。如果我们能够解决关键挑战,我们就可以超越单一实验室的努力,建立一个围绕兼容数据和软件构建的社区。多个实验实验室可以共同努力确定通用实验模型系统的特征,并将其数据记录在集中存储库中。通过共享“数据语言”,实验室可以合作构建更好的模拟、分析和可视化工具。多个计算实验室可以利用这些共享数据和工具建立模型,发现新的生物学见解,并将其反馈给社区(见图2).

如果社区能够克服关键挑战,一个由可互操作的计算建模、分析、配置、可视化和其他工具组成的生态系统可以在社区管理的数据上发挥作用,并聚合来自许多来源的见解。
图2:

如果社区能够克服关键挑战,一个由可互操作的计算建模、分析、配置、可视化和其他工具组成的生态系统可以在社区管理的数据上发挥作用,并聚合来自许多来源的见解。

在这篇综述中,我探讨了一些关键的挑战,这些挑战是我们在实现多细胞系统生物学互操作数据和工具生态系统的全部潜力之前需要克服的。

虽然这些挑战并没有按重要性或优先级排序,但它们从标准化数据表示和知识获取的具体挑战发展到我们可以使用标准化数据构建的社区资源。我们不需要依次应对这些挑战。开放研究社区的一大优势是,许多团体可以并行地取得进展,每个团体根据各自的技能、资源和兴趣做出贡献。

关键挑战

共享的多细胞数据标准

高通量实验产生的数据需要机器可读,并以具有生物意义的数据元素的互操作格式存储。我们需要超越原始图像和电子表格的共享驱动器,提取对构建模型和机器学习有用的生物数据元素。我们不仅需要存储平均单元数据,还需要存储多个时间点的多个单元的单单元状态。如果没有上下文,测量就失去了意义:数据必须与元数据一起存储,包括详细的细胞系和(分子)生长介质细节、生物物理培养条件、谁进行了测量、使用了什么仪器以及使用了什么软件工具进行分析。

当前进展

在应对这一挑战方面取得了长足进展。开放显微镜环境(OME)已成为一种具有广泛元数据的生物图像标准[10],这有助于提高科学仪器的互操作性。ISA-Tab格式[11]作为一个丰富的在线文件系统:起源和其他元数据与任何文件类型的原始数据捆绑在一起,允许对内容进行索引和搜索,而无需详细了解数据格式。这有助于创建异构数据的大型数据库(如GigaDB[12])由于支持多种数据类型,它支持简单的数据交换。

虽然这些格式有助于文件级的互操作性,但它们不会对提取的生物数据元素进行编码。Protocols.io旨在共享详细的实验协议[13]可在期刊出版物中引用,以帮助提高重复性和再现性。然而,协议是人类可读的检查表;他们不使用机器可读的生长因子和其他文化条件的受控词汇。

医学主题标题(MeSH)等本体论[14,15]细胞行为本体(CBO)可以注释许多生物学概念[16],但它们用作受控词汇表,而不是标准化的数据格式。

系统生物学标记语言(SBML)是单细胞系统生物学的公认标准[17]以及SBML-Dynamic等工作正在努力将SBML扩展到多细胞模型。计算生物学、实验生物学和数据科学领域的专家共同起草了多细胞数据标准MultiCellDS[18]. MultiCellDS具有从各种本体构建的单细胞表型的高度可扩展表示,如MeSH和CBO,可用于表示高度多元化的数据(例如[1])对于许多单元,以及元数据和微环境上下文。欧盟资助的MULTIMOT项目一直在开发一个社区驱动的细胞运动测量标准(MIACME:细胞迁移实验的最低信息)[19],具有相应的软件生态系统[20]可以与ISA-Tab和OME格式的数据交互。

未来

这些努力都没有完全解决这一挑战。最终,我们应该将它们组合并扩展为统一的数据格式。ISA-Tab可以捆绑图像数据(使用OME)和提取的生物特征(例如,使用MultiCellDS和MULTIMOT),同时使用Protocols.io生成的受控词汇存储实验协议细节[13].

我们必须确保元数据不仅注释实验协议,还注释数据提取协议:提取生物数据元素时使用了哪些算法,源代码在哪里永久存档?一些流行的数据科学软件(例如Docker和Jupyter笔记本)允许用户导出其计算管道,以促进这种再现性。最后,请注意,提取的生物数据元素不能代替原始数据:最终用户必须能够自由复制(并改进!)数据元素的提取,这就需要访问原始数据。

共享的多细胞观测表示

除了像细胞分裂率这样的定量测量之外,我们还需要一种机器可读的编码,用于对来自原始生物数据的定性观察和见解进行编码:当细胞处于状态时X(X),他们真的Y(Y).当单元格类型为X(X)Y(Y)他们倾向于通过接触进行互动Z轴.当细胞系X(X)看起来像Y(Y)在实验中,细胞培养基缺乏因子Z轴.

实验室和诊所里充斥着这样的硬知识的例子,但在我们能够系统地记录它们之前,这些见解将是孤立的、孤立的,并且注定要一个实验室一个实验室地重新学习。如果我们能够始终如一地记录定性观察结果,我们可以从单细胞测量发展到多细胞系统理解,包括关键细胞间相互作用的注释。

在我们能够用机器可读的注释指定“正确”的模型行为之前,我们的模拟研究将以人类查看模拟并评估其是否“真实”为速度限制。我们如何广义地说,模拟肿瘤保持致密或具有侵袭性?我们如何知道模拟的发展过程是否有“正确”的分支量?这对模拟图像意味着什么X(X)“看起来像”实验图像Y(Y)假设模拟和实验都是随机过程的单一实例?如果我们不能记录模拟和实验的定性行为,我们就不能自动化过程来进行比较。

当前进展

在这一挑战方面取得的进展有限。国会预算办公室[16]为观察到的细胞行为开发了良好的起始词汇。SBML的扩展[17]也可能代表一些多细胞和多尺度的观测结果。量身定制的图像处理已应用于个别调查,以提取(通常是定量的)表征,尽管到目前为止,我们很少看到(如果有的话)由系统图像分析生成的定性描述符。

在用自动提取的系统发育树和其他数据可视化(如Muller图)表示多细胞种群中的系统发育关系方面取得了更大的进展(例如[21–23]). 这些技术检查大型多组学数据集(例如,小型条件RNA测序数据[24])用有向图数据结构拟合和表示单元类型(或类)之间的谱系关系。

未来

这一领域适合机器学习:给定一组定性描述符,如“紧凑”与“侵入性”、“混合”与“分离”、“增长”与“收缩”或“稳定”,神经网络可以训练为实验和模拟数据的人类分类。高通量多细胞模拟器(例如[7])可以以标准化格式创建大量训练数据,并提供明确的事实。机器视觉还可以用于分析多细胞数据的时间序列。这些注释可以产生一些指标,帮助我们系统地比较一个仿真与另一个仿真的行为,或者确定哪个仿真(在数百或数千个仿真中)的行为最像实验。

图形结构也可以用于表示和可视化多细胞群体中的细胞间相互作用[18]类似于系统发育树(例如[22,23])化学反应网络(例如[25,26])、基因网络图(例如[27]),以及基于代理的模型规则的新兴数据格式(例如,在Morpheus中[28]).

计算工具中的标准支持

为了使数据标准真正有用,它们必须得到各种互操作工具的广泛支持。

当前进展

单细胞系统生物学已经显示出稳定数据标准的支持作用[29]:一旦SBML成为一种稳定的数据语言,就出现了一个丰富且不断增长的数据兼容模拟和分析软件生态系统。多细胞系统生物学尚未达到这一点:大多数计算模型都有自定义的配置和输出格式,有时还带有自定义的SBML扩展来表示单细胞系统生物学[18].

未来

如果出现多细胞数据标准,关键的开源项目[29]可以在其软件中实现读写支持,可以是“本机”(即在运行时)或作为数据转换器。黑客马拉松或类似的研讨会可以促进这项工作。本体学家需要提供用户友好的数据绑定来简化这些开发工作。如果标准要得到更广泛的支持,而不仅仅是主要的开源软件包,我们必须记住,大多数科学软件都是在很少接受正式软件工程培训的情况下创建的;数据绑定必须有良好的文档记录,具有简单的语法,并且需要最少的安装工作量。

用于配置模型和浏览数据的共享工具

仅仅在单个工具中读写数据是不够的。我们必须扭转当前的“锁定”效应:由于多细胞建模软件很难学习,用户(通常是整个实验室)将培训重点放在单一建模方法上。正因为如此,即使研究的源代码和数据是公开的,复制研究也很少。

为了解决这个问题,我们需要用户友好的工具来导入和设置生物和生物物理参数,设计虚拟几何体,编写初始化许多建模框架的标准化配置文件。用户可以在多个软件包中运行模型,复制其他人的工作,并避免可能会使其结论产生偏差的软件特定工件。

用于读取、分析、比较和可视化多个建模包的输出的共享软件可以减少新软件的学习曲线。如果共享数据探索和分析工具是以包含分段实验数据的通用格式编写的,那么它们也可以用于探索实验数据,生成和注释新的观察结果,以及激发新的模型假设[30].

当前进展

如果没有通用的多细胞模拟数据格式,开发用于配置、运行和可视化多细胞模拟的共享工具的机会就很小。一些单独的模拟软件包,如Morpheus[28]和CompuCell3D[31]具有用户友好的图形模型编辑器,但它们目前仅限于各自的用户社区,与其他仿真软件包不兼容[29]. 商业支持的开源软件,如Kitware的ParaView[32]通常用于可视化多细胞模拟数据,但只能通过编写定制的模拟导向数据导入程序。ParaView通常不用于可视化生物数据。

云主机工具提供了一种与广泛的多学科受众共享复杂工具的方法,而无需下载和编译工具。例如,国家癌症研究所(NCI)引入了NCI云资源,作为NCI癌症研究数据共享空间的一部分[33]. 复杂的仿真模型也可以作为web应用程序共享:PhysiCell开发团队最近创建了xml2jupyter[34]为基于PhysiCell的多细胞模拟自动创建基于Jupyter的GUI,然后可以在nanoHUB等平台上进行云托管[35].

为解决再现性方面的相关问题而出现的其他模型和数据共享范式也可能鼓励重用,例如使用Binder捆绑数据和软件[36]或Giga科学最近与CodeOcean合作,将文件与云主机可执行平台配对[37]. 然而,这些工作流程通常是单一用途的工作流程(专门针对单个论文的特定数据分析),并不是为了在新的研究工作流程中进行模块化重用而设计的。它们往往缺乏标准化的数据格式来促进与其他工具的连接,延迟问题将对它们在高吞吐量工作流中的使用提出挑战。此外,请注意,虽然云托管的可执行代码提高了可访问性和可用性,但它们决不能取代(或规避)共享源代码以实现完全的再现性。

未来

如果没有稳定的多细胞输入输出数据标准,就很难在这一挑战上取得进展。然而,使用当前的标准草案可以取得进展,例如MultiCellDS[18]. ParaView可以使用自定义插件来支持新兴的多细胞数据标准。如果像Morpheus这样的项目实施了标准,他们的图形模型编辑器将成为宝贵的社区资源。

黑客马拉松可以帮助快速建立新工具的原型(特别是如果它们与基准数据集相结合),但它们必须致力于创建文档完善、工程化的长期维护软件。我们可能需要新的资助模式来支持小型开源团队。这些资助模式的形式尚不完全清楚。黑客马拉松和类似形式的重点小团队合作可能会通过现有的联邦和慈善机构会议和旅行补助金进行赞助。众包可能为一些重点社区工具的开发和维护提供资金。资助组织也有创造空间,可以获得较小的赠款,加快社区工具构建工作的审查周期。

最后,NCI Data Commons等共享代码平台可以提供一个环境,将数据和工具连接到在线、易于使用的工作流中,鼓励科学家将数据软件组件“混合和匹配”到独特的研究中。然而,重要的是要避免阻止数据和工具从一个平台移动到另一个平台的“锁定”效应。此外,随着工作流(在不同的平台上)加入更多的web服务,它们可能会容易受到技术故障、业务故障或恶意攻击。开源软件通过镜像软件存储库在很大程度上解决了这些问题。Web服务可能需要类似的镜像,开放科学规范需要鼓励Web平台的源代码共享和数据/工具可移植性,就像离线代码一样。

高质量、多尺度基准数据集

一旦我们有了标准化的数据格式和支持它们的兼容软件生态系统,我们就需要高质量的数据集来推动计算模型的开发。理想的数据集将充分解析3D组织中的单细胞形态和多组分状态,以及微环境背景(例如,氧气的空间分布)。

为了捕捉细胞的行为状态,我们需要标准的免疫组化小组来捕捉细胞表型的多个维度:周期状态、代谢、死亡、运动(包括前沿标记)、粘附性、细胞力学、极化等。我们需要使用大规模多路复用技术,在多个时间点的多个单元中同时捕获这些细节。

这些数据集将用于制定模型假设和假设(通过使用标准化工具进行数据探索)、培训模型并对其进行评估。此外,随着社区开发新的计算模型,可以根据基准数据集对其进行评估。基准数据集是特定领域的:发育生物学、无血管和血管肿瘤生长、自身免疫性疾病和其他问题需要单独的数据集。重要的是,使用开放数据许可证可以轻松访问这些数据集,以促进尽可能广泛的使用。遵循FAIR(可查找性、可访问性、互操作性和可重用性)数据原则是理想的[38].

当前进展

癌症生物学在这一挑战上取得了最大的进展,NIH资助的癌症基因组图谱拥有许多基因组、显微镜和其他大型数据集[39]. 通常,这些数据由单个时间的多个样本组成,而不是时间进程数据。高度多路复用的多细胞数据通常不可用。DREAM挑战汇集了高质量数据集,以推动模型开发(通过竞争)[40],但这些通常不能满足上述多重时间序列理想。私人基金会正在使用尖端的显微镜来创建高质量的在线数据集(例如,Allen Cell Explorer项目[41]和人类生物分子地图集项目[6]).

高度复用测量技术正在稳步改进:基于CyTOF的免疫组织化学(例如[1])可以在单个载玻片上以1-2μm或更高分辨率染色30-50个免疫标记物。没有标准化的小组来捕捉上述表型行为的范围。社交媒体讨论(例如[42])有助于推动社区就困难的表型参数展开对话,但对于“金标准”免疫染色小组尚未达成明确共识。

未来

顶尖生物学家的研讨会应该组成分子标记的“梦想小组”。技术专家联盟需要在实验工作流中可靠地实现这些多参数面板[1]. 需要由生物信息学家、数据科学家和建模师组成的研讨会,将这些原始数据“转换”为用于模型的标准化数据集。所有这些都需要联邦或慈善基金,以及多个实验室的捐款。社交媒体在公众集思广益、传播资源和招募新贡献者方面具有巨大潜力。黑客马拉松可以帮助推动将原始图像数据“转换”为标准化数据集,同时开发自动化该过程的工具。

社区管理公共数据库

我们需要“公共数据库”来存储和共享高质量、标准化的数据[43,30]. 数据不应是静态的:社区应不断更新数据以反映科学进步,并通过社区管理确保数据质量。公共图书馆不仅必须存储原始图像数据和提取的生物参数,还必须存储定性观察结果和人类见解。公共图书馆应在出版的多个阶段保存数据:初步数据(可能永久存档,也可能永久存档)、正在建设的数据集(即实验正在进行)、与预印本或正在审查的论文相关的数据,以及与已出版作品相关的数据。公共数据库应支持(如果不鼓励)版本化的发布后改进,特别是对于来自异构原始数据(如数字细胞系)的二次分析或管理的数据集[18]. 最后,公共数据库需要通过使用许可证(例如,Creative Commons CC0或CC-by)真正公开,以鼓励新的衍生作品,以及聚合到更大的数据集。

当前进展

存在着众多的数据门户,并且正在出现更多的数据门户。许多是专门为特定社区构建的,如癌症基因组图谱[39]. 图像数据资源[44]最近推出,以便于使用OME数据格式共享生物图像[10],进一步展示了标准化数据如何促进共享工具和资源的创建。其他如GigaDB[12]和DRYAD[45]允许用户发布具有唯一DOI的独立数据集,以促进数据重用和归属。这些存储库是免费访问的,因此增加了托管数据的范围和影响,但数据贡献者必须在发布数据时付费。费用通常包括编辑和技术援助,同时确保长期的数据可用性。

即使在单个数据托管存储库中,单个数据集在很大程度上是断开的,并且在ISA-Tab兼容性之外互不可操作。因此,单个托管数据集和研究通常不会进行桥接和重组。此外,数据集在发布后通常是静态的,而不是主动管理和更新的。BioNumbers长期以来一直是用户控制的生物参数的可搜索资源[46]但它缺乏统一的数据模型。MultiCellDS项目提出了“数字细胞系”,它将来自多个来源的单个细胞类型的测量结果聚合在一起[18]. 数字细胞系旨在由社区不断更新和管理,以便随着技术的进步,低质量的测量可以被更好的测量所取代。然而,这项工作目前是手动的,没有一个单一的、易于搜索的试点数据存储库。

当前数据托管模式的一个不幸后果是,所有负担都落在数据捐赠者身上:他们生成数据、将其格式化为标准、汇编数据、记录数据、上传数据,然后支付托管和科学出版费用。这是“公地悲剧”的经典案例:很容易从共享资源中获益,但贡献成本由贡献者承担。大多数存储库都对低收入国家的科学家免收费用,但小型和资金不足的实验室和公民科学家仍处于劣势。

DRYAD等非营利性组织在创建可持续的数据托管资源方面取得了长足进步;目前(截至2019年),一旦馆长接受数据并公开可用,则每个数据集一次性收费120美元[45]. 与实验实验室和资金充足的实验室的数据生成成本相比,这是一笔很小的费用。在二次分析或模拟生成独立于赠款资金的新数据集的情况下,这些成本可能会更加困难,尤其是在与开放存取出版费用相结合的情况下。

未来

我们需要开发更统一、可扩展的存储库,这些存储库可以桥接领域并收集我们的知识。存储库应该建立索引,并对社区进行管理,以鼓励在可能的情况下不断完善。虽然在创建财务上可持续的永久数据托管方面取得了很大进展,但仍有空间探索独立于特定赠款资金的数据生成的替代资金。此外,这些面向存档的数据存储如果要从数据存储扩展到库,仍然需要管理和索引。

这一挑战的解决方案很可能来自生物信息学社区之外。图书馆科学家在收集和管理统一物理图书馆中跨学科知识方面拥有长期的专业知识:这一专业知识无疑将有助于创建公共数据图书馆的任何努力。维基百科的巨大成功[47]在Wikimedia Commons上托管自己的图像和视频资源[48]-出资人无需付出任何代价,这将是一个很好的模式。生物Rxiv[49]尽管实验数据托管成本远高于手稿托管成本,但作者在免费托管预印本方面也取得了类似的成功。这两者都依赖于通过适当的非营利机构提供的公共捐款、联邦支持和慈善事业。

我们注意到,公共数据库可能成为其自身成功的受害者:随着公共存储库的激增,查找信息将变得越来越困难,贡献者社区可能变得支离破碎。反过来,这将使得难以招聘数据管理员来维持资源的质量。因此,社区可能需要就哪些库作为哪类数据的标准存储库达成共识。此外,可能需要统一的搜索引擎和索引来帮助统一现有和新数据库中的知识。

最后,为了确保稳健性和可持续性,我们需要鼓励具有全球搜索能力的数据镜像,并提倡一种重视并恰当引用共享知识的所有贡献的文化:数据生成、数据分析和数据管理。虽然徽章有帮助[50,51]我们必须确保数据用户能够在论文中轻松引用所有这些贡献,影响指标反映贡献的广度,任期和其他职业过程真正重视对社区知识资源的所有贡献。

质量和管理标准

社区管理的公共图书馆面临着新的问题:我们如何始终如一地决定哪些数据值得保存?我们如何确定新的测量结果是否优于旧的测量结果?我们如何监控质量?我们能在先前贡献的基础上自动信任一个实验室的数据贡献吗?谁来做这些决定?

当前进展

除了不确定性量化之外,几乎没有。

未来

这一挑战既是技术挑战,也是文化挑战。我们需要举办由顶尖生物学家组成的研讨会,以确定评估不同测量类型的社区价值和标准。社区需要确定是否可以设计黄金标准来比较测量值。

将数据链接到模型

我们需要将数据连接到计算模型。数据建模师应该帮助设计实验,以确定构建有用模型所需的变量。我们需要确定如何将生物测量“映射”到模型参数。

当前进展

目前正在逐项研究的基础上应对这一挑战。各个团队设计实验,设计自己的模型校准方法,制定模型评估指标,并创建自己的工具来分析和比较实验和仿真数据。

未来

这一挑战既是技术挑战也是文化挑战。数学家、生物学家、数据科学家和其他人需要共同努力,以确定固有随机模拟模型与实验匹配的意义。在创建标准化数据元素和注释多细胞系统行为方面的任何进展都将有助于创建用于比较实验模型和计算模型的指标。一旦提取了标准化的生物参数来创建基准数据集,机器学习就可以帮助推动从提取的生物参数到计算模型输入的更系统的映射。

结论

数据驱动的多细胞系统生物学和工程的时机已经成熟。技术进步使得创建高分辨率、高度多元化的多细胞数据集成为可能。计算建模平台——包括仿真和机器学习方法——已经有了很大的进步,并且它们越来越可以作为开放源代码使用[29,52]. 超级计算资源正在增强这些计算模型的威力[7,8],而云资源使所有人都可以访问它们[34,35].

如果我们能够解决这些关键挑战,我们将把大型多细胞数据集与计算技术联系起来,以加速我们对生物系统的理解。随着我们朝着这一更广泛的愿景迈进,在应对任何挑战方面取得稳步、渐进的进展都会使社区受益。

其中一些挑战主要是技术性的,例如创建数据标准。另一些则更具文化性,例如塑造数据管理的社区价值观。所有这些挑战都需要社区投资:开发和共享兼容的工具和数据、托管数据、管理公共数据库,并最终为这些有价值的工作提供资金。许多团体已经在为这一难题贡献力量,但往往没有多少资金支持。未来,我们必须减少创造社区商品的个人负担。我们可能需要更新、更快速的资助模式来帮助支持和强化新的软件工具,从小型但简单的提案扩展到当前的大型软件授权机制(往往具有较低的资助率)。我们可能需要资助软件实验室,而不是软件项目,以鼓励快速响应新兴社区的需求。

我们正处于加速、数据驱动的生物学发现的尖端,该发现涉及细胞如何协同工作、它们如何构建物体,以及这种断裂如何导致疾病。如果你正在努力解决这些挑战中的任何一个(或者如果你有新的挑战要提出!),请考虑在这里分享你的进步。

缩写

CBO:细胞行为本体;CC0:知识共享公共领域许可证;CC-BY:Creative Commons归属许可证;CRISPR:簇状规则间隔的短回文重复;CyTOF:飞行时间的细胞术;DOI:数字对象标识符;梦想:逆向工程评估与方法对话;公平:可查找性、可访问性、互操作性和可重用性;GUI:图形用户界面;ISA-Tab:调查-研究-分析表格格式;MeSH:医学主题标题;NCI:国家癌症研究所;NIH:美国国立卫生研究院;OME:开放显微镜环境;PI:主要研究者;SBML:系统生物学标记语言。

竞争性利益

提交人声明,他没有相互竞争的利益。

基金

P.M.为多细胞系统生物学开发计算工具和数据标准的工作得到了乳腺癌研究基金会(PIs Agus、Ewald、Gilkes和Macklin)、Jayne Koskinas Ted Giovanis健康与政策基金会(PI s Ewald,Gilkes和Mackline)、国家科学基金会(PI Fox,1720625)、,和国家癌症研究所(PIs Finley、Macklin和Mumenthaler,U01-CA232137-01;PIs Agus、Atala和Soker,1R01CA180149;PI Hillis,5U54CA143907)。

作者信息

PM在计算多细胞系统生物学领域工作超过10年,专注于癌症生物学和组织工程。他为该领域编写了多个开源工具,包括BioFVM(生化细胞间通信的多基质扩散求解器)[53]、PhysiCell(基于3D代理的建模工具包)[54]和MultiCellDS(多细胞数据标准草案)[18]. 他是印第安纳大学智能系统工程副教授。

致谢

下午好,感谢Nicole Nogoy和Giga科学希望有机会撰写这篇评论,并获得编辑支持。下午好,感谢审稿人和预印本读者的宝贵意见和反馈。

工具书类

1

莱文森
马来西亚令吉
,
博罗夫斯基
AD公司
,
安吉洛
M(M)
.
免疫组织化学和质谱技术在高倍数细胞分子成像中的应用
.
实验室投资
.
2015
95
(
4
):
397
405
.

2

基姆
M(M)
,
Rai公司
N个
,
佐拉基诺
,等。
多麦克风集成可准确预测未探索条件下的细胞状态大肠杆菌
.
国家公社
.
2016
7
:
13090
.

三。

诺里斯
JL公司
,
法罗
妈妈
,
古铁雷斯
数据库
,等。
集成、高通量、多组学平台支持数据驱动的细胞反应构建,并揭示全球药物作用机制
.
蛋白组学研究杂志
.
2017
16
(
):
1364
75
.

4

即兴语
M(M)
.
用于基因组编辑及其他方面的CRISPR工具包
.
国家公社
.
2018
9
(
1
):
1
13
.

5

布伦德尔
年少者
,
征收
平方英尺
.
超越基因组测序:用条形码追踪世系,研究进化、感染和癌症的动态
.
基因组学
.
2014
104
(
6,第A部分
):
417
30
.

6

(

2019
)细胞分辨率下的人体:NIH人类生物分子地图集项目。自然
574
,
187
192
.31597973

7

奥齐克
J型
,
科利尔
N个
,
沃兹尼亚克
J型
,等。
使用集成PhysiCell-EMEWS工作流进行高通量癌症假设测试
.
BMC生物信息学
.
2018
19
(
补充18
):
483
.

8

奥齐克
J型
,
科利尔
N个
,
海兰德
R(右)
,等。
学习加速免疫与肿瘤相互作用的发现
.
分子系统设计工程
.
2019
4
:
747
60
.

9

马克林
P(P)
.
眼见为实:数学如何指导我们对测量和实验的解释
.
细胞系统
.
2017
5
(
2
):
92
4
.

10

戈德伯格
IG公司
,
艾伦
C类
,
比雷尔
吉咪
,等人。
开放显微镜环境(OME)数据模型和XML文件:生物成像信息学和定量分析的开放工具
.
基因组生物学
.
2005
6
(
5
):
47兰特
.

11

罗卡·塞拉
P(P)
,
Brandizi公司
M(M)
,
马圭尔
电子
,等。
ISA软件套件:支持符合标准的实验注释并支持社区级别的管理
.
生物信息学
.
2010
26
(
18
):
2354
6
.

12

GigaDB网站
.http://gigadb.org.
2019年10月14日查阅。

13

泰特尔曼
L(左)
,
斯托利亚特丘克
一个
,
点燃器
L(左)
,等。
Protocols.io:用于协议开发和讨论的虚拟社区
.
公共科学图书馆生物
.
2016
14
(
8
):
e1002538号
.

14

罗杰斯
FB公司
.
与编辑沟通
.
公牛医疗自由协会
.
1963
51
(
1
):
114
6
.

15

Lipscomb公司
总工程师
.
医学主题标题(MeSH)
.
公牛医疗自由协会
.
2000
88
(
):
265
6
.

16

斯卢卡
日本
,
希里尼法德
一个
,
重拍
M(M)
,等人。
细胞行为本体:描述作为活性因子的真实细胞和模型细胞的固有生物行为
.
生物信息学
.
2014
30
(
16
):
2367
74
.

17

哈卡
M(M)
,
芬尼
一个
,
绍罗
HM公司
,等。
系统生物学标记语言(SBML):生化网络模型的表示和交换媒介
.
生物信息学
.
2003
19
(
4
):
524
31
.

18

弗里德曼
上海
,
安德森
ARA公司
,
波茨
DM公司
,等。
MultiCellDS:社区开发的管理微环境相关多细胞数据的标准
.
生物Rxiv
.
2016
:
090456
。2019年10月14日查阅。

19

Gonzalez-Beltran AN、Masuzzo P等人。开放细胞迁移数据的社区标准。生物Rxiv。https://doi.org/10.101/1803064

20

马苏佐
P(P)
,
马滕斯
L(左)
.
用于细胞迁移研究的开放数据生态系统
.
趋势细胞生物
.
2015
25
(
2
):
55
8
.

21

P(P)
,
西蒙兹
EF公司
,
本德尔
联合国安全理事会
,等。
用SPADE从高维细胞术数据中提取细胞层次
.
Nat生物技术
.
2011
29
(
10
):
886
91
.

22

希克斯
DG公司
,
速度
TP(转移定价)
,
亚辛
M(M)
,等。
细胞谱系树变异图
.
公共科学图书馆计算生物学
.
2019
15
(
2
):
电子006745
.

23

盖滕比
光盘
,
申克
反渗透
,
布拉沃河
R(右)
,等。
EvoFreq:序列和模型数据进化频率的可视化
.
生物Rxiv
.
2019
,doi:.

24

萨蒂贾
R(右)
,
法雷尔
青年成就组织
,
Gennert公司
D类
,等。
单细胞基因表达的空间重构
.
国家生物技术公司
.
2015
33
(
5
):
495
502
.

25

布利诺夫
毫升
,
J型
,
费德
年少者
,等。
基于规则的生化网络建模的图论
。输入:
普里亚米
C类
,
Ingólfsdóttir公司
一个
,
米什拉
B类
等。,等。
,编辑。
柏林第七届计算系统生物学汇刊
.
柏林,海德堡
:
施普林格
2006
:
89
106
.

26

兰布什
F类
,
沃尔特玛
D类
,
沃尔肯豪尔
O(运行)
,等。
识别生化反应网络中的频繁模式:工作流程
.
数据库(牛津)
.
2018
2018
,doi:.

27

M(M)
,
,
D类
,等。
GeNeCK:用于基因网络构建和可视化的web服务器
.
BMC生物信息学
.
2019
20
(
1
):
12
.

28

斯塔鲁
J型
,
de后退
W公司
,
布鲁施
L(左)
,等。
Morpheus:一个用户友好的多尺度和多细胞系统生物学建模环境
.
生物信息学
.
2014
30
(
9
):
1331
2
.

29

马克林
P(P)
,
弗里德曼
上海
,
MultiCell DS项目
.
癌症系统生物学中的开源工具和标准化数据
.
生物Rxiv
.
2018
,doi:.

30

扎里茨基
一个
.
共享和重用细胞图像数据
.
分子生物学细胞
.
2018
29
(
11
):
1274
80
.

31

重拍
MH公司
,
托马斯
德国劳埃德船级社
,
贝尔蒙特
吉咪
,等人。
使用CompuCell3D进行组织的多尺度建模
.
方法细胞生物学
.
2012
110
:
325
66
.

32

工具包
.
ParaView网站
.https://www.paraview.org网站/.
2019年10月14日查阅。

34

海兰德
R(右)
,
米什勒
D类
,
T型
,等。
xml2jupyter:在XML和Jupyter小部件之间映射参数
.
J开源软件
.
2019
4
(
39
):
1408
.

35

马达文
K(K)
,
Zentner公司
L(左)
,
范斯沃思
,等。
nanoHUB.org:基于云的服务,用于纳米级建模、仿真和教育
.
纳米技术版次
.
2013
2
(
1
):
107
17
.

37

数据密集型软件发布与代码海洋航行。罗瑞邦问答
.http://gigasciencejournal.com/blog/data-intensive-software-publishing-sailing-the-code-ocean-qa-with-ruibang-luo/.
2019年9月26日访问
.

38

威尔金森
医学博士
,
迪蒙捷
M(M)
,
阿尔伯斯堡
IJ公司
,等。
科学数据管理和管理的公平指导原则
.
科学数据
.
2016
:
160018
.

39

癌症基因组图谱
.https://cancergenome.nih.gov网站/.
2019年10月14日访问
.

40

梦想挑战项目网站
.http://dreamchallenges.org/.
2019年10月14日访问
.

41

艾伦研究所。艾伦细胞探索者项目
.http://www.allencell.org/cell-catalog.html.
访问日期:2019年10月14日
.

42

@MAG2ART、@MathCancer、@Alexis_Lomakin、@Kidney肌球蛋白。推特上关于细胞运动免疫染色的讨论
.https://twitter.com/MAG2ART/status/940942042074384384.
2019年10月14日访问
.

43

埃伦伯格
J型
,
斯威德洛
年少者
,
巴洛
M(M)
,等。
呼吁建立生物图像数据公共档案
.
Nat方法
.
2018
15
(
11
):
849
54
.

44

威廉姆斯
电子
,
摩尔
J型
,
软件
,等。
图像数据资源:生物图像数据集成与发布平台
.
Nat方法
.
2017
14
:
775
81
.

45

DRYAD数字仓库
.https://datadryad.org/.
2019年10月14日访问
.

46

米洛
R(右)
,
约根森
P(P)
,
莫兰
U型
,等人。
BioNumbers–分子和细胞生物学中关键数字的数据库
.
核酸研究
.
2010
38
(
补充1
):
D750型
.

47

维基百科
.https://wikipedia.org.
2019年10月14日访问
.

48

维基媒体共享
.https://www.wikimedia.org/.
2019年10月14日访问
.

49

bioRxiv:生物预打印服务器
.https://biorxiv.org.
2019年10月14日访问
.

50

基德威尔
国会议员
,
拉扎列维奇
LB(磅)
,
巴兰斯基
电子
,等。
认可公开做法的徽章:提高透明度的简单、低成本、有效方法
.
公共科学图书馆生物
.
2016
14
(
5
),doi:.

51

罗哈尼·弗雷德
一个
,
艾伦
M(M)
,
巴奈特
AG公司
.
是什么激励因素促进了健康和医学研究中的数据共享?系统回顾
.
Res Integr对等版本
.
2017
2
(
1
):
4
.

52

,

马克林
P(P)
,
冰箱
HB公司
,
火花
JL公司
,
施普林格
,,
肿瘤微环境系统生物学。实验医学与生物学进展
,
第十二章
等。
计算三维多细胞系统生物学研究进展
.
2016
936
:
225
46
.,
K(K)
雷尼亚克
.

53

加法里扎德
一个
,
弗里德曼
上海
,
马克林
P(P)
.
BioFVM:用于三维生物模拟的高效并行扩散传输求解器
.
生物信息学
.
2016
32
(
8
):
1256
8
.

54

加法里扎德
一个
,
海兰德
R(右)
,
弗里德曼
上海
,等人。
PhysiCell:一个用于三维多细胞系统的基于物理的开源细胞模拟器
.
公共科学图书馆计算生物学
.
2018
14
(
2
):
电子1005991
.

这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/4.0/)它允许在任何介质中不受限制地重用、分发和复制原始作品,前提是正确引用了原始作品。