Towards a clinically-based common coordinate framework for the human gut cell atlas: the gut models

Burger, Albert; Baldock, Richard A.; Adams, David J.; Din, Shahida; Papatheodorou, Irene; Glinka, Michael; Hill, Bill; Houghton, Derek; Sharghi, Mehran; Wicks, Michael; Arends, Mark J.

doi:10.1186/s12911-023-02111-9

研究文章
开放式访问
出版：2023年2月15日

人类肠道细胞图谱的临床通用坐标框架：肠道模型

BMC医学信息学及决定 体积 23，物品编号：36(2023)引用这篇文章

2213访问
4引文
4海拔高度
韵律学细节

摘要

背景

人类细胞地图集资源将提供根据大体解剖、组织位置和细胞组织学图像进行空间组织的单细胞转录组数据。这将使生物信息学分析、机器学习和数据挖掘的应用能够揭示与疾病相关的细胞类型、子类型、不同状态和最终细胞变化的图谱。为了进一步加深对特定病理和组织病理表型及其空间关系和依赖性的理解，需要一个更复杂的空间描述框架，以实现空间术语的整合和分析。

方法

我们描述了肠道细胞图谱（小肠和大肠）的概念坐标模型。这里，我们重点介绍了肠道线性模型（基于肠道中心线的一维表示），该模型表示了临床医生和病理学家在描述肠道位置时通常使用的位置语义。该知识表示基于一组标准化的肠道解剖本体术语，这些术语描述了原位区域，如回肠或横结肠，以及地标，如回盲瓣或肝曲，以及相对或绝对距离测量。我们展示了如何将1D模型中的位置映射到2D模型和3D模型中的点和区域以及从这些点和区域映射出来，例如患者的CT扫描，其中肠道已被分割。

结果

这项工作的输出包括人体肠道的1D、2D和3D模型，通过可公开访问的Json和图像文件交付。我们还使用演示工具演示了模型之间的映射，该工具允许用户探索肠道的解剖空间。所有数据和软件都是完全开源的，可以在线使用。

结论

小肠和大肠有一个天然的“肠道坐标”系统，最好用穿过肠道的1D中心线表示，反映了功能上的差异。这样一个带有地标的1D中心线模型，使用查看器软件可视化，可以互操作地转换为二维解剖模型和多个肠道三维模型。这允许用户准确定位样本以进行数据比较。

同行评审报告

背景

在简短的序言部分介绍人类细胞地图集之后，本背景部分的主要目的是向读者提供我们工作的生物医学背景。具体来说，我们首先简要介绍（1）人体肠道解剖，我们模型的重点，（2）炎症性肠病，（3）支持我们模型本质的临床研究，以及（4）单细胞RNA测序技术，这是推动生物医学地图集工作深入到细胞水平的主要发展。在此基础上，我们阐述了所谓共同坐标框架的一般情况和我们工作的具体目标。

人体细胞图谱简介

人类细胞图谱（HCA）计划的任务[1]是“创建所有人类细胞的综合参考图，这些细胞是生命的基本单位，是了解人类健康以及诊断、监测和治疗疾病的基础”[2]. 人体是组织成组织、器官和系统的细胞的复杂融合，可以在健康和疾病状态下进行研究。在最基本的细胞水平上研究复杂生物体的能力产生了大量的分子数据，需要合适的数据捕获和建模平台来支持数据的解释。可视化和映射细胞到组织以及组织到器官数据的能力将使我们能够在未来更全面地了解与健康和病理状况相关的变化。

人体肠道解剖

胃肠道可以表示为一根从食道穿过胃、小肠、大肠到肛管的长圆柱形管，最后到达肛门。肠道的主要功能是通过排泄废物来消化和吸收营养物质。它在内分泌、免疫和屏障功能方面也具有重要作用，能够微妙地平衡与微生物的共生关系，并支持上皮组织的持续更新。在这里，我们重点关注小肠和大肠，从胃十二指肠连接处到肛门。这些肠道成分具有国际标准化的肠道解剖本体术语，描述了各种区域，如小肠的十二指肠、空肠和回肠，以及大肠的盲肠、升结肠、横结肠、降结肠、乙状结肠、直肠和肛管。这些组成区域之间的许多但不是全部连接被既定的标志物隔开，例如回肠-盲肠瓣膜、肝曲、脾曲和肛门直肠连接。这些带有地标的肠道区域，连同公认的平均长度测量值，可用于生成肠道的一维地图或模型，从而更准确地定位正常或疾病样本。

炎症性肠病

准确绘制肠道内的疾病位置对于炎症性肠病（IBD）很重要。这些是胃肠道慢性炎症，在世界范围内发病率不断增加[三]. 潜在的炎症被认为是继发于微生物组、激活的免疫系统和遗传易感个体的粘膜屏障功能障碍之间的相互作用。发病率的增加与西化饮食和超加工食品的采用有关[4,5]以及质子泵抑制剂等药物[6,7]. IBD有两种主要类型：溃疡性结肠炎和克罗恩病（CD）。溃疡性结肠炎影响大肠，通常始于直肠并向近端发展，导致腹痛和肠功能改变。克罗恩病是一种从口腔到肛门影响胃肠道任何部分的较为复杂的疾病，其独特的疾病表现与受影响肠道的特定区域有关[8].

临床研究

IBD通过标准方法进行诊断，包括临床评估、放射学、内窥镜和组织学评估。Lennard–Jones标准被认为是确认克罗恩病诊断的金标准[9]. 内窥镜检查经常用于获取组织样本，并对其进行分析，以确认间断性透壁炎症的病理学改变，通常伴有深溃疡和纤维化的裂隙模式[10]. 除了破裂性溃疡外，约60%的CD病例中还存在急性和慢性炎症，伴有局灶性隐睾炎、隐窝破坏和肉芽肿形成。长期的炎症可能容易导致异型增生，有些异型增生可能演变为侵袭性腺癌。一些患者可能会出现纤维化组织，导致受影响的肠道变窄或狭窄，从而导致肠梗阻。随后，虽然对纤维化的机制了解甚少，而且其他治疗策略也不太有效，但纤维化组织可以通过手术切除[11].

在三维模型中准确地将这些变化映射到正确的位置以说明胃肠道内的分布是一个挑战。如果患者接受了手术，并且有相关的放射成像，那么可以合理地直接确定位置。在内窥镜手术（和许多外科手术）期间，内窥镜医生（或外科医生或病理学家）通常描述病变涉及的小肠或大肠区域（例如回肠、升结肠等），有时使用内窥镜表面的距离标记提供与肛门的距离（以厘米为单位）（见图1)或者对于手术切除标本，是指病变与标志物（如回肠-盲肠瓣或标本的切除边缘）之间的距离。需要对临床实践进行一些更改以获取这些数据常规地距离可识别的肠道标志物的距离。

单细胞RNA序列数据分析

单细胞测序是分析大量单个细胞转录组的强大技术（参见[12,13]和[14]用于最近的审查）。该技术生成大量数据，需要专门的计算和统计分析。通常，单个细胞被分离到板孔或液滴中，这样每个细胞的转录物就可以被条形码或标记（用唯一的分子标识符标记它们；UMI），从而可以在RNA测序后确定细胞的表达谱，这通常是在许多细胞的转录体池中进行的。所有单细胞测序实验中的主要变量是所分析的细胞数量和每个细胞生成的序列深度。单细胞测序数据质量控制的初始步骤包括删除与没有很好表示的UMI相关的数据，这些UMI通常与正在死亡或受损的细胞相关，然后检查每个细胞的多映射、不可匹配和线粒体读取的比例，其频率往往与较差的数据质量相关。由于目的是以单细胞分辨率对转录组进行分析，因此分别使用EmptyDrops、SoupX和DoubletFinder等软件去除空液滴、无细胞RNA和双细胞。根据这些步骤，对数据进行归一化处理，以说明测序深度的差异，并在适当的情况下进行批量校正，以说明非生物因素，如样品采集时间。进一步的数据处理步骤可以涉及数据平滑和插补、细胞周期分析、无监督聚类，作为降维和数据可视化的前奏，这可以使用PCA、t-SNE和UMAP等方法来执行。在差异表达分析是一个关键参数的情况下，已经开发了多种方法，包括MAST和MetaCell。单细胞序列分析领域正在迅速发展，有许多强大而优雅的方法可以进行数据探索，并且需要使用通用坐标框架方法将这些数据与组织学、放射学、临床疾病元数据和其他数据集成。此外，绘制肠道环境中源组织样本的位置将有助于发现和分析近端-远端肠道轴线上的变化梯度，并揭示对肠道生物学的新理解。如果没有捕捉肠道位置的机制，肠道生物学的这一方面将无法被发现。

建立人类肠道细胞图谱通用坐标框架

人类肠道细胞图谱（HGCA）的主要目的是获取成人肠道空间环境中组织和单细胞数据的详细图谱。无论是针对单个患者的临床目的，还是针对更多有关肠道的一般研究，数据范围包括患者特定信息、组织病理学图像数据和放射学图像，以及作为研究工作一部分的肠道细胞单细胞测序数据，现在，所有这些都分别由医院和研究机构收集和储存。数据集成是促进人工智能技术（尤其是机器学习）从这些大型分布式数据源中获取医学有用知识的关键先决条件，以便揭示正常和疾病样本中潜在分子和细胞过程的空间组织。主要整合标准之一是收集的数据所指的组织和细胞的解剖起源。在人类细胞地图集的背景下，这些解剖位置将使用称为通用坐标框架（CCF）[15].

人类肠道细胞地图集的用例数量和类型以及因此对其CCF的要求是庞大而多样的。必须在考虑所有可能发生的情况和使CCF实用化的简单性之间取得平衡。在本文中，我们描述了基于临床实践的人体肠道共因失效，其核心是一个易于理解的1D肠道模型，但扩展到了复杂的2D和3D表示。捕获近端-远端肠道位置的机制对于不仅能够获得scRNA-seq所揭示的细胞类型图谱，而且能够获得细胞类型、亚类型和细胞状态的变化梯度，以及沿着肠道轴线的细胞数量，以及这与健康和疾病中肠道解剖的联系都至关重要。一旦我们在方法和结果部分介绍了我们自己的人类肠道细胞图谱CCF模型，我们将在讨论中提供有关相关框架的更多详细信息。

目标

人类肠道细胞图谱计划的主要目标是实现所有数据类型的数据集成，以提供研究和分析能力，支持肠道和相关组织疾病及病理异常方面的科学发现和临床效益。我们这项工作的目标是为肠道提供一个实用的共因失效，使之成为可能。为此，我们开发了一个基于沿肠道中线距离的自然坐标的肠道概念模型，并将其语义扩展到特定组织和细胞。此外，我们开发了一种映射机制，允许与2D和3D肠道表示（包括患者特定数据）进行交叉比较。另一个目标是使拟议CCF与其他类似工作互操作，以促进跨CCF数据集成。

在方法部分，我们根据支持我们工作的特定用例为我们的模型设置了科学背景，然后描述了模型是如何开发的。结果部分介绍了我们创建的1D、2D和3D模型，这些模型构成了拟议CCF的核心。此外，还提供了一个可公开访问的在线工具，说明这些模型的使用和交互。讨论部分回顾了相关工作，以及Gut CCF的局限性和未来前景。结论总结了模型及其实现的主要贡献，以及它们在人类肠道细胞图谱研究中的重要性和潜在影响。

方法

爱丁堡–剑桥赫尔姆斯利信托项目HGCA CCF使用案例

尽管不同项目的确切共因失效要求会有所不同，但此处描述的项目包含了此类工作的许多典型组件，因此，考虑到常见的临床和研究实践，促进了肠道模型的开发。在这个项目中，克罗恩病病变样本是从手术切除中收集的。从切除标本组织片从不同的采样点采集病变组织和形态健康（无明显病理异常）组织。CCF必须能够捕获肠道内样本（活检或手术切除块）的采集位置，对于多个组织切片，切片的相对位置按照手术切除样本的顺序。在对肠道手术切除标本进行切片后，切片的一个或多个部分形成组织块以进行进一步处理，以便将新鲜组织分离为单个细胞进行单细胞转录组测序，或固定以进行组织学分析。在后一种情况下，将组织块固定在缓冲福尔马林中，加工成石蜡和部分进行染色、扫描和分析。必须跟踪节的源（就其原始块而言）及其在块中的相对顺序和相邻性。分析过程中生成的组织学和序列数据用相关CCF位置信息进行注释，以便根据组织的相同精确位置整合数据，也可以在不同患者的不同样本之间进行映射。在可能的情况下，将根据适当的法律框架或在安全的研究环境中提供数据集[16]. 项目的概念概述如图所示2.

Regev等人.[1]声明“为了有用，地图集还必须是一种抽象，全面地表示某些特性，而忽略其他特性。“那么，人类肠道细胞图谱的适当抽象是什么？这个问题的答案首先取决于可以可靠地获得哪些数据来构建地图集，然后如何将新数据映射到地图集上，例如，切除标本的获取位置是什么，其次，我们想使用这些数据回答哪些问题。我们从一个简单的、面向临床的1D抽象开始，然后扩展到2D和3D模型，包括它们之间的映射。这些由位置描述的语义层补充。接下来将讨论我们如何创建这些抽象，具体细节和参数将在结果部分中提供。

1D-核心模型

的主要抽象肠，表示小的和大肠，是连接胃到肛门位置是根据管道中心线到解剖标志点的距离来获取的，例如在结肠镜检查期间使用内窥镜进行测量。

二维解剖图

欧洲生物信息研究所（EBI）在单细胞表达图谱（SCEA）项目中开发了解剖图，作为某些器官的二维图形表示，组织和细胞集合，用于呈现转录组数据的图形概览，并可能用作数据查询的图形界面[17]. 在这里，我们拍摄了肠道2D解剖图图像，并创建了在解剖图中绘制的用于大肠和小肠解剖的图像域（区域）。然后将这些区域分割成与解剖图中所描绘的区域相对应的亚区域，例如肛门、肛管、降结肠、脾曲等。解剖图中描述了肠道区域的远处重叠或接触，例如小肠通过横结肠后，然后剪切域是为了保持肠道的适当连通性。

计算大肠从肛门到阑尾尖以及从回盲瓣的中线通过率—回肠（ICVi）至小肠的胃-十二指肠交界处。使用一种传播算法来计算初始中线路径，其中可能的图像位置按优先级顺序考虑。图像位置优先级由到路径端点的距离和到域边界的距离决定。根据沿每条路径找到的路径图像位置的有序集，计算出光滑的B样条曲线作为主路径表示。所有图像处理都是使用Woolz完成的[18].

基于三维辐射图像的模型

根据匿名CT图像计算出人体肠道（仅限于大肠和小肠回肠）的三维模型。已经建立了两个模型，一个来自结肠充气的图像，另一个来自未充气的结肠图像。在这两种情况下，大肠和全部或部分回肠的图像域都是从3D CT图像中分割出来的。对于膨胀的结肠，通过使用基于阈值的区域生长和形态学操作计算域，并手动输入区域生长种子位置。ITK快照[19]用于区域生长，Woolz用于所有其他图像处理操作。

对于非膨胀结肠，由于整个结肠区域的图像值和纹理变化很大，因此无法使用基于阈值的分割，因此使用基于Long等人描述的全卷积神经网络的机器学习方法进行预分割图像分类[20]Ronneberger等人将其作为“U-Net”实施[21]. 为了训练卷积神经网络，在3D图像中切割出少量虚拟截面，截面参数范围包括位置和3D方向，使用地图绘制[22]用于分割3D图像数据的交互式绘图应用程序。然后使用分割的截面图像（2D）训练u-net分类器。

为了减少手动分割的工作量，使用仿射变换和非仿射变换的组合来增加分割图像的数量。然后使用训练好的网络为所有平行于原始3D图像虚拟部分的平面生成结肠分类2D图像，从而生成完整的3D分类图像。对36组虚拟切片参数重复预测，并将结果3D分类图像平均化，得到单个此类图像。然后使用区域生长和形态学操作对分类图像进行分割，其方式与用于膨胀模型的方式类似。u-net是使用PyTorch构建的[23]，所有其他图像处理都是使用Woolz执行的。通过从3D图像中分割大肠和回肠区域，使用与2D解剖图相同的方法计算通过它们的路径。

模型–模型映射转换

1D、2D和3D模型中的每一个都表示可以对数据位置进行可视化和查询的空间上下文。对于空间查询和分析来说，一个模型中的位置可以映射到任何其他模型，这样空间框架就可以互操作，并且可以交叉比较数据，这一点至关重要。为此，将一维线性模型映射到分别通过解剖图和三维图像模型计算的二维和三维中线路径。每条路径上的实际距离取决于模型，因此采用分段线性映射方法作为初始或基准面交叉映射。在1D、2D和3D模型中的每条路径上，图三已标记。这些在解剖图中显示（图4)和3D模型（图5)带有标记“旗帜”和可视化肠段颜色的变化。A类位置在模型中，定义为最近的近端（朝向口腔）和最近的远端（朝向肛门）标记之间沿中线路径的比例距离。这个简单的定义允许在大肠和小肠的1D、2D和3D模型之间映射位置和任何相关数据。在没有额外信息的情况下，这两个地标之间位置的基本映射是线性的，但是，随着获得更详细的知识，可以将其增强为非线性映射，以更好地反映解剖结构。远离中线路径（但在肠道区域内）的位置映射到同一区域的最近中线点。为了提高效率，可以预先计算。

这种映射机制允许将来自其他坐标框架的数据映射到这些模型。它还允许特定患者的数据通过样本采集过程中记录的地标距离或使用手术前3D图像数据进行回顾性映射。

语义扩展

到目前为止，对肠道位置的描述主要集中在其管状结构与肛门到盲肠和附录（用于大肠)和来自回盲瓣接近（对于小肠)，但它们不能提供一种机制来捕获关于给定位置处的胃肠壁层的更详细的细胞位置信息，即粘膜,粘膜下层,固有肌和浆膜因此，我们通过将它们与代表这些层、组织类型和细胞类型的相关本体概念相结合，在语义上补充位置。更具体地说，相应的标准解剖学术语是作为HuBMAP项目的一部分商定的一系列解剖学结构、细胞类型和生物标记物（ASCT+B）表[24,25]，其中包括到UBERON中匹配术语的链接[26]解剖学基础模型（FMA）[27]和细胞本体（CL）[28]. 因此，典型描述可能会指定组织样本的来源为来自横结肠中段粘膜scRNAseq数据可以包括细胞类型的进一步说明，例如杯状细胞。未来的工作还将从以下方面解决位置的表示绒毛与地下室（用于小肠)和左边与正确的（用于大肠).