数据资源整合
这一概念肠道模型的开发是为了实现从临床到单细胞水平的详细生物医学数据的空间注释。使用该模型的CCF可以根据肠道沿肠道轴线的距离自然坐标对数据进行注释,并辅以解剖学、组织和细胞类型以及生物标记物本体论。这允许通过组织病理学将单细胞分析的数据注释为宏观水平的临床数据,包括组织切除和3D放射学成像。在这里,我们使用可视化工具来展示模型,以便对模型进行探索,并允许用户将CCF位置定义为感兴趣的区域(ROI),以表示样本位置。我们建议ROI代表采集样本的空间位置范围,样本大小的详细说明将成为样本数据的一部分。任何类型的数据都可以包含以这种方式定义的空间位置,我们设想每个数据资源或存档都将提供这些位置,以便以空间术语进行集成和查询。通过这种方式,用户可以发现相关数据,例如与患者MRI数据相关的单细胞UMAP/t-SNE分析、组织病理学和空间转录组数据。我们正在为这种空间标注开发标准化协议和数据格式,为此我们创造了“定位卡”. 使用这些卡的任何资源都可以交叉查询与特定CCF位置相关的数据,并具有明确的相似性、接近性和距离度量,以提供按相关性排序的数据命中率。在HCA资源术语的上下文中,我们将能够实现空间查询和分析数据门户.
模型演示器(图7)显示了用户如何使用1D模型界面指定空间查询,并显示与该查询匹配的有序条目列表。该软件提供了一个简单的API来返回定义的ROI的详细信息,并转换为任何映射的2D和3D模型。定义位置卡规范后,API会将该卡作为示例空间注释提供给用户,从而实现空间查询功能。
当前临床实践和位置规范
如前所述,内窥镜表面距离标记可用于在此处描述的核心线性模型内定位样品(用于组织学或分子分析),使用沿肠道中心线的距离。然而,目前的实践也存在一些局限性,因为一些内镜医生只提供肠道区域,没有距离数据,而一些内镜医生可能只提供肛门的距离数据,不允许患者在肠道区域的个别特定长度上存在个体差异。另一种方法是提供与最近地标(例如回肠瓣)相关的样本距离数据,包括肠道部分,以便更准确地绘制肠道区域内的样本位置。该陆块到病变/样本距离数据可以作为绝对距离(例如,位于回盲瓣远端110mm处的上行结肠病变)或比例距离(例如位于回盲瓣膜和肝曲之间距离的三分之二处的上行大肠病变)提供。这将提高临床记录中记录样本位置的准确性。使用此处描述的1D中心线和地标模型将能够利用此变化,提高在适当的通用坐标框架中收集和记录的数据的位置精度。
GCA共因失效模型查看系统的设计使样本和样本数量能够以链接方式使用所有1D、2D和3D模型进行可视化。这允许使用模型查看器系统的当前演示版本,从我们自己的研究和GCA联盟中的其他小组整理scRNA-Seq、组织学和放射学数据,我们正在进一步开发这些系统,以实现样本位置的可视化,为特定患者定制的模型,可能是切除了部分肠道或有气孔的患者。该系统允许将结肠镜检查视频与模型中显示的位置相链接。值得注意的是,这些模型独立于CCF模型可视化软件系统,任何一部分都可以独立开发或更改。其他研究小组可以根据自己的意愿,使用不同的可视化软件,将这些模型用于不同的研究目的。
相关框架
尽管术语通用坐标框架(CCF)直到最近(在过去5年内)才流行起来,主要是指新兴的人类细胞图谱(HCA)所需的计算框架,CCF的许多特征在生物医学图谱领域已经研究和开发了更长的时间。例如,我们自己的爱丁堡老鼠地图集项目[35]早在1992年就描述了其坐标框架[36]. 其他生物模型的生物医学地图集包括果蝇[37],小鸡[38]和斑马鱼[39]. 人类地图集示例包括HDBR资源[40]和艾伦人脑图谱[41]. 对这些地图集的详细讨论超出了本文的范围,但值得注意的是,正如新出现的CCF一样,许多地图集利用解剖本体论,或至少某种形式的受控解剖词汇,以及考虑中的器官或有机体的三维体量重建。重要的是,与这里描述的gut公共坐标框架一样,通常提供了本体概念和3D坐标系中相应体素集之间的映射。
随着新生物技术的引入,特别是高通量scRNA-seq分析,扩展的空间索引技术,现在被广泛称为通用坐标框架,已经出现。Rood等人[42]总结新的要求并讨论CCF开发的各种方法,包括四种类型CCF的层次结构:宏观(全组织尺度)、中观(组织内区域尺度)、微观(组织学尺度)和精细(细胞尺度)。我们目前的GCA模型从宏观到微观都有。Elmentaite等人[13]描述使用单细胞转录组学绘制从胚胎到儿童到成人的整个生命周期中胃肠道细胞景观的变化,包括疾病中肠道淋巴组织的变化。
Boerner等人[43]为美国国立卫生研究院(NIH)的人类生物分子图谱计划(HuBMAP)引入CCF。HuBMAP与我们自己的肠道细胞图谱工作直接相关,因为它旨在为包括小肠和大肠在内的整个人体提供CCF支持。在HuBMAP中,每个器官系统的专家组正在整理和扩展所需的解剖学、组织和细胞级本体论,并且正在创建一系列3D图谱模型,以捕获除组织学成像外为单细胞分析收集的组织样本的3D位置。目标是为成年女性和男性人体的所有部分提供标准的“基本”能力。对于包括大肠和小肠在内的许多器官系统,已经提供了这种能力,并且已经绘制了一些数据。注册工具提供了一个在线3D界面,用户可以在其中操纵一个表示样本范围的小长方体到3D模型中的特定位置。然后进行记录,所有人都可以使用类似的勘探工具进行查看。这些接口现在可用,并提供了一个重要的基础级机制,但对于肠道细胞地图集(GCA)来说存在一些问题。注册组织样本的当前HuBMAP SOP[44]提供了一种机制,将组织样本定义为包围样本的矩形块,然后使用注册接口将其注册到3D位置。通过这种方式,块可以获得精确的位置,但没有测量该位置的空间不确定性。鉴于组织的采集方式,精确位置可能未知,与其他数据的比较可能会导致不一致,例如在基因表达梯度的解释中。第二个问题是工具的可用性,这需要实践,不太可能由收集组织的专家直接使用,即对样本的定位和不确定性最了解的外科医生、内窥镜医生和临床病理学家。第三个问题是,肠道图谱系统似乎没有测量从一个样本到另一个样本的功能相关接近度的机制,因为所有坐标都在3D空间中,肠道的循环使3D接近度远不如“自然坐标”内的功能接近度有用肠道的距离,特别是沿中线的距离。
相比之下,我们自己的模型旨在提供一个实用的GCA CCF,该CCF表示肠道本身沿着其中心线相对于附近地标的坐标,并为临床医生和科学家收集数据提供一种机制,以便能够记录准确的位置(如有),或者以与临床采集过程相匹配的方式,将位置的不确定性作为范围或ROI。最终,我们预计将使用这两种方法收集和绘制数据,因此我们正积极与HuBMAP团队合作,以提供合适的互操作性解决方案。在这个阶段,我们已经使用我们的算法从我们的模型映射到女性和男性小肠的HuBMAP模型[https://hubmapconsortium.github.io/ccf/pages/ccf-3d-reference-library.html]. 因此,我们在所有模型之间建立了空间互操作性,在任何CCF模型空间中标识的位置都可以位于任何其他位置。这些模型映射是前面讨论的基于web的演示应用程序的一部分。
我们注意到,使用前面描述的算法,可以在1D、2D和3D模型之间以及这些模型和其他模型(如HuBMAP CCF)之间映射数据。这些简单计算的映射目前仅限于穿过结肠或回肠的路径范围,没有考虑到与中线的径向距离或角度,尽管原则上我们的模型和映射可以扩展到包括这些附加参数。
我们的GCA CCF模型是专门为更精确地将单细胞RNA-sequence(scRNA-Seq)数据映射到沿肠中轴的位置而设计的。随着scRNA-Seq数据的积累,这将允许进行空间梯度分析,以研究肠道细胞基因表达模式如何沿小肠和大肠的线性轴变化,这可能会揭示新的解剖或生理特征。数据集成的发展涉及来自多个来源的scRNA-Seq的相关性,这是使用多集团联盟的HCA方法的优势之一。我们的方法是对HuBMAP版本的补充,该版本仅提供大致的肠道区域位置,但不提供基于距离的更准确的样本位置,因为用于绘制肠道样本位置的HuBMAP机制无法根据与关键地标的距离或与该位置相关的不确定性程度精确定位位置。该GCA CCF模型增强并扩展了当前HCA模型,以从单细胞RNA表达数据中获得见解。此外,任何一组的scRNA-Seq数据与相关组织学数据的整合都很简单,而来自几个不同研究组的相同或非常相似肠道位置的数据的整合需要使用该模型制定的基于位置的准确方法。因此,本文重点介绍了新的GCA CCF模型,并讨论了使用该模型可能实现的新功能,而不是演示如何充分利用所有这些可能的功能。
GCA并不是CCF关注单个器官的唯一例子。其他器官特异性细胞图谱工作包括大脑[45],肺[46],肝脏[47]、和眼睛[48].脚注1跨器官CCF解决方案的一项有趣探索是基于脉管系统[49]. 与房屋在道路上的位置类似,细胞的位置也以最近的血管来描述。这里的一个关键优势是血管系统从动脉到小动脉再到毛细血管的自然缩放(静脉也是如此)。这项工作处于早期阶段,其作为共因失效的应用尚待测试。
多分辨率问题
HGCA和包括HCA在内的机构将以大范围的空间分辨率收集和存档数据:切除的材料10–1000 mm,组织块5–20 mm,活检3–5 mm,SCA的组织样本0.5–3 mm,功能组织单位[50]和细胞组件20–100μm,组织学。厚度为5-20μm,单细胞数据为10-20μm,潜在的亚细胞转录数据为0.01-1μm。基于图像的数据将是毫米分辨率(放射学)到亚微米分辨率的显微镜。当前的空间转录组学系统通常在采样位置(点)之间捕获20–50μm的完整转录组,并且方法正在改进。CCF面临的挑战是通过组织切片定位以及组织和多细胞结构的图像对齐,捕获并比较临床样本位置的所有尺度上的空间信息。Rood等人描述了不同组织的不同方法,并讨论了宏观到微观数据的共因失效。在这里,我们提供了一个基于坐标的CCF,以捕获1D到3D肠道表示范围内的样本位置(也提供了互操作性),并对肠道子结构和层内的定位进行语义细化。一维概念模型强调了定义近远轴的肠道的“自然坐标”,因此提供了一种机制,用于连接临床和病理报告以及文献中描述的肠道位置的自然语言描述。还可以使用空间本体(如BSPO)支持对更高分辨率空间位置的语义描述,例如组织块和组织切片的相对顺序和排序[51],但尚不支持组织切片图像之间的高分辨率映射。
模式生物及其映射
此处为人类设定的小肠和大肠1D模型框架的原理也可用于其他物种肠道的线性表示,包括一系列模型生物体,如小鼠、大鼠、猪、羊等。小肠从胃十二指肠交界处到回盲瓣的共线性映射,同样,大肠从回肠瓣到肛门,跨越不同物种,可以在哺乳动物肠道的相似区域之间近似转换样本或病变。这将允许在这些不同物种之间进行具有生物医学意义的空间映射,以便进行跨物种数据比较,包括支持跨许多不同物种的搜索和查询功能。这可能构成跨物种肠道细胞图谱的基础,用于围绕肠道数据制定标准和进行比较。
对这项跨物种工作的详细讨论和评估超出了本文的范围。然而,我们注意到线性模型方法在这方面的潜在效用。图8显示了摘要模型作为中间产物,与UBERON相似[26]作为一个跨物种的解剖学本体。虽然我们可以直接在老鼠和人之间绘制地图,但抽象模型简化了其他物种的添加。它只需要将每个物种映射到抽象模型上,而不是将所有可能的物种成对组合。