Phenotype prediction from single-cell RNA-seq data using attention-based neural networks

Yuzhen Mao; Yen-Yi Lin; Nelson K Y Wong; Stanislav Volik; Funda Sar; Colin Collins; Martin Ester

doi:10.1093/bioinformatics/btae067

生物信息学。2024年2月；40（2）：btae067。

2024年2月23日在线发布。数字对象标识：10.1093/生物信息学/btae067

预防性维修识别码：项目经理10902676

PMID：38390963

基于注意力神经网络的单细胞RNA-seq数据表型预测

毛玉珍, Yen-Yi Lin先生, 纳尔逊·K·Y·王,斯坦尼斯拉夫·沃利克,Funda Sar公司,科林·柯林斯,和马丁·埃斯特尔

Christina Kendziorski，助理编辑

作者信息文章注释版权和许可信息 PMC免责声明

关联数据

补充资料: btae067_补充数据。
btae067_补充数据.pdf（622K）
指南：A7EBE9EB-13A5-49EB-AD99-1B43154F4560

摘要

动机

患者的疾病表型可以由标记基因未知或只能使用常规批量分析（如RNA-Seq技术）在晚期检测到的特定细胞组驱动和确定。单细胞RNA测序（scRNA-seq）的最新进展使基因表达谱能够在细胞水平上进行解析，因此，即使这些细胞的数量很少，也有可能识别驱动疾病表型的细胞。然而，现有的大多数方法严重依赖于精确的细胞类型检测，并且可用的注释样本数量通常太少，无法训练深度学习预测模型。

结果

在这里，我们提出了使用scRNA-seq数据进行表型预测的ScRAT方法。为了用有限数量的不同表型样本训练ScRAT，例如冠状病毒病（COVID）和非COVID，ScRAT首先应用混合模块来增加训练样本的数量。使用多头部注意机制来学习每个表型的信息量最大的细胞，而不依赖于给定的细胞类型注释。使用三个公共COVID数据集，我们表明ScRAT优于其他表型预测方法。ScRAT相对于竞争对手的性能优势随着训练样本数量的减少而增加，这表明了我们的样本混合的有效性。基于高注意力细胞检测出的关键细胞类型也支持原始论文和最近文献中的新发现。这表明，ScRAT克服了标记基因缺失和样本数量有限的挑战，具有揭示新的分子机制和/或疗法的巨大潜力。

可用性和实施

我们提出的方法ScRAT的代码发布在https://github.com/yuzhenmao/ScRAT.

1引言

准确预测特定队列中患者的表型对提高诊断、预后和治疗至关重要(Ching（清）等。2018). 异质性症状可能导致不明确的预测(莫利等。2021)因此，基于高通量组学数据的分析在过去十年开始进入临床常规(陈等。2021). 在这些分析中，一个具有挑战性的步骤是从患者的基因组图谱中分离细胞内容，包括检测由基因表达谱定义的细胞类型及其在不同患者中的比例(纽曼等。2019). 虽然表型信息（如肿瘤转移、疾病分期和大块组织样本的治疗反应）广泛收集于各种协会，但其基因表达谱是通过计算整个组织中细胞的平均值来测量的，这通常无法揭示患者体内不同细胞类型的全部复杂性。

单细胞和单核RNA-Sequencing（sc/snRNA-Seq）的最新进展使基因表达谱能够达到前所未有的单细胞分辨率。虽然这项技术提高了我们对细胞型标记和疾病特异性特征的理解，但大规模队列分析在临床上并不实用，特别是在癌症研究中，原因如下。（i）准确细胞类型识别的依赖性，可能有偏差或不可用。大多数单细胞RNA测序（scRNA-seq）分析首先使用无监督聚类检测细胞类型，然后基于标记基因进行细胞类型注释。然后通过细胞类型的分布或识别特定的细胞类型来预测患者的表型。然而，准确的细胞类型鉴定受到给定样本的正确聚类分辨率以及标记基因信息可能不理想或缺失的影响。因此，许多现有的scRNA-seq分析方法甚至要求用户提供分析前未知的细胞类型数量，或设置一个通用值来提供相应的分析结果。（ii）样本数量有限。大多数注释完善的scRNA-seq数据集只涉及20个样本，其统计能力太弱，无法支持表型预测和表型特异性细胞类型的发现。如此小的样本量也会导致大多数机器学习模型的严重过拟合，并显著影响其预测性能。（三）缺乏可解释性。许多计算方法试图解决上述问题，但很少为用户提供对细胞类型和驱动或与表型相关的分子机制的深入了解。由于上述原因，scRNA-seq在分析中往往需要与批量分析相结合，人们主要应用这些方法来研究单个组织的组成，而不是其表型，以用于诊断和预后应用。

在这里，我们提出了ScRAT，这是一个表型预测框架，可以从有限数量的scRNA-seq样本中学习，对细胞类型注释的依赖性最小。与大多数可用的scRNA-seq分析算法相比，该算法通过单独的高斯分布模拟不同细胞簇的基因表达谱(他等。2021,曾等。2022)ScRAT的第一个贡献是我们利用注意机制来测量细胞之间的相互作用，作为它们的相关性或注意权重。对于每个细胞，我们将其所有交互模式和注意力权重结合起来，以建立其与相应表型的联系。其次，我们在我们的框架中引入了一个混合模块，作为一种数据增强方法，以缓解由于模型的高度复杂性以及标记样本的数量非常有限而导致的潜在过拟合问题。最后，ScRAT简单地使用注意力权重来建立Transformer模型的输入（细胞）和输出（表型）之间的联系。与文献中的现有方法相比，这种方法具有成本效益，这些方法往往计算成本较高，例如梯度传播或训练探测分类器(克拉克等。, 2019,切费尔等。2020,切费尔等。2021). 因此，ScRAT选择包含对特定表型最具鉴别信息的细胞，或关键细胞，使用他们的注意力权重。它提供了一种在临床队列中构建表型特异性亚群的自然方法，这些亚群可提示预后标记物和潜在的治疗信息。

与五个基线框架相比，我们在三个公共冠状病毒疾病（COVID）数据集上评估了ScRAT。在每个数据集中，我们将根据给定注释将样本分为两种表型：冠肺炎与非冠肺炎、轻度/中度与重度/危重，或恢复期与进展期。我们还减少了训练样本的数量，以研究每个框架的预测能力。ScRAT在所有比较中获得了特征曲线接收器（AUC）下的最佳区域，并在大多数情况下提供了领先的精确度和召回率。随着训练样本数量的减少，ScRAT相对于竞争对手的性能优势增加，这表明了我们的样本混合模块的有效性。由于这些公共数据集具有不同分辨率的细胞类型注释，我们还研究了表型和富含高注意力细胞的亚群之间的联系。我们的实验表明，ScRAT可以使用高注意力细胞检测疾病关键型和表型驱动亚群，这可能有助于识别可用药人群的新情况。

简而言之，ScRAT是第一个基于深度神经网络的方法，用于预测scRNA-Seq的表型，也是第一个基于注意力的scRNA-Seq分析框架。我们的注意力机制和混合的集成允许ScRAT独立于细胞类型注释，能够从有限数量的训练样本中学习。最后，我们提出了一种简单的方法来解释变压器的预测，该方法比现有方法更具成本效益。这表明ScRAT可以为生物学家提供可解释的信息。

2相关工作

2.1单细胞RNA-seq分析的深度学习

单细胞RNA-seq已成为以单细胞分辨率进行基因表达分析的流行工具，而深度学习技术已在许多相关任务中显示出良好的结果(洛佩兹等。2018). 例如，阴等。(2022)提出了一种基于自动编码器的分类框架来获得scRNA-seq数据的压缩表示。然后将这些表示输入到后续分类器中，以预测细胞类型。拉温德拉等。(2020)使用图形注意网络构建scRNA-seq数据的图形表示，其中每个节点表示一个细胞，每个边缘表示两个细胞之间的相似性。然后根据学习的图形表示预测每个细胞的疾病状态。

2.2使用体RNA-seq进行表型预测

基因表达谱已被用于预测许多临床环境中的表型(朗斯代尔等。2013,乌伦等。2017). PAM50根据50个基因的表达谱对乳腺肿瘤进行分类(佩罗等。2000). 前列腺癌的分子表型也依赖于基因表达谱分析(2015年癌症基因组图谱研究网络)，并开发了多种基于表情的诊断测试。例如，Prolaris细胞周期进展利用细胞周期增殖途径中31个基因的表达预测前列腺癌的侵袭性(库济克等。2012). 157个基因的特征被开发出来预测致命前列腺癌(佩尼等。2011). Dx型前列腺基因组评分(卡伦等。2015)和解密活检评分(Erho公司等。2013)还可以识别基因特征来预测肿瘤结果的转移风险。这些方法主要是利用批量分析开发的，不能利用scRNA-seq中的细胞级分辨率信息来改善诊断和预后。

2.3 RNA-seq中表型驱动（亚）细胞类型的分析

为了更好地利用来自scRNA-seq数据集的信息，细胞类型反褶积方法(纽曼等。2019,风扇等。2022)已开发用于分离大量RNA-seq中细胞群的组成。LR单元(妈妈等。2022)进一步扩展了反褶积方法，以估计每种细胞类型对批量RNA-seq数据集之间差异表达基因（DEG）的影响。LRcell采用预定义的（子）细胞类型及其标记基因列表来分析这些细胞类型对RNA-Seq数据集中DEG的贡献。虽然LRCell被设计用于整合来自scRNA-seq数据集的标记基因，但它试图解决的问题与scRAT的问题在以下方面有所不同。首先，LRCell不能预测单个患者的表型。LRCell的最终输出是基于使用线性回归模型驱动RNA-Seq数据中DEG的影响的预定义（子）细胞类型的排名。细胞（子）类型的等级不能直接预测患者的表型。此外，LRCell需要来自所有（子）细胞类型的大块组织的标记基因集（预嵌入），这些细胞类型是从scRNA-seq数据集或MSigDB C8细胞类型特征基因集获得的。

2.4使用单细胞RNA-seq进行表型预测

CloudPred（云预测）(他等。2021)将单个点建模为来自高斯混合样本的样本，以概率方式将点分配给簇，然后估计亚群的流行率，并使用它预测该患者的表型。scPheno公司(曾等。2022)基于深度生成概率模型，通过细胞状态和疾病表型的联合分布构建基因表达谱，并将该分布作为预测特征输入支持向量机进行表型预测。他们将单细胞种群建模为高斯分布的假设是有限的。此外，虽然这些方法可以在少量标记训练数据下工作，但其有限的模型容量可能无法完全捕获隐藏在高维scRNA-seq数据集中的潜在信息。

3问题定义

A类细胞是scRNA-seq实验中最基本的单位，用矢量表示c（c）结束米基因包括基因表达水平的测量，例如唯一分子标识符（UMI）的计数。最终预测单位表示为样品从单个患者中提取。样本包括n个单元格，并表示为 $n个 \times 米$ 矩阵S公司，其中 ${S公司}_{我 j个}$ 对应于j个-th基因在我-第个单元格。每个样本都与来自预定义集合的特定一个热编码表型标签相关联 $P（P）$ = ${{P（P）}^{1}, {P（P）}^{2}, \dots {P（P）}^{o个}}$ 在此基础上，我们将我们的问题正式定义如下：

问题：scRNA-seq样本的表型预测。
输入：由scRNA-seq矩阵表示的一组标记样本 $D类 = {{S公司}_{1}, {S公司}_{2}, \dots, {S公司}_{C类}}$ ，及其相应的标签 $Y（Y） = {{P（P）}_{1}, {P（P）}_{2}, \dots, {P（P）}_{C类}}$ ; 一组未标记的样本 ${D类}^{'} = {{S公司}_{1}^{'}, {S公司}_{2}^{'}, \dots, {S公司}_{L（左）}^{'}}$ .
输出：映射的预测模型 ${S公司}_{我}^{'} \in {D类}^{'}$ 到 ${P（P）}^{我} \in P（P）$ .

4材料和方法

在本节中，我们提出了一种称为ScRAT的基于神经网络的方法来预测scRNA-seq样本的表型。ScRAT概述见图1它由三个主要模块组成：样本混合、注意层和表型分类器。我们的方法以单个患者的scRNA-seq样本作为输入。请注意，每个样本中的单元格顺序并不重要，每个样本的大小是可变的。为了缓解可能的过拟合问题，我们在训练期间采用了一种称为“样本混淆”的数据增强技术，以增加训练样本的数量和多样性。ScRAT的主干是一个多人关注层(瓦斯瓦尼等。2017)，旨在学习样本中每个单元格的面向任务的嵌入。考虑到其可扩展性差(泰伊等。2020)，将裁剪策略应用于输入样本，然后将其传递给注意层。作为最后一步，单层多层感知器（MLP）获取注意层的输出，并将表型预测为不同表型值的概率分布。在下面的小节中，我们将详细研究ScRAT的这三个模块。

在单独的窗口中打开

图1。

ScRAT概述，包括三个主要模块：样本混合、注意层和表型分类器。它以scRNA-seq样本（一组细胞）作为输入，并输出输入样本的预测表型。

4.1样品混淆

当前可用的scRNA-seq数据集的大小非常小，预计在不久的将来将保持相对较小的规模，这可能会导致在训练深度学习模型时过度拟合。混合及其变体(张等。2017,维玛等。2019)基于插值的广泛采用的数据增强技术用于正则化神经网络和提高模型泛化性(卡拉蒂诺等。2022). 例如，在计算机视觉设置中，mixup凸组合随机图像对及其相关标签以生成新的训练数据。受此启发，对于scRNA-seq分析，我们引入了一种简单但有效的数据增强方法，即样本混合，以在训练过程中生成新的样本。具体来说，给定两个scRNA-seq样本S公司和 ${S公司}^{'}$ 连同一个固定的 $λ \in [0, 1]$ ，样本混合定义如下(张等。2017):

\begin{matrix} {\tilde{x个} | \tilde{x个} = λ {x个}_{我} + (1 - λ) {x个}_{我}^{'}}, \\ \tilde{年} = λ 年 + (1 - λ) 年^{'}, \end{matrix}

(1)

哪里 ${x个}_{我}$ 和 ${x个}_{我}^{'}$ 细胞的基因表达谱来自S公司和 ${S公司}^{'}$ 、和年和 $年^{'}$ 是对应的单热点表型标签编码。

与计算机视觉设置相比，这里的样本对应于图像，每个样本中的细胞对应于每个图像中的像素，样本的表型对应于图像的标签。这两种场景之间的主要区别在于，一幅图像中的像素只能与另一幅图像相同空间位置的像素混合，而混合只能应用于具有相同大小的图像。scRNA-seq数据不受这两个限制。

所提出的scRNA-seq样本混合旨在增加样本的数量和多样性。具体来说，给定一对样本 ${S公司}_{1}$ 和 ${S公司}_{2}$ 对于相同或不同的表型，我们首先随机抽样一批 ${S公司}_{11}$ 包含N个单元格仅来自 ${S公司}_{1}$ ，并取样另一批 ${S公司}_{21}$ 只有来自 ${S公司}_{2}$ 。在取样过程中，允许每个批次包含重复的细胞。然后将mixup应用于 ${S公司}_{11}$ 和 ${S公司}_{21}$ 基于方程式（1），其中 $λ \sim 贝塔 (α, α)$ ，用于 $α \in (0, \infty)$ (张等。2017,卡拉蒂诺等。2022)，以生成N个增强细胞形成新样本 ${S公司}_{三}$ 称为假样本，其表型标记等于 ${S公司}_{1}$ 和 ${S公司}_{2}$ .

值得注意的是，由于不同群体的细胞在生物学上有很大差异，因此直接将混合应用于它们没有多大意义。因此，尽管我们的模型不需要细胞类型信息，但在样本混合期间，我们只混合相同细胞群的细胞，假设这些信息已经由人类专家进行了注释，或者已经由最先进的注释方法（如MARS）自动确定(布尔比奇等。2020). 对于仅出现在其中一个样本中的细胞群体，我们在混合期间将高斯噪声添加到属于这些独特细胞群体的细胞的基因表达谱中。

样本混合还可以确保伪样本中每个细胞群的比例是两个原始样本中该细胞群比例的线性组合。例如，给定 $λ = 0.2$ 两个原始样本中细胞群A的比例为 $30 %$ 和 $20 %$ 则分别将A在伪样本中的比例计算为： $0.2 \times 30 % + 0.8 \times 20 % = 22 %$ .

样品混合的有效性已在我们的消融研究中进行了评估(补充章节S4).

4.2注意层

注意机制(巴赫达瑙等。2014)在广泛的机器学习任务中取得了最先进的性能，这些任务以一组元素作为输入，例如单词(德夫林等。2018)和像素(多索维茨基等。2020). 注意机制通过在向前传递过程中为相对重要的元素分配高权重来更加注意它们。多头注意是该机制最流行的版本之一，该机制于年首次提出(瓦斯瓦尼等。2017)，我们将注意力用作此版本的同义词。与经典神经网络如MLP和卷积神经网络（CNN）相比(克里舍夫斯基等。2017)注意不仅可以处理可变的输入，还可以动态地为不同的元素分配权重，这对于无序输入是必要的。

具体来说，注意力层的输入是一组单元格嵌入 $c（c） = {{\vec{c（c）}}_{1}, {\vec{c（c）}}_{2}, \dots, {\vec{c（c）}}_{N个}}, {\vec{c（c）}}_{我} \in 对^{{d日}_{在里面}}$ ，其中N个是单元格数，并且 ${d日}_{在里面}$ 是每个嵌入中的功能数。继之前的工作之后(瓦斯瓦尼等。2017)我们的注意层使用三个形状相同的权重矩阵将输入嵌入映射到三种不同的向量：键、查询和值： ${W公司}_{k个}, {W公司}_{q个}, {W公司}_{五} \in 对^{{d日}_{千伏特} \times {d日}_{在里面}}$ ，其中 ${d日}_{千伏特}$ 是键、查询和值的维度。然后，对每对细胞应用一个具有缩放的点产品的自我关注，以基于它们的键和查询向量计算它们的注意权重：

秒_{我 j个} = \frac{网络产品 ({W公司}_{q个} {\vec{c（c）}}_{我}, {W公司}_{k个} {\vec{c（c）}}_{j个})}{\sqrt{{d日}_{千伏特}}},

(2)

表示细胞的重要性j个到单元格我并使用softmax函数进行归一化：

一_{我 j个} = {softmax软件}_{j个} (秒_{我 j个}) = \frac{经验 (秒_{我 j个})}{\sum_{k个 = 1}^{N个} 经验 (秒_{我 k个})} .

(3)

然后，这些注意权重被视为以下线性组合过程中的权重，该过程基于所有单元格的值向量为每个单元格输出一个新的嵌入：

{\vec{小时}}_{我} = \sum_{j个 = 1}^{N个} 一_{我 j个} {W公司}_{五} {\vec{c（c）}}_{j个} .

(4)

提取不同位置的信息，使培训过程更加稳定(线路接口单元等。2021)，多人关注(瓦斯瓦尼等。2017)应用于我们的注意力层。具体来说，不是只使用一个注意力头和一组 ${W公司}_{k个}, {W公司}_{q个}, {W公司}_{五}$ ，我们利用K注意力集中K不同组的映射矩阵并并行运行它们。然后，我们连接每个头部的输出，并在末尾为其应用额外的线性层。

简言之，我们的注意力层被表述为：

敬告 ({\vec{c（c）}}_{我}) = 连接两个字符串 ({\vec{小时}}_{我}^{1}, \dots, {\vec{小时}}_{我}^{K}) {W公司}_{o个},

(5)

哪里 ${W公司}_{o个} \in 对^{K {d日}_{kqv公司} \times {d日}_{外面的}}$ 是权重矩阵， ${\vec{小时}}_{我}^{k个}$ 是的输出k个-第个头部基于方程式（4）.

现有的基于注意的模型的一个局限性是，它们无法将很长的序列作为输入进行处理，因为自注意操作具有二次运行时间和记忆复杂性(贝尔塔基等。2020,周等。2021). 因此，在使用混合增强整个数据集之后，我们对训练和测试数据都引入了裁剪策略，该策略从每个样本中随机选择几个子集，并且只使用这些子集来训练模型。在本文中，我们将这些细胞子集称为“固定大小样本”。

更具体地说，对于每个样本，我们随机选择数控细胞作为一个固定大小的样本，并生成NS公司每个样品的固定尺寸样品。在训练过程中，每个固定大小的样本计算一个损失，该损失在最终损失计算中相加，用于更新模型参数；而在测试过程中，我们通过设置阈值为每个固定大小的样本分配一个（分类）预测标签，并根据每个样本的固定大小样本使用多数投票将预测标签分配给每个样本。在这里，数控和NS公司这两个超参数都可以由用户调整。自数控可以相对较小，这种裁剪策略提高了模型的可扩展性。此外，该策略类似于计算机视觉设置中的裁剪，因此也可以被视为一种有用的数据增强方法。在下一节中，综合实验证明了其有效性。

4.3表型分类器

注意层的输出是输入样本中所有单元格的嵌入。与平均池函数在图像分类中的操作方式类似，我们通过计算每个维度的平均值来聚合每个样本的单元格嵌入。虽然这种方法可能会造成一些信息损失，但它是一种常用的有效技术，可以简化特征图的表示，提高模型的泛化性能。此外，它确保单元格顺序不会影响最终结果。最后，将聚集的嵌入传递给表型分类器，即单层MLP，后者输出输入样本的预测表型，即不同表型值的概率分布。

5个实验

我们在三个大型公共COVID scRNA-seq数据集上评估了ScRAT的性能，并将其与五种最先进的方法进行了比较。我们进行了一项消融研究，以确定不同ScRAT成分的影响。最后，我们设计了一种具有成本效益的方法，将ScRAT中的细胞注意力权重转换为相关性得分，该相关性得分决定了给定细胞群体与表型的相关性。我们的生物学分析表明，根据ScRAT中使用注意力权重确定的关键细胞类型，有可能揭示疾病机制。

5.1实验装置

5.1.1数据集

我们的实验包括基于以下三个scRNA-seq COVID19细胞数据集的四项任务。对于COMBAT(COvid-19多组分血液ATlas（COMBAT）联合体2022)和哈尼法(斯蒂芬森等。2021)数据集，我们执行疾病诊断任务（即COVID与非COVID）。对于SC4(任等。2021)主要包括新冠肺炎样本，我们执行两项独立的任务，预测严重程度（即轻度/中度与重度/危重）和阶段（即恢复期与进展期）。请参阅补充表S1了解更多信息。

5.1.2实验设计

为了反映实际应用中标记的scRNA-seq样本的数量有限，我们首先定义培训比例对于每个任务，将训练数据中包含的样本数除以数据集中的样本总数，并将原始数据集相应地拆分为训练和测试数据集。在我们的设计中，对于每个给定的训练率（从9%到50%），我们对100个随机分割进行了实验，以更好地评估不同方法的性能。

由于数据集中的患者数量有限，在二次抽样中控制不同的临床变量值（如年龄和性别）是不切实际的。因此，我们在每次迭代中随机将患者分成训练和测试组。抽样结果应反映原始数据集中临床变量的总体趋势(任等。2021,斯蒂芬森等。2021,COvid-19多组分血液ATlas（COMBAT）联合体2022)这是最大限度地减少其他混杂因素潜在影响的最佳可行策略。

考虑到scRNA-seq数据的高维性可能导致严重的过拟合，我们将原始输入映射到一个低维的潜在空间，通过主成分分析（PCA）只保留50个主成分(哈尔科等。2011). 在以下讨论中，AUC被用作评估指标。

5.1.3基线

我们将ScRAT与五种流行的表型预测方法进行了比较，包括两种伪体方法：（i）“线性”和（ii）“前馈（批量）”，以及三种单细胞方法：（iii）“前导（单个）”、（iv）“注意”和（v）“CloudPred”。请参阅补充章节S2了解更多详细信息。

5.1.4 ScRAT的配置

在整个实验过程中，我们观察到当伪样本数超过250时，模型的性能基本上没有受到影响(补充图S1). 因此，对于ScRAT的每个实验，我们应用混合从原始训练样本中生成300个伪样本，每个样本中有10000个细胞，并且只使用这300个伪采样来训练模型。 $α$ 在beta分布中，混合设置为0.5。对于裁剪策略，我们设置每个固定大小样本中的细胞数(数控)到500，并设置固定大小的样本数(NS公司)培训和测试分别为20和50。我们只使用一个注意层，并设置注意头的数量K至8以及每个头部的尺寸 ${d日}_{千伏特}$ 至16。我们使用Adam优化器，学习率为1e−2。所有超参数都是使用5倍交叉验证技术确定的。请参见补充章节S2了解更多详细信息。

5.2预测结果

我们将ScRAT与五种基线方法在四项任务上进行了比较，并提供了所有方法的AUC图2总的来说，我们有以下观察结果：（i）ScRAT在四项任务上始终优于所有基线方法，这证明了ScRAT的有效性和通用性。更具体地说，ScRAT相对于次优方法（通常是普通关注）的性能优势随着训练数据集大小（样本数）的减小而增加，验证了我们提出的样本混合作为数据增强方法的有用性。例如，当培训率=9%时P（P）-的值t吨-除了SC4-Severity任务外，ScRAT和vanilla注意力的AUC之间的测试值都小于0.01。（ii）香草注意层是所有四项任务的第二好模型，这表明了注意机制在使用scRNA-seq数据进行表型预测任务中的优势。（iii）与ScRAT、注意力模型甚至前馈（批量）相比，前馈（单个）在阶段和严重性任务中的AUC最差，在COMBAT和Haniffa数据集中的精度也较低(补充图S3和S4系列). 虽然前馈（单个）可以使用单元级分辨率的信息，但它会单独处理每个单元，而不考虑它们的连接，如中所述补充章节S2另一方面，前馈（bulk）以平均的基因表达谱作为输入，在预测中自动聚合整个样本的信息。这表明，单独处理每个单元格并天真地平均其嵌入，如前馈（单个），将无法利用单单元格数据集的优势，同时也证明了从一个样本中综合处理所有单元格的必要性，如ScRAT所示。

在单独的窗口中打开

图2。

比较四种不同任务的不同方法。对于每个任务，我们使用AUC报告所有方法的预测结果 $\pm$ 10种不同训练比率的95%置信区间。ScRAT在所有情况下都优于其他方法，其次是普通注意力（P（P）-的值t吨-ScRAT和香草注意力之间的测试 $≪$ 训练比率=9%时，除SC4-严重性任务外，其他任务均为0.01）。随着训练比率的降低，ScRAT相对于普通注意力的性能优势增加，特别是对于作战数据集。请参见补充图S3和S4系列了解更多信息。

5.3细胞注意的生物学解释

使用ScRAT预测表型的准确性在很大程度上依赖于高注意力细胞，这表明这些细胞与驱动临床表型的关键细胞类型之间存在着紧密联系。ScRAT计算每个单元格的注意力权重，而不假设对具有单元格类型的单元格进行注释。因此，它允许生物学家使用不同的聚类和注释方法分析任何给定的细胞组，并使用注意权重推断任何给定细胞群体与表型的相关性。此外，ScRAT的使用可能会识别以前未被充分认识到参与疾病发病机制的细胞类型。这将有助于生物学家产生新的假设，并进一步检查以前未被重视的细胞类型在临床前模型和临床标本中的作用。

我们首先定义细胞与表型预测的相关性如下。给一个经过训练的模型H（H）注意力和输入样本 ${S公司}_{j个}$ 具有N个细胞，ScRAT为每个注意力头部生成一个注意力矩阵。对于一个单元格 ${c（c）}_{我}$ 在里面 ${S公司}_{j个}$ ，其高关注发生值（HOV）被定义为其注意力权重排名第一的总次数k个在所有行中H（H）注意力矩阵，或

H（H） O（运行） {V（V）}_{我}^{{S公司}_{j个}} = \sum_{小时 = 1}^{H（H）} \sum_{n个 = 1}^{N个} 我 (一_{hni公司}^{{S公司}_{j个}} \geq {k个}_{小时 n个}^{{S公司}_{j个}}),

(6)

哪里 $我 (\cdot)$ 是指示器功能， $一_{hni公司}^{{S公司}_{j个}}$ 是在n个-第行和我-的第n列小时-头部的注意力矩阵，以及 ${k个}_{小时 n个}^{{S公司}_{j个}}$ 表示k个-在同一个注意矩阵的同一行中，第个最高的注意权重。

一旦我们有了中所有单元格的单元格注释 ${S公司}_{j个}$ ，我们扩展了细胞级HOV以导出相关性得分（R-score）适用于任何给定的单元格类型 $T型$ 关于样品 ${S公司}_{j个}$ 通过将所有细胞的HOV相加 $T型 \cap {S公司}_{j个}$ ，并将其规范化：

{对 - 分数}_{T型}^{{S公司}_{j个}} = \frac{\sum_{我 = 1}^{N个} 我 ({c（c）}_{我} \in {C类}_{T型}^{{S公司}_{j个}}) H（H） O（运行） {V（V）}_{我}^{{S公司}_{j个}}}{| {C类}_{T型}^{{S公司}_{j个}} |},

(7)

哪里 ${C类}_{T型}^{{S公司}_{j个}}$ 是单元格类型的所有单元格的集合 $T型$ 在里面 ${S公司}_{j个}$ .

对于每个表型，我们将该表型的所有样本中相同细胞类型的R得分平均化。顶部 ${k个}^{'}$ 然后选择平均R评分最高的细胞类型作为该表型的关键细胞类型。

这里，我们使用实验中使用的三个数据集中分析最全面的一个数据集Haniffa数据集来证明ScRAT报告的高注意力细胞和关键细胞类型的临床相关性。根据R评分排名的前10个关键细胞类型（在原始论文中定义的51个细胞组中）是p_DC、RBC、，成浆细胞、血小板、HSC_CD38pos、Plasma_cell_IgG、CD83_CD14_mono、CD14_mono，Plasma_cell_IgA和DC3，如所示表1假设关键细胞类型可以更好地将不同表型的患者分开，我们测试了仅使用该细胞类型的细胞和简单的前馈网络预测表型的效果。AUC报告于表1相当于50%的培训率。我们的大多数关键细胞类型的AUC>0.85。我们对所有51种细胞类型重复实验，除RBC和pDC外，ScRAT选择的关键细胞类型的AUC在前10个AUC中，这证明了具有高R分数的细胞类型与表型预测的相关性。

表1。

仅使用相应的关键细胞类型时，具有R评分和表型分类AUC的前10个关键细胞类型。^一

关键单元格类型	R评分	AUC公司
pDC公司	2.58	0.58
加拿大皇家银行	2.20	0.68
等离子母细胞	2.13	0.94
血小板	2.13	0.86
HSC_CD38位	1.69	1
血浆细胞_IgG	1.62	0.95
CD83_CD14_单	1.56	0.89
CD14_单	1.50	0.94
血浆细胞IgA	1.24	0.92
数据中心3	1.18	0.77

在单独的窗口中打开

^一我们根据COVID表型的R评分对这些关键细胞类型进行排名。R评分越大，表明与表型的相关性越高。我们使用前馈（单）模型仅使用单细胞类型的细胞预测表型。AUC基于50%的训练率，使用一半患者作为训练数据，另一半患者进行测试。ScRAT选择的大多数关键细胞类型也实现了高AUC，RBC和pDC除外。AUC较高的细胞类型在预测不同表型方面更有辨别力，因此更可能是真正的临界细胞类型。高R评分和高AUC的细胞类型之间的一致性表明，ScRAT检测到的高注意力细胞具有表型特异性。请参见补充表S7以获取详细信息。

接下来，我们将这些关键细胞类型与原始论文中的相应分析进行比较(斯蒂芬森等。2021)发现他们的主要发现与表1，如下所述。（i） “体液免疫反应”：ScRAT检测到多个血浆细胞亚型为关键亚型，即成浆细胞、Plasma_cell_IgG和Plasma_cell_IgA，它们是产生抗体的体液免疫的关键效应器。与我们的发现一致，原始论文的作者还报告了具有严重症状的新型冠状病毒肺炎患者中大量的成浆细胞、Plasma_cell_IgA和Plasma_cell_IgG。值得注意的是，针对严重急性呼吸综合征冠状病毒2的体液反应的一个特征是短寿命的中和抗体，包括IgG和IgA，表现在新冠肺炎感染期间和其他炎症状态下的不同体液反应中(阮（Nguyen）等。2022). 这三种亚型中超过21%的细胞具有较高的注意重量，这表明ScRAT可以检测到新冠肺炎感染期间体液免疫反应的重要性。（ii）“单核细胞的影响”：ScRAT还将CD14_mono确定为关键细胞类型。中的数据斯蒂芬森等。(2021)这意味着CD14+单核细胞在健康状态下优先补充支气管肺泡巨噬细胞，而较小且特异的单核细胞亚群，即C1QA/B/C+/CD16+单核细胞核，补充新冠肺炎患者的支气管肺泡细胞。后者表示为C1_C16_mono等级 $13^{t吨小时}$ 根据R评分，在重症监护病房（ICU）收治的患者中，其人口扩张也更为常见。这些单核细胞的不同行为构成了新冠肺炎和非新冠肺炎患者的一个显著特征。（iii）“单核细胞和血小板聚集体”：病理性单核细胞-血小板相互作用与新冠肺炎患者异常凝血和血栓形成有关(列维等。2020,霍茨等。2020). 由于这种相互作用需要受体-配体相互作用，最初的作者建议单核细胞和血小板之间的几个受体-配子对可能会导致冠状病毒患者的异常相互作用。这一发现支持ScRAT选择40%以上的血小板细胞作为关键细胞。（iv）“造血干细胞”：HSC_CD38pos是早期造血祖细胞，在外周血单个核细胞（PBMC）样本中很少观察到。作者假设，他们在新冠肺炎患者PBMC样本中的存在反映了新冠肺炎感染期间骨髓稳态的扰动。由于HSC_CD38pos仅占数据集中细胞的0.27%，这表明ScRAT可以检测到非常小的重要表型特异性细胞类型。

我们还想强调在表1这种新发现的树突状细胞被证明可以促进CD4+和CD8+T细胞的炎症功能(维拉尔和塞古拉2020)，但其具体功能尚待破译。最近有报道称它们与新冠肺炎有关，包括有严重症状的新冠肺炎患者DC3细胞类型中CD163+CD14+细胞增加(温海姆等。2021). 尽管这些DC3细胞在冠状病毒感染中的确切作用尚不清楚，但它们的高R评分表明ScRAT有能力检测特定生物环境中感兴趣的细胞。

我们使用了冠状病毒数据集作者指定的手动注释细胞类型来验证scRAT预测的解释。最近的文献支持了高注意力细胞中最相关的细胞类型，例如特定的单核细胞和血小板。专家的分析与使用ScRAT的注意力权重推断出的关键细胞类型之间的一致性证实了高注意力细胞与表型的相关性。

5.4多层次连续性状预测

虽然本研究中的实验是针对特定患者的二元分类，但我们要强调的是，ScRAT并不仅仅是针对二元特征设计的。我们的实现可以处理多级离散特征（例如更详细的严重性级别）和连续特征（例如恢复时间）。我们并不是因为三个公共数据集中每个多层次性状的患者数量太少而进行这样的实验，而不是因为scRAT的限制。更多关于多层次和连续性状对应公式的描述，请参阅补充章节S3.

6结论

在本文中，我们介绍了利用scRNA-seq数据进行表型预测的问题。我们提出了ScRAT，这是一种基于注意力的方法，旨在在没有标记基因或关键细胞类型先验知识的情况下从有限的样本中学习，并提供准确的表型预测。ScRAT由三个模块组成：样本混合、注意层和表型分类器。样本混合增加了训练数据的大小，以避免过拟合。注意层在没有任何给定细胞类型注释的情况下模拟细胞之间的相互作用，并提供了一种提取在表型预测中重要的关键细胞的方法。表型分类器对注意层产生的输入数据进行潜在表征，并预测表型。我们对来自三个基准的四个任务进行了实验，并证明ScRAT始终优于五个基准。我们还通过分析创建基准的联盟的论文和几个最近的研究，展示了ScRAT确定对表型预测至关重要的细胞类型的生物学意义。这些发现表明，ScRAT有潜力发现表型驱动细胞类型，这些类型暗示了新的分子机制和/或靶向治疗。

补充材料

btae067_补充数据

单击此处查看。^{（622K，pdf格式）}

参与者信息

毛玉珍，加拿大BC V5A 1S6伯纳比西蒙·弗雷泽大学计算科学学院。

Yen-Yi Lin，不列颠哥伦比亚大学泌尿科学系，加拿大温哥华BC V5Z 1M9。温哥华前列腺中心，加拿大不列颠哥伦比亚省温哥华V6H 3Z6。

Nelson K Y Wong，加拿大温哥华不列颠哥伦比亚省V5Z 1L3不列颠哥伦比亚省癌症实验治疗系。

斯坦尼斯拉夫·沃利克，温哥华前列腺中心，加拿大不列颠哥伦比亚省温哥华V6H 3Z6。

Funda Sar，不列颠哥伦比亚大学泌尿科学系，加拿大温哥华BC V5Z 1M9。温哥华前列腺中心，加拿大不列颠哥伦比亚省温哥华V6H 3Z6。

科林·柯林斯，不列颠哥伦比亚大学泌尿科学系，加拿大温哥华BC V5Z 1M9。温哥华前列腺中心，加拿大不列颠哥伦比亚省温哥华V6H 3Z6。

马丁·埃斯特尔，加拿大BC V5A 1S6伯纳比西蒙·弗雷泽大学计算科学学院。温哥华前列腺中心，加拿大不列颠哥伦比亚省温哥华V6H 3Z6。

补充数据

补充数据可在生物信息学在线。

利益冲突

未申报。

基金

这项工作得到了NSERC Discovery Grant“生物医学数据的转移学习和因果模型”以及加拿大卫生研究院（PJT-175238）和癌症研究学会（840847）的资助。

工具书类

Bahdanau D，Cho K，Bengio Y。通过联合学习对齐和翻译实现神经机器翻译。arXiv预印本arXiv:1409.04732014年9月1日。
Beltagy I、Peters ME、Cohan A.Longformer：长文档转换器。arXiv预打印arXiv:2004.051502020年4月10日。
BrbićM、Zitnik M、Wang S。等。MARS：通过异质单细胞实验发现新的细胞类型.Nat方法2020;17:1200–6.[公共医学][谷歌学者]
癌症基因组图谱研究网络。原发性前列腺癌的分子分类.单元格2015;163:1011–25.[PMC免费文章][公共医学][谷歌学者]
Carratino L，Cisse M，Jenatton R，Vert JP.关于混合正则化。J Mach学习研究2022;23:14632–62.
Chefer H，Gur S，Wolf L.用于解释双模态和编码器-解码器转换器的一般注意力模型可解释性。在：IEEE/CVF计算机视觉国际会议记录2021年（第397-406页）。
Chefer H、Gur S、Wolf L.Transformer超越注意力可视化的可解释性。在：2021年IEEE。InCVF计算机视觉和模式识别会议（2020年）2020年（第782-791页）。
Chen F、Wendl MC、Wyczalkowski MA。等。将泛癌研究从基础研究转向临床.Nat癌症2021;2:879–90.[公共医学][谷歌学者]
Ching T、Himmelstein DS、Beaulieu-Jones BK等。生物和医学深度学习的机会和障碍。J R Soc接口. 2018;15:20170387.[PMC免费文章][公共医学][谷歌学者]
克拉克·K、坎德瓦尔·U、利维·O、曼宁·CD。伯特在看什么？对伯特注意力的分析。arXiv预印本arXiv:1906.043412019年6月11日。
COvid-19多组织血液ATlas（COMBAT）联盟。新冠肺炎的血液图谱确定了疾病严重性和特异性的标志.单元格2022;185：916–38.e58。[PMC免费文章][公共医学][谷歌学者]
Cullen J、Rosner IL、Brand TC。等。在不同种族的临床低风险和中等风险前列腺癌患者中，基于活检的17基因基因组前列腺评分预测根治性前列腺切除术后复发和不良手术病理.欧洲泌尿学2015;68:123–31.[公共医学][谷歌学者]
Cuzick J、Berney DM、Fisher G。等。；跨大西洋前列腺组织。保守管理的针吸活检队列中细胞周期进展特征对前列腺癌死亡的预测价值.英国癌症杂志2012;106:1095–9.[PMC免费文章][公共医学][谷歌学者]
Devlin J，Chang MW，Lee K，Toutanova K.Bert：语言理解的深层双向变压器预训练。arXiv预打印arXiv:1810.048052018年10月11日。
Dosovitskiy A、Beyer L、Kolesnikov A等人。一幅图像值16x16个单词：用于大规模图像识别的变形金刚。arXiv预印arXiv:2010.119292020年10月22日。
Erho N、Crisan A、Vergara IA。等。前列腺癌基因组分类器的发现和验证可预测根治性前列腺切除术后早期转移.公共科学图书馆一号2013;8：e66855。[PMC免费文章][公共医学][谷歌学者]
Fan J，Lyu Y，Zhang Q等人。MuSiC2：多条件体RNA-seq数据的细胞类型反褶积。生物信息简介2022;23：bbac430。[PMC免费文章][公共医学][谷歌学者]
Halko N、Martinsson PG、Tropp JA。等。寻找随机结构：构造近似矩阵分解的概率算法.SIAM版本2011;53:217–88.[谷歌学者]
He B，Thomson M，Subramaniam M等人。Cloudpred：从单细胞rna-seq预测患者表型。在：2022年太平洋生物计算研讨会. 2021. （第337-348页）。[公共医学]
Hottz ED、Azevedo-Quintanilha IG、Palhinha L。等。血小板活化和血小板-单核细胞聚集物形成触发重症新冠肺炎患者组织因子表达.血液2020;136:1330–41.[PMC免费文章][公共医学][谷歌学者]
Krizhevsky A、Sutskever I、Hinton GE。等。基于深度卷积神经网络的ImageNet分类.通用ACM2017;60:84–90.[谷歌学者]
Levi M、Thachil J、Iba T。等。新型冠状病毒肺炎患者的凝血异常和血栓形成.柳叶刀血液2020;7：e438–40。[PMC免费文章][公共医学][谷歌学者]
刘莉、刘杰、韩杰。多头还是单头？变压器培训的实证比较。arXiv预打印arXiv:2106.096502021年6月17日。
Lonsdale J、Thomas J、Salvatore M。等。基因型组织表达（GTEx）项目.自然基因2013;45:580–5.[PMC免费文章][公共医学][谷歌学者]
Lopez R、Regier J、Cole MB。等。单细胞转录组学的深度生成模型.Nat方法2018;15:1053–8.[PMC免费文章][公共医学][谷歌学者]
Ma W，Sharma S，Jin P等。LRcell：从大量RNA-seq数据中检测亚细胞类型水平的差异表达源。生物信息简介2022;23：bbac063。[PMC免费文章][公共医学][谷歌学者]
Morley TJ、Han L、Castro VM。等。临床数据中的表型特征使系统识别患者进行基因检测成为可能.自然·医学2021;27:1097–104.[PMC免费文章][公共医学][谷歌学者]
Newman AM、Steen CB、Liu CL。等。用数字细胞术测定大块组织中的细胞类型丰度和表达.Nat生物技术2019;37:773–82.[PMC免费文章][公共医学][谷歌学者]
Nguyen DC，Lamothe PA，Woodruff MC。等。新型冠状病毒肺炎和浆细胞：有长效保护吗？免疫学评论2022;309:40–63.[PMC免费文章][公共医学][谷歌学者]
Penney KL、Sinnott JA、Fall K。等。gleason分级mRNA表达特征预测前列腺癌致死.临床肿瘤学杂志2011;29:2391–6.[PMC免费文章][公共医学][谷歌学者]
Perou CM、Sörlie T、Eisen MB。等。人类乳腺肿瘤的分子图像.自然2000;406:747–52.[公共医学][谷歌学者]
Ravindra N、Sehanobish A、Pappalardo JL等。使用图形注意网络从单细胞数据预测疾病状态。在：ACM健康、推理和学习会议记录2020年4月2日（第121-130页）。
任X、文W、范X。等。大规模单细胞转录组图谱揭示的新冠肺炎免疫特征.单元格2021;184：1895–913.e19。[PMC免费文章][公共医学][谷歌学者]
Stephenson E、Reynolds G、Botting RA。等。；剑桥治疗免疫学和传染病研究所-国家卫生研究所（CITID-NIHR）新冠肺炎生物资源合作。新冠肺炎免疫反应的单细胞多组学分析.自然·医学2021;27:904–16.[PMC免费文章][公共医学][谷歌学者]
Tay Y、Dehghani M、Bahri D等人，《高效变压器：一项调查》。arXiv预印本cs。LG/2009.06732号. 2020.
Uhlen M、Zhang C、Lee S。等。人类癌症转录组病理图谱.科学类2017;357：eaan2507。[公共医学][谷歌学者]
Vaswani A、Shazeer N、Parmar N等人。注意力是你所需要的。高级神经信息. 2017;30.[谷歌学者]
Verma V、Lamb A、Beckham C等人。流形混合：通过插值隐藏状态学习更好的表示. 2019.
维拉尔J，塞古拉E。。越多越好：DC3加入人类树突状细胞家族.免疫2020;53:233–5.[公共医学][谷歌学者]
Winheim E、Rinke L、Lutz K。等。新型冠状病毒肺炎树突状细胞功能受损和延迟再生.公共科学图书馆-病理学2021;17：e1009742。[PMC免费文章][公共医学][谷歌学者]
尹Q，王毅，关杰。等。sciae：基于自编码器的单细胞RNA-seq数据集成分类框架.生物信息简介2022;23：bbab508。[公共医学][谷歌学者]
曾峰，孔X，杨峰等。scPheno：一种将scRNA-seq与疾病表型相结合的深度生成模型及其在预测新型冠状病毒肺炎和严重程度评估中的应用。生物Rxiv。20222022–06.
Zhang H，Cisse M，Dauphin YN等。混合：超越经验风险最小化。arXiv预输入rXiv:1710.094122017年10月25日。
周浩，张S，彭杰等。信息员：超越长序列时间序列预测的有效变压器。在：AAAI人工智能会议记录2021年5月18日。

文章来自生物信息学由以下人员提供牛津大学出版社