摘要

在分析单细胞RNA-seq数据时,根据转录体的渐变构建一条假时间路径来排序细胞是研究异质细胞群中基因表达动力学的一种有用方法。目前,可用于此任务的计算工具数量有限,并且缺乏用于比较不同工具的定量方法。单细胞分析工具(TSCAN)是为更好地支持生物信息学伪-T型ime重建S公司单一的-C类细胞RNA-seqAN公司分析。TSCAN使用基于聚类的最小生成树(MST)方法对单元进行排序。首先将细胞分组为簇,然后构建MST以连接簇中心。伪时间是通过将每个细胞投影到树上来获得的,细胞的有序序列可以用于研究基因表达沿伪时间的动态变化。在构造MST之前对单元进行聚类,降低了树空间的复杂性。这通常会改进单元排序。它还允许用户根据先验知识方便地调整排序。TSCAN具有图形用户界面(GUI),支持数据可视化和用户交互。此外,还制定了定量措施,以客观评估和比较不同的伪时间重建方法。TSCAN可在https://github.com/zji90/TSCAN以及作为生物导体包。

简介

单细胞RNA-seq是一种改造性技术,允许研究人员测量单个细胞的转录体(1,2). 与单细胞RNA-seq不同,常规RNA-seq[也称为“散装RNA-sea'”](,4)或微阵列(5,6)实验用于测量细胞群体的平均基因表达。在许多应用中,细胞群是异质的,并且包含多种细胞类型。因此,群体的平均转录组可能无法捕获单个细胞中的重要转录信号。有时,由于Simpson悖论,使用群体平均值来研究特定细胞类型的行为也可能会产生误导(7,8). 由于能够测量每个单个细胞的转录组,单细胞RNA-seq能够生成异质细胞群中基因表达景观的更高分辨率视图(9–11). 这可以对复杂的生物现象进行更准确的分子表征(12).

如所示(8),从单细胞RNA-seq数据中获得生物学见解的一种有用方法是根据细胞转录组的逐渐转变对细胞进行计算排序。例如,在细胞分化过程中,细胞可以以不同的速度进化。在分化过程中的特定时间点采集的细胞样本实际上可以包含代表不同分化阶段的细胞。使用单细胞RNA-seq数据,可以构建一个有序的细胞序列来描述单细胞转录组的渐变。如果是这样生物信息学顺序与细胞的真正分化阶段相一致,然后通过分析基因表达如何沿着细胞的顺序发生变化,我们将能够获得关于分化过程中转录组动力学的见解。细胞排序过程生物信息学称为伪时间重建,因为它模拟了将细胞放置在时间轴上的过程。尽管使用了术语“时间”,但“伪时间重建”可以更广泛地指代任何细胞排序过程,无论排序是否具有时间解释(例如,细胞的排序可能反映细胞的空间顺序,而不是时间顺序)。

已经提出了几种计算方法来分析单细胞基因组数据,例如单细胞质谱仪数据(13–15)和单细胞基因表达数据(8,16–19). 然而,对于单细胞RNA-seq数据中的伪时间重建,只有有限的方法经过了系统测试,并且具有易于访问的软件工具。在(8)为了解决这个问题,提出了一种无监督方法Monocle。Monocle使用最小生成树(MST)来描述单元之间的转换结构。提取树的主干作为伪时间轴,按顺序放置细胞。以前也曾使用类似的无监督生成树方法分析流式细胞术数据(15). 作为一种无监督的方法,基于生成树的伪时间重建不需要任何关于细胞顺序的先验信息。当时间顺序信息可用时,分析单细胞基因表达动力学的另一种方法是使用这些信息来监督分析。这种监督方法的一个例子是SCUBA(16). SCUBA使用分歧分析从多个时间点收集的单细胞基因表达数据恢复生物谱系。这里,时间进程实验中的多个时间点用于监督细胞排序和细胞分化过程中基因表达动力学的分析。通过使用可用的时间信息,有监督方法可以比无监督方法更准确。然而,在时间信息不可用的应用中(例如,如果需要从单个疾病样本而不是从时间过程实验中分析异质细胞群体),监督方法不适用,必须依赖于非监督方法。由于这些原因,监督和非监督方法都是有用的。本文的主要重点是无监督方法。

Monocle的一个潜在限制是它的树是用来连接单个细胞的。由于单元数很大,树空间非常复杂。在这样一个复杂的空间中,树推理具有很高的可变性,并且可能非常不稳定。因此,该算法找到的最优树可能并不代表细胞的真实生物顺序。这可以用图中的玩具示例来说明1A–C点表示放置在二维空间中的细胞(例如,与基因表达谱顶部两个主要成分相对应的空间),真实的生物时间自上而下垂直运行。MST解决方案并不是唯一的。1安培B类展示两种可能的解决方案。当轻微的测量噪声将标有“*”的单元格推离其他单元格时,图中的树1安培可以很容易地成为基于MST算法的更好的解决方案。然而,这种解决方案使细胞的排列顺序不同于其真正的生物顺序。可以缓解这个问题的一种方法是降低树空间的复杂性。这类似于统计学和机器学习文献中的偏差-方差权衡。例如,如果一个类似的单元格聚集在一起,如图所示1摄氏度然后构造一棵树来连接簇中心,恢复真正的时间轴变得更加容易。在本文中,我们利用这一思想开发了单细胞分析工具(TSCAN),这是一种新的伪时间重建工具。聚类单元的另一个优点是,如果用户愿意,可以更容易地手动调整树节点(即单元簇)的顺序,因为簇的数量通常不大。相比之下,手动指定数百个单元格的顺序要困难得多。

TSCAN概述。(A–B)一个玩具示例,说明基于细胞的MST的局限性。在这里,细胞(蓝色圆圈)被放置在二维空间中,真实的生物时间自上而下运行。连接细胞的MST并不是唯一的。(A)和(B)都是可能的解决方案。(B) 更符合事实。然而,在现实中,随机测量噪声可能会使标有“*”的单元格偏离箭头和虚线所示的其他单元格。因此,(B)不再是MST。另一方面,(A)中的MST并不反映细胞的真实顺序。(C) 如果首先将相似的细胞分组为簇,然后构建MST来连接簇中心,则可以找到真正的时间轴。(D) TSCAN首先构建基于聚类的MST(以五组不同颜色编码的细胞为例;数字表示聚类中心)。树可以有多个路径(例如1-2-3-4或1-2-3-5)。TSCAN通过将每个单元投影到树边缘,沿每条路径排列单元。(E) 通过找到由两条线(虚线)组成的最佳分段线性拟合来确定要保留的主成分的数量。
图1。

TSCAN概述。(A类B类)一个玩具示例说明了基于细胞的MST的局限性。在这里,细胞(蓝色圆圈)被放置在二维空间中,真实的生物时间自上而下运行。连接细胞的MST并不是唯一的。(A)和(B)都是可能的解决方案。(B) 更符合事实。然而,在现实中,随机测量噪声可能会使标有“*”的单元格偏离箭头和虚线所示的其他单元格。因此,(B)不再是MST。另一方面,(A)中的MST并不反映细胞的真实顺序。(C类)如果首先将相似的细胞分组为簇,然后构建MST来连接簇中心,则可以找到真正的时间轴。()TSCAN首先构建基于聚类的MST(以五组不同颜色编码的细胞为例;数字表示聚类中心)。树可以有多个路径(例如1-2-3-4或1-2-3-5)。TSCAN通过将每个单元投影到树边缘,沿每条路径排列单元。(电子)要保留的主分量的数量是通过找到由两条线(虚线)组成的最佳分段线性拟合来确定的。

现有工具的另一个限制是,它们大多是命令行驱动的,不允许用户以交互方式调整或微调分析。例如,用户通常希望使用他们现有的知识(如标记基因)过滤出污染细胞,确定时间来源或手动更改某些树节点的顺序。然而,这些操作对于命令行驱动的软件工具(如Monocle)来说并不方便。TSCAN通过提供图形用户界面(GUI)来解决这一限制(图2). 使用GUI,用户可以交互且方便地将先验生物信息合并到伪时间重建分析中。

TSCAN图形用户界面。左侧面板包含用于设置参数的功能菜单和工具。右侧面板显示数据和结果。顶部散点图显示了为LPS数据构建的MST(见结果)。单元格(点)根据其前两个主成分显示。细胞簇用不同的颜色表示。数字是集群中心。显示每个细胞的标记基因BCL3的表达水平。较大的标记大小意味着较高的表达。底部图显示了每个树节点的平均BCL3表达式,在所有节点中进行了标准化,以使平均值和单位标准偏差为零。
图2。

TSCAN图形用户界面。左侧面板包含用于设置参数的功能菜单和工具。右侧面板显示数据和结果。顶部散点图显示了为LPS数据构建的MST(见结果)。单元格(点)根据其前两个主成分显示。细胞簇用不同的颜色表示。数字是集群中心。显示每个细胞的标记基因BCL3的表达水平。较大的标记大小意味着较高的表达。底部图显示了每个树节点的平均BCL3表达式,在所有节点中进行了标准化,以使平均值和单位标准偏差为零。

最后但并非最不重要的是,当有几种不同的伪时间重建方法可用时,能够评估和比较它们以确定最佳解决方案非常重要。然而,如何评价不同的伪时间重建方法也是一个悬而未决的问题。目前仍缺乏比较不同方法的客观指标。本文介绍了几种用于评估不同细胞排序方法的定量测量方法。使用这些客观指标,我们表明与其他方法相比,TSCAN能够提供更可靠的无监督伪时间重建结果。

材料和方法

问题表述

考虑以下具有代表性的样本N个从异质细胞群中提取的细胞。假设转录组|$\mathbf美元{Y} _ i$|每个单元格的∈{1,2…,N个}已使用单细胞RNA-seq进行分析。在这里,|$\mathbf美元{Y} i(_i)$|是一个G公司由基因表达测量组成的维向量G公司基因。假设|$\mathbf美元{Y} _ i$|适当地转换(例如通过取对数)并跨单元格进行标准化。单细胞排序问题,也称为伪时间重建,是根据细胞的渐变顺序来排列细胞|$\mathbf美元{Y} _ i$|⁠.

TSCAN分三步订购电池。首先,具有相似基因表达谱的细胞被分组成簇。其次,构建MST以连接所有集群中心。最后,将细胞投影到树干上,以确定其伪时间和顺序(图一维). 一旦细胞被排序,用户就可以使用排序序列来研究细胞取样的潜在生物过程中的细胞状态转变和基因表达动力学。

预处理

在伪时间重建之前,原始基因表达数据处理如下。首先,排除所有样本中读取计数为零的基因。其次,为了减轻辍学事件的影响(20)在随后的分析中,通过层次聚类(使用欧氏距离和完全连锁)将具有相似表达模式的基因分为簇。簇数设置为非零表达基因总数的5%。对于每个簇和每个细胞,对簇中所有基因的表达测量值进行平均,以生成簇级表达,用于后续的MST构建。脱落事件是指表达的基因(其中一些高度表达)在某些细胞中可能没有读取计数,因为它们的分子可能不会被偶然捕获和放大。这是单细胞RNA-seq数据中的常见现象。通过对多个基因进行平均,聚类水平的表达更加稳定,与单个基因的测量值相比,估计方差更小。这有助于淡化辍学事件的影响。

基因聚类后,细胞的单细胞转录组成为H(H)量纲向量|$\mathbf美元{E} _ i$|⁠.给,H(H)是基因簇的数量。|$\mathbf美元{E} i(_i)$|仍然具有高维,并且该向量中的许多分量仍然相关。维数使得可视化和统计建模变得困难。因此,TSCAN进一步降低了|$\mathbf美元{E} _ i$|使用主成分分析(PCA)。简要地,|$\mathbf美元{E} _ i$|从所有单元格组织为H(H)×N个矩阵|$\mathbf{E}$|每行对应一个基因簇。矩阵是标准化的,以便每行中的表达式值具有零平均值和单位标准偏差。然后在标准化矩阵上运行PCAK(K)保留主要部件(PC)。PCA后H(H)量纲向量|$\mathbf美元{E} _ i$|映射到低维空间并成为K(K)量纲向量|$\mathbf{\tilde{E}}_i$|.给,K(K)远小于H(H).

为了确定K(K)(即保留多少台PC),TSCAN使用以下标准。首先,设λ是由第i个PC定义|$v_i\equiv\sqrt{\lambda _i}$|.|$v(美元)$|是的非递增函数此函数可以使用连续分段线性模型进行近似|$v(美元)$|=(f)()+ε,其中ε表示噪声(f)()由两条回归线组成(图1E级)以下为:
\begin{eqnarray*}f(i)=\left\lbrace\begin{array}{@{}l@{quad}l@}}\alpha_0+\alpha_1*i&\mbox{if}\i\lek\\beta_0+\beta_1*i&\mbox}if}\i>k\end{arrary}\right。\非成员\\s.t.\\alpha_0+\alpha_1*k=\beta_0+\beta_1*k\end{eqnarray*}
(1)
TSCAN使用前20台PC计算此模型的最小二乘拟合。当一台PC发生变化时,拟合模型会发生变化k个.TSCAN尝试不同k个∈[2,19]并找到k个其产生最小的平方误差,|$\sum\nolimits_{i=1}^{20}{{{[{v_{\rmi}}-f(i)]}^2}}$|.这个k个将用作要保留的PC数。

细胞聚类

在降维后,使用中描述的基于模型的聚类方法将具有相似表达式配置文件的单元格分组为簇(21). 使用麦克卢斯特(22)将多元正态分布混合到数据中的R包|$\mathbf{\tilde{E}}_i$|。该混合物中每个正常成分的方差-方差矩阵被指定为“椭球体,可变体积、形状和方向”。簇的数量由选择麦克卢斯特使用贝叶斯信息准则(BIC)。经过模型拟合,可以计算出每个细胞属于每个簇的后验概率。根据最大后验概率将细胞分配给簇。对于每个集群,集群的平均值为|$\mathbf{\tilde{E}}_i$|被视为集群中心。而不是使用由麦克卢斯特基于BIC,用户还可以选择指定自己的集群编号。

按MST排序细胞簇

接下来,TSCAN构建最小生成树来连接所有集群中心。在连通和无向图中,生成树是一个子图,它是一棵树,连接所有顶点(或“节点”)。假设图中的每条边的长度等于该边连接的两个节点(即聚类中心)之间的欧几里得距离。MST是所有可能生成树中总边长最小的生成树。与Monocle使用的MST方法不同,Monocle构建树是为了连接单个细胞,而TSCAN中的MST是为了连接细胞簇。聚类单元减少了树空间的可变性和复杂性。因此,簇级MST可以更好、更稳定地估计树主干,这在很大程度上决定了单元顺序。聚类的另一个优点是它大大减少了树节点的数量,这样用户以后就更容易以交互方式微调分析(例如手动调整树节点的顺序)。

一棵树可能有多个分支。默认情况下,我们定义树的主路径(图中的实线一维)作为簇数最多的路径。如果多个路径具有相同的最大簇数,则具有最大单元数的路径将成为主路径。主要路径有两个端点。如果没有其他信息,将随机选取一端作为路径的原点。或者,用户可以使用标记基因表达等信息指定一端作为原点。确定主路径及其原点后,TSCAN将枚举从原点开始的所有分支路径。例如,假设图中的集群1一维则TSCAN将报告主路径1-2-3-4和分支路径1-2-3-5。如果算法生成的簇顺序不能让用户满意,他们可以选择手动指定路径和每个路径上簇的顺序。

单元排序和伪时间计算

一旦确定了集群级别的顺序,单个单元将被投影到树的边缘上,以沿主路径和每个分支路径创建单元级别的顺序。对于每条路径,将收集路径上的所有簇。这些集群中的所有单元将按照以下路径排序。C类(i=1,2。。。,M(M))指示有序集群,其中M(M)是有序路径上的簇数。假设|$\mathbf{\tilde{E}}^{(i)}$||$\mathbf{\tilde{E}}^{(j)}$|是两个相邻集群的集群中心C类C类j个在路上,假设C类先于C类j个连接两个簇的边由|$\mathbf美元{v}(v)_{ij}=\mathbf{\tilde{E}}^{(j)}-\mathbf{\tilde{E}}^{(i)}$|和细胞的投影k个到边缘的距离由内积决定|$\mathbf美元{v}(v)_{ij}^T\mathbf{\tilde{E}}_k/||\mathbf{v}_{ij}||$|其中||.||2-向量的范数。群集中的单元格C类1都投射到连接的边上C类1C类2.群集中的单元格C类M(M)都投射到连接的边上C类M−1号机组C类M(M).来自中间簇的细胞C类(1<米<M(M))根据它们是否靠近集群中心分为两组C类米-1或到集群中心C类米+1用欧几里得距离表示。靠近群集中心的单元格C类米-1投影到连接簇的边上C类米-1C类,而细胞更靠近簇中心C类米+1映射到边连接簇C类C类米+1.

细胞顺序分三步确定。首先,对于位于同一簇中并投影到同一条边上的单元,它们的顺序由边上的投影值确定。其次,在每个簇内,投影到不同边缘上的细胞的顺序由边缘的顺序决定,边缘的顺序由簇级顺序给出。第三,不同簇中细胞的顺序取决于簇的顺序。这样,所有单元格都可以按顺序放置。

一旦单元被排序,就会为每个排序的路径计算伪时间。对于给定的路径,路径上单元格的顺序设置为其伪时间。例如第k个路径上的单元格设置为k个.分别为主路径和每个分支路径构造伪时间。

检测差异表达基因

细胞排序后,可以按照Monocle中的方法检测差异表达的基因(8). 广义加性模型(GAM,有效自由度=3)(23)对每个基因进行拟合,以描述其表达与假时间之间的功能关系。GAM使用mgcv公司(23)然后将该模型与一个空模型进行比较,该空模型假定沿伪时间路径的表达式为常量。这个P(P)-使用似然比测试计算值,然后使用中的方法转换为错误发现率(FDR)(24). 默认情况下,FDR<0.05的基因被报告为差异基因。与Monocle一样P(P)-值和FDR是基于假定给定单元顺序计算的。他们没有考虑细胞顺序中的不确定性,并且细胞顺序不是由实验设计决定的,而是从用于分析微分表达式的相同数据中导出的。我们注意到,如何评估进一步解释这些额外不确定性的统计显著性仍然是一个悬而未决的问题。它需要开发更复杂的方法,并系统地研究这些额外的不确定性如何影响不同的方法(例如,如何P(P)-当将单元格排序视为从数据推断的未知参数时,值发生变化)。这些调查超出了当前研究的范围,因为本文的主要重点是如何改进和评估细胞排序。

方法评估

我们使用三种方法评估单元排序性能。第一种方法基于独立信息源所期望的排序来评估单元格排序的准确性。假设在伪时间重建中未使用的外部信息可用于评估细胞的成对顺序。形式上,让π表示N个π由特定伪时间重建方法生成的细胞。(π,i、 j个)是表征第i个第j个有序路径π中的单元格根据外部信息匹配其预期顺序。我们将细胞排序π的伪时间排序得分(POS)定义为(π,i、 j个)对于所有单元格对:
\开始{方程式*}POS_{\pi}=\sum_{i=1}^{N_{\pi}-1}\sum__{j:j>i}g(\pi,i,j)\end{方程式*1}
(2)
然后,可以基于POS得分比较不同伪时间重建方法产生的细胞顺序π。

作为一个具体的例子,假设一个人有从时间进程实验中收集的单细胞RNA-seq数据。在这样的实验中,数据采集时间是已知的。为了评估无监督伪时间重建方法,可以将所有时间点的细胞聚集在一起,假设每个细胞的数据采集时间未知,并应用不同的方法重建伪时间。然后,根据真实的数据采集时间,将其单元格排序结果与单元格顺序进行比较,从而评估不同的方法。例如,如果有N个收集的单元格V(V)分化过程中的时间点。N个细胞,N个|$v(美元)$|细胞来自时间T型|$v(美元)$|(T型1<T型2<-小试牛小试牛小试牛小试牛小试牛小试牛小试牛小试牛小试牛小试牛小试牛小试牛小试牛小试牛小试牛小试牛小试牛小试牛小试牛小试牛小试牛小试牛小试<T型V(V)). 考虑一下第i个单元格和第j个有序路径π中的单元格,其中先于j个(即。<j个). 可以定义成对得分(π,i、 j个)如下:

  1. 如果两个单元格最初是在同一时间点收集的(例如,它们都来自T型|$v$|),那么(π,i、 j个) = 0.

  2. 否则,如果第i个单元格是从时间点开始收集的T型|$v(美元)$|第j个从时间点收集单元格T型u个,那么(π,i、 j个) = (u个|$v$|)/π.值u个|$v(美元)$|为正,如果|$v(美元)$|表示较早的时间点,如果为负值|$v(美元)$|表示晚于的时间u个.

分母π选择上面的选项来规范POS,以便销售时点情报系统π∈[−1,1](即每条路径π内所有可能的细胞顺序中的最大和最小POS分别为1和−1)。基于此定义,与已知数据收集时间更一致的单元格排序将具有更高的POS分数。销售时点情报系统π=1表示伪时间重建产生的细胞顺序与数据采集时间确定的顺序完全匹配。销售时点情报系统π=−1表示伪时间重建产生的细胞顺序与数据采集时间确定的顺序相反。使用POS评估细胞顺序是基于以下假设:外部信息(即本例中的真实数据采集时间)可以大致反映细胞的真实生物顺序(如细胞分化阶段)。实际上,由于在每个时间点收集的细胞都是异质的,因此在分化时间过程中较早(分化程度较低)的时间点收集到的一些细胞实际上比在较晚的时间点采集到的某些细胞分化程度更高。尽管如此,通常可以合理地预期,在较早时间点收集的细胞“平均”应比在较晚时间点收集到的细胞分化更少。因此,此处使用的外部信息(即数据收集时间)仍然可以大致反映细胞的真实生物顺序,并可用作评估细胞排序性能的替代品。

第二种方法通过扰动原始单细胞RNA-seq数据集来评估细胞排序的稳健性(见下文)。每个单元排序方法都适用于原始数据集和扰动数据。然后比较原始数据和扰动数据产生的单元格排序。量化两条伪时间路径π中细胞顺序之间的相似性1和π2,让A类是π中细胞的联合1和π2,让|A类|是的基数A类(即π中不同细胞的数量1和π2),并定义π之间的相似性得分1和π2作为:
\开始{方程*}s_{\pi _1,\pi _2}=\frac{2}{|A|(|A|-1)}\sum _{i,j\ in A;i \ne j}h(\pi _1,\pi _2,i,j)\结束{方程*}
(3)
在这里,小时1, π2,i、 j个)如果两个单元格的顺序为1j个在π中保持不变1和π2(即。出现在之前或之后j个两个订单中),以及小时1, π2,i、 j个)否则=0。如果有j个仅在一条路径中发生(例如。单位为π1但不是π2)、之间的订单j个单位:π1和π2被视为不一致,以及小时1, π2,i、 j个)也设置为零。较高的相似性分数表明这两个排序π1和π2彼此更相似,而较低的分数表示两个排序之间的偏差较大。

在本文中,使用了两种不同的方法来扰动数据:细胞级扰动和表达级扰动。对于细胞级扰动,x个百分比(x个=95%、90%或75%)的细胞从原始数据集中随机取样,作为扰动数据。每个细胞的基因表达谱保持不变。对于表达水平的扰动,我们保留了原始数据集中的所有细胞,但在其基因表达谱中添加了模拟噪声(即。|$\mathbf{Y}$|). 为了产生噪声,计算所有细胞中每个基因的平均表达值,然后从每个细胞中的基因表达值中减去。以这种方式获得的残差通过乘以比例因子κ(κ=5%、10%或25%)进行缩放。然后对缩放后的残差进行排列,并将其添加回基因的原始表达值。对于每个扰动方法和参数值(x个或κ),将原始数据独立扰动100次,生成100个扰动数据集。对于每个扰动数据集,计算原始排序和扰动排序之间的相似性得分。最后,计算100个扰动的平均相似性得分,以衡量每种伪时间重建方法的稳健性。

第三种方法评估细胞排序方法沿有序细胞路径检测已知差异表达基因的能力。给定一个测试数据集,人们可以收集已知沿细胞生物顺序序列差异表达的基因,并将其作为金标准。然后可以沿着伪时间轴检测差异基因,并根据它们如何对金标准基因进行排序来比较不同的方法。

TSCAN包和GUI

TSCAN是使用统计编程语言R作为Bioconductor包实现的。它可以在命令行模式下运行,也可以通过GUI运行。GUI是使用R中闪亮的软件包开发的。它允许用户方便地构建、可视化和调整细胞顺序。例如,可以使用GUI根据用户特定标记基因的表达水平交互式地修剪不需要的细胞。还可以更改集群级别的顺序,然后重新计算伪时间。TSCAN是开源的,可在以下网站免费获得:https://github.com/zji90/TSCAN。其生物导体包可从下载http://www.bioconductor.org/packages/release/bioc/html/TSCAN.html。补充资料中提供了安装指南。

数据集

从文献中汇编了三组数据来评估TSCAN。第一组数据包括来自分化人类骨骼肌成肌细胞(HSMM)的单细胞RNA-seq样本(8). 它包含271个细胞,这些细胞是在将人类成肌细胞转换为低血清后的0、24、48和72小时收集的。第二个数据集包括通过脂多糖(LPS)刺激骨髓来源的树突状细胞后收集的单细胞RNA-seq样本(25). 在刺激后1、2、4和6小时收集的总共306个细胞用于我们的分析。第三组数据包括来自海马静止神经干细胞(qNSC)的单细胞RNA-seq样本(26). 它包含从相同细胞群中收集的172个细胞。对于所有数据集,在添加伪计数1后,对标准化基因表达值(HSMM的每千碱基对片段数/百万总读取数,LPS和qNSC的每百万总读取量转录数)进行log2转换。在原始数据之后|$\mathbf美元{Y} _ i$|已处理到|$\mathbf美元{E} _ i$|⁠,|$\mathbf美元{E} _ i$|被用作不同方法(即TSCAN、Monocle、Waterfall、SCUBA和Wanderlust)的输入,以构建伪时间。的规范化数据|$\mathbf美元{Y} i(_i)$||$\mathbf美元{E} _ i$|可从TSCAN GitHub网站获取(https://github.com/zji90/TSCANdata(https://github.com/zji90/TSCANdata)). 补充表S1提供了实验中样本标识符和样本采集时间之间的对应关系。

与其他方法的比较

补充表S2将TSCAN与许多其他单细胞数据分析方法进行了比较。在这些方法中,MARS-seq(17)和SINCE-PCR(19)没有可供他人使用的相关软件。铲刀(15)和viSNE(13)是为分析大规模细胞术或流式细胞术数据而开发的,它们不提供细胞排序功能。扩散贴图(27)是一种用于定义微分轨迹的降维技术。它无法自行执行单元格排序。scLVM方法(18)主要关注于识别细胞亚群。同样,它不能排序单元格。由于上述原因,我们在随后的数据分析中没有将这些方法与TSCAN进行比较。

在剩下的方法中,Monocle被设计用于处理单细胞RNA-seq的无监督细胞排序,并有一个软件包。流浪癖(14)最初是为大规模或流式细胞术数据开发的。它使用基于图形的轨迹检测算法在假设没有分支的情况下对单元进行排序。我们对其MATLAB代码进行了调整,使其能够将单细胞RNA-seq数据作为输入。水肺(16)如前所述,这是一种有监督的方法。然而,SCUBA包还提供了一个无监督单元排序选项,该选项基于将主曲线拟合到数据,然后将单元映射到曲线。瀑布是一个数据分析管道,由(26)为其qNSC数据构建伪时间。与TSCAN类似,瀑布首先在伪时间重建之前使用k均值聚类对细胞进行分组。然而,作为内部数据分析管道,瀑布没有相关的软件工具,如果不手动编辑代码,则无法直接使用该管道分析其他数据集。此外,在(26). 以上讨论的不同伪时间重建方法之间还缺乏系统的比较。为了对TSCAN的无监督细胞排序性能进行基准测试,我们在随后的数据分析中将其与Monocle、Wanderlust、无监督SCUBA和Waterfall进行了比较。

结果

我们使用上述三个数据集(HSMM、LPS和qNSC)评估了TSCAN。HSMM和LPS数据集包含从时间过程实验中的多个时间点收集的单元格。实际数据收集时间为评估无监督伪时间重建方法产生的细胞排序提供了重要的外部信息。在我们的评估中,来自不同时间点的细胞被汇集在一起。我们假装他们的数据收集时间未知。我们应用不同的伪时间重建方法对这些细胞进行排序。然后对方法的准确性、稳健性和检测已知差异表达基因的能力进行了比较。准确性的特征是使用细胞的实际数据收集时间计算POS得分。稳健性的特征是原始数据和扰动数据之间的单元排序相似性。在qNSC数据集中,所有细胞均来自相同的细胞群。由于没有外部信息(如多个时间点)来计算POS得分,我们仅评估了稳健性和在此数据集中检测已知差异表达基因的能力。

HSMM分析使用先验的选择用于伪时间重建的基因

我们首先使用HSMM数据集评估TSCAN的性能,最初由(8)使用Monocle。在最初的Monocle分析中(8),伪时间是使用选择的518个基因构建的先验的在订购单细胞RNA-seq数据之前。这些基因是通过比较不同分化时间点获得的,因此已知与成肌细胞分化有关。它们代表了伪时间重建的强大先验知识。在实际应用中,如果一个人有很强的先验信息,比如这518个基因,那么他可以将它们作为输入(来替换|$\mathbf美元{E} _ i$|⁠)TSCAN和Monocle建造MST。我们首先通过使用相同的518个基因进行伪时间重建,以这种方式进行分析。3A级B类显示TSCAN构建的集群级MST。与报告的原始Monocle结果一致(8)TSCAN还检测到生物过程的两个分支:默认主路径1-3-5-2和分支路径1-3-5-4。对于主路径1-3-5-2,在没有其他信息的情况下,Monocle和TSCAN都无法确定节点1或2是否应该是起始时间点。因此,路径有两个可能的方向。默认情况下,TSCAN随机选择一个方向。然而,如果用户有标记基因来通知伪时间路径的方向,他们可以在TSCAN中使用此信息。例如,ENO3是成肌细胞分化的标记基因。随着分化的进行,其表达有望增加。在提供ENO3作为标记基因后,TSCAN在每个树节点中显示其表达。通过这种方式,可以看到簇1的ENO3表达较低,而簇2的ENO_3表达较高(图3C公司). 因此,起始时间点应该在集群1中。如中所述(8),由Monocle构建的MST中的分支路径是由污染的间质间充质细胞驱动的,并且SPHK1是这些污染细胞的标记基因。与此一致,在TSCAN树节点中显示SPHK1表达表明分支路径1-3-5-4中的簇4具有高SPHK1表示(图三维)表明该分支是由污染细胞驱动的。因此,没有进一步分析分支路径1-3-5-4。

HSMM数据集中的TSCAN分析使用518个先验选择的基因进行伪时间重建。(A) TSCAN报告的MST显示在$\mathbf{E}$的前三台PC跨越的三维空间中。(B) 用户可以在所选PC(例如PC1和PC2)中显示单元格和MST。(C) 每个簇中ENO3的平均表达水平。(D) 各组SPHK1的平均表达水平。(C)和(D)中的值在所有集群中都是标准化的,平均值为零,单位为SD。
图3。

使用518在HSMM数据集中进行TSCAN分析先验的选择用于伪时间重建的基因。(A类)TSCAN报告的MST显示在前三台PC跨越的三维空间中|$\mathbf{E}$|. (B类)用户可以在所选PC(例如PC1和PC2)中显示单元格和MST。(C类)每个簇中ENO3的平均表达水平。()各组SPHK1的平均表达水平。(C)和(D)中的值在所有集群中都是标准化的,平均值为零,单位为SD。

对于Monocle和TSCAN,我们沿其报告的主路径计算POS得分。补充表S3中提供了每种方法报告的沿每条路径的单元排序。根据(8),Monocle在本分析中产生的主要途径对应于成肌细胞分化,这是一个有趣的生物过程。4A级显示POS得分。就POS而言,TSCAN的表现优于Monocle。

HSMM数据集中不同方法的评估结果,其中伪时间是基于518个先验选择的基因构建的。(A) POS得分。(B) 通过100个独立扰动的平均相似性得分来衡量鲁棒性。热图显示了每个扰动方案中每个方法的鲁棒性。细胞扰动:细胞水平的扰动。Expr扰动:表达级扰动。(C) 金标准基因的平均等级。(D) 在顶级差异基因中检测到的金标准基因数。
图4。

基于518构造伪时间的HSMM数据集中不同方法的评估结果先验的选择的基因。(A类)POS得分。(B类)通过100个独立扰动的平均相似性得分来衡量鲁棒性。热图显示了每个扰动方案中每个方法的鲁棒性。细胞扰动:细胞水平的扰动。Expr扰动:表达级扰动。(C类)金标准基因的平均等级。()在顶级差异基因中检测到的金标准基因数。

为了了解细胞聚类如何影响细胞排序性能,我们测试了一种改进的TSCAN(nocluTSCAN),其中跳过了细胞聚类步骤,直接构建MST以基于|$\tilde{\mathbf{E}}_i$|然后,通过使用SPHK1排除污染路径并使用ENO3确定时间原点,如上所述确定分析路径和方向。TSCAN和nocluTSCAN之间的比较得到了很好的控制,因为除了使用TSCAN的细胞聚类外,这两种算法的一切都是相同的。相比之下,Monocle和TSCAN之间的性能差异代表了许多因素的综合影响,因为它们的许多实现细节不同。许多差异很难控制,因为它们隐藏在计算机代码中。

我们还测试了一种仅标记基因的方法(标记),在该方法中,细胞直接使用标记基因(ENO3)的表达水平进行排序。这里,为了与TSCAN进行相对公平的比较,仅对分析的TSCAN路径(即1-3-5-2)中的细胞应用标记基因方法,并且从受污染的TSCAN分支(即具有簇4的分支)中排除细胞。这产生了补充表S3中的单元格顺序。仅标记基因方法和TSCAN之间的比较可以揭示用于伪时间重建的其他基因是否提供了标记基因(即本例中的ENO3)未提供的额外信息,以对细胞进行排序。

如图所示4A级TSCAN具有基于POS的最佳性能。它不仅优于Monocle,而且优于nocluTSCAN和marker-only方法,这表明细胞聚类和使用多个基因排序细胞都有助于改进伪时间重建。

接下来,我们比较了基于原始数据和扰动数据之间单元排序相似性的不同方法的鲁棒性。4B类显示了通过从原始数据集中随机抽取75%、90%或95%的细胞(细胞级扰动)或通过向原始基因表达值中添加5%、10%或25%的随机噪声(表达级扰动)生成扰动数据时的相似性得分。对于每个扰动数据集,使用与上述相同的协议和标记基因来确定路径方向并消除污染分支。与Monocle和nocluTSCAN相比,TSCAN在所有扰动方案中始终产生更高的相似性得分(图4B类). 这表明,当数据受到干扰时,细胞聚类增加了细胞排序的稳定性(或等效地减少了可变性)。仅标记基因的方法也比Monocle和nocluTSCAN更稳健,并且与TSCAN相比显示出类似的稳健水平(图4B类). 标记基因方法的稳健性不足为奇。对于细胞级扰动,每个细胞中的基因表达值没有改变。因此,基于标记基因表达的任何一对细胞的顺序保持不变。标记基因方法中原始数据中的伪时间路径与扰动数据中的路径之间的差异主要反映了这两条路径不包含相同的细胞集。注意,并非原始数据中的所有单元格都保留在扰动数据集中。此外,TSCAN构建的MST污染分支被排除在我们的标记基因分析之外,原始数据和扰动数据中的污染分支可能包含不同的细胞集。对于表达水平的扰动,添加到基因表达值中的噪声代表了真实生物信号跨细胞变异的5-25%。因此,许多细胞的成对排列仍受生物变异的驱动,因此在基于标记基因的排列中保持不变。

重要的是要指出,仅凭鲁棒性不足以表明良好的单元排序性能。例如,假设每个单元格都有一个任意的名称。如果细胞是基于细胞名称而不是基因表达谱排序的,那么无论基因表达值如何受到干扰,任何一对细胞的顺序都将保持不变。因此,细胞排序是可靠的,但它没有任何生物学意义,因为细胞名称是任意的。这类似于统计学中众所周知的方差-方差权衡:方差为零的估计量可能有巨大的偏差。因此,伪时间重建方法的稳健性需要在其是否能提高单元排序准确性(例如,增加POS得分)的背景下进行解释。尽管仅标记基因的方法比Monocle和nocluTSCAN更稳健(图4B类),其细胞排序精度低于Monocle和TSCAN(图4A级),表明其偏差方差权衡不是最优的。相比之下,TSCAN不仅更加稳健(图4B类)而且更准确地排列细胞(图4A级)Monocle和nocluTSCAN。

对于每种方法,我们接下来检测沿着细胞有序主通路的差异表达基因。我们基于FDR对基因进行排序,然后根据不同方法发现已知参与所述生物过程的基因的能力进行比较。对于HSMM数据集,我们编译了13个已知参与成肌细胞分化的基因(ENO3除外),根据(8)(补充表S4)。4摄氏度显示了这些金标准基因在差异基因分析中的平均秩。平均排名越小,表现越好(即金标准基因越有可能排名靠前)。4D(四维)显示了在每种方法排名的前200、400、…、2000个基因中发现的金标准基因的数量。Monocle和TSCAN在该分析中的结果非常相似,这两种方法都优于nocluTSCAN和标记基因方法。

除了TSCAN之外,我们还研究了另外两种基于细胞聚类的伪时间重建方法。首先,我们在TSCAN的细胞聚类步骤中将mclust替换为k-means聚类,同时保持所有其他步骤相同(k-meansTSCAN)。与支持椭圆形状簇的mclust不同,k-means簇只允许圆形簇。为了确定k均值的聚类数,我们使用了类似于图1E级,其y轴改变为聚类结构无法解释的总数据方差的比例(补充材料)。其次,我们测试了瀑布算法(26)它还使用k-means在细胞排序之前对细胞进行聚类(补充材料)。瀑布并没有提供基于数据选择簇号的方法。它的簇号固定为10,这是瀑布代码中的默认值。与Monocle和nocluTSCAN相比,k-means TSCAN和Waterfall产生了更稳健的细胞排序(图4B类). 然而,正如POS得分所示,他们的细胞排序准确性并没有超过Monocle,并且明显低于TSCAN(图4A级)和差异基因检测性能(图4摄氏度). 这表明,尽管k-means TSCAN和Waterfall降低了单元排序的可变性,但它们的偏差-方差权衡对于提高单元排序的准确性并不是最佳的。

我们还测试了无监督的SCUBA(即基于主曲线的SCUBA)和Wanderlust。对于SCUBA,标记基因ENO3的低表达用于确定路径起源。Wanderlust使用ENO3基因表达最高的细胞作为路径来源(因为最低的ENO3表达为零,并且在许多细胞中为零,因此路径来源的选择并不唯一)。Wanderlust报告的细胞顺序随后被颠倒,因此颠倒的路径在开始时ENO3表达较低,而在结束时ENO_3表达较高。下面的其他测试数据集也使用了相同的方法来运行Wanderlust分析。对于这两种方法,在细胞排序后,GAM用于检测TSCAN中的差异表达基因。Wanderlust和SCUBA都比Monocle和nocluTSCAN更强大(图4B类). 然而,与TSCAN相比,它们都具有较低的单元排序准确性(图4A级,C类). 事实上,TSCAN的POS得分最高(图4A级)和最佳差异基因检测性能(图4摄氏度).

如所示(8),基于伪时间的细胞排序可能揭示大量基因表达数据无法发现的基因表达模式。MEF2C和MYH2是参与HSMM分化的两个基因。众所周知,这两个基因在分化过程中应增加表达,MEF2C的表达应早于MYH2的增加(8). 根据不同时间点的平均体基因表达,尚不清楚MEF2C是否具有单调增长模式,也不清楚哪个基因最先开始增长(补充图S1)。相比之下,这里测试的所有单细胞分析方法都能够恢复MEF2C和MYH2沿着其分析的伪时间轴的整体增长模式,尽管在Monocle、k-means TSCAN、瀑布、SCUBA和Wanderlust中,MEF2C在增加之前略有下降(补充图S2)。与其他方法相比,TSCAN和nocluTSCAN拟合的时间表达曲线更清楚地表明,MEF2C的增加早于MYH2的增加(补充图S2)。

基于以上所有分析,TSCAN是提供最佳总体性能的方法。与不使用细胞聚类的方法(即Monocle和nocluTSCAN)相比,它在所有测试方法中提供了最佳的细胞排序准确性,并提高了细胞排序的稳健性。

不使用HSMM分析先验的选择用于伪时间重建的基因

在实际应用中,伪时间重建的先验信息(如上述518个基因)并不总是可用的。当没有此类先验信息可用时,伪时间重建必须依赖RNA-seq数据中的所有基因。为了评估TSCAN在这种情况下的性能,我们重复了前面的分析,但没有使用518构建伪时间先验的选择的基因。相反|$\mathbf美元{E} _ i$|用于TSCAN的是使用材料和方法中描述的协议从单细胞RNA-seq数据中的所有基因中衍生出来的。我们还使用了|$\mathbf美元{E} _ i$|而不是|$\mathbf美元{Y} _ i$|作为Monocle、Waterfall、SCUBA和Wanderlust的输入,以使方法比较相对公平。值得注意的是|$\mathbf美元{Y} i(_i)$|也超出了Monocle软件的处理能力。

补充表S3提供了由不同方法生成的伪时间路径。TSCAN给出的默认主路径(图5A级,路径3-1-2)包含SPHK1中高表达的细胞簇(图第五天)表明主要通路被间质间充质细胞污染,可能不反映成肌细胞分化。在这种情况下,TSCAN允许用户手动调整分析。例如,使用GUI,可以方便地可视化标记基因的表达(图5亿)例如SPHK1(图第五天,污染标记)和ENO3(图第五版,成肌细胞分化标记)。由于SPHK1在簇3中高度表达,我们选择研究代表成肌细胞分化的路径2-1-4。根据不断增加的ENO3模式,可以指定集群2应该是路径原点。或者,也可以通过指定集群及其在路径中的顺序来手动定义路径(图5摄氏度). 在本例中,两种方法产生相同的路径2-1-4。与TSCAN类似,Monocle中的主要通路也受到SPHK1高表达细胞的污染(补充表S3)。然而,Monocle没有提供一个界面来帮助用户方便地合并这些标记基因信息和调整顺序。用户需要有编程经验才能调整分析。相比之下,TSCAN GUI允许不熟悉编程的用户可视化和调整排序。因此,它降低了用户自定义伪时间分析的门槛,可以节省他们的时间和精力。

演示使用所有基因进行伪时间重建的HSMM数据的GUI和TSCAN分析。(A) TSCAN利用所有基因构建MST。(B) 用户可以在GUI中选择标记基因以可视化其表达。(C) 用户可以通过指定要包含的簇及其顺序来定义路径。(D)每个簇中SPHK1的平均表达式。(E) 每个簇中ENO3的平均表达。
图5。

演示使用所有基因进行伪时间重建的HSMM数据的GUI和TSCAN分析。(A类)TSCAN利用所有基因构建MST。(B类)用户可以在GUI中选择标记基因以可视化其表达。(C类)用户可以通过指定要包含的集群及其顺序来定义路径()SPHK1在每个簇中的平均表达。(电子)每个簇中ENO3的平均表达。

在使用高表达的SPHK1来排除污染分支,并使用低表达的ENO3来确定每种方法的伪时间路径的来源(补充表S3)后,对不同的方法进行了比较。

在细胞排序准确性方面,TSCAN的POS得分最高(图6A级)以及金标准基因的最佳平均秩(图6摄氏度)在所有方法中。它还具有检测金标准差异基因的最高能力(图第6天). 就稳健性而言,基于细胞聚类的方法(TSCAN、k-means TSCAN、Waterfall)比不使用细胞聚类的算法(Monocle、nocluTSCAN)更稳健性,如原始数据和扰动数据之间的相似性得分增加所示(图6亿).

HSMM数据中使用所有基因构建伪时间的不同方法的评估结果。(A) POS得分。(B) 通过100个独立扰动的平均相似性得分来测量鲁棒性。(C) 金标准基因的平均等级。(D) 在顶级差异基因中检测到的金标准基因数。
图6。

HSMM数据中使用所有基因构建伪时间的不同方法的评估结果。(A类)POS得分。(B类)通过100个独立扰动的平均相似性得分来衡量鲁棒性。(C类)金标准基因的平均等级。()在顶级差异基因中检测到的金标准基因数。

除了比较原始数据和扰动数据中的细胞顺序外,我们还比较了使用和不使用518个先前基因构建的细胞顺序。为此,针对每种方法计算本节中报告的单元格排序与上一节中报告的排序之间的相似性得分。补充图S3A显示,TSCAN和标记基因方法比其他方法产生了更高的相似性分数,表明它们产生了最一致的细胞排序结果。对于每种方法,我们还比较了使用和不使用518个先验基因进行伪时间重建检测到的差异表达基因的一致性。对于每次分析(即使用或不使用518个先前的基因),我们获得了顶部R(右)对差异基因进行排序。然后计算这两个分析之间的共同基因数量,并绘制成以下函数R(右)在补充图S3B中。补充图S3C显示了对常见基因的更严格定义的类似分析。在这里,任何沿着两条假时路径没有同一方向改变的基因(即来自两个分析的拟合GAM函数具有负相关)都不被视为普通基因,即使该基因是通过两个分析在其顶部确定的R(右)基因。将这些不一致的基因从公共基因列表中排除后,公共基因列表上保留的基因数量显示为R(右)在补充图S3B和S3C中,TSCAN和标记基因方法显示出比其他方法更高的一致性。与标记基因方法相比,根据POS评分和差异基因检测性能,TSCAN细胞排序更准确(图6A级,C类). 因此,我们的结果表明,与其他方法相比,TSCAN可以降低排序结果对先前基因可用性的依赖性,同时提供最佳的准确性。

当比较MEF2C和MYH2在假时间轴上的表达模式时,Monocle和Wanderlust未能揭示MEF2C与MYH2的时间顺序,并且这些基因的增加模式也变得不太清楚(图7). 瀑布期MEF2C先下降后上升,MEF2C和MYH2的时间顺序不太清楚。相比之下,其他方法成功地揭示了该分析中MEF2C和MYH2的增加模式。他们的结果也更清楚地表明,MEF2C在MYH2增加之前增加(图7).

HSMM数据集中的MEF2C和MYH2表达模式,其中使用所有基因构建假时间。每个细胞中每个基因的表达在假时间轴上绘制为细胞顺序的函数。实心曲线是拟合的GAM函数。虚线是ENO3的GAM拟合曲线,ENO3是用于确定路径方向的标记基因。
图7。

HSMM数据集中的MEF2C和MYH2表达模式,其中使用所有基因构建假时间。每个细胞中每个基因的表达在假时间轴上绘制为细胞顺序的函数。实心曲线是拟合的GAM函数。虚线是ENO3的GAM拟合曲线,ENO3是用于确定路径方向的标记基因。

总的来说,我们的分析再次表明,TSCAN产生了最准确的细胞排序结果,并且比没有细胞聚类的方法更稳健。

LPS分析

对于LPS数据,我们在不使用诸如518之类的强大先验知识的情况下重建了伪时间先验的在HSMM分析中选择的基因。分析基于|$\mathbf美元{E} _ i$|根据材料和方法中描述的方案,使用所有基因进行计算。所有方法只找到一条主路径,没有分支路径(补充表S3)。为了确定路径的方向,我们使用BCL3作为标记基因。众所周知,BCL3参与对病毒和细菌刺激的反应,其表达水平预计在LPS刺激后会增加。2显示了该标记基因在TSCAN GUI中的表达。因此,聚类1被确定为伪时间轴的原点。再次比较基于POS评分的不同方法表明,TSCAN具有最佳的准确性(图8安,BCL3被用作标记基因,用于仅标记基因方法)。基于细胞聚类(TSCAN、k-means TSCAN、Waterfall)的方法比不使用细胞聚类(Monocle和nocluTSCAN)的方法更稳健(图8B类). 为了评估基于差异表达基因的不同方法,我们从(25)(补充表S4)。8摄氏度显示这些金标准基因的平均秩以及每种方法报告的排名靠前的基因中发现的金标准基因数。同样,TSCAN优于所有其他方法。

LPS数据集中不同方法的评估结果。(A) POS得分。(B) 通过100个独立扰动的平均相似性得分来衡量鲁棒性。(C) 金标准基因的平均等级。(D) 在顶级差异基因中检测到的金标准基因数。
图8。

LPS数据集中不同方法的评估结果。(A类)POS得分。(B类)通过100个独立扰动的平均相似性得分来衡量鲁棒性。(C类)金标准基因的平均等级。()在顶级差异基因中检测到的金标准基因数。

作为一个具体示例,图9显示LPS数据的金标准基因STAT2的表达水平(25). 预计在LPS刺激后STAT2表达增加。可以看出,TSCAN结果与已知的STAT2增加模式最为一致。相比之下,在所有其他方法产生的细胞顺序中,STAT2的增加模式不太清楚。在Monocle、nocluTSCAN、k-means TSCAN、Waterfall、SCUBA和Wanderlust中,STAT2先升高后降低。在标记基因方法中,与拟合曲线周围细胞的高变异性相比,增加模式较弱。

LPS数据集中的STAT2表达模式。每个细胞中的STAT2表达在伪时间轴上绘制为细胞顺序的函数。橙色曲线是拟合的GAM函数。
图9。

LPS数据集中的STAT2表达模式。在伪时间轴上将每个细胞中的STAT2表达绘制为细胞顺序的函数。橙色曲线是拟合的GAM函数。

qNSC分析

最后,我们比较了使用qNSC数据集的不同方法。此数据集没有多个时间点或实验条件。先前用于细胞排序的基因集也不可用。因此,我们根据|$\mathbf美元{E} _ i$|使用材料和方法中所述的所有基因进行计算。所有方法都生成一条没有分支的路径。为了确定路径方向,我们使用FOXG1作为标记基因。已知FOXG1与增殖性成人NPC密切相关。FOXG1的低表达被用来指示路径的起源。

在qNSC分析中,由于数据收集时间等外部信息不可用,因此无法计算POS分数。因此,我们只评估了每种方法的鲁棒性及其检测已知差异基因的能力。为了进行差异基因分析,1999个已知标记基因(不包括FOXG1)由(26)作为金标准(补充表S4)。与不使用细胞聚类的方法(Monocle、nocluTSCAN)相比,使用细胞聚类(TSCAN、k-means TSCAN、Waterfall)的方法再次提高了细胞排序的稳健性(图10安). TSCAN提供了所有方法中黄金标准基因的最佳平均等级(图10亿)它还具有检测金标准差异基因的最高能力(图10摄氏度). 补充图S4显示了金标准基因SOX9的表达水平。作为一种下调转录因子,SOX9的表达预计会随着假时间的推移而减少(26). TSCAN和瀑布的结果与已知的SOX9下降模式一致,且下降模式在TSCAN中最为明显。相比之下,SOX9在Monocle、nocluTSCAN和SCUBA中的表达先增加后减少。对于k-means TSCAN,SOX9表达先降低后升高。对于仅标记基因方法和Wanderlust,SOX9表达略有增加。总的来说,TSCAN在所有方法中表现最好。

qNSC数据集中不同方法的评估结果。(A) 通过100个独立扰动的平均相似性得分来衡量鲁棒性。(B) 金标准基因的平均等级。(C) 在顶级差异基因中检测到的金标准基因数。
图10。

qNSC数据集中不同方法的评估结果。(A类)通过100个独立扰动的平均相似性得分来衡量鲁棒性。(B类)金标准基因的平均等级。(C类)在顶级差异基因中检测到的金标准基因的数量。

图形用户界面(GUI)

TSCAN有一个GUI。如上所述,TSCAN中的GUI允许用户可视化标记基因,并调整主要路径和集群级别的顺序。除了这些功能外,GUI还为用户提供了多种修剪标准,以有效地修剪不需要的单元格。例如,为了排除HSMM数据集中两个基因PDGFRA和SPHK1中高表达的细胞,可以设置两个修剪标准,如PDGFRA>1和SPHK1>1(补充图S5A),TSCAN将排除满足这两个标准的细胞(补充图S5B)。最后,图形用户界面可用于将用户特定基因沿伪时间的表达可视化为热图。例如,补充图S5C显示了在HSMM数据中获得伪时间顺序后两个基因CCNA2和CCNB2的表达。总之,这些功能使单细胞RNA-seq数据的伪时间分析更加方便和用户友好。

讨论

总之,TSCAN提供了一种新的工具来支持单细胞RNA-seq数据的伪时间分析。正如我们的结果所证明的那样,该方法基于不同的标准提供了稳健的竞争性能。通过比较使用和不使用细胞聚类的方法,我们表明细胞聚类是一种有效的技术,可以减少基于MST的伪时间分析的可变性并提高其准确性。虽然细胞聚类的思想以前也曾在瀑布中使用过,但瀑布研究中并未对细胞聚类对细胞排序的影响进行系统评估(26). 除了对TSCAN算法的开发和系统评估外,我们还开发了TSCAN的GUI。TSCAN的GUI为用户提供了交互探索和调整分析结果的灵活性。

为了评估TSCAN和其他无监督伪时间重建方法,我们使用了两个具有多个时间点的时间历程数据集HSMM和LPS,并有意避免在伪时间分析中使用任何关于数据采集时间的信息。通过这种方式,数据收集时间可以为通过POS评分评估单元排序的准确性提供独立的信息源。如果测试数据集只有一个时间点,则无法进行此类评估。这解释了为什么我们使用HSMM和LPS进行评估,尽管原则上这些数据可以通过其他方式进行分析。例如,可以对细胞进行有监督而非无监督的分析。或者,可以进行初步分析,以确定不同数据收集时间点之间差异表达的基因,然后将其用作先前基因(类似于518个HSMM先前基因)来排序细胞。与HSMM和LPS数据不同,qNSC数据集代表了许多研究人员面临的不同情况。这里,单细胞RNA-seq数据仅从一种生物条件收集,而不是从多个时间点或条件收集。在这种情况下,无法应用使用数据收集时间信息对细胞进行排序的受监督方法,也无法比较不同的时间点或条件以找到差异基因并将其用作细胞排序的优先基因。因此,能够执行无监督的伪时间分析(如TSCAN)非常重要。

除了TSCAN,本文还介绍了几种定量评估单元排序性能的方法。我们预计,这些评估方法在未来将继续用于评估其他伪时间重建算法。虽然TSCAN是使用RNA-seq进行测试的,但原则上,如果这些数据类型的单细胞数据将来可用,那么将这种方法调整为其他数据类型应该不难。

作者感谢宋红军博士和申杰洪博士提供了qNSC数据,并对瀑布进行了有益的讨论。作者还要感谢Ben Sherwood博士对改进手稿提出的建议。

基金

美国国立卫生研究院(NIH)[R01HG006282]。开放获取费用的资金来源:美国国立卫生研究院(NIH)[R01HG006282]。

利益冲突声明。未声明。

参考文献

1

F、。
巴巴西奥鲁
C、。
年。
诺德曼
E.公司。
C、。
N。
十、。
博多
J。
图什
商业银行。
西迪基
答:。
单个细胞的mRNA-Seq全转录组分析
自然方法
2009
6
377
382

2

F、。
巴巴西奥鲁
C、。
美国。
C、。
诺德曼
E.公司。
十、。
老挝语
英国。
苏拉尼
文学硕士。
通过单细胞RNA-Seq分析追踪胚胎干细胞从内细胞团的起源
细胞干细胞
2010
6
468
478

三。

莫塔扎维
答:。
威廉姆斯
文学学士。
McCue公司
英国。
谢弗
L。
沃尔德
B。
用RNA-Seq定位和定量哺乳动物转录组
自然方法
2008
5
621
628

4

Z。
戈尔斯坦
M。
斯奈德
M。
RNA-Seq:转录组学的革命性工具
Nat.Rev.基因。
2009
10
57
63

5

舍纳
M。
沙隆
D。
戴维斯
相对湿度。
棕色
采购订单。
用互补DNA微阵列定量监测基因表达模式
科学类
1995
270
467
470

6

舒尔茨
答:。
向下
J。
使用微阵列导航基因表达–技术综述
自然细胞生物学。
2001
E190型
E195型

7

辛普森
E.H.公司。
列联表中相互作用的解释
J.罗伊。统计Soc.B
1951
13
238
241

8

Trapnell公司
C、。
卡基亚雷利
D。
格里姆斯比
J。
波卡雷尔
第页。
美国。
莫尔斯
M。
列侬
新泽西州。
利瓦克
K.J.公司。
米克尔森
T.S.公司。
林恩
法学博士。
单细胞的伪时间顺序揭示了细胞命运决定的动力学和调节器
自然生物技术。
2014
32
381
386

9

伊斯兰教
美国。
克吉尔奎斯特
美国。
莫利纳
答:。
扎伊克
第页。
风扇
J.B.公司。
勒纳伯格
第页。
林纳尔松
美国。
高多重RNA-seq对单细胞转录图谱的表征
基因组研究。
2011
21
1160
1167

10

拉姆斯克尔德
D。
美国。
Y.C.公司。
R。
问:。
法里达尼
手术室。
丹尼尔斯
总会计师。
赫勒布图科娃
一、。
洛林
J.F.公司。
劳伦特
有限责任公司。
来自单细胞水平的RNA和单个循环肿瘤细胞的全长信使核糖核酸序列
自然生物技术。
2012
30
777
782

11

特鲁特林
B。
布朗菲尔德
D.G.公司。
阿拉伯联合酋长国。
内夫
abbr.国家处方集
曼塔拉斯
G.L.公司。
埃斯皮诺萨
F.H.公司。
德赛
T.J.公司。
克拉斯诺
文学硕士。
发抖
S.R.公司。
利用单细胞RNA-seq重建远端肺上皮的谱系层次
自然
2014
509
371
375

12

萨利巴
阿联酋。
韦斯特曼
A.J.公司。
戈尔斯基
美国。
沃格尔
J。
单细胞RNA-seq:进展和未来挑战
核酸研究。
2014
42
8845
8860

13

阿米尔
el-A.D.公司。
戴维斯
K.L.公司。
塔德摩尔
医学博士。
西蒙兹
E.F.公司。
莱文
J.H.公司。
本德尔
S.C.公司。
申菲尔德
D.K.公司。
克里希纳斯瓦米
美国。
诺兰
G.P.公司。
佩尔
D。
viSNE使高维单细胞数据可视化,并揭示白血病的表型异质性
自然生物技术。
2013
31
545
552

14

本德尔
S.C.公司。
戴维斯
K.L.公司。
阿米尔
el-A.D.公司。
塔德摩尔
医学博士。
西蒙兹
电子频率。
T.J.公司。
申菲尔德
D.K.公司。
诺兰
G.P.公司。
Peer公司
D。
单细胞轨迹检测揭示人类B细胞发育过程中的进展和调控协调
单元格
2014
157
714
725

15

第页。
西蒙兹
E.F.公司。
本德尔
S.C.公司。
吉布斯
K.D.公司。
年少者
布鲁格纳
R.V.公司。
林德曼
医学博士。
萨克斯
英国。
诺兰
G.P.公司。
胸膜炎
S.K.公司。
用SPADE从高维细胞术数据中提取细胞层次
自然生物技术。
2011
29
886
891

16

马尔科
E.公司。
卡普
相对湿度。
G.公司。
罗布森
第页。
雄鹿
A.H.公司。
特里帕
L。
总承包商。
单细胞基因表达数据的分叉分析揭示了表观遗传景观
程序。国家。阿卡德。科学。美国。
2014
111
E5643型
E5650型

17

杰伊丁
D.A.公司。
肯尼斯伯格
E.公司。
科伦·肖尔
H。
埃莱凡特
N。
保罗
F、。
扎雷茨基
一、。
米尔德纳
答:。
科恩
N。
荣格(Jung)
美国。
塔纳伊
答:。
大规模并行单细胞RNA-seq用于组织无标记分解为细胞类型
科学类
2014
343
776
779

18

布埃特纳
F、。
纳塔拉詹
K.N.公司。
卡萨利
F.P.公司。
普罗塞尔皮奥
五、。
夏尔多内
答:。
泰斯
F.J.公司。
泰赫曼
美国。
马里奥尼
J.C.公司。
炖牛肉
O。
单细胞RNA测序数据中细胞间异质性的计算分析揭示了隐藏的细胞亚群
自然生物技术。
2015
33
155
160

19

达勒巴
第页。
卡里斯基
T。
萨胡
D。
拉金德兰
附笔。
罗森伯格
M.E公司。
莱拉
答:。
模拟
美国。
冈本
J。
约翰斯顿
D.M.公司。
D。
人类结肠肿瘤转录异质性的单细胞切割
自然生物技术。
2011
29
1120
1127

20

哈尔琴科
P.V.公司。
西尔伯斯坦
L。
斯卡登
D.T.公司。
单细胞差异表达分析的贝叶斯方法
自然方法。
2014
11
740
742

21

弗雷利
C、。
拉夫特里
答:E。
基于模型的聚类、判别分析和密度估计
美国统计协会。
2002
97
611
631

22

克里斯
F、。
阿德里安
E.R.T.公司。
布伦丹
M。
卢卡
美国。
用于R的mclust版本4:用于基于模型的聚类、分类和密度估计的正态混合建模
技术报告
2012
华盛顿特区
华盛顿大学统计系
第597号

23

木材
序号。
半参数广义线性模型的快速稳定限制极大似然和边缘似然估计
J.罗伊。统计Soc.B。
2011
73
36

24

本杰米尼
年。
霍克伯格
Y。
控制错误发现率:一种实用而有效的多重测试方法
J.罗伊。统计Soc.B
1995
57
289
300

25

阿米特
一、。
加伯
M。
雪佛莱
N。
莱特
A.P.公司。
唐纳
年。
艾森豪尔
T。
古特曼
M。
格雷尼尔
J.K.(英国)。
西。
祖克语
O。
哺乳动物转录网络介导病原体反应的无偏重建
科学类
2009
326
257
263

26

小腿
J。
伯格
D.A.公司。
年。
小腿
J.Y.(纽约)。
歌曲
J。
博纳吉迪
文学硕士。
叶尼科洛波夫
G.公司。
诺恩
D.W.公司。
基督教的
K.M.公司。
G.L.公司。
带有瀑布的单细胞RNA-Seq揭示了成人神经发生的分子级联
细胞干细胞
2015
17
360
372

27

哈格沃尔迪
L。
布埃特纳
F、。
泰斯
F.J.公司。
用于分化数据高维单细胞分析的扩散图
生物信息学
2015
31
2989
2998

这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/4.0/)它允许在任何介质中不受限制地重用、分发和复制原始作品,前提是正确引用了原始作品。

补充数据

评论

0条评论
提交评论
您输入了无效代码
感谢您对本文发表评论。您的评论将由期刊自行审核和发表。请通过电子邮件查看更多通知。