跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2016年7月27日;44(13):e117。
2016年5月13日在线发布。 数字对象标识:10.1093/nar/gkw430
预防性维修识别码:项目经理4994863
PMID:27179027

TSCAN:单细胞RNA-seq的伪时间重建与评估分析

关联数据

补充资料

摘要

在分析单细胞RNA-seq数据时,构建一条伪时间路径基于转录体逐渐转变的细胞是一种有用的研究方法异质细胞群中的基因表达动力学。目前,数量有限的计算工具可用于此任务,以及用于比较的定量方法缺乏不同的工具。单细胞分析工具(TSCAN)是一种软件工具开发以更好地支持生物信息学伪-T型ime重建S公司单一的-C类细胞RNA-seqAN公司分析。TSCAN使用基于簇的最小生成树(MST)排序单元格的方法。细胞首先被分组成簇,然后是MST用于连接集群中心。通过投影每个单元格获得伪时间细胞的有序序列可用于研究基因沿假时间表达。MST构建前的聚集细胞减少树空间的复杂性。这通常会导致改进单元排序允许用户根据先验知识方便地调整顺序。TSCAN有一个支持数据可视化和用户交互的图形用户界面(GUI)。此外,还制定了定量措施,以客观评估和比较不同的伪时间重建方法。TSCAN位于https://github.com/zji90/TSCAN以及作为生物导体封装。

简介

单细胞RNA-seq是一项革命性技术,允许研究人员测量单个细胞的转录组(1,2). 与单细胞RNA-seq不同,传统RNA-seq称为“批量RNA-seq”)(,4)或微阵列(5,6)实验用于测量平均值细胞群体的基因表达。在许多应用中,细胞群是异质性,包含多种细胞类型。因此群体可能无法捕获单个细胞中的重要转录信号。有时,使用群体平均值来研究细胞类型特定行为也可以辛普森悖论导致的误导(7,8). 能够测量每个人的转录组单个细胞,单细胞RNA-seq能够产生更高分辨率的异质细胞群体中的基因表达景观(911). 这会导致更多复杂生物现象的精确分子表征(12).

如所示(8),一种有用的获取方式单细胞RNA-seq数据的生物学见解是对细胞进行计算排序根据他们转录体的逐渐转变。例如,在单元格中分化过程中,细胞可以以不同的速度进化。采集的细胞样本在分化过程中的特定时间点,实际上可以包含代表不同分化阶段。使用单细胞RNA-seq数据,可以构建一个描述单个细胞渐变的有序细胞序列转录组。如果是这样生物信息学订单与一致细胞的真正分化阶段,然后通过分析基因表达如何沿此变化有序的细胞序列,将能够获得转录组动力学的见解在分化过程中。细胞排序过程在里面硅片称为伪时间重建,因为它模拟了将单元格放置在时间轴上。尽管使用了术语“时间”、“伪时间”“重建”更一般地指的是任何细胞排序过程,无论排序是否具有时间解释(例如,单元格的排序可能反映细胞的空间顺序而非时间顺序)。

已经提出了几种计算方法来分析单细胞基因组数据,如作为单细胞质量细胞仪数据(1315)和单细胞基因表达数据(8,1619). 然而,对于伪时间重建单细胞RNA-seq数据,只有有限数量的方法经过系统测试,并具有易于访问的软件工具。在(8)为了解决这个问题,提出了一种无监督方法Monocle。Monocle使用最小生成树(MST)来描述单元之间的转换结构。提取树的主干作为伪时间轴来放置细胞订单。以前也使用过类似的无监督跨度树方法流式细胞仪数据分析(15). 作为无监督方法,基于生成树的伪时间重建不需要关于单元排序的任何先前信息。当时间顺序信息可用时分析单细胞基因表达动力学的另一种方法是使用用于监督分析的信息。这种监督方法的一个例子是SCUBA(16). SCUBA使用分叉分析进行恢复从多次收集的单细胞基因表达数据中获得的生物谱系点。这里,时间进程实验中的多个时间点用于监督细胞分化过程中的细胞排序和基因表达动力学分析。使用可用的时间信息,监督方法可以比无监督方法。然而,在时间信息不可用的应用程序中(例如。如果需要从单个疾病样本中分析异质细胞群与时间进程实验相比),监督方法不适用依靠无监督的方法。由于这些原因,监督和非监督方法都很有用。本文的主要重点是无监督方法。

Monocle的一个潜在限制是它的树是用来连接个人的细胞。由于单元数很大,树空间非常复杂。中的树推断这样一个复杂的空间具有很高的可变性,并且可能非常不稳定。作为一个结果,该算法找到的最优树可能不能代表细胞真正的生物学特性订单。这可以用图中的玩具示例来说明图1A1安培C类。这里的点表示放置在二维空间(例如,对应于基因表达谱),真实的生物时间自上而下垂直运行。这个MST解决方案不是唯一的。图1A1安培B类展示两种可能的解决方案。当进行轻微测量时噪声将标有“*”的单元格推离其他单元格,如图中的树图1A1安培可以轻松成为基于MST的更好的解决方案算法。然而,此解决方案将单元格按不同于其真值的顺序放置生物秩序。可以缓解这个问题的一种方法是降低复杂性树空间的。这类似于统计和机器学习文献。例如,如果一个类似的单元格像中一样聚集在一起图1C1摄氏度然后构造一棵树来连接集群中心,恢复真正的时间轴变得更容易。在本文中,我们利用开发单细胞分析工具(TSCAN)的想法,这是一种新的伪时间工具重建。群集单元提供的另一个优点是,用户可以如果需要,可以轻松手动调整树节点(即单元簇)的顺序,因为簇的数量通常不大。相反,手动指定顺序数百个细胞的检测要困难得多。

保存图片、插图等的外部文件。对象名称为gkw430fig1.jpg

TSCAN概述。(A类B类)说明限制的玩具示例基于细胞的MST。此处,单元格(蓝色圆圈)放置在二维空间中真正的生物时间是自上而下的。连接细胞的MST并不是唯一的。两者都有(A) 和(B)是可能的解决方案。(B) 更符合事实。然而,在事实上,随机测量噪声可能会使标有“*”的单元远离其他单元箭头和虚线所示的单元格。因此,(B)不再是MST。另一方面,(A)中的MST并不反映细胞的真实顺序。(C类)如果首先将相似的单元格分组,则可以找到真正的时间轴然后构建一个MST来连接集群中心。()TSCAN首先构建了基于聚类的MST(由不同的以颜色为例;数字表示集群中心)。树可以有多路径(例如1-2-3-4或1-2-3-5)。TSCAN通过以下方式对每条路径上的单元进行排序将每个单元格投影到树边缘。(E类)委托人人数通过找到最佳分段线性拟合来确定要保留的分量两行(虚线)。

现有工具的另一个限制是,它们大多是命令行驱动的,而不是允许用户以交互方式调整或微调分析。例如,用户通常希望利用他们现有的知识,如标记基因来过滤污染细胞,确定时间原点或手动更改某些树节点的顺序。然而,这些操作对于命令行驱动的软件工具(如Monocle)来说并不方便。TSCAN公司通过提供图形用户界面(GUI)来解决这一限制(图(图2)。2). 使用GUI,用户可以交互且方便地将先验生物信息纳入伪时间重建分析。

保存图片、插图等的外部文件。对象名称为gkw430fig2.jpg

TSCAN图形用户界面。左侧面板包含功能菜单和工具设置参数。右侧面板显示数据和结果。顶部散点图显示为LPS数据构建的MST(参见结果)。单元格(点)的显示基于它们的前两个主要组成部分。细胞簇由不同的颜色。数字是集群中心。标记基因BCL3的表达水平为每个单元格。较大的标记大小意味着较高的表达。底部图显示了平均值每个树节点的BCL3表达式,在所有节点中标准化为零均值和单位标准偏差。

最后,当几种不同的伪时间重建方法可用,能够评估和比较它们以确定最佳解决方案是重要。然而,如何评估不同的伪时间重建方法也是一个未决问题。目前仍缺乏比较不同方法的客观指标。这个文章介绍了几种评价不同细胞排序的定量方法方法。使用这些客观指标,我们表明TSCAN能够提供更多与替代方案相比,可靠的无监督伪时间重建结果方法。

材料和方法

问题表述

考虑以下具有代表性的样本N个异质细胞群。假设转录组方程式M4每个单元格的∈ {1, 2, …,N个}已经使用单细胞RNA-seq进行分析。在这里,方程式M5是一个G公司由基因表达测量组成的维向量G公司基因。假设方程式M6是适当的转换(例如通过取对数)并跨单元格归一化。单个单元格排序问题,也称为伪时间重建,是将细胞按顺序排列基于方程式M7.

TSCAN分三步订购电池。首先,具有相似基因表达谱的细胞是分组为集群。其次,构建MST以连接所有集群中心。最后,将细胞投影到树干以确定其伪时间和顺序(图(图1D)。一维). 单元格排序后,用户可以使用研究细胞状态转变和基因表达动力学的有序序列细胞取样的基本生物过程。

预处理

在伪时间重建之前,原始基因表达数据处理如下。首先,排除所有样本中读取计数为零的基因。其次,为了减轻辍学事件的影响(20)在上随后的分析中,具有相似表达模式的基因通过以下方式分组为簇层次聚类(使用欧几里德距离和完全链接)。的数量聚类被设置为具有非零表达的基因总数的5%。对于每个簇和每个细胞,簇中所有基因的表达测量值为求平均值以生成用于后续MST的集群级表达式结构。退出事件指的是表达基因的现象高表达,在某些细胞中可能没有读取计数,因为它们的分子可能不会被偶然捕获和放大。这是单电池中常见的现象RNA-seq数据。通过对多个基因进行平均,聚类水平的表达更加稳定与单个基因的测量值相比,估计方差较小。这个可以帮助淡化辍学事件的影响。

基因聚类后,细胞的单细胞转录组成为H(H)量纲向量方程式M8.给,H(H)是基因簇的数量。方程式M9仍然具有高维度,并且其中有许多组件向量仍然是相关的。维度使可视化和统计建模困难。因此,TSCAN进一步减小了方程式M10使用主成分分析(PCA)。简要地,方程式M11从所有单元格组织为H(H)×N个矩阵方程式M12每行对应一个基因簇。矩阵是标准化,使每行中的表达式值具有零平均值和单位标准偏离。然后在标准化矩阵上运行PCAK(K)保留了主要部件(PC)。PCA后H(H)量纲向量方程式M13映射到低维空间并成为K(K)量纲向量方程式M14.在这里,K(K)远小于H(H).

为了确定K(K)(即要保留多少台PC),TSCAN使用以下标准。首先,设λ是数据方差由解释第i个PC定义方程式M15.方程式M16是一个非增函数。此函数可以是用连续分段线性模型逼近方程式M17=(f)()+ε,其中ε表示噪声(f)()由两部分组成回归线(图(图1E):1E级):

方程式M18
(1)

TSCAN计算此的最小二乘拟合使用前20台PC的模型。当其中一台发生变化时,安装的模型会发生变化k.TSCAN尝试不同k∈ [2, 19]并找到k产生最小平方误差,方程式M19.这个k将用作要保留的PC数。

细胞聚类

降维后,将具有类似表达式配置文件的单元格分组为使用中描述的基于模型的聚类方法进行聚类(21). 使用麦克卢斯特(22)包装在R中,适合数据的多元正态分布混合方程式M20. The该混合物中每个正常成分的方差-方差矩阵指定为“椭球体,体积、形状和方向变化”。簇的数量由选择麦克卢斯特使用贝叶斯信息准则(BIC)。模型拟合后,每个细胞属于每个簇的后验概率可以进行计算。根据最大后验概率将细胞分配给簇。对于每个集群,集群的平均值为方程式M21被视为集群中心。而不是使用由麦克卢斯特基于BIC,用户还可以选择指定自己的集群数字。

按MST排序细胞簇

接下来,TSCAN构建最小生成树来连接所有集群中心。在一个连通图和无向图,生成树是树的子图,它连接所有顶点(或“节点”)。假设图中的每条边的长度等于边缘连接的两个节点(即簇中心)之间的欧氏距离。A类MST是所有可能生成树中总边长度最小的生成树树。与Monocle使用的MST方法不同,Monocle构建树以连接单个细胞,TSCAN中的MST用于连接细胞簇。群集单元减少了树空间的可变性和复杂性。集群级MST因此,可以对树干进行更好、更稳定的估计,这在很大程度上决定了单元顺序。聚类的另一个优点是它可以显著地减少了树节点的数量,使用户更容易进行交互稍后微调分析(例如手动调整树节点的顺序)。

一棵树可能有多个分支。默认情况下,我们定义树的主路径(实体图中的线条图1D)一维)作为最大的路径簇数。如果多条路径具有相同的最大簇数,则单元数最多的路径成为主路径。主路径有两端。如果没有其他信息,将随机选取一端作为路径的原点。或者,用户可以使用以下信息将一端指定为原点作为标记基因表达。确定主路径及其原点后,TSCAN将枚举从原点开始的所有分支路径。例如,假设集群1位于图1D一维选择为原点,则TSCAN将报告主路径1-2-3-4和分支路径1-2-3-5。如果由生成的群集顺序该算法不能让用户满意,他们可以选择手动指定路径和每个路径上簇的顺序。

单元格排序和伪时间计算

一旦确定了集群级别的顺序,单个单元就会投影到树上沿主路径和每个分支路径创建单元级排序。对于每个路径,则收集路径上的所有簇。将对这些集群中的所有单元进行排序沿着如下路径。C类(i=1,2。。。,M(M))指示有序集群,其中M(M)是有序路径上的簇数。假设方程式M22方程式M23是两个相邻集群的集群中心C类C类j在路径中,以及假设C类先于C类j在排序中。连接两个簇的边是由确定方程式M24、和细胞的投影k到边缘的距离由内积方程式M25其中||||2-向量的范数。群集中的单元格C类1都投射到边缘上连接C类1C类2.群集中的单元格C类M(M)都投射到连接的边上C类M−1C类M(M).来自中间体的细胞集群C类(1<米<M(M))根据他们是否更接近集群中心C类米-1或到的中心集群C类米+1用欧几里得距离表示。靠近聚类中心的单元格C类米-1投影到连接簇的边上C类米-1C类,而单元格更靠近集群中心C类米+1映射到边连接群集C类C类米+1.

细胞顺序分三步确定。首先,对于相同的单元格簇和投影到同一条边上,它们的顺序由投影的边上的值。第二,在每个簇内,细胞投射到的顺序不同的边由边的顺序决定,边的顺序由集群级别给定第三,不同集群中细胞的顺序由集群。这样,所有单元格都可以按顺序放置。

一旦单元被排序,就会为每个排序的路径计算伪时间。对于给定的路径,路径上单元格的顺序设置为其伪时间。例如伪时间第k个路径上的单元格设置为k伪时间是分别为主路径和每个分支路径。

检测差异表达基因

细胞排序后,可以检测到以下差异表达的基因单圈进近(8). 广义加法模型(GAM,有效自由度=3)(23)适用于每个基因,以描述其表达与伪时间。GAM使用管理现金流量(23)然后将模型与空值进行比较假设沿伪时间路径的表达式不变的模型。这个P(P)-使用似然比测试计算值,然后使用中的方法转换为错误发现率(FDR)(24). 默认情况下,FDR<0.05的基因被报告为差异基因。与Monocle一样P(P)-值和FDR的计算依据假设给定了单元顺序。他们不考虑单元排序中的不确定性而不是由实验设计决定,细胞排序是从用于分析差异表达式的相同数据。我们注意到如何评估进一步解释这些额外不确定性的统计意义仍然存在一个悬而未决的问题。它需要开发更复杂的方法和系统调查这些额外的不确定性如何影响不同的方法(例如P(P)-当将单元格排序视为从数据推断出未知参数)。这些调查超出了当前的研究重点是如何改进和评估细胞订购。

方法评估

我们使用三种方法评估单元排序性能。第一种方法评估基于独立源期望排序的单元排序精度信息。假设在伪时间内不使用外部信息重建可用于评估细胞的成对顺序。形式上,让π表示的有序路径N个π特殊的伪时间重建方法。(π,i、 j个)是表征这个第i个第j个中的单元格有序路径π根据外部信息匹配其预期顺序。我们定义细胞排序π的伪时间排序得分(POS)为(π,i、 j个)对于所有单元格对:

方程式M26
(2)

由不同的然后可以基于POS得分来比较伪时间重建方法。

作为一个具体的例子,假设一个人有一次采集的单细胞RNA-seq数据课程实验。在这样的实验中,数据采集时间是已知的。对于评估无监督伪时间重建方法的目的,可以将细胞池从所有时间点开始,假设每个单元格的数据收集时间为未知,并应用不同的方法重建伪时间。不同的方法将然后将它们的单元排序结果与基于真实的数据收集时间。例如,如果有N个收集的单元格V(V)微分过程中的时间点过程。N个细胞,N个方程式M27单元格来自时间T型方程式M28(T型1<T型2< ⋅⋅⋅ <T型V(V)). 考虑一下第i个单元格和第j个中的单元格有序路径π,其中先于j(即。<j).可以定义成对得分(π,i、 j个)如下:

  1. 如果两个细胞最初是在同一时间点收集的(例如两者都来自T型方程式M29),然后(π,i、 j个) = 0.
  2. 否则,如果第i个从时间收集单元格指向T型方程式M30第j个从时间点收集单元格T型单位,然后(π,i、 j个) = (单位方程式M31)/π.价值观单位方程式M32为正,如果方程式M33表示较早的时间点,如果为负值方程式M34表示晚于的时间单位.

分母π选择上述内容进行规范化POS,以便销售时点情报系统π∈[−1,1](即最大每条路径中所有可能的细胞顺序中的最小POSπ为1和−1,分别)。基于此定义,单元格顺序与已知的数据收集时间会提高POS得分。销售时点情报系统π=1表示伪时间产生的细胞顺序重建完全符合数据采集时间确定的顺序。销售时点情报系统π=−1表示与确定的顺序相比,伪时间重建方向相反数据采集时间。使用POS评估单元格排序是基于以下假设外部信息(即本例中的真实数据收集时间)大致可以反映细胞的真实生物顺序(例如细胞的分化阶段)。事实上,由于每个时间点收集的细胞都是异质的,因此可能一些细胞在分化早期(分化程度较低)收集时间进程实际上比稍后收集的某些细胞更具分化性点。尽管如此,通常可以合理地预期在早期收集的细胞“平均”时间点的分化程度应低于稍后收集的细胞时间点。因此,此处使用的外部信息(即数据采集时间)仍然可以大致反映细胞的真实生物顺序,并且可以用作代理以评估单元排序性能。

第二种方法通过扰动原始值来评估单元排序的稳健性单细胞RNA-seq数据集(见下文)。每个单元格排序方法都应用于原始数据集和扰动数据。原始和然后比较扰动数据。量化两种细胞顺序之间的相似性伪时间路径π1和π2,让A类是π中细胞的联合1和π2,让|A类|是的基数A类(即π中的不同细胞1和π2),并定义相似性得分π之间1和π2作为:

方程式M35
(3)

在这里,小时1, π2,i、 j个)=1,如果两个单元格的顺序j在π中保持不变1和π2(即。出现在之前或之后j两个订单中),以及小时1, π2,我,j)否则=0。如果有j仅在一条路径中发生(例如。单位:π1但不是π2)、之间的订单j单位:π1和π2被视为不一致,以及小时1, π2,i、 j个)也设置为零。相似性得分更高表示两个顺序π1和π2都更相似另一方面,得分越低表示两个排序之间的偏差越大。

在本文中,使用了两种不同的方法来扰动数据:单元级扰动和表达级扰动。对于细胞级扰动,x个百分比(x个=95%、90%或75%)从原始数据集中随机抽取细胞作为扰动数据。这个每个细胞的基因表达谱保持不变。对于表达式级别扰动,我们保留了原始数据集中的所有单元格,但在他们的基因表达谱(即。方程式M36). 为了产生噪音计算所有细胞中每个基因的平均表达值,然后减去基因在每个细胞中的表达值。以这种方式获得的残留物被缩放乘以比例因子κ(κ=5%、10%或25%)。标度残差为然后对基因的原始表达值进行置换和加法。对于每个摄动法与参数值(x个或κ)原始数据被独立扰动100次,以生成100个扰动数据集。对于每个扰动数据集,原始排序和扰动排序之间的相似性得分已计算。最后,100次扰动的平均相似性得分为通过计算来衡量每种伪时间重建方法的鲁棒性。

第三种方法评估细胞排序方法检测已知沿着有序细胞路径的差异表达基因。给定一个测试数据集,可以收集已知沿生物序列差异表达的基因并将其作为金标准进行处理。然后就可以检测出不同的基因伪时间轴和基于黄金标准排名的不同方法比较基因。

TSCAN包和GUI

TSCAN是使用统计编程语言作为生物导体包实现的它既可以在命令行模式下运行,也可以通过GUI运行。GUI的开发使用R中闪亮的包,使用户可以方便地构建、可视化和调整单元格例如,可以使用GUI根据用户特异性标记基因的表达水平。还可以更改集群级别排序,然后重新计算伪时间。TSCAN是开源的,并且是免费的可在获取https://github.com/zji90/TSCAN。其生物导管包可以下载http://www.bioconductor.org/packages/release/bioc/html/TSCAN.html.一个补充材料中提供了安装指南。

数据集

从文献中汇编了三组数据来评估TSCAN。第一个数据集由来自分化人类骨骼肌的单细胞RNA-seq样本组成成肌细胞(HSMM)(8). 它包含271个细胞将人成肌细胞转为低血清后0、24、48和72h采集。第二个数据集由刺激后收集的单细胞RNA-seq样本组成脂多糖(LPS)诱导的骨髓树突状细胞(25). 实验结束后1、2、4和6小时,共收集到306个细胞我们的分析使用了刺激。第三个数据集包括单细胞RNA-seq海马静止神经干细胞样本(26). 它包含从相同细胞群中收集的172个细胞。对于所有数据集,归一化基因表达值(片段/千碱基对/HSMM的总读取次数为百万,LPS和qNSC的总读取数为百万分之一)在添加伪计数1后进行log2转换。在原始数据之后方程式M37已处理为方程式M38,方程式M39被用作不同方法的输入(即TSCAN,Monocle、瀑布、SCUBA和Wanderlust(见下文)构建虚拟时间。标准化的的数据方程式M40方程式M41可在TSCAN GitHub网站(https://github.com/zji90/TSCANdata网站). 样本之间的对应关系实验中的标识符和样本采集时间见补充表S1。

与其他方法的比较

补充表S2将TSCAN与许多其他单细胞数据分析进行了比较方法。在这些方法中,MARS-seq(17)和SINCE-PCR公司(19)没有相关的软件其他要使用的。铲刀(15)和viSNE(13)用于分析质谱仪或流式细胞仪而它们不提供细胞排序功能。扩散贴图(27)是一种用于定义分化轨迹。它无法自行执行单元格排序。scLVM方法(18)主要侧重于识别细胞亚群体。同样,它不能排序单元格。由于上述原因,这些方法不是在随后的数据分析中与TSCAN进行了比较。

在其余方法中,Monocle用于处理单细胞RNA-seq,并有一个软件包。流浪癖(14)最初是为大规模或流式细胞术数据开发的。它使用基于图形的有序单元轨迹检测算法不是分支。我们修改了它的MATLAB代码,使其能够将单细胞RNA-seq数据作为输入。水肺(16)如前所述,是一个监督方法。然而,SCUBA包还提供了一个无监督的选项基于对数据拟合主曲线然后进行映射的单元排序曲线上的单元格。瀑布是由(26)为其qNSC数据构建伪时间。与TSCAN类似,瀑布首先使用k均值聚类对细胞进行分组,然后进行伪时间重建。然而,作为内部数据分析管道,瀑布没有关联软件工具,如果没有手动编辑代码。此外,对细胞聚集效应的客观评估中未提供on-cell排序(26). A类上述不同伪时间重建方法的系统比较仍然缺乏。为了基准测试TSCAN,我们将其与我们的随后的数据分析。

结果

我们使用上述三个数据集(HSMM、LPS和qNSC)评估了TSCAN。HSMM和LPS数据集包含从时间过程实验中的多个时间点收集的单元格。实际数据采集时间为评估单元格提供了重要的外部信息由无监督伪时间重建方法生成的排序。在我们的评估中,来自不同时间点的细胞汇集在一起。我们假装他们的数据收集时间未知。我们将不同的伪时间重建方法应用于对这些单元格进行排序。然后从准确性、稳健性和检测已知差异表达基因的能力。准确性的特征是使用单元格的实际数据收集时间计算POS得分。健壮性的特征是原始数据和扰动数据之间的单元排序相似性。在qNSC数据集中,所有细胞均取自同一细胞群。因为没有外部计算POS分数的多个时间点等信息,我们仅评估稳健性和检测数据中已知差异表达基因的能力设置。

HSMM分析使用先验的选择的基因伪时间重建

我们首先使用最初分析的HSMM数据集评估TSCAN的性能由(8)使用Monocle。在最初的Monocle中分析执行人(8),伪时间是使用选择的518个基因构建先验的订购前单细胞RNA-seq数据。这些基因是通过比较不同的分化时间点,因此已知与成肌细胞有关区别。它们代表了伪时间的一个强大的先验知识重建。在实际应用中,如果一个人有如下强大的先验信息518个基因,人们可以用它们作为输入(来代替方程式M42)对于TSCAN和Monocle建造MST。我们首先通过使用相同的518个基因对伪时间重建。图3A第3页B类显示TSCAN构建的集群级MST。与报告的原始Monocle结果一致(8),TSCAN还检测到生物过程的两个分支:默认的主路径1-3-5-2和分支路径1-3-5-4。对于主路径1-3-5-2,Monocle和TSCAN可以确定节点1或节点2是否应该是起始时间点,而不需要其他时间点信息。因此,路径有两个可能的方向。默认情况下,TSCAN随机选择一个方向。然而,如果用户有标记基因来通知伪时间路径,他们可以在TSCAN中使用此信息。举例来说,ENO3是一种成肌细胞分化的标记基因。随着分化进程。在提供ENO3作为标记基因后,TSCAN显示其每个树节点中的表达式。通过这种方式,可以看到簇1具有低ENO3而簇2具有高ENO3表达(图(图3C)。3C公司). 因此,起始时间点应该在集群1中。如中所述(8),Monocle构造的MST中的分支路径受间质间充质细胞污染驱动,SPHK1是这些污染细胞。与此一致,在TSCAN中显示SPHK1表达树节点显示,分支路径1-3-5-4中的簇4具有高SPHK1表达(图(图3D),三维),表示此分支已被驱动通过污染细胞。因此,没有进一步分析分支路径1-3-5-4。

保存图片、插图等的外部文件。对象名称为gkw430fig3.jpg

使用518在HSMM数据集中进行TSCAN分析先验的选择用于伪时间重建的基因。(A类)TSCAN报告的MST为显示在由前三台PC跨越的三维空间中方程式M43. (B类)用户可以显示单元格和MST在选定的PC中(例如PC1和PC2)。(C类)ENO3的平均表达水平每个集群。()SPHK1在每个聚类中的平均表达水平。in(C)和(D)在所有集群中都是标准化的,具有零平均值和单位标准偏差。

对于Monocle和TSCAN,我们沿其报告的主路径计算POS得分。补充资料中提供了每种方法报告的沿每条路径的单元排序表S3。根据(8),生成的主路径在本分析中,Monocle对应于成肌细胞分化,即感兴趣的生物过程。图4A4A级显示了POS得分。就POS而言,TSCAN的表现优于Monocle。

保存图片、插图等的外部文件。对象名称为gkw430fig4.jpg

在伪时间为基于518构建先验的选择的基因。(A类)POS得分。(B类)由平均值衡量的稳健性100个独立扰动的相似性得分。热图显示了每个扰动方案中的每个方法。细胞扰动:细胞级扰动。Expr公司扰动:表达级扰动。(C类)金本位平均等级基因。()顶级差异中检测到的金标准基因数基因。

为了理解单元聚类如何影响单元排序性能,我们测试了一个改进的TSCAN(nocluTSCAN),其中跳过了细胞聚类步骤,并测试了MST直接构建以根据方程式M44. The然后使用SPHK1排除污染路径和使用ENO3确定时间来源。两者的比较TSCAN和nocluTSCAN控制良好,因为这两种情况都一样算法,但TSCAN使用的细胞聚类除外。相比之下,性能Monocle和TSCAN之间的差异代表了许多因素的综合影响,因为它们的许多实现细节是不同的。其中许多差异是很难控制,因为它们隐藏在计算机代码中。

我们还测试了一种仅标记基因的方法(标记),其中细胞直接排序使用标记基因(ENO3)的表达水平。在这里,为了进行相对与TSCAN公平比较,仅标记基因方法仅适用于来自分析的TSCAN路径(即1-3-5-2)和受污染TSCAN分支的细胞(即。聚类4)的分支被排除在本分析之外。这产生了单元格排序补充表S3。基因标记法与TSCAN的比较可以揭示用于伪时间重建的其他基因是否有助于标记基因(即本例中的ENO3)未提供的其他信息排序单元格。

如图所示图4A,4A级TSCAN表现最好基于POS的性能。它不仅比Monocle性能更好,而且性能也更好nocluTSCAN和marker-only方法,表明细胞聚类和使用多个细胞排序基因都有助于改善假时间重建。

接下来,我们比较了基于单元排序相似性的不同方法的鲁棒性在原始数据和扰动数据之间。图4B显示4B类显示了随机子采样生成扰动数据时的相似性得分原始数据集中75%、90%或95%的单元格(单元格级扰动)或通过添加原始基因表达值的5%、10%或25%随机噪声(表达水平扰动)。对于每个扰动数据集,与上述方法用于确定路径方向和消除污染分支。与Monocle和nocluTSCAN相比,TSCAN始终产生更高的相似性所有扰动方案的得分(图(图4B)。4B类). 这个表明细胞聚集增加了稳定性(或等效地减少了数据受到干扰时,单元排序的可变性。只标记基因的方法是也比Monocle和nocluTSCAN更健壮,并且表现出类似的健壮水平与TSCAN相比(图(图4B)。4B类). The robustness of the标记基因方法并不意外。对于细胞级扰动,基因的表达每个单元格中的值没有变化。因此,任何一对单元格的顺序都基于标记基因的表达保持不变。伪时间的区别标记基因方法中原始数据和扰动数据中的路径主要反映了这两条路径不包含相同的单元格集这一事实。注释并不是原始数据中的所有单元格都保留在扰动数据集中。也,TSCAN构建的MST污染分支仅被排除在我们的标记基因之外分析,原始数据和扰动数据中的污染分支可能包含不同的单元格集。对于表达水平的扰动,向基因中添加噪音表达值代表了真正生物的跨细胞变异的5-25%信号。因此,许多细胞的成对排列仍然是由生物学驱动的变异,因此在基于标记基因的排序中保持不变。

重要的是要指出,仅靠稳健性不足以表明良好单元排序性能。例如,假设每个单元格都有一个任意的名称。如果单元格根据细胞名称而不是基因表达谱排序,任何配对的顺序无论基因表达值如何受到干扰,细胞的表达量都将保持不变。作为一个结果,细胞排序是可靠的,但它没有任何生物学意义,因为单元格名称是任意的。这类似于众所周知的方差-方差权衡统计学:方差为零的估计量可能有很大的偏差。因此,伪时间重建方法的鲁棒性需要在上下文中进行解释它是否会提高单元排序的准确性(例如增加POS得分)。尽管仅标记基因的方法比Monocle和nocluTSCAN更稳健(图(图4B),4B类),其单元排序精度低于单片和TSCAN(图(图4A),4A级),表示其偏方差权衡不是最优的。相比之下,TSCAN不仅更加稳健(图(图4B)4B类)更准确地排列细胞(图(图4A)4A级)Monocle和nocluTSCAN。

对于每种方法,我们接下来检测沿有序主基因的差异表达基因单元格路径。我们根据FDR对基因进行排序,然后比较不同的方法基于他们发现已知参与生物过程的基因的能力问题。对于HSMM数据集,我们编译了13个已知涉及的基因(ENO3除外)成肌细胞分化依据(8)(补充表S4)。图4C4摄氏度显示平均值这些金标准基因在差异基因分析中的排名。较小的平均等级表明表现更好(即金标准基因更有可能排名顶部)。图4D4D(四维)显示金本位的数量在每种方法排名的前200、400、2000个基因中发现的基因。Monocle和TSCAN在该分析中有非常相似的结果,这两种方法都优于nocluTSCAN和标记基因方法。

除了TSCAN,我们还研究了两种其他基于细胞聚类的方法伪时间重建。首先,我们在细胞中用k-means聚类代替了mclustTSCAN的聚类步骤,同时保持所有其他程序相同(k表示TSCAN)。与mclust允许簇的椭球形状不同,k-means聚类只允许具有圆形的簇。为了确定k均值的聚类数,我们使用了类似于图图1E,1E级,带y轴变为聚类结构无法解释的总数据方差比例(补充材料)。其次,我们测试了瀑布算法(26)它还使用k-means在单元排序(补充材料)。瀑布不提供选择的方式基于数据的簇号。它的簇号固定为10,这是默认值瀑布代码中的值。k-means TSCAN和Waterfall都产生了更强大的细胞比Monocle和nocluTSCAN订购(图(图4B)。然而,4B类).然而,他们的细胞排序准确性并没有超过Monocle,而且明显更差如POS得分所示(图(图4A)4A级)和差异基因检测性能(图(图4C4摄氏度). 这表明尽管k-means TSCAN和Waterfall降低了细胞排序变异性及其偏差方差折衷对提高单元排序精度不是最佳的。

我们还测试了非监督SCUBA(即基于委托曲线的SCUBA)和Wanderlust。对于SCUBA,使用标记基因ENO3的低表达来确定路径起源。Wanderlust是通过使用ENO3基因表达最高的细胞作为路径进行的起源(因为ENO3的最低表达为零,并且在许多细胞中为零,使路径原点的选择不唯一)。Wanderlust报告的细胞排序是然后反转,使反转路径在开始时ENO3表达较低ENO3表达结束。下面的其他测试数据集也使用了相同的方法运行Wanderlust分析。对于这两种方法,在细胞排序后,使用GAM以检测如TSCAN中的差异表达基因。Wanderlust和SCUBA都是比Monocle和nocluTSCAN(图(图4B)。然而,4B类).然而,与TSCAN相比,它们都具有较低的单元排序准确性(图(图4A,4A级,,CC类). 事实上,TSCAN的POS得分最高(图(图4A)4A级)和最佳差异基因检测性能(图(图4C4摄氏度).

如所示(8),单元格排序基于伪时间可能揭示大量基因无法发现的基因表达模式表达式数据。MEF2C和MYH2是参与HSMM分化的两个基因。它是知道这两个基因在分化过程中应该会增加表达,MEF2C的表达应早于MYH2的增加(8). 基于平均体基因表达不同的时间点,尚不清楚MEF2C是否存在单调增长模式,也不清楚是否清楚哪个基因首先开始增加(补充图S1)。相比之下,这里测试的所有单细胞分析方法都能够恢复总体增长MEF2C和MYH2沿其分析的伪时间轴的模式,尽管在Monocle中,k表示TSCAN、瀑布、SCUBA和Wanderlust,MEF2C在增加之前略有下降(补充图S2)。与其他方法相比,时间表达式曲线TSCAN和nocluTSCAN更清楚地表明MEF2C的增加早于MYH2增加(补充图S2)。

根据以上所有分析,TSCAN是提供最佳整体效果的方法性能。在所有测试方法和与不使用细胞聚类(即。单分子膜和nocluTSCAN)。

不使用HSMM分析先验的选择的基因伪时间重建

在实际应用中,伪时间重建的先验信息,如上面使用的518个基因并不总是可用的。当没有这样的先验信息可用时,伪时间重建必须依赖RNA-seq数据中的所有基因。要评估TSCAN在这种情况下的性能,我们重复了前面的分析,但构造了不使用518的伪时间先验的选择的基因。相反方程式M45用于TSCAN的基因来源于使用材料和方法中描述的协议的单细胞RNA-seq数据。我们也习惯于方程式M46而不是方程M47作为Monocle的输入,瀑布、SCUBA和Wanderlust,以使方法比较相对公平。注意方程式M48也超出了Monocle软件能够处理。

补充表中提供了不同方法生成的伪时间路径S3.TSCAN给出的默认主路径(图(图5A,路径5A级,路径3-1-2)包含SPHK1中高表达的细胞簇(图(图5D),第五天),表明主通道被间质间充质细胞并不能反映成肌细胞的分化。在这样一个场景中,TSCAN允许用户手动调整分析。例如,使用GUI,人们可以方便地可视化标记基因的表达(图(图5B)5亿)例如SPHK1(图(图5D,标记第五天,污染标记)和ENO3(图(图5E,第五版,标记成肌细胞分化)。由于SPHK1在簇3中高度表达,我们选择代表成肌细胞分化的研究路径2-1-4。根据增加ENO3模式,可以指定簇2应为路径原点。或者,也可以通过指定集群及其路径中的顺序(图(图5C)。5摄氏度). 在这个例子中方法产生了相同的路径2-1-4。与TSCAN类似,Monocle中的主要路径也是被SPHK1高表达细胞污染(补充表S3)。然而,Monocle没有提供接口来帮助用户方便地合并此类标记基因信息和调优排序。用户需要在以调整分析。相比之下,TSCAN GUI允许用户不熟悉编程以可视化和调整排序。因此,它降低了用户的门槛定制伪时间分析,可以节省时间和精力。

保存图片、插图等的外部文件。对象名称为gkw430fig5.jpg

使用伪时间的所有基因对HSMM数据进行GUI和TSCAN分析的演示重建。(A类)TSCAN利用所有基因构建MST。(B类)用户可以在GUI中选择标记基因以可视化其表达。(C类)用户可以通过指定要包含的集群和来定义路径他们的订单()SPHK1在每个簇中的平均表达。(E类)每个簇中ENO3的平均表达。

使用高表达的SPHK1排除污染分支后,使用低表达的ENO3的表达式,以确定每种方法的伪时间路径的来源(补充表S3),然后比较不同的方法。

在细胞排序准确性方面,TSCAN的POS得分最高(图(图6A)6A级)以及金标准基因的最佳平均秩(图(图6C)6摄氏度)在所有方法中。它也是最高的检测金标准差异基因的能力(图(图6D)。第6天). 就稳健性而言,基于细胞聚类的方法(TSCAN,k-means TSCAN,Waterfall)比不使用细胞聚类的方法更稳健(Monocle,nocluTSCAN),如原始数据之间增加的相似性得分所示和扰动数据(图(图6B6亿).

保存图片、插图等的外部文件。对象名称为gkw430fig6.jpg

在伪时间为使用所有基因构建。(A类)POS得分。(B类)稳健性由100个独立扰动的平均相似性得分测量。(C类)金标准基因的平均等级。()数量在顶级差异基因中检测到金标准基因。

除了比较原始数据和扰动数据中的单元格顺序外,我们还比较了使用和不使用518个先前基因构建的细胞顺序。为此,相似性本节中报告的单元格排序与对每种方法都计算了上一节。补充图S3A显示TSCAN与其他方法相比,标记基因方法产生了更高的相似性得分,这表明它们产生了最一致的细胞排序结果。对于每种方法,我们还比较了使用和检测到的差异表达基因的一致性不使用518个先验基因进行伪时间重建。对于每次分析(即。使用或不使用518个先前的基因),我们获得了R(右)对差异基因进行排序。这两者之间的共同基因数量然后将分析计算并绘制为R(右)在里面补充图S3B。补充图S3C显示了类似的分析对常见基因的严格定义。这里,任何没有改变的基因沿两条伪时间路径的方向(即两条路径的拟合GAM函数分析具有负相关),即使该基因是通过其顶部的两个分析确定R(右)基因。之后将这些不一致的基因从通用基因列表中排除后,基因的数量仍然存在在通用基因列表中,显示为R(右).在补充图S3B和S3C中,TSCAN和标记基因方法显示与其他方法相比具有更高的一致性。与标记基因方法相比,TSCAN根据POS评分和差异基因检测,细胞排序更准确性能(图(图6A,6A级,,CC类). 因此,我们的结果表明TSCAN可以减少排序结果对先前基因的可用性的依赖与其他方法相比,同时提供了最佳的精确度。

当比较MEF2C和MYH2沿假时间轴的表达模式时,Monocle和Wanderlust未能揭示MEF2C和MYH2的时间顺序这些基因的增长模式也变得不那么清晰(图(图7)。7). 在瀑布中,MEF2C先下降后上升MEF2C和MYH2的时间顺序不是很清楚。相比之下,其他方法在该分析中成功揭示了MEF2C和MYH2的增加模式。他们的结果也更清楚地表明,MEF2C在MYH2增加之前增加(图(图77).

保存图片、插图等的外部文件。对象名称为gkw430fig7.jpg

构建假时间的HSMM数据集中MEF2C和MYH2表达模式使用所有基因。每个细胞中每个基因的表达都是假时间轴上的细胞顺序。实心曲线是拟合的GAM函数。这个虚线是ENO3的GAM拟合,ENO3是用于确定路径的标记基因方向。

总的来说,我们的分析再次表明TSCAN产生了最准确的细胞排序结果,与未进行细胞聚类的方法相比,该方法具有更强的鲁棒性。

LPS分析

对于LPS数据,我们在不使用诸如作为518先验的在HSMM分析中选择的基因。这个分析基于方程式M49这是使用以下所有基因计算得出的材料和方法中描述的协议。所有方法只找到一条主路径,没有分支路径(补充表S3)。为了确定路径的方向,我们使用BCL3作为标记基因。已知BCL3参与对病毒和细菌的反应刺激,其表达水平预计在LPS刺激后增加。图22显示该标记基因在TSCAN GUI。因此,簇1被确定为伪时间轴的原点。再次比较基于POS评分的不同方法,结果表明TSCAN的效果最好精确度(图(图8A,8安,BCL3被用作标记基因对于标记-基因方法)。基于细胞聚类的方法(TSCAN,k-meansTSCAN(瀑布)比那些不使用细胞聚类(Monocle和nocluTSCAN)(图(图8B)。8B类). 要评估不同方法基于差异表达基因,我们编译了125个已知标记基因(BCL3排除)来自(25)(补充表S4)。图8C8摄氏度显示这些金标准基因的平均等级和金标准基因数量分别在每种方法报告的排名靠前的基因中发现。同样,TSCAN优于所有其他方法。

保存图片、插图等的外部文件。对象名称为gkw430fig8.jpg

LPS数据集中不同方法的评估结果。(A类)POS得分。(B类)通过100的平均相似性得分来衡量稳健性独立扰动。(C类)金标准基因的平均等级。()顶级差异中检测到的金标准基因数基因。

作为一个具体示例,图图99显示了表达式LPS数据的金标准基因STAT2水平(25). 预计在LPS刺激后STAT2表达增加。可以看到TSCAN结果与已知的STAT2增长模式最为一致。相反,STAT2的增加模式在产生的细胞顺序中不太明显通过所有其他方法。在Monocle中,nocluTSCAN,k表示TSCAN、瀑布、SCUBA和流浪癖,STAT2先升高后降低。在标记基因方法中与拟合区域周围细胞的高变异性相比,增加模式较弱曲线。

保存图片、插图等的外部文件。对象名称为gkw430fig9.jpg

LPS数据集中的STAT2表达模式。绘制每个单元格中的STAT2表达式作为伪时间轴上细胞顺序的函数。橙色曲线是拟合的GAM功能。

qNSC分析

最后,我们比较了使用qNSC数据集的不同方法。此数据集不具有多个时间点或实验条件。用于细胞排序的先前基因集也不可用。因此,我们根据方程式M50计算的使用材料和方法中描述的所有基因。所有方法产生一个没有分支的路径。为了确定路径方向,我们使用FOXG1作为标记基因。已知FOXG1在增殖性成人NPC中起关键作用。低表达FOXG1用于指示路径的原点。

在qNSC分析中,由于外部信息,无法计算POS分数如数据采集时间不可用。因此,我们只评估了每种方法的鲁棒性及其检测已知差异基因的能力。对于差异基因分析,1999年已知标记基因(不包括FOXG1)由(26)作为金标准(补充表S4)。再次,使用细胞聚类的方法(TSCAN、k-means TSCAN、Waterfall)得到了改进与不使用细胞聚类(Monocle,nocluTSCAN)(图10安). TSCAN提供了最好的所有方法中金标准基因的平均等级(图10亿)它还拥有最高的检测金本位的能力差异基因(图10摄氏度). 补充的图S4显示了金标准基因SOX9的表达水平。作为一种下调转录因子SOX9的表达预计会随着假时间的推移而减少(26). TSCAN和Waterfall的结果与这种已知的SOX9下降模式,在TSCAN。相比之下,SOX9在Monocle中的表达先增加后减少,nocluTSCAN和SCUBA。对于k-means TSCAN,SOX9表达首先降低,然后增加。对于仅标记基因的方法和Wanderlust,SOX9的表达稍显增加。总的来说,TSCAN在所有方法中表现最好。

保存图片、插图等的外部文件。对象名称为gkw430fig10.jpg

qNSC数据集中不同方法的评估结果。(A类)通过100个独立样本的平均相似性得分衡量稳健性扰动。(B类)金标准基因的平均等级。(C类)在顶级差异基因中检测到的金标准基因数。

图形用户界面(GUI)

TSCAN有一个GUI。如上所述,TSCAN中的GUI允许用户可视化标记基因和调节主要路径和集群级排序。除了这些功能外,GUI还为用户提供了多种修剪标准,以有效地修剪不需要的单元格。对于例如,在HSMM数据中排除PDGFRA和SPHK1两个基因高表达的细胞设置,可以设置两个修剪标准,如PDGFRA>1和SPHK1>1(补充图S5A)和TSCAN将排除满足这两个标准的电池(补充图S5B)。最后,GUI可以用于可视化用户特定的基因沿着伪时间作为热图。例如,补充图S5C获得假时间后,可视化两个基因CCNA2和CCNB2的表达在HSMM数据中排序。这些函数一起对单细胞RNA-seq数据更方便、更人性化。

讨论

总之,TSCAN提供了一种支持单细胞RNA-seq伪时间分析的新工具数据。正如我们的结果所表明的那样,这种方法具有强大的竞争力基于不同标准的性能。通过比较使用和不使用单元格的方法聚类,我们已经证明了细胞聚类是一种有用的技术,可以减少可变性和提高基于MST的伪时间分析的准确性。虽然细胞聚类的思想也曾在《瀑布》中使用过,该书对瀑布研究中没有提供细胞聚类对细胞排序的影响(26). 除了开发和系统通过对TSCAN算法的评估,我们还开发了一个用于TSCAN的GUI。TSCAN的图形用户界面为用户提供了以交互方式探索和调整分析的灵活性结果。

为了评估TSCAN和其他无监督伪时间重建方法,我们使用了两个具有多个时间点的时间进程数据集HSMM和LPS,并有意避免在伪时间分析中使用任何有关数据收集时间的信息。在这个通过这种方式,数据收集时间可以为通过POS评分评估细胞排序的准确性。如果出现以下情况,则无法进行此类评估测试数据集只有一个时间点。这解释了为什么我们使用HSMM和LPS即使原则上这些数据可以用其他方式进行分析,也要进行评估。例如,人们可以对细胞进行有监督而非无监督的分析。或者,可以进行初步分析以识别差异表达不同数据收集时间点之间的基因,然后将其用作优先基因(类似于之前的518个HSMM基因)来订购细胞。与HSMM和LPS数据不同qNSC数据集代表了许多研究人员面临的不同情况。在这里,单细胞RNA-seq数据仅从一种生物条件收集,而不是从多个时间点或条件。在这种情况下,使用数据的受监督方法无法应用订单单元格的收集时间信息,并且无法进行比较不同的时间点或条件来发现差异基因并将其用作前基因因此,能够执行无监督的伪时间是很重要的TSCAN等分析。

除了TSCAN,本文还介绍了几种定量评估细胞的方法订购性能。我们期望这些评估方法在评估其他伪时间重建算法的未来。尽管TSCAN使用RNA-seq进行测试,原则上应该不难调整这种方法以适应其他数据类型应在未来。

补充材料

补充数据:

致谢

作者感谢宋红军博士和申杰洪博士提供了qNSC数据以及关于瀑布的有益讨论。作者还要感谢Ben Sherwood博士感谢他对改进手稿的建议。

补充数据

补充数据可从NAR Online获取。

基金

美国国立卫生研究院(NIH)[R01HG006282]。开放存取费用资金:国家美国卫生研究院(NIH)[R01HG006282]。

利益冲突声明。未声明。

参考文献

1Tang F.、Barbacioru C.、Wang Y.、Nordman E.、Lee C.、Xu N.、Wang X.、Bodeau J.、Tuch B.B.、Siddiqui A.等,单个细胞的mRNA-Seq全转录组分析。自然方法。2009;6:377–382.[公共医学][谷歌学者]
2Tang F.,Barbacioru C.,Bao S.,Lee C.,Nordman E.,Wang X.,Lao K.,Surani M.A.通过单细胞RNA-Seq分析。细胞干细胞。2010;6:468–478. [PMC免费文章][公共医学][谷歌学者]
三。Mortazavi A.、Williams B.A.、McCue K.、Schaeffer L.、Wold B.通过RNA-Seq对哺乳动物转录体进行定位和量化。自然方法。2008;5:621–628.[公共医学][谷歌学者]
4Wang Z.,Gerstein M.,Snyder M.RNA-Seq:转录组学的革命性工具。Nat.Rev.基因。2009;10:57–63. [PMC免费文章][公共医学][谷歌学者]
5Schena M.、Shalon D.、Davis R.W.、Brown P.O.用互补基因定量监测基因表达模式DNA微阵列。科学。1995;270:467–470.[公共医学][谷歌学者]
6Schulze A.,Downward J.使用微阵列导航基因表达–一项技术审查。自然细胞生物学。2001;:E190–E195。[公共医学][谷歌学者]
7Simpson E.H.列联表中相互作用的解释。J.罗伊。统计Soc.B。1951;13:238–241. [谷歌学者]
8Trapnell C.、Cacchiarelli D.、Grimsby J.、Pokharel P.、Li S.、Morse M.、Lennon N.J.、Livak K.J.、Mikkelsen T.S.、Rinn J.L单细胞的伪时序。自然生物技术。2014;32:381–386. [PMC免费文章][公共医学][谷歌学者]
9Islam S.,Kjllquist U.,Moliner A.,Zajac P.,Fan J.B.,Lönnerberg P.,Linnarsson S.通过高度多重RNA-seq。基因组研究。2011;21:1160–1167. [PMC免费文章][公共医学][谷歌学者]
10Ramsköld D.、Luo S.、Wang Y.C.、Li R.、Deng Q.、Faridani O.R.、Daniels G.A.、Khrebtukova I.、Loring J.F.、Laurent L.C.等,从RNA的单细胞水平和个体水平研究全长mRNA-Seq循环肿瘤细胞。自然生物技术。2012;30:777–782. [PMC免费文章][公共医学][谷歌学者]
11Treutlein B.、Brownfield D.G.、Wu A.R.、Neff N.F.、Mantalas G.L.、Espinoza F.H.、Desai T.J.、Krasnow M.A.、Quake S.R.使用单细胞RNA-seq。自然。2014;509:371–375. [PMC免费文章][公共医学][谷歌学者]
12Saliba A.E.、Westermann A.J.、Gorski S.A.、Vogel J.单细胞RNA-seq:进展和未来挑战。核酸研究。2014;42:8845–8860. [PMC免费文章][公共医学][谷歌学者]
13Amir el-A.D.、Davis K.L.、Tadmor M.D.、Simonds E.F.、Levine J.H.、Bendall S.C.、Shenfeld D.K.、Krishnaswamy S.、Nolan G.P.、Peer D.viSNE实现了高维单细胞数据的可视化揭示了白血病的表型异质性。自然生物技术。2013;31:545–552. [PMC免费文章][公共医学][谷歌学者]
14.Bendall S.C.、Davis K.L.、Amir el-A.D.、Tadmor M.D.、Simonds E.F.、Chen T.J.、Shenfeld D.K.、Nolan G.P.、Peer D.单细胞轨迹检测揭示了进展和调控人类B细胞发育的协调。单元格。2014;157:714–725. [PMC免费文章][公共医学][谷歌学者]
15邱P.,Simonds E.F.,Bendall S.C.,Gibbs K.D.,Jr,Bruggner R.V.,Linderman M.D.,Sachs K.,Nolan G.P.,Plevritis S.K.从高维细胞数据中提取细胞层次铲刀。自然生物技术。2011;29:886–891. [PMC免费文章][公共医学][谷歌学者]
16Marco E.,Karp R.L.,Guo G.,Robson P.,Hart A.H.,Trippa L.,Yuan G.C.单细胞基因表达数据的分叉分析揭示了表观遗传景观。程序。国家。阿卡德。科学。美国。2014;111:E5643–E5650。 [PMC免费文章][公共医学][谷歌学者]
17Jaitin D.A.、Kenigsberg E.、Keren-Shaul H.、Elefant N.、Paul F.、Zaretsky I.、Mildner A.、Cohen N.、Jung S.、Tanay A.等人。用于无标记分解的大规模平行单细胞RNA-seq组织转化为细胞类型。科学。2014;343:776–779. [PMC免费文章][公共医学][谷歌学者]
18Buettner F.、Natarajan K.N.、Casale F.P.、Proserpio V.、Scialdone A.、Theis F.J.、Teichmann S.A.、Marioni J.C.、Stegle O.单细胞细胞间异质性的计算分析RNA测序数据揭示了隐藏的细胞亚群。自然生物技术。2015;33:155–160.[公共医学][谷歌学者]
19Dalerba P.、Kalisky T.、Sahoo D.、Rajendran P.S.、Rothenberg M.E.、Leylat A.A.、Sim S.、Okamoto J.、Johnston D.M.、Qian D.等。人类结肠转录异质性的单细胞解剖肿瘤。自然生物技术。2011;29:1120–1127. [PMC免费文章][公共医学][谷歌学者]
20Kharchenko P.V.,Silberstein L.,Scadden D.T.单细胞差异表达的贝叶斯方法分析。自然方法。2014;11:740–742. [PMC免费文章][公共医学][谷歌学者]
21Fraley C.、Raftery A.E.基于模型的聚类、判别分析和密度估计。美国统计协会。2002;97:611–631. [谷歌学者]
22Chris F.、Adrian E.R.T.、Brendan M.、Luca S。技术报告。华盛顿特区:华盛顿大学统计系华盛顿;2012.mclust Version 4 for R:基于模型聚类的正态混合建模,分类和密度估计。第597号。[谷歌学者]
23Wood S.N.快速稳定限制最大似然和边际似然半参数广义线性模型的估计。J.罗伊。统计Soc.B。2011;73:3–36. [谷歌学者]
24Benjamini Y.,Hochberg Y.控制错误发现率:一种实用而有效的方法多次测试。J.罗伊。统计Soc.B。1995;57:289–300. [谷歌学者]
25.Amit I.、Garber M.、Chevrier N.、Leite A.P.、Donner Y.、Eisenhaure T.、Guttman M.、Grenier J.K.、Li W.、Zuk O.等。哺乳动物转录网络介导的无偏重建病原体反应。科学。2009;326:257–263. [PMC免费文章][公共医学][谷歌学者]
26Shin J.、Berg D.A.、Zhu Y.、Shin J.Y.、Song J.、Bonaguidi M.A.、Enikolopov G.、Nauen D.W.、Christian K.M.、Ming G.L.等,《瀑布下的单细胞RNA-Seq揭示了潜在的分子级联》成人神经发生。细胞干细胞。2015;17:360–372. [PMC免费文章][公共医学][谷歌学者]
27Haghverdi L.、Buettner F.、Theis F.J.用于高维单细胞分化分析的扩散图数据。生物信息学。2015;31:2989–2998.[公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社