CIDR: Ultrafast and accurate clustering through imputation for single-cell RNA-seq data

大多数现有的单细胞RNA-seq数据降维和聚类软件包都是通过繁重的建模和计算机器来处理缺失数据的。在这里，我们介绍了CIDR（通过插补和降维聚类），这是一种超快速算法，它使用一种新颖但非常简单的隐式插补方法，以原则性的方式减轻scRNA-seq数据中缺失的影响。使用一系列模拟和实际数据，我们表明CIDR改进了标准主成分分析，在聚类精度方面优于最先进的方法，即t-SNE、ZIFA和RaceID。CIDR通常在处理数百个单元的数据集时在几秒钟内完成，而处理数千个单元的数据库时在几分钟内完成。CIDR可下载于https://github.com/VCCRI/CIDR.

电子辅助材料

本文的在线版本（doi:10.1186/s13059-017-1188-0）包含对授权用户可用的补充材料。

关键词：单细胞、scRNA-seq、脱落、推测、降维、聚类、细胞类型

背景

单细胞RNA测序（scRNA-seq）使研究人员能够研究单个细胞之间的异质性，并从转录组学的角度定义细胞类型。scRNA-seq数据分析中的一个突出问题是，在RNA-seq-实验的反转录步骤中，由于扩增失败而导致的辍学现象普遍存在。辍学的普遍性表现为数据集中过多的零和接近零的计数，这已被证明给scRNA-seq数据分析带来困难[1,2].

最近为scRNA-seq数据分析的各个方面开发了几个软件包，包括细胞周期（旋风[三]和scLVM[4])，标准化（scran[5])差异表达分析[2]和桅杆[6])和时间分析（单分子膜[7])，但很少有人执行预处理步骤，如降维和聚类，这是研究细胞类型异质性的关键步骤。

最先进的scRNA-seq数据降维包是ZIFA[1]. 它实现了一种改进的概率主成分分析（PCA）方法，该方法结合了零膨胀模型来解释辍学事件。ZIFA使用迭代期望最大化算法进行推理，这使得对于大型scRNA-seq数据集来说计算量很大。

另一个包t-SNE[8]在生物学家中很受欢迎，但它不是专门为scRNA-seq数据设计的，也没有解决辍学问题。其他最近开发的工具，如BackSPIN[9]，pca减少[10]，SC3[11]、SNN-Cliq[12]，赛道ID[13]和BISCUIT[14]，旨在处理将单个细胞最佳聚类为有意义的组或层次结构。与ZIFA一样，这些算法通常涉及统计建模，这需要对参数进行估计。这些算法通常使用迭代方法来获得局部或全局最优解，因此在处理数百个以上单细胞的大型数据集时，它们可能会很慢。

在许多实际情况下，研究人员对快速直观的聚类结果感兴趣，因为这些结果很容易可视化。PCA是用于样本异质性数据可视化的一种常用分析方法，通常用于聚类之前的降维。许多版本的PCA，例如R中的实现prcomp，速度非常快，通常用于分析大型基因表达数据集。尽管如此，标准主成分分析并没有考虑到scRNA-seq数据中的缺失。在这项工作中，我们旨在开发一种快速的类PCA算法，该算法考虑了辍学。

结果

动机

我们注意到PCA相当于对从数据集导出的欧几里德距离矩阵执行主坐标分析（PCoA）。我们假设，只要我们能够可靠地估计出存在缺失时每对样本（即单个细胞）之间的差异，就没有必要明确估计缺失值。

让我们首先检查两个单个细胞的表达谱之间的平方欧氏距离，C类 _我=(o个 _1我,o个 _2我,…,o个 _镍)和C类 _j个=(o个 _1j个,o个 _2j个,…,o个 _新泽西州)，其中o个 _基和o个 _千焦表示基因的基因表达值k在单元格中C类 _我和C类 _j个，分别为：

\begin{matrix} {[D类 ({C类}_{我}, {C类}_{j个})]}^{2} & = \sum_{k = 1}^{n个} {({o个}_{基} - {o个}_{千焦})}^{2} \\ = \sum_{k \in {没有零}} {({o个}_{基} - {o个}_{千焦})}^{2} \\ + \sum_{k \in {两个零}} {({o个}_{基} - {o个}_{千焦})}^{2} \\ + \sum_{k \in {一个零}} {({o个}_{基} - {o个}_{千焦})}^{2} . \end{matrix}

1

为了简单起见，我们将基因表达数据中的所有零称为辍学候选。一般来说，即使允许辍学候选人的值接近零，我们的论点仍然有效。我们注意到等式中的平方欧氏距离。1可以安排为三个平方和项的总和。第一项是o个 _基和o个 _千焦如果它们都是非零值。这个学期不受辍学的影响。第二项是o个 _基和o个 _千焦如果它们都是零，那么这个项是零（或者非常小，如果我们将接近零的值作为辍学候选值）。

因此，我们观察到，辍学的主要影响来自第三项，该项涉及一个值为零而另一个值不为零的情况。零可以表示基本事实中的基因表达缺失，也可以表示观察到非零基因表达值为零的辍学事件。如果我们将所有观察到的零视为缺乏基因表达（因此，将零作为辍学事件的概率视为零），如果我们直接将主成分分析应用于scRNA-seq数据，则此术语可能会被夸大。尽管如此，已经观察到基因表达值退出的概率与真实表达水平成反比[1,2]. 这意味着低表达基因比高表达基因更有可能成为辍学者。利用这些信息，我们假设我们可以通过在等式中的第三项中输入辍学候选人的表达值来缩小这种辍学引起的通货膨胀。1其期望值给出了辍学概率分布。这就是我们新方法CIDR（通过插补和降维聚类）背后的动机。

CIDR算法

CIDR算法可分为以下五个步骤：（1）识别辍学候选，（2）估计辍学率与基因表达水平之间的关系，（3）计算每对单个细胞的输入基因表达谱之间的差异，（4）使用CIDR差异矩阵进行PCoA，和（5）使用前几个主坐标进行聚类（附加文件1：图S1）。

CIDR首先对每个细胞的百万分位标签（TPM）基因表达进行对数转换。在scRNA-seq数据集中，对数转换表达值的分布通常以零处的强峰和一个或多个代表表达基因表达的较小非零阳性峰为特征[6,15,16].

对于每个单元格C类 _我，CIDR查找样本依赖阈值T型 _我将零峰值与表达式分布的其余部分分开；其他文件1：图S2a显示了模拟数据集中库标签的分布。红色垂直线表示阈值T型 _我.单元格的条目C类 _我表达式小于T型 _我是辍学候选人，参赛作品的表达至少为T型 _我被称为表达。我们打电话给T型 _我辍学候选人门槛。请注意，辍学候选词包括真正的辍学以及真正的低（或无）表达。

CIDR的下一步涉及评估辍学概率和基因表达水平之间的关系。让u个是细胞中某个特征的未被观察到的真实表达P（P）(u个)就是辍学的可能性。经验证据表明P（P）(u个)是递减函数[1,2]. CIDR使用非线性最小二乘回归拟合数据的递减逻辑函数（经验辍学率与表达条目的平均值），作为对P（P）(u个)，如龙卷风图所示（附加文件1：图S2b）用于模拟数据集。通过使用整个数据集进行估计P（P）(u个)，我们将其表示为 $\hat{P（P）} (u个)$ ，我们做出了合理的假设，即数据集中的大多数辍学候选者实际上都是辍学者，这允许基因和细胞之间共享信息。

$\hat{P（P）} (u个)$ 用于CIDR相似度矩阵计算中的插补。辍学候选者被视为缺失值，我们现在将描述CIDR的成对隐式插补过程。考虑一对单元格C类 _我和C类 _j个，及其各自观察到的表达式o个 _基和o个 _千焦用于功能F类 _k，并让T型 _我和T型 _j个是上述定义的辍学候选阈值。插补仅适用于辍学候选人，因此当o个 _基≥T型 _我和o个 _千焦≥T型 _j个不需要进行插补。现在考虑以下两个表达式之一的情况T型 _我，说吧o个 _基<T型 _我和o个 _千焦≥T型 _j个.然后o个 _基需要插补和插补值ô_基定义为加权平均值

ô_{基} = \hat{P（P）} ({o个}_{千焦}) {o个}_{千焦} + (1 - \hat{P（P）} ({o个}_{千焦})) {o个}_{基} .

2

为了实现上述步骤的快速实施，我们替换 $\hat{P（P）} (u个)$ 用一个简单得多的阶跃函数W公司(u个)，定义为

W公司 (u个) = \{\begin{array}{l} 0, & \hat{P（P）} (u个) \leq {T型}_{W公司}, \\ 1, & \hat{P（P）} (u个) > {T型}_{W公司}, \end{array}

三

哪里T型 _W公司默认为0.5。我们指的是W公司(u个)作为插补加权函数，它给出了插补中加权平均数的权重，我们指的是W公司(u个)即。， ${\hat{P（P）}}^{- 1} ({T型}_{W公司})$ ，作为插补加权阈值（附加文件1：图S2c）。因此，等式的实现版本。2是

õ_基= W公司(o个_千焦)o个_千焦+ (1 − W公司(o个_千焦))o个_基,

4

哪里õ_基用作的估算值o个 _基最后，如果o个 _基<T型 _我和o个 _千焦<T型 _j个，我们同时设置õ_基和õ_千焦为零。

我们还直接使用 $\hat{P（P）} (u个)$ 没有步骤函数的简化。如表所示表11和和3，三，简化步骤确实加快了算法，表表22和和3三表明该步骤不会影响聚类的准确性。

表1

CIDR与其他四种算法的运行时比较

数据集	大小	CIDR公司	CIDR（左）	prcomp公司	t-SNE公司	赛道ID	ZIFA公司
胰岛	60	5.2秒	5.3秒	2.9秒	8.5秒	48.6秒	40.1分钟
模拟	150	1.9秒	2.3秒	2.9秒	14.2秒	20.7秒	32.1分钟
人脑	420	6.6秒	8.9秒	13.7秒	1.4分钟	1.5分钟	1.1小时
小鼠大脑	1800	57.9秒	1.1分钟	3.2分钟	23.1分钟	2.5小时^一	1.8小时

在单独的窗口中打开

CIDR是具有阶跃函数简化的默认CIDR算法实现，而CIDR（L）是具有非简化逻辑函数的实现。算法在标准笔记本电脑上运行：2.8 GHz Intel Core i5（i5-4308U），8GB DDR3 RAM）

^一RaceID无法聚合鼠标大脑数据集

表2

CIDR与其他四种算法的聚类精度比较（通过调整后的rand指数衡量）

数据集	大小	CIDR公司	CIDR（左）	prcomp公司	t-SNE公司	赛道ID	ZIFA公司
胰岛	60	0.68	0.42	0.21	0.20	0.22	0.20
模拟	150	0.92	0.90	0.48	0.02	0	0
人脑	420	0.90	0.88	0.48	0.57	0.39	0.53
小鼠大脑	1800	0.52	0.37	0.26	0.62	0.37^一	0.32

在单独的窗口中打开

CIDR是具有阶跃函数简化的默认CIDR算法实现，而CIDR（L）是具有非简化逻辑函数的实现

^一RaceID无法聚合鼠标大脑数据集

表3

在包含10000个单元的模拟数据集上，CIDR和其他四种算法的运行时和聚类精度（通过调整后的rand指数衡量）的比较

模拟（10K）	CIDR公司	CIDR（左）	prcomp公司	t-SNE公司	赛道ID	ZIFA公司
时间	44.5分钟	1.5小时	3.1小时	21.8小时	>14天	1.6天^一
调整后的兰特指数	0.99	1	0.99	0	不适用^b条	0.09

在单独的窗口中打开

CIDR是具有阶跃函数简化的默认CIDR算法实现，而CIDR（L）是具有非简化逻辑函数的实现。除ZIFA以外的算法在AWS ec2 r3.2xlarge实例上运行

^一ZIFA在AWS ec2 r3.2xlarge实例上耗尽了内存，它的运行时间是从AWS ec2r3.8xlarge实例上的运行记录下来的

^b条14天后RaceID未完成

那么C类 _我和C类 _j个使用公式。1用估算值。我们称这种插补方法为隐式插补，因为每次与不同的细胞配对时，细胞的特定观察表达的插补值都会发生变化。

降维是通过对CIDR差异矩阵进行PCoA来实现的。众所周知，对降维进行聚类可以提高结果[17]. CIDR在前几个主坐标上执行分层聚类，并根据Calinski–Harabasz指数确定簇数[18].

玩具示例

图图11显示了一个玩具示例，该示例说明了辍学的影响以及CIDR如何在辍学的情况下改进聚类。玩具数据集由八个单元组成，形成两个簇（红色簇：c1–c4，蓝色簇：c5–c8；图。图11 a）。一). 辍学主要影响表达水平较低的基因，因此对红色簇中的细胞影响更大。聚类质量可以通过聚类内每对细胞之间的均方距离（WC距离）和聚类之间的均方距离（BC距离）进行量化。如果数据集具有较低的WC距离和较高的BC距离，则称其具有较强的聚类结构。换句话说，BC/WC距离的高比率表明集群结构良好。如图所示。图11 一一和和b，b条，辍学增加了WC和BC距离。在这种情况下，它也会降低BC/WC比率。使用CIDR差异矩阵，我们能够大大缩小平均WC距离，同时基本上保持平均BC距离。换句话说，CIDR可以在受丢失影响的数据集中缩小WC距离，而不是BC距离。因此，CIDR能够在原始非丢弃数据集中更好地保持聚类关系（图。（图11 c（c）c（c）).

保存图片、插图等的外部文件。对象名为13059_2017_1188_Fig1_HTML.jpg

在单独的窗口中打开

图1

举例说明scRNA-seq数据中的缺失对聚类的影响，以及CIDR如何减轻缺失的影响。一这个玩具示例由八个单细胞组成，分成两个簇（红色簇以及蓝色星团). 删除导致中单个单元之间的簇内距离红色簇显著增加，以及增加两个簇中单个细胞之间的簇间距离。b条CIDR在很大程度上保持了BC距离的同时，减少了簇内距离引起的丢失。c（c）使用原始数据集（无丢失）、受丢失影响的数据集和使用CIDR分析的受丢失影响数据集的分层聚类结果。不列颠哥伦比亚省集群之间，执行辍学，scRNA-seq基因单细胞RNA-seq，厕所集群内。d日使用阶跃函数W（x）来估计实际辍学率函数P（x），我们可以证明CIDR公司始终缩小任意两点（x）之间的预期距离₁和x₂)并且，对于那些靠得更近的点对，预期收缩率更高

作为比较，我们还考虑了另一种方法，在该方法中，辍学候选人被输入到所表达条目的行平均值（IRM）。这是一种简单且常用的方法，用于处理缺少值的数据。当将IRM应用于玩具数据集时，我们观察到BC和WC距离都显著缩小（附加文件1：图S3）。事实上，在这种情况下，IRM缩小的BC距离远大于WC距离，因此它稀释了聚类信号。

这个玩具示例说明，CIDR的强大之处在于它能够缩小辍学引起的WC距离，同时在很大程度上保持BC距离。有关理论依据，请参阅“方法.”

模拟研究

为了进行评估，我们创建了一个逼真的模拟scRNA-seq数据集。我们将每种细胞类型的标记物数量设置得很低，以使其成为难以分析的数据集。其他文件1：图S2a显示了此模拟数据集中随机选择的一个库的标签分布。左边的尖峰是scRNA-seq数据集的典型特征，该尖峰中的标签是缺失候选。我们将CIDR与R函数prcomp实现的标准PCA、两种最先进的降维算法（t-SNE和ZIFA）以及最近发布的scRNA-seq聚类包RaceID进行了比较。由于RaceID不执行降维，t-SNE输出的前两个维度用于RaceID的二维可视化。由于prcomp、ZIFA和t-SNE不执行聚类，为了进行比较，我们应用了CIDR使用的相同层次聚类过程。我们使用调整后的兰特指数[19]衡量聚类的准确性。

如图所示。图2，2，唯一能在前两个维度中显示三个清晰可识别集群的算法是CIDR。调整后的rand指数远高于其他四种算法（图。（图22 f） ●●●●。（f）). CIDR输出所有主坐标以及显示每个主坐标解释的变化比例的图（附加文件1：图S2d）。

保存图片、插图等的外部文件。对象名为13059_2017_1188_Fig2_HTML.jpg

在单独的窗口中打开

图2

使用模拟数据进行性能评估。模拟的scRNA-seq数据集参数：三种细胞类型，每种细胞类型50个细胞，20000个非差异表达特征，150个差异表达特征和每种细胞的10个标记。三种颜色表示三种真正的细胞类型；而不同的绘图符号表示每个算法输出的簇。一–e（电子）五种比较算法的聚类输出。（f）调整后的rand指数用于比较每个比较算法的聚类输出的准确性。个人计算机主坐标

我们在仿真研究中扰动了各种参数，以测试CIDR的鲁棒性，并检查其性能如何依赖于这些参数。正如预期的那样，调整后的兰德指数随着辍学水平或单元类型数量的增加而减少（附加文件1：图S4a，c）。然而，当调整后的兰德指数较低时，通过增加单元数（附加文件1：图S4b，d）。

CIDR的可扩展性

鉴于scRNA-seq数据集的大小不断增加，以及scRNA-seq数据分析软件速度的重要性，我们创建了一个由10000个细胞组成的模拟数据集，以测试CIDR和其他算法的可扩展性。结果如表所示表3。三CIDR在45分钟内完成了分析，比第二快的算法prcomp（3.1小时）快四倍多，比t-SNE（21.8小时）、ZIFA（1.6天）或RaceID（14天内没有完成执行）快很多倍。事实上，CIDR是唯一在一小时内完成分析的算法，同时实现了非常高的聚类精度（调整后的rand指数=1）。

生物数据集

我们将CIDR和四种比较算法应用于三个非常不同的生物数据集，原始出版物中报告了这些数据集的细胞类型。在这些研究中，细胞类型是通过一个多阶段的过程来确定的，该过程涉及诸如细胞类型分子特征等附加信息。为了进行评估和比较，我们在无监督的情况下仅对每个比较算法应用一次，以测试每个算法在研究中恢复单元类型分配的能力。

人脑scRNA-seq数据集

图图3三显示了人脑scRNA-seq数据集的比较结果[20]. 在这个数据集中，排除杂交细胞后，八种细胞类型中有420个细胞。众所周知，在聚类中很难确定簇的数量；CIDR成功地在大脑数据集中识别出七个簇，这非常接近于八个簇，即该数据集中带注释的细胞类型的数量。CIDR还大致正确地识别了每种单元类型的成员，这反映在调整后的兰德指数接近0.9，这是对第二好算法的极大改进（图。（图3三 f） ●●●●。（f）). 在CIDR的二维可视化中（图。（图3三 e），e（电子）)第一个主坐标将神经元与其他细胞分开，而第二个主坐标则将成人和胎儿神经元分开。请注意，t-SNE是非确定性的，它使用相同的输入和相同的参数但种子不同的重复运行后，会向随机数生成器输出截然不同的图（附加文件1：图S5）。

保存图片、插图等的外部文件。对象名为13059_2017_1188_Fig3_HTML.jpg

在单独的窗口中打开

图3

使用人脑scRNA-seq数据集进行性能评估。在该数据集中，在排除混合细胞之后，在八种细胞类型中有420个细胞。不同的颜色表示研究注释的细胞类型[20]而不同的绘图符号表示每个算法输出的簇。一–e（电子）五种比较算法的聚类输出。（f）调整后的rand指数用于衡量每个比较算法的聚类输出的准确性。用数字标记的样本是注释和相应算法的聚类之间的差异。个人计算机主坐标

CIDR允许用户更改聚类中使用的主坐标数和由参数指定的最终聚类数nPC公司和n群集分别是。我们改变了这些参数，并在人脑scRNA-seq数据集上重新运行CIDR，以测试CIDR的稳健性（附加文件1：图S6）。当这些参数改变为默认值时，CIDR输出的簇仍具有生物相关性。例如，CIDR建议4个为最佳nPC公司，并且在由此产生的聚类中，胎儿静止神经元和胎儿复制神经元作为两个不同的聚类输出（图。（图3三 e）；e（电子）); while when（当）nPC公司降低到2，这两种类型的细胞被分组为一个簇，即胎儿神经元（附加文件1：图S6a）。

我们现在将使用人脑scRNA-seq数据集中的CIDR神经元簇[20]举例说明如何使用CIDR发现注释中的限制。在图中。图3三 e、，e（电子），与注释神经元最对应的簇用十字表示；只有六种不同意见，图中以1-6表示。图3三 e、，e（电子），用十字表示，但没有注释为神经元。我们使用来自一项独立研究的细胞类型标记[21]调查这些分歧的原因。在图中。图4，4，这六个样本用CIDR1、CIDR2等表示，由于所有六个样本都表达神经元标记，因此CIDR的标记是合理的。这六个样本中的前五个同时表达神经元标记和相应注释细胞类型的标记，这表明每个样本都包含来自多个细胞的RNA，或者它们可能是新的细胞类型。CIDR主坐标图（图。（图3三 e）e（电子）)正确地将这五个样本放置在神经元和相应的注释细胞类型之间。第六个样本仅表示神经元标记，这表明注释中存在错误，CIDR将此样本正确地放置在神经元簇的中间。我们使用prcomp和ZIFA进行了相同的分析，这两种方法只能识别CIDR 4和CIDR 6，在图中分别用1和2标记。图3三一一和和c。c（c）。不可能使用t-SNE或RaceID进行此分析，因为它们将神经元和其他细胞类型错误地分组在同一集群中。这些错误如图所示。图3三 b中，b条,，天，d日、和和4，4我们可以看到，通过t-SNE和RaceID（用t-SNE 1、t-SNE 2等表示）将细胞错误地与神经元分组，在神经元标记物中几乎没有表达。

保存图片、插图等的外部文件。对象名为13059_2017_1188_Fig4_HTML.jpg

在单独的窗口中打开

图4

细胞型标记物的表达。来自一项独立研究的四组细胞型标记[21]：神经元、星形胶质细胞、少突胶质细胞和内皮细胞。这个第一12柱注释与CIDR聚类一致的选定样本。柱13-18个样本未标注为神经元，但通过CIDR、prcomp或ZIFA与神经元聚集在一起。柱19–24是未注释为神经元但通过t-SNE或RaceID与神经元聚集的选定样本。TPM（TPM）每百万个标签

人胰岛scRNA-seq数据集

人类胰岛scRNA-seq数据集[22]在排除未定义的细胞和大量RNA-seq样本后，有较少的细胞数量——六种细胞类型中的60个细胞。CIDR是唯一一种在前两个维度中显示清晰正确簇的算法（图。（图5）。5). 就聚类精度而言，CIDR在调整后的rand指数方面比第二好的算法强三倍以上（图。（图55 （f）（f）).

保存图片、插图等的外部文件。对象名称为13059_2017_1188_Fig5_HTML.jpg

在单独的窗口中打开

图5

人类胰岛scRNA-seq数据集的性能评估。在这个数据集中，在排除未定义的细胞和大量RNA-seq样本后，六种细胞类型中有60个细胞。不同的颜色表示研究注释的细胞类型[22]而不同的绘图符号表示每个算法输出的簇。一–e（电子）比较了五种算法的聚类输出。（f）调整后的rand指数用于衡量每个比较算法的聚类输出的准确性。个人计算机主坐标

小鼠脑scRNA-seq数据集

在小鼠脑中scRNA-seq数据集[9]，在七种细胞类型中有1800个细胞。其他文件1：图S7显示了使用该数据集进行比较的结果。在这种情况下，t-SNE获得了最高的调整后兰特指数，紧随其后的是CIDR。t-SNE和CIDR的性能都比其他测试方法好得多（表（表22和其他文件1：图S7），但CIDR（1分钟）明显快于t-SNE（23分钟）（表（表1）。1). 此外，我们注意到，在原始出版物中[9]基于过滤和应用改进的双聚类算法的多步骤过程分配细胞类型标签，并使用t-SNE可视化聚类结果。

讨论和结论

CIDR具有超快的运行时间，这对于scRNA-seq数据集的快速增长至关重要。CIDR和其他四种算法在五个数据集上的运行时比较如表所示表11和和3。三在标准笔记本电脑上，CIDR只需几秒钟即可处理数百个单元的数据集，而处理数千个单元的一个数据集则需要几分钟。CIDR公司比prcomp和所有其他比较算法都快；特别是，它比ZIFA快50倍以上，ZIFA是另一种降维方法，专门用于处理scRNA-seq数据分析中的缺失。

数据预处理步骤，如降维和聚类，在scRNA-seq数据分析中非常重要，因为检测聚类可以极大地帮助后续分析。例如，聚类可以用作差异表达分析中的协变量[6]，或者可以在每个簇中分别进行共表达分析[23]. 应在每个集群内执行某些标准化程序[5]. 因此，CIDR对现有工具的巨大改进将引起scRNA-seq技术用户和开发人员的兴趣。

方法

辍学候选人

为了确定将库的标记分布（logTPM）中的前两个模式分开的丢失候选阈值，CIDR在分布的密度曲线中找到两个模式之间的最小点。核密度估计采用R函数密度，平滑核采用Epanechnikov核。为了稳健性，在计算所有辍学候选阈值后，将分别为阈值的前10个百分位和后10个百分位分配第90个百分位数和第10个百百分位数的阈值。CIDR还为用户提供了仅计算部分库的退出候选阈值的选项，在该选项中，计算出的阈值的中位数被用作所有库的退出备选阈值。

在核密度估计中，CIDR使用调整=1的R函数密度的默认带宽选择方法nrd0。我们改变了调节参数，并重新计算了人脑的调节兰德指数[20]和人类胰腺[22]scRNA-seq数据集和附加文件1：图S8显示CIDR在带宽调整方面是稳健的。当调整参数在0.5到1.5之间变化时，人脑和人胰岛数据集的CIDR调整后的rand指数远高于次优方法；参见图。图3三（f）（f）和和55 （f）（f）.

降维

对CIDR差异矩阵进行PCoA，以实现降维。由于CIDR相异矩阵一般不满足三角形不等式，因此特征值可能为负。这并不重要，因为在可视化和聚类中只使用了前几个主坐标，并且它们对应的特征值为正。在计算由每个主坐标解释的变化比例时，去掉了负特征值。一些聚类方法要求输入相异矩阵满足三角形不等式。为了允许与这些方法集成，CIDR为用户提供了Cailliez校正选项[24]，由R包ade4。修正后的CIDR差异矩阵没有任何负特征值。

确定主坐标数

CIDR实现了一种算法，它是scree的变体[25]一种自动确定聚类中使用的主坐标数的方法。CIDR输出一个图，显示每个主坐标解释的变化比例，scree方法在曲线中查找曲线变平的弯头。

更具体地说，CIDR根据连续特征值的差异将特征值分配到组中。每次连续差异大于作为最大差异的一部分确定的截止点时，都会创建一个新组。如果当前组的大小超过预定阈值，则除当前组外的所有组的大小之和将作为聚类中使用的主坐标数返回。

鼓励用户检查CIDR输出的变异图比例，并可能更改聚类中使用的主坐标数。

群集

使用R包NbClust执行分层聚类。CIDR默认的分层聚类方法是ward。D2类[26]，簇数根据Calinski–Harabasz指数确定[18]. 簇数决策的算法再次是scree算法的变体[25]. 更具体地说，该算法检查了Calinski–Harabasz指数与簇数的二阶导数（附加文件1：图S2e）。根据用户请求，CIDR可以输出Calinski–Harabasz指数与聚类图数量的关系；如果需要，用户可以更改集群的默认数量。

模拟研究

模拟的日志标记是从对数正态分布中生成的。对于每个单元类型，首先生成一个预期的库，即日志标记的真实分布，然后模拟丢失和噪声。对于每种细胞类型，预期的库包括少量差异表达特征（例如基因和转录物）和标记。标记是指在一种细胞类型中表达的特征，在所有其他细胞类型中为零。

概率函数π(x个)，其中x个是预期库中的一个条目，用于模拟辍学。π(x个)指定一个条目成为辍学的可能性，因此直观地说，它应该是一个递减函数。在我们的模拟中，我们使用了递减逻辑函数。可以更改逻辑函数的参数来调整辍学水平。模拟丢失后，添加泊松噪声以生成每个库的最终分布。

生物学数据集

最近三项scRNA-seq研究的标签表（人脑[20]，人胰岛[22]和小鼠大脑皮层[9])从数据存储库NCBI基因表达总表（GSE67835、GSE73727和GSE60361）下载。为了确保高质量，排除了库大小小于10000的样本。原始标签表用作CIDR的输入。对于其他降维和聚类算法，删除标记和小于或等于10的行。正如ZIFA文档所建议的那样，以2为基数、之前计数为1的日志标记被用作ZIFA的输入。通过logTPM转换的数据集被用作prcomp和t-SNE的输入。

理论论证

这里我们表明，CIDR总是缩小两个受丢失影响的样本（即单个细胞）之间的预期距离，并且WC距离的预期收缩率高于BC距离。此属性可确保CIDR差异矩阵更好地保留数据集中的聚类结构。

为了简化讨论，让我们假设辍学人数为零。我们现在将解释为什么用等式进行插补。2在正文中，改进了聚类。

假设某个特定功能F类具有真表达式级别x个 ₁,x个 ₂、和x个 _三用于三个电池C类 ₁,C类 ₂、和C类 _三分别是。让我们假设x个 ₁≤x个 ₂≤x个 _三.让P（P）是真实的辍学概率函数，以及 $\hat{P（P）}$ 是CIDR中使用的经经验估计的辍学概率函数。两者都有P（P）和 $\hat{P（P）}$ 是单调递减函数，并且满足 $0 \leq P（P）, \hat{P（P）} \leq 1$ .

两者之间的真正差异C类 ₁和C类 ₂由功能贡献F类是

D类_真实的(C类₁, C类₂, F类) = (x个₁−x个₂)².

在观测数据中存在缺失的情况下C类 ₁和C类 ₂由特征贡献F类是

\begin{matrix} E类 ({D类}_{数据} ({C类}_{1}, {C类}_{2}, F类)) = & (1 - P（P） ({x个}_{1})) (1 - P（P） ({x个}_{2})) {({x个}_{1} - {x个}_{2})}^{2} \\ + P（P） ({x个}_{2}) (1 - P（P） ({x个}_{1})) {x个}_{1}^{2} \\ + P（P） ({x个}_{1}) (1 - P（P） ({x个}_{2})) {x个}_{2}^{2} . \end{matrix}

5

CIDR之间差异的预期值C类 ₁和C类 ₂由特征贡献F类是

\begin{matrix} E类 ({D类}_{CIDR公司} ({C类}_{1}, {C类}_{2}, F类)) = & (1 - P（P） ({x个}_{1})) (1 - P（P） ({x个}_{2})) {({x个}_{1} - {x个}_{2})}^{2} \\ + P（P） ({x个}_{2}) (1 - P（P） ({x个}_{1})) {(1 - \hat{P（P）} ({x个}_{1}))}^{2} {x个}_{1}^{2} \\ + P（P） ({x个}_{1}) (1 - P（P） ({x个}_{2})) {(1 - \hat{P（P）} ({x个}_{2}))}^{2} {x个}_{2}^{2} . \end{matrix}

6

比较等式。5和6，很明显，唯一的区别是因素的存在 $(1 - \hat{P（P）} ({x个}_{我}))^{2}$ 在最后两个学期。自 $0 \leq \hat{P（P）} (x个) \leq 1$ ，我们可以推断 $(1 - \hat{P（P）} ({x个}_{我}))^{2} \leq 1$ ，这意味着E类(D类 _CIDR公司(C类 ₁,C类 ₂,F类))≤E类(D类 _数据(C类 ₁,C类 ₂,F类))对于这对电池C类 ₁和C类 ₂这表明CIDR缩小了辍学情况下两点之间的预期距离。

此外，让我们考虑一下C类 ₁和C类 ₂由特征贡献F类:

\begin{matrix} {E类}_{收缩率} ({C类}_{1}, {C类}_{2}, F类) \\ = \frac{E类 ({D类}_{数据} ({C类}_{1}, {C类}_{2}, F类)) - E类 ({D类}_{CIDR公司} ({C类}_{1}, {C类}_{2}, F类))}{E类 ({D类}_{数据} ({C类}_{1}, {C类}_{2}, F类))} \\ = 1 - \frac{E类 ({D类}_{CIDR公司} ({C类}_{1}, {C类}_{2}, F类))}{E类 ({D类}_{数据} ({C类}_{1}, {C类}_{2}, F类))} . \end{matrix}

7

让我们考虑一下E类 _收缩率(C类 ₁,C类 ₂,F类)和E类 _收缩率(C类 ₁,C类 _三,F类). 由于CIDR总是缩小两点之间的预期距离 $(1 - \hat{P（P）} ({x个}_{三}))^{2} \geq (1 - \hat{P（P）} ({x个}_{2}))^{2}$ ，我们的直觉是E类 _收缩率(C类 ₁,C类 _三,F类)可能小于或等于E类 _收缩率(C类 ₁,C类 ₂,F类). 换句话说，我们假设两个较近点之间的收缩率大于或等于两个相距较远点之间的萎缩率。用代数方法证明这一性质非常复杂，因此我们对收缩率进行了广泛的计算研究。其他文件1：图S9显示了对于各种单调递减P（P）和 $\hat{P（P）}$ ，对于任何固定的x个 ₁，当x个 ₂变大。特别是，附加文件1：图S9f显示了以下情况 $\hat{P（P）}$ 是阶跃函数。我们观察到，在所有测试案例中，我们的假设都成立。因此，我们感到满意的是，由于这种差异收缩率特性，CIDR实际上收缩了WC距离，而不是BC距离。

致谢

Willem Van Der Byl对CIDR包中的部分代码做出了贡献。

基金

这项工作得到了新南威尔士州卫生部、人类前沿科学计划（RGY0084/2014）、澳大利亚国家卫生和医学研究委员会（1105271）、澳大利亚全国心脏基金会和亚马逊网络服务（AWS）研究云积分的部分支持。

数据和材料的可用性

项目名称：CIDR公司

项目主页： https://github.com/VCCRI/CIDR

存档版本： https://github.com/VCCRI/CIDR/releases/tag/0.1.5

示例脚本： https://github.com/VCCRI/CIDR-示例,

https://github.com/VCCRI/CIDR-比较

操作系统：独立于平台

编程语言：R和C++

其他要求：请参阅GitHub页面

许可证：全球定位系统

非学者使用的任何限制：无

作者的贡献

PL和JWKH构思了这项研究。PL开发了CIDR算法。PL和MT实施了CIDR包。PL进行了实证评估。所有作者都已阅读并批准了手稿的最终版本。

相互竞争的利益

作者声明，他们没有相互竞争的利益。

道德批准和参与同意

不适用。

出版商备注

Springer Nature在公布的地图和机构关联中的管辖权主张方面保持中立。

附加文件

附加文件1^{（998K，pdf）}

补充图S1-S9。CIDR：通过插补单细胞RNA-seq数据实现超快速准确聚类（PDF 970 kb）

参与者信息

林佩杰，电子邮件：ua.ude.gnahcrotciv@nil.p.

迈克尔·特鲁普，电子邮件：ua.ude.gnahcrotciv@puort.m网站.

Joshua W.K.Ho，电子邮件：ua.ude.gnahcrotciv@哦.j.

工具书类

1Pierson E，Yau C.ZIFA：零膨胀单细胞基因表达分析的降维。基因组生物学。2015;16(1):1–10. doi:10.1186/s13059-015-0805-z。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

2Kharchenko PV、Silberstein L、Scadden DT。单细胞差异表达分析的贝叶斯方法。自然方法。2014;11(7):740–2. doi:10.1038/nmeth.2967。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

三。Scialdone A、Natarajan KN、Saraiva LR、Proserpio V、Teichmann SA、Stegle O等。单细胞转录组数据中细胞周期阶段的计算分配。方法。2015;85:54–61. doi:10.1016/j.meth.2015.06.021。[公共医学] [交叉参考][谷歌学者]

4Buettner F、Natarajan KN、Casale FP、Proserpio V、Scialdone A、Theis FJ等。单细胞RNA测序数据中细胞间异质性的计算分析揭示了隐藏的细胞亚群。国家生物技术。2015;33(2):155–60. doi:10.1038/nbt.3102。[公共医学] [交叉参考][谷歌学者]

5.Lun AT、Bach K、Marioni JC。跨细胞汇集，以使多个零计数的单细胞RNA测序数据正常化。基因组生物学。2016;17(1):1. doi:10.1186/s13059-015-0866-z。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

6Finak G、McDavid A、Yajima M、Deng J、Gersuk V、Shalek AK等。MAST：评估单细胞RNA测序数据中转录变化和表征异质性的灵活统计框架。基因组生物学。2015;16(1):1–13. doi:10.1186/s13059-015-0844-5。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

7Trapnell C、Cacchiarelli D、Grimsby J、Pokharel P、Li S、Morse M等。细胞命运决定的动力学和调节器通过单个细胞的伪时序来揭示。国家生物技术。2014;32(4):381–6. doi:10.1038/nbt.2859。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

8van der Maaten L，Hinton G.使用t-SNE可视化数据。J Mach学习研究。2008;9（11月）：2579–605。 [谷歌学者]

9.Zeisel A、Muñoz-Manchado AB、Codeluppi S、Lönnerberg P、La Manno G、Juréus A等。单细胞RNA-Seq揭示的小鼠皮层和海马的细胞类型。科学。2015;347(6226):1138–42. doi:10.1126/science.aa11934。[公共医学] [交叉参考][谷歌学者]

10Zurauskiene J，Yau C.pcaReduce：单细胞转录谱的层次聚类。BMC生物信息。2016;17(1):140. doi:10.1186/s12859-016-0984-y。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

11Kiselev VY、Kirschner K、Schaub MT、Andrews T、Yiu A、Chandra T等。SC3-单细胞RNA-Seq数据的聚类。生物Rxiv。2016:036558.[PMC免费文章][公共医学]

12徐C，苏Z。用新的聚类方法从单细胞转录体中鉴定细胞类型。生物信息学。2015;31:1974–80. doi:10.1093/bioinformatics/btv088。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

13Grün D、Lyubimova A、Kester L、Wiebrands K、Basak O、Sasaki n等。单细胞信使RNA测序揭示了罕见的肠细胞类型。自然。2015;525(7568):251–5. doi:10.1038/nature14966。[公共医学] [交叉参考][谷歌学者]

14Prabhakaran S，Azizi E，Peer D.Dirichlet过程混合模型，用于校正单细胞基因表达数据中的技术差异。摘自：第33届机器学习国际会议论文集：2016年。第1070-9页。[PMC免费文章][公共医学]

15McDavid A、Dennis L、Danaher P、Finak G、Krouse M、Wang A等。双模性建模改善了单细胞基因表达的细胞周期特征。公共科学图书馆计算生物学。2014;10(7):1003696. doi:10.1371/journal.pcbi.1003696。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

16Bacher R，Kendziorski C.单细胞RNA测序实验的设计和计算分析。基因组生物学。2016;17(1):1. doi:10.1186/s13059-016-0927-y。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

17.Ronan T，Qi Z，Naegle KM.聚类生物数据时避免常见陷阱。科学信号。2016;9(432):6. doi:10.1126/scisignal.aad1932。[公共医学] [交叉参考][谷歌学者]

18Caliáski T，Harabasz J.聚类分析的枝晶方法。公共统计。1974;三(1):1–27. [谷歌学者]

19.Hubert L，Arabie P.比较分区。J分类。1985;2(1):193–218. doi:10.1007/BF01908075。[交叉参考][谷歌学者]

20Darmanis S、Sloan SA、Zhang Y、Enge M、Caneda C、Shuer LM等。单细胞水平人脑转录组多样性调查。国家科学院院刊。2015;112(23):7285–90. doi:10.1073/pnas.1507125112。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

21Cahoy JD、Emery B、Kaushal A、Foo LC、Zamanian JL、Christopherson KS等。星形胶质细胞、神经元和少突胶质细胞的转录组数据库：了解大脑发育和功能的新资源。神经科学杂志。2008;28(1):264–78. doi:10.1523/JNEUROSCI.4178-07.2008。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

22Li J、Klughammer J、Farlik M、Penz T、Spittler A、Barbieux C等。单细胞转录组揭示了人类胰岛细胞类型的特征。EMBO代表。2016;17(2):178–87. doi:10.15252/embr.201540946。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

23Trannell C.用单细胞基因组学定义细胞类型和状态。基因组研究。2015;25(10):1491–8. doi:10.1101/gr.190595.115。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

24加法常数问题的解析解。心理测量学。1983;48(2):305–8. doi:10.1007/BF02294026。[交叉参考][谷歌学者]

25Cattell RB。因子数量的筛选测试。Multivar Behav Res公司。1966;1(2):245–76. doi:10.1207/s15327906mbr0102_10。[公共医学] [交叉参考][谷歌学者]

26Murtagh F，Legendre P.Ward的层次凝聚聚类方法：哪些算法实现了Ward的准则？J分类。2014;31(3):274–95. doi:10.1007/s00357-014-9161-z。[交叉参考][谷歌学者]

文章来自基因组生物学由以下人员提供BMC公司

CIDR：通过插补单细胞RNA-seq数据实现超快速准确聚类

林佩杰

迈克尔·特鲁普

何鸿燊

关联数据

摘要

电子辅助材料

背景

结果

动机

CIDR算法

表1

表2

表3

玩具示例

模拟研究

CIDR的可扩展性

生物数据集

人脑scRNA-seq数据集

人胰岛scRNA-seq数据集

小鼠脑scRNA-seq数据集

讨论和结论

方法

辍学候选人

降维

确定主坐标数

群集

模拟研究

生物学数据集

理论论证

致谢

基金

数据和材料的可用性

作者的贡献

相互竞争的利益

道德批准和参与同意

出版商备注

附加文件

参与者信息

工具书类