辍学候选人
为了确定将库的标记分布(logTPM)中的前两个模式分开的丢失候选阈值,CIDR在分布的密度曲线中找到两个模式之间的最小点。核密度估计采用R函数密度,平滑核采用Epanechnikov核。为了稳健性,在计算所有辍学候选阈值后,将分别为阈值的前10个百分位和后10个百分位分配第90个百分位数和第10个百百分位数的阈值。CIDR还为用户提供了仅计算部分库的退出候选阈值的选项,在该选项中,计算出的阈值的中位数被用作所有库的退出备选阈值。
在核密度估计中,CIDR使用调整=1的R函数密度的默认带宽选择方法nrd0。我们改变了调节参数,并重新计算了人脑的调节兰德指数[20]和人类胰腺[22]scRNA-seq数据集和附加文件1:图S8显示CIDR在带宽调整方面是稳健的。当调整参数在0.5到1.5之间变化时,人脑和人胰岛数据集的CIDR调整后的rand指数远高于次优方法;参见图。
和
.
确定主坐标数
CIDR实现了一种算法,它是scree的变体[25]一种自动确定聚类中使用的主坐标数的方法。CIDR输出一个图,显示每个主坐标解释的变化比例,scree方法在曲线中查找曲线变平的弯头。
更具体地说,CIDR根据连续特征值的差异将特征值分配到组中。每次连续差异大于作为最大差异的一部分确定的截止点时,都会创建一个新组。如果当前组的大小超过预定阈值,则除当前组外的所有组的大小之和将作为聚类中使用的主坐标数返回。
鼓励用户检查CIDR输出的变异图比例,并可能更改聚类中使用的主坐标数。
理论论证
这里我们表明,CIDR总是缩小两个受丢失影响的样本(即单个细胞)之间的预期距离,并且WC距离的预期收缩率高于BC距离。此属性可确保CIDR差异矩阵更好地保留数据集中的聚类结构。
为了简化讨论,让我们假设辍学人数为零。我们现在将解释为什么用等式进行插补。2在正文中,改进了聚类。
假设某个特定功能F类具有真表达式级别x个
1,x个
2、和x个
三用于三个电池C类
1,C类
2、和C类
三分别是。让我们假设x个
1≤x个
2≤x个
三.让P(P)是真实的辍学概率函数,以及是CIDR中使用的经经验估计的辍学概率函数。两者都有P(P)和是单调递减函数,并且满足.
两者之间的真正差异C类
1和C类
2由功能贡献F类是
在观测数据中存在缺失的情况下C类
1和C类
2由特征贡献F类是
CIDR之间差异的预期值C类
1和C类
2由特征贡献F类是
比较等式。5和6,很明显,唯一的区别是因素的存在在最后两个学期。自,我们可以推断,这意味着E类(D类
CIDR公司(C类
1,C类
2,F类))≤E类(D类
数据(C类
1,C类
2,F类))对于这对电池C类
1和C类
2这表明CIDR缩小了辍学情况下两点之间的预期距离。
此外,让我们考虑一下C类
1和C类
2由特征贡献F类:
让我们考虑一下E类
收缩率(C类
1,C类
2,F类)和E类
收缩率(C类
1,C类
三,F类). 由于CIDR总是缩小两点之间的预期距离,我们的直觉是E类
收缩率(C类
1,C类
三,F类)可能小于或等于E类
收缩率(C类
1,C类
2,F类). 换句话说,我们假设两个较近点之间的收缩率大于或等于两个相距较远点之间的萎缩率。用代数方法证明这一性质非常复杂,因此我们对收缩率进行了广泛的计算研究。其他文件1:图S9显示了对于各种单调递减P(P)和,对于任何固定的x个
1,当x个
2变大。特别是,附加文件1:图S9f显示了以下情况是阶跃函数。我们观察到,在所有测试案例中,我们的假设都成立。因此,我们感到满意的是,由于这种差异收缩率特性,CIDR实际上收缩了WC距离,而不是BC距离。