候选肿瘤纯度和倍性值的鉴定和评估
我们描述了候选肿瘤纯度和倍性值的鉴定及其计算SCNA-fit公司使用概率模型进行log-likelihood评分。这是通过用高斯混合模型拟合输入HSCR估计值来实现的,其中成分集中在由等式1该模型还支持一小部分不限于离散水平的亚克隆事件。通过在纯度和倍性值的大范围内搜索此可能性的局部最优值来确定候选解决方案。这导致了具有相应SCNA-fit可能性的离散候选解集(等式1,补充图1d,h).
这些分数量化了通过将观察到的HSCR解释为整数SCNA而提供的每个解决方案的证据。这些计算对于每个样本都是独立的。输入数据包括N个高速断路器x个我,我∈ {1, …,N个}. 每一项都有标准误差σ我,并且对应于表示为w个我。每个x个我被认为是由以下任一原因引起的问整数拷贝数状态:问= {0,1, …,问−1},或附加状态Z轴对应于亚克隆拷贝号。我们将可能的复制状态集合称为S公司=问∪Z轴。我们定义问+1个指示器秒对于每个段的复制状态第页(秒我)表示分段概率我已从状态生成秒∈S公司.的整数copy-statesS公司被编入索引q个∈问; 非整数状态表示为z(z).
每个整数拷贝数对应的预期拷贝比率q个(x个)肿瘤样本中的方程式1注意,当使用同源复制比率时,该等式变为:
因为HSCR是相对于单倍体浓度测量的,而不是根据等式。1.D类与肿瘤纯度和倍性有关(α和τ) (等式1,补充图1). 观察到的x个我使用以下混合建模问高斯分量位于μ= {μq个∈问}表示整数复制状态问和一个额外的统一组件Z轴.混合物Z轴允许为片段分配非整数拷贝值,以便偶尔的亚克隆更改或伪影不会显著影响可能性。
和分别表示正常密度和均匀密度。自由参数σH(H)表示样本级噪声超过HSCR标准误差σ我,这可能代表了恶性细胞群中的适度数量的相关克隆,持续的基因组不稳定,或由于可变的实验条件而产生的过度噪音。混合物重量θ= {θ秒∈S公司}指定分配给每个复制状态的预期基因组部分。参数天表示均匀密度的域,对应于合理的复制比率值的范围(我们使用天=7).
由于数据由基因组分段计算的复制率组成,因此出现了一些复杂情况。为了一致解释,混合物权重(P(P)(秒我|w个我,θ))必须分别计算每个片段,并考虑可变基因组分数w个我这是通过限制分配给每个复制状态的基因组质量的标准平均值来实现的,以匹配θ:
其中:表示所有配置的平均值{秒我},由函数加权=P(P)(秒我|w个我,λ)该密度对应于最大熵分布秒受这些约束:
哪里秒#表示状态的顺序秒在复制状态序列中,从0开始。的值问拉格朗日乘数λ通过Nelder-Mead优化确定L(左)2损失:
这种近似允许SCNA-fit分数对数据过度分割的鲁棒性。给定段的可能性我然后计算为:
然后,数据的完整对数似然为:
我们定义参数化b条=2(1−α),δτ=α/D类,它决定μ通过方程(3).通过优化等式(5)关于b条和δτ.计算等式(5)需要估计θ和σH(H),尚不清楚先验的我们做了一个近似(尺度分离),假设等式(5)对这些参数的适度波动保持不变。每种情况的临时可能性x个我然后可以通过以下公式计算
然后通过优化
从跨越域的正则格中的所有点开始b条和δτ.参数σP(P)在本研究中设置为0.01。我们验证了上述近似识别模式与通过全Metropolis-Hastings Markov chain Monte Carlo(MCMC)模拟获得的模式等效(数据未显示)。近似值允许使用更简单的计算。
每个解决方案的SCNA-fit得分是在优化σH(H):
具有以下元素θ计算每个值σH(H)签署人:
每个模式的SCNA-fit对数似然的最终计算通过插入,θ ^、和H(H)进入之内等式(5)。每个部分的复制状态指标估计值计算如下:
请注意,每个我是一个向量,表示每个变量的后验概率问∈问整数复制状态,对应于复制比率(位置)μ.
基因组范围内的绝对拷贝图谱相对于DNA倍性估计是过度确定的。倍性的另一个估计值可以计算为基因组上的预期绝对拷贝数:
根据定义,这个数量(克)是对癌症倍性的另一种估计(请注意,当使用HSCR时,添加了一个额外的因子2)。因为(克)是模型数据中离散状态的加权平均值,预计它对稍微改变或缩放复制文件的实验波动更为稳健。注意,对于此计算ij公司计算方法为z(z)=0,因此上述期望仅超过整数状态。
我们验证了这些估计值通常接近()通过优化SCNA-fit似然(RMSE=0.26,补充图12a). 然而,我们注意到倍性估计值和校准数据平均值之间的不一致程度之间的关系(补充图12b). 注意到正确校准的复制比率数据的平均值始终为1,我们检查了校准错误是否是由于数据中的缩放偏差造成的。我们发现,该模型解释了两个估计之间近三分之二的不一致性(修正后的RMSE=0.09,补充图12c)由此我们推断,标度偏差主导了我们的校准错误。这很重要,因为这些偏差不会影响肿瘤纯度的估计(补充图12).
复制状态位置的两个附加转换μ当使用微阵列测量复制率时使用。其中第一个解释了等温吸附模型的衰减效应7:
其中,值ϕ̂参数化给定样本中的衰减响应,并通过HAPSEG进行估计。第二种转换是根据56:
哪里ση和σε表示每个微阵列的乘性和加性噪声等级,由HAPSEG估计。在估计x个我值,在此值之后,其分布近似正常。中规定的正常混合物成分(4)然后变成小时(x个我) =小时(克(μq个))+ε我,并在这些变换下执行相应的似然计算。
核型模型
为了从通过拟合模型确定的候选组中可靠地选择正确的肿瘤纯度和倍性解决方案,通常需要附加信息(4). 在给定的肿瘤样本中,理论上可能的纯度、倍性和拷贝数值的几种组合可能映射到等效拷贝率(补充图1c,h). 此外,亚克隆SCNA的存在可能会导致虚假的高倍性解决方案,通过过度离散拷贝配置文件,使难以置信的核型获得更大的SCNA-fit可能性,从而允许将其分配到整数拷贝级别(附图1h-j).
ABSOLUTE根据肿瘤组绝对同源拷贝数分布的相似性对肿瘤组进行分组,从而对常见癌症核型进行建模(补充图2). 这些模型是以“boot-strapping”的方式直接从肿瘤数据构建的,其中使用具有相对明确轮廓(例如,由于高纯度值)的肿瘤子集初始化模型,迭代地允许调用更多肿瘤等。以前人类癌症的细胞遗传学特征被用来指导这一过程13。这些模型可以计算核型可能性,对于每个候选纯度/倍性溶液,反映了相应核型与输入肿瘤样本的特定疾病相关模型的相似性(8). 结合SCNA-fit和核型可能性有助于在许多肿瘤样本中准确鉴定纯度和倍性值(补充图1d,h).选择一种不太常见的核型的溶液需要来自SCNA拷贝图谱的更多证据。
特定疾病的核型特征的先验知识总结为以下内容的混合K(K)整数同调复态上的多元多项式分布问=每个染色体臂[0,7]。对于给定的候选纯度和倍性解决方案,每个片段对应的片段复制状态指标我,ij公司,总结为J型臂级同源拷贝数,表示Ĉ核型对数似然分数计算如下:
哪里w个我表示每种混合物成分的重量。核型模型K(K)我是J型×问使用标准期望最大化(EM)算法对模型副本文件的臂级同源副本状态进行聚类,得到SCNA概率矩阵57对于多项式混合物。该计算确定了具有相似基因组拷贝谱的疾病亚型组(补充图2). 注意,每个臂的两个同源物的复制状态都是建模的(J型= 78). 使用两条同源染色体的多项式概率的卷积来计算仅具有总拷贝率数据的样本的核型得分。
簇的数量K(K)通过最小化贝叶斯信息准则(BIC)复杂性惩罚来选择每种疾病:-2k个+科威特日志(N个),其中k个表示ℒK(K)值超过N个输入样本,使用计算K(K)集群。为了避免局部极小,EM算法对每个值运行25次K(K)∈[2,8],起始点随机,保留最佳模型。
这些模型是以半自动化的方式构建的,通过植入相对明确的防拷贝文件。随着肿瘤的增加,重复核型的使用清楚地确定了额外样本的正确解决方案等。例如,chr17的LOH发生在几乎100%的卵巢癌样本33中,这使得模型能够了解到,暗示chr17 LOH的解决方案可能是正确的。总共创建了14种疾病类型的模型。ABSOLUTE称之为样本少于40个的疾病在此过程中被忽略。此外,通过合并所谓的原发性癌症特征,创建了一个“主”模型。该模型用于没有特定核型模型的疾病。
癌症组织样本体细胞突变检测的功率计算
我们开发了一个用于检测突变的统计能力计算框架。检测变异的能力取决于等位基因分数(f)和局部覆盖深度n个为了计算功率,我们对随机序列错误与速率一致的理想场景进行建模ε。我们计算支持读取的最小数量k个这样k个或由于排序错误导致的更多相同的非参考读取小于定义的假阳性率(FPR):
在哪里?
≥的变量k个然后认为检测到支持读取。我们指定了测序错误率ε= 1 × 10−3且FPR=5×10−7用于本研究中的所有计算。功率计算如下:
在哪里?
我们考虑在癌组织衍生DNA样本中检测每个癌细胞单个拷贝处存在的克隆体细胞变体的情况。给定的纯度估计(α)和本地绝对拷贝数(q个t吨),此类变体的等位基因分数为:
在Pow等情况下计算功率(n个,δ).
为了简化功率和肿瘤纯度/倍性之间的关系补充图7,我们考虑了预期基因座的检测能力,超过全基因组拷贝平均值。功率由样品决定等位指数δτ=α/D类,这仅仅是肿瘤纯度/倍性的函数(等式。1). 通过使用等位基因分数获得期望功率(f)=δτ在里面等式(9)此计算仅在替换预期基因组拷贝数方面有所不同,即倍性(τ)对于本地copy-numberq个t吨在里面等式:(10).
分数形式的预期亚克隆变异体的功率秒(f)的癌细胞由Pow提供(n个,秒(f)δτ)此计算用于补充图7c,e使用Pow进行本地副本计算(n个,秒(f)δ)用于补充图7f、11.
点突变多重性的推断
基于肿瘤纯度和全基因组绝对拷贝数的知识,我们开发了一个概率模型,用于推断种系和体细胞变体的整数多重性。将突变位点的绝对同源拷贝数表示为q个1和q个2,使用q个1≥q个2。种系变体的可能多样性如下:
哪里q个t吨=q个1+q个2假设所有的体细胞点突变都是在单个单倍型上唯一出现的,那么可能的多重性为:
请注意,当只有总复制比率数据可用时,q个2上述情况未知,以及q个t吨而是使用。
种系突变通常存在于癌细胞和正常细胞群体中,体细胞拷贝数的改变会影响等位基因部分。种系中的杂合变体,具有多重性克q个在癌症基因组中,具有等位基因部分:
其中,纯合子种系变体的等位基因部分为1,而不考虑α对于体细胞点突变,多重性下的预期等位基因分数秒q个是(f)秒q个=秒q个δ,使用δ如中所示等式(10).
考虑一个观察到的未知拷贝的体细胞点突变秒q个∈秒q个,观察到的等位基因分数、和n个覆盖轨迹的总读数。完全可能可以表示为对应于每个元素的β分布的混合秒q个,再加上一个附加组件S公司对应于亚克隆状态:
哪里w个S公司q个∈w个q个指定每个状态的混合物重量秒q个、和w个S公司c(c)指定子克隆组件权重。亚克隆成分S公司由贝塔分布(建模采样噪声)与亚克隆癌细胞分数的指数分布组成,具有单个参数λ:
注意指数分量中坐标的变化,使用δ; 这使得无论肿瘤纯度和局部拷贝数如何,都可以用一致的癌细胞分数单位进行建模(注意,这种分布在单位间隔上是重新规范化的)。给定整数复制状态的概率秒q个然后可以计算为:
类似地,给定突变为亚克隆的概率计算如下:
对于本研究中的计算,我们修正了λ= 25,w个秒q个至0.25,以及w个S公司c(c)到0.75,这与组合样本突变分数分布相吻合(). 结果显示于对各种设置都是稳健的。
与整数体细胞多重性对应的混合组分权重的优化可以通过与SNCA混合模型中描述的方法类似的方式完成等式(6)狄利克雷先验可以被指定为伪计数的向量,该伪计数等价于每个重数值的先验观测。然后根据观测计数计算出的后Dirichlet模式计算重量。当使用成对的SCNA和体细胞点突变数据运行ABSOLUTE时,这些计算用于计算每个纯度倍性模式的可能的突变分数。