跳到主要内容

从单核苷酸多态性基因分型数据中检测异质性肿瘤样本基因组畸变的统计方法

摘要

我们描述了一种统计方法,用于表征从癌症基因组中获得的单核苷酸多态性微阵列数据中的基因组畸变。我们的方法允许我们在一个统一的贝叶斯框架内模拟多倍体、正常DNA污染和肿瘤内异质性的联合效应。我们在许多数据集上证明了我们的方法的有效性,包括实验室生成的正常癌细胞系和真实原发肿瘤的混合物。

背景

单核苷酸多态性(SNP)基因分型微阵列为全基因组DNA拷贝数改变(CNA)和癌症基因组中的异基因丢失(LOH)提供了一个相对低成本、高通量的平台。这些阵列使我们能够发现与癌症发展或预后相关的基因组畸变[14]特别是最近的两项研究已经检测了746个癌细胞系[5]和26种癌症类型[6]揭示了癌症基因组的许多情况。然而,尽管有许多稳健的计算方法可用于检测正常基因组中的拷贝数变异(CNVs)[711]; 应用于癌症的方法通常是次优的,因为数据属性在癌症中是独特的或更显著的。

自最早的基于SNP阵列的癌症研究以来,一直在考虑分析癌症SNP数据的潜在困难[1214]主要障碍是(1)肿瘤纯度可变(正常DNA污染),(2)肿瘤内遗传异质性,(3)CNA和LOH事件的复杂模式,以及(4)导致非整倍体/多倍体的基因组不稳定性。此外,这些问题也被之前描述良好的与SNP阵列相关的技术伪影所混淆,例如:由于局部序列内容导致的信号变化[15]以及,由于样本质量和实验条件的变化而产生的复杂噪声模式[16].

补偿其中一些因素的专用癌症分析工具最近开始出现[1727]但目前还没有一个统一的、连贯的、基于统计模型的框架来统一和扩展这些方法背后的所有原则。在这里,我们提出了这样一个框架,并在一些不同的数据集上说明了在癌症基因组预测中可以获得的稳健性和多功能性方面的改进,尤其是在涉及不同分子亚型的研究和现代高分辨率SNP阵列(大于500000个标记)的使用的大样本癌症研究中。我们的方法是在一个我们称为OncoSNP的软件中实现的。

癌症基因组SNP数据的特征

我们首先简要检查从癌症基因组中获得的SNP阵列数据的特征(有关SNP阵列分析和方法的更全面的综述,请参阅[2831]). SNP阵列分析为每个SNP探针产生两种汇总测量:(i)Log R Ratio(LRR),它是一种与总拷贝数相关的测量,类似于阵列比较基因组杂交(aCGH)实验中的对数比率;和(ii)B等位基因频率(BAF),它测量B等位蛋白对总信号的相对贡献(这里我们使用A和B作为通用标签来指代两个备选SNP等位基因)。先前已经描述了Illumina和Affymetrix SNP基因分型平台提取这些测量值的标准化方法[32,33]但这不是我们在本文中详细讨论的主题。本文中,我们的示例基于Illumina平台,我们主要使用Illuminia专有BeadStudio/GenomeStudio软件提供的默认规范化或tQN规范化[33]在适当的情况下。然而,所描述的方法并不与Illumina平台有本质联系,我们正在积极努力将这些技术转让给Affymetrix平台使用。

1(顶面板)描述了来自同一患者的乳腺癌细胞系(HCC1395,ATCC CRL-2324)和EBV转化的淋巴母细胞系(HOC1395BL,ATCC CRL-2325)的第1染色体的数据,该细胞系来自先前发布的数据集[24]. Log R比率的向下偏移表明DNA拷贝数相对于总基因组剂量的损失,而拷贝数的增加导致向上偏移。BAF追踪因CNA和/或LOH导致的B等位基因相对分数的变化。

图1
图1

癌症SNP数据示例(顶面板)SNP数据显示了癌症细胞系(HCC1395)及其匹配正常细胞(HCC1935BL)的Log R Ratio(LRR)和B等位基因频率(BAF)值在第1染色体上的分布。正常样本的特征是典型的二倍体模式,即零平均LRR(拷贝数2)和BAF值分布在0、0.5和1左右(基因型AA、AB和BB),偶尔会因拷贝生殖系变异(CNV)而出现畸变。由于多种拷贝数改变和异相丢失事件,癌细胞系由LRR和BAF值的复杂模式组成。(底部面板)显示了各种正常癌细胞系稀释液在21号染色体上的单拷贝缺失和重复SNP数据。在存在正常DNA污染的情况下,缺失和重复的LRR信号在数量上减少,BAF值的分布反映了在每个SNP中混合正常和癌症基因型的聚集效应。注:为了便于说明,对对数R比值进行了平滑和细化。

在非癌(正常)淋巴母细胞系中,LRR分布在零附近,对应于DNA拷贝数2;而BAF聚集在与二倍体基因型AA、AB和BB相对应的0、0.5和1的值附近。正常数据中可以观察到由于生殖系CNV引起的微小畸变,但基因组在其他方面是稳定的。癌细胞系呈现出一种更为复杂的情况,广泛的基因组重排导致SNP数据的显著变化。这并不是癌症的非典型情况,癌症通常表现为大量的局灶性畸变和全部或部分染色体拷贝数变化,尽管这可能因癌症类型和疾病阶段而有很大差异。我们在这里要解决的问题是:如何将SNP数据转换为实际拷贝数和LOH调用?

多倍体效应

正常数据集和癌症数据集之间的一个显著差异是LRR值不能直接比较。SNP阵列的实验方案限制DNA的量,而不是细胞的数量,以使每个测定的样品相同。例如,不含其他染色体改变的纯金属基因组与二倍体基因组无法区分,因为相同质量的基因组材料将被杂交到SNP阵列上。标准归一化方法将探针强度数据转换为通用参考尺度或“虚拟二倍体状态”,进一步加剧了这种情况[34]为了校正阵列之间或交叉样本之间的变化。

结果是,癌细胞系或肿瘤样本的LRR(零)基线并不对应正常的二倍体拷贝数,而是对应样本的平均拷贝数(倍性)。为了确定绝对拷贝数值,必须确定LRR值解释的正确基线,但这是一个具有挑战性的问题,因为对于任何特定的癌症样本,倍性通常是未知的先验值,可能是一个分数值,并且随着癌症的不同而不同。最近开发了处理多倍体肿瘤基线不确定性的方法[17,21]但这些只有在没有正常DNA污染和肿瘤内异质性的情况下才有效,这使得它们在用于癌细胞系和高纯度肿瘤样本时最有效。

正常污染和肿瘤内异质性

正常的DNA污染也可能是正确解释SNP数据的一个重要障碍,如图所示1(底部面板)。所显示的SNP数据来自癌症细胞系和配对正常细胞系的各种人工混合物[33]用于21号染色体上的单拷贝缺失和重复。SNP阵列测量正常和肿瘤基因型的贡献,因此,缺失和重复的B等位基因频率显示为四条带,反映了单拷贝缺失的混合正常肿瘤基因型AA/A、AB/A、AB/B或BB/B和单拷贝重复的AA/AAA、AB/AAA、AB/BB或BB/BB。此外,随着正常DNA含量的增加,与缺失和重复相关的LRR值的偏移量减少。

值得注意的是,虽然正常DNA的存在会影响全球SNP数据,但由于肿瘤内异质性和来自多个共存癌细胞克隆的聚集性,也可能存在局部变异,每个克隆都有各自不同的基因组畸变模式。为了确定潜在的躯体变化和一些方法,必须对这些混合信号进行去卷积[20,22,2427]被提议解决正常DNA污染问题。这些方法通常假设不存在先前描述的多倍体效应,因此主要适用于分析正常DNA污染和近二倍体肿瘤样本。

结果和讨论

模型概述

我们在OncoSNP中实施的方法的开发是为了同时解决正常DNA污染和多倍体的影响。例如,在结肠癌或乳腺癌的研究中经常观察到正常组织受污染的多倍体肿瘤,在撰写本文时,只有一种方法——基因组改变打印法[23]基于模式识别启发法,已开发用于在基于SNP阵列的癌症分析中管理这两个非常重要的问题。我们的方法与以前的方法不同,它试图在一个连贯的统计框架内联合处理正常DNA污染、肿瘤内异质性和基线倍性标准化伪影的问题。该模型假设,在每个SNP,给定样本的每个肿瘤细胞要么保留正常的构成基因型,要么拥有一个替代但常见的肿瘤基因型。然而,与其他方法相比,我们明确地将每个SNP具有正常基因型的细胞比例参数化。这一比例取决于正常DNA污染引起的全基因组比例,以及在该SNP下保持不变的肿瘤细胞比例,该SNP可以沿基因组变化,从而允许肿瘤内异质性(基本统计模型如图所示2). 我们还包括一个LRR基线调整参数,该参数允许以统计严格的方式推断未知肿瘤倍性。

图2
图2

说明统计模型.(a)肿瘤样本由未知数量的克隆(这里,我们展示了三个克隆)和不同比例的正常细胞的DNA贡献组成。每个克隆都有自己的一组肿瘤基因型,这些基因型是通过等位基因的丢失或复制从正常基因型中衍生出来的。(b)我们的统计模型假设,在每个基因座上都存在一个正常和常见的肿瘤基因型。OncoSNP从SNP数据中估计正常和常见肿瘤基因型以及每个基因型解释的样本比例。SNP 5中描述的情况涉及具有不同肿瘤基因型的克隆——这在我们的模型中没有被考虑。

应用贝叶斯方法插补未知的正常肿瘤基因型、正常基因型比例,并分配属于21种不同“肿瘤状态”之一的每个SNP的概率分数(表1). 使用灵活的半参数噪声(学生的混合t吨-分布)模型,该模型能够自适应地将复杂噪声分布拟合到SNP数据,并且我们的方法进一步调整与局部GC含量相关的波状伪影[35].

表1 OncoSNP肿瘤状态

根据指定的运行时间选项,我们的MATLAB实现通常需要对每个样本数据集(包含大约600000个探针)进行0.5-3小时的处理。提供了多种用户设置,以便根据特定应用调整方法的性能,如果事先提供的信息很少,则需要更长的处理时间,并且需要该方法直接从数据中学习所有特征。由于该方法独立分析每个样本,因此通常会同时并行处理多个样本。

多倍体校正

为了证明OncoSNP能够正确调整非整倍体/多倍体样本的Log R Ratio基线和实际基线,我们分析了10个特征明确的癌细胞系的SNP数据(表2). 每个细胞系的核型信息都是从美国类型培养收集(ATCC)或以前的核型研究的在线数据库中检索到的[36,37].

表2癌细胞系

3(a-c)显示了聚焦于选定染色体的三个癌细胞系的基线调整示例。在每种情况下,OncoSNP都会调整基线,使其以与拷贝数2相对应的等位基因平衡区域(BAFs等于0.5)为中心,从而确定正确的绝对拷贝数值。请注意,正是B等位基因频率中的等位基因特异性信息告知我们基线误差,而基于强度的LRR的变化本身并不产生此信息。

图3
图3

估计因倍性引起的基线对数比调整癌细胞系OncoSNP Log R比率基线调整(红色)(a)HL60(铬10),(b)HT29(第3章)和(c)SW1417(第8章)。HL60具有近二倍体核型,OncoSNP已正确确定无需进行对数比基线调整。HT29和SW1417具有复杂的多倍体核型,将SNP数据转换为虚拟二倍体状态需要为Log R比率确定模糊基线。例如,在(b)和(c)中,确定了对数比为负的等位基因平衡区域。OncoSNP正确定位Log R Ratio的真实基线水平。(d)对所分析的10个癌细胞系进行的Log R Ratio基线调整估计值与每个细胞系的模式染色体数呈强线性相关。由于SNP数据是从不同版本的Illumina SNP阵列中获取的,因此基线调整是标准化的,以便与与拷贝数3相关的Log R Ratio水平进行比较。

总体,图三维结果表明,与多倍体细胞系相比,近二倍体细胞株(SW837和HL60)需要较少的基线调整,两者之间存在很强的线性关系。这种行为是令人鼓舞的,因为我们可能预计基线调整的程度需要与染色体数量成线性比例。因此,OncoSNP能够正确估计每个癌细胞系的染色体数目。

正常癌细胞系混合物的分析

我们将OncoSNP应用于三个数据集,每个数据集包含正常和癌细胞系DNA的混合物。对于亚二倍体(SW837)和三倍体(SW403)结肠癌细胞系,也在内部生成了0:100、25:75和50:50正常癌细胞系混合物(质量混合比)的SNP数据。由于配对的正常细胞系不适用于这些癌细胞系,我们使用未配对的正常DNA样本并过滤出不兼容的SNP(过滤方法在附加文件的补充方法中详细描述1)生成假配对正常癌细胞系混合物。我们还分析了来自[24].

4显示了SW837混合序列的1号染色体分析结果。OncoSNP在所有样本中成功识别出p臂缺失,即使正常污染水平增加。GenoCN和Genome Alteration Print(GAP)表现出的稳健性较差,特别是在较高的正常污染水平下,并且在25:75混合物的GAP情况下,它错误地预测样品是四倍体。附加文件中给出了所有三种细胞系混合物的附加曲线2.图5总的来说,OncoSNP对来自混合物的染色体数目、拷贝数和LOH的估计即使添加了正常DNA也保持高度的自洽性,并且比其他测试方法更稳健。对于结肠癌细胞系,OncoSNP预测的染色体数(SW837和SW403分别为40和64)与已知的核型信息相匹配(SW837,38-40;SW402,60-65)[36].

图4
图4

正常癌细胞系(SW837)混合序列的实例分析结肠癌细胞系SW837的染色体1的拷贝数和LOH状态分类。

图5
图5

三种正常癌细胞系混合序列的OncoSNP分析三个正常癌细胞系混合序列的染色体数估计值、拷贝数和LOH状态误分类率。OncoSNP在三种测试方法中产生了最大的自我一致性。红色-OncoSNP,绿色-GenoCN,蓝色-GAP。

虽然应该强调的是,在许多原发性肿瘤的实际研究中,仔细的样品制备应将正常污染降至最低,但OncoSNP的可靠性高达50%的肿瘤纯度,仍然令人放心,因为肿瘤纯度的临床估计值可能与观察到的基因分型数据不一致[25].

模型比较

为了证明在单个分析模型中整合正常DNA污染和LRR基线校正的实用性;我们检查了从实验室生成的正常肿瘤细胞系混合物中获得的SNP数据,以模拟肿瘤样本的正常污染。

使用我们模型的四种变体分析数据:生殖系模型,其中我们假设不需要基线调整,也不存在正常的DNA污染;只进行基线调整的倍性模型;一个正常的仅污染模型,在该模型中,我们允许正常的DNA污染,但没有基线调整,以及我们的完整、集成的OncoSNP模型。应该注意的是,我们考虑的所有模型变量都嵌套在完整模型中;通过固定参数或指定严格的先验概率分布来获得。

6显示了从我们模型的四个变体在细胞系混合物上获得的全基因组拷贝数分布。对亚二倍体细胞系SW837混合物的分析表明,在正常DNA污染水平发生改变时,未考虑正常DNA污染的种系和倍性模型产生了实质上不同的图谱。只有正常和完整的OncoSNP模型能够以最小的差异一致地复制全基因组拷贝数。

图6
图6

使用OncoSNP模型的四种变体对全基因组拷贝数估计的比较。图中显示了我们模型的四个变体的全基因组拷贝数:(i)未进行Log R Ratio基线校正或正常污染的种系模型,(ii)所用基线校正的单倍模型估计,(iii)使用正常DNA污染的仅正常模型估计,以及(iv)完整的OncoSNP模型,包括基线和正常DNA污染评估。即使在正常DNA污染水平不断增加的情况下,完整模型也能够准确地为两种细胞系(SW837/SW403)复制相同的拷贝数。如果未使用正常污染或基线校正估计,则可能会给出不正确的拷贝数剖面。

三倍体SW403细胞系混合物系列的分析突出了我们模型的特殊优势。正确解释SNP数据需要考虑癌细胞系的潜在三倍体性质和正常DNA污染的不同水平。由于生殖系模型、正常模型和倍性模型只能补偿其中一个因素,而不能同时补偿这两个因素,因此样本之间的全基因组图谱存在差异。相反,完整的OncoSNP模型以相对更大的一致性再现了每个混合样本的全基因组拷贝数分布。这些结果激发了在一个综合框架内推断基线倍性和正常污染的效用,因为实际临床癌症样本的倍性状态和肿瘤纯度通常是未知的。

显微解剖肿瘤样本

我们通过研究三种原发性乳腺肿瘤(病例114、601和3364)的SNP数据,验证了我们在实验环境中确定基质污染的方法。对于每个病例,我们分析了从显微解剖和非解剖肿瘤材料中获得的数据,以便在理想情况下,从两个样本获得的预测拷贝数和LOH谱应该相同。对SNP数据的目视检查表明,所有三种肿瘤都是三倍体,需要进行基线对数比调整。图中显示了每种材料类型和案例的基因组拷贝数分布7(更多详细图见附加文件). 从定性上讲,与其他测试方法相比,OncoSNP生成的全基因组拷贝数谱显示出最小的差异。值得注意的是,对病例601和3364的非解剖材料的SNP数据进行目视检查表明,它们受到基质组织的高度污染,OncoSNP的正常DNA含量估计值分别为70%和60%,而显微解剖材料的DNA含量估计为30%和20%。尽管基质污染程度如此之高,OncoSNP仍能恢复如此多的大体轮廓特征,这表明其即使在最极端的情况下也能保持稳健。对于病例114,非解剖和显微解剖材料估计含有30%和10%的正常污染物。

图7
图7

原发性乳腺肿瘤的全基因组拷贝数分布。使用OncoSNP、GenoCN和基因组改变打印(GAP)对三种原发性乳腺肿瘤(非解剖和显微解剖)的基因组拷贝数分布。

定量而言,114例、601例和3364例显微解剖和非解剖样本分析中显示拷贝数分类差异的SNP比例分别为7.6%、21.9%和19.3%。相比之下,GenoCN为6.4%、52.1%和27.0%,GAP为8.5%、86.2%和99.0%。请注意,尽管GenoCN在病例114中显示出很强的重复性,但由于其操作仅限于二倍体肿瘤,因此在这两种情况下都将倍性错误分类。

统计不确定性

我们统计框架的一个特点是能够突出和探索多倍体肿瘤样本中SNP数据解释的模糊性。8图中显示了从倍性状态和正常DNA含量未知的癌症样本中导出的似然等值线图。似然图给出了SNP数据与正常DNA含量和LRR基线调整的不同可能性相关的概率。在本例中,似然具有三种模式,每种模式对应于不同但兼容的数据生物学解释。三种模式中每一种模式的可能性都非常相似,并且在缺乏外部核型信息、或对肿瘤倍性或正常DNA污染水平的事先了解的情况下,每一种解释都是完全可信的。我们的统计模型允许我们探索这个二维参数空间,从而能够以统计上严格的方式考虑每一种数据解释。相比之下,仅考虑正常DNA污染或基线调整的方法只能访问特定的一维平面,这可能会导致错过对SNP数据的替代解释。虽然我们预计许多癌症应该表现出足够的基因组改变,以使数据能够提供有关肿瘤倍性和纯度的信息,但考虑交替倍性纯度水平可能是表征可能没有复杂变化的特定癌症亚型的一个重要因素。

图8
图8

一例倍体状态未知且DNA污染正常的肿瘤样本分析。似然等值线图显示,有三种模式,每种模式对应于SNP数据的另一种解释:(a)肿瘤的核型接近二倍体,并且被50%的正常DNA含量所污染,(b)肿瘤有一个四倍体核型,60%的正常DNA含量和(c)该肿瘤的核型接近三倍体,DNA含量可忽略不计。每个模式下的最大对数似然非常相似。

结论

我们方法的发展受到了一项正在进行的1000对正常结直肠癌全基因组研究的推动。这些癌症中基因组畸变的发现是识别与疾病发生和进展有关的遗传异常以及与特定临床表型和治疗反应相关的躯体获得性改变模式的重要步骤。结直肠癌的基因组特征为方法开发提供了一个特别有用的平台,因为结肠癌样本通常含有正常的DNA污染,并且至少存在两种特征明确的分子亚型:微卫星稳定(MSS)和微卫星不稳定(MSI)组。MSI结肠癌与近二倍体核型相关,结构重排相对较少;而MSS结肠癌的特征是广泛的结构重排,并且经常表现出三倍体或四倍体核型[38]. 由于我们的方法在综合统计框架内综合考虑了倍性变化和肿瘤异质性的联合影响,我们能够高度自动化分析大肠癌队列SNP数据的过程,并在每个分子亚型构成的一系列场景中稳健运行。

我们方法成功的基础是严格利用等位基因特异性信息来估计正常DNA污染和肿瘤倍性。从历史上看,SNP阵列相对于aCGH技术的一个关键优势是可获得等位基因特异性信息,以便检测LOH事件。在我们的方法中,我们利用第二个信息轴来确定绝对拷贝数并预测肿瘤纯度,这对于仅使用aCGH生成的一维数据集来说是一个挑战。

最近,新一代测序(NGS)技术已被证明是癌症遗传学家工具包中的一支强大的新力量,使癌症基因组能够以比以往任何时候都更高的分辨率和更详细的水平进行探测[3942]. 尽管如此,SNP阵列在可预见的未来可能仍然是癌症研究中有用的分析工具,因为SNP阵列作为一种对大量肿瘤进行采样的手段,仍然具有更高的成本和资源效益。此外,由于短读测序技术并非不受我们所讨论的许多问题的影响。例如[42]使用病理学检查评估原发肿瘤、脑转移和异种移植样本中的肿瘤细胞数,并相应调整序列读取计数。SNP数据与短读序列数据库的集成和协调将允许更准确地测定正常DNA污染,并允许使用SNP数据作为扫描数据,以重建更详细和低水平的癌症序列数据。也可以将这里介绍的方法用于短读测序平台。一种可能的方法是直接对已知SNP位置的等位基因特异性读取计数进行建模,并将隐马尔可夫模型中的发射分布从连续分布修改为离散分布(例如泊松或负二项式)。或者,可以维护现有的数据模型,并将读取计数转换为近连续度量,Log R Ratio表示为总读取深度的对数比率和(局部)归一化常数,例如,匹配的生殖系样本和B等位基因频率,根据包含B等位蛋白的读取次数与总读取深度的比率计算得出。然而,我们建议,任何将这些技术应用于测序技术的尝试都应该得到本文和之前工作所述类型的广泛控制和校准实验的支持。

总之,我们描述了一种新的计算工具(OncoSNP),用于使用SNP阵列计算异质性肿瘤的基因组拷贝数和LOH。使用正式的统计模型,我们能够共同考虑基于SNP阵列的肿瘤分析中出现的一些复杂因素。在许多实验中,我们使用癌细胞系和临床样本证明了我们的方法在肿瘤异质性和未知基线倍性存在的情况下能够给出一致的结果。我们相信,我们的方法可以大大改进对肿瘤SNP数据的分析,特别是在对临床样本的大型研究中,在这些研究中,潜在的遗传学以及肿瘤纯度和样本质量等因素可能存在相当大的差异。

材料和方法

材料

稀释系列

Illumina HumanCNV370-Dou BeadChip Infinium SNP数据用于12种混合癌细胞系(HCC1395)及其配对正常细胞系(HCC1395BL)的稀释系列,下载自NCBI基因表达总览(GEO:GSE11976)。由于正常细胞系HCC1395BL中存在复制基因组畸变,我们将6号染色体和16号染色体排除在分析之外。

癌细胞系

Illumina HumanHap300的早幼粒细胞白血病癌细胞HL-60和结肠癌细胞株HT-29的数据来自Illuminia,而Human-610的四SNP基因分型数据来自结肠癌细胞系SW403、SW480、SW620、SW837、,SW1417和LIM1863是路德维希癌症研究所使用标准处理协议生成的。乳腺癌细胞系MDA-175和MDA-468的基因分型数据可从NCBI基因表达总览登录下载[GEO:GSE18799][23].

原发性乳腺肿瘤

使用显微解剖获得的材料详细分析了三个未接受非新辅助治疗的乳腺肿瘤(病例114、601和3364)。对于每一个病例,分别对含有纯肿瘤和纯基质细胞的材料进行显微解剖,并将其与从相同肿瘤的手术材料中获得的数据进行比较。病例114为内脏B型(23mm肿瘤,中分化浸润性导管癌,原位广泛,Node+ve,ER+ve(6.8fm/mg蛋白),EGFR-ve(7.8fm/mg蛋白质))。病例601(20 mm 30 mm肿瘤,3级,导管内原位癌。在过滤性导管癌中,结节+ve、ER-ve(1.5 fm/mg蛋白)、Her2+ve(组织分数为3)、EGFR+ve(组织分数为208))根据表达微阵列数据被分类为ERBB2阳性,分数秩为0.982,病例3364例为25mm三级浸润性导管癌,ER阳性(8 fm/mg蛋白),PR阳性(组织学评分8/8),Her2阳性(组织化学评分3+,10个腋窝淋巴结之一+ve)。对于每个病例,从显微切割的基质和肿瘤以及原始未切割样品中提取DNA,并使用Illumina Human-610 Quad SNP阵列应用标准协议进行分析。

数据处理

基因组改变打印已下载[43]并使用默认设置和用于比较的排名最高的拷贝数和LOH预测分析所有数据集。然而,对于癌细胞系稀释系列,我们重新使用了之前由[23]并在上述网站上发布。

GenoCN v1.06已下载[44]使用Illumina Infonaut II SNP阵列生成的所有数据集的默认设置和基质污染设置为开。Infonaut HD SNP阵列处理使用Log R Ratio水平的调整后的GenoCN参数,在这些情况下,我们使用与OncoSNP相同的水平。使用来自维特比序列的拷贝数和LOH预测进行比较。

OncoSNP在所有数据集上使用15次EM迭代,同时使用基质和肿瘤内异质性选项。在所有病例中,选择了最大似然的倍性预测,并使用肿瘤状态的维特比序列进行比较。我们使用30的对数贝叶斯因子过滤检测到的畸变。

统计模型

附加文件的补充信息中提供了我们统计模型的完整描述1.

x个 表示肿瘤在-第个探针位置和(x个 i、 n个 ,x个 i、 t吨 )表示相关的正常和肿瘤拷贝数。此外,让z(z) = (z(z) i、 n个 ,z(z) i、 t吨 )分别表示正常基因型和肿瘤基因型的B等位基因数。这些组合(z(z) i、 n个 , (x个 i、 n个 )和(z i、 t吨 ,x个 i、 t吨 )分别对正常和肿瘤基因型进行了全面的界定。每个探针的肿瘤状态表示该位置正常肿瘤基因型的允许组合,如表所示1.

π0表示由于基质污染导致的肿瘤样本的正常DNA分数,以及 π = { π } = 1 n个 表示每个探针处具有正常基因型的肿瘤细胞的比例。数据 = { } = 1 n个 由一组二维向量组成 = [第页 ,b条 ]‘其元素分别对应于Log R比率和B等位基因频率。

给定(x个,z(z),π,π0)假设数据按照学生t分布的(K+1)成分混合分布,其中k个 指示的混合组分分配-第个数据点,

| x个 , z(z) , k个 , , δ , Σ = { S公司 t吨 ( ( x个 , z(z) ) + δ k个 ( ) , k个 ( ) , ν ) , k个 0 , U型 第页 ( 第页 最小值 , 第页 最大值 ) × U型 b条 ( 0 , 1 ) , k个 = 0 ,
(1)

哪里 S公司 t吨 ( δ k个 ( ) , Σ k个 ( ) , v(v) ) 是学生的概率密度函数t吨-平均分布 δ k个 ( ) 和协方差矩阵 Σ k个 ( ) 与关联k个-th混合物成分和-th基因型分类和v(v)自由度。第0个分量是一个离群值类,它假设数据在指定范围内均匀分布。

平均向量的元素(x个 ,z(z) ) = [ 第页 (x个 ), b条 (z(z) ,x个 )]'由以下内容给出:

第页 ( x个 ) = ( π ( 1 π 0 ) + π 0 ) 第页 ¯ x个 , n个 + ( 1 π ) ( 1 π 0 ) 第页 ¯ x个 x个 , t吨 + β 0 + β 1 ,
(2)

哪里 是当地GC含量-探针位置和

b条 ( z(z) , x个 ) = ( π ( 1 π 0 ) + π 0 ) z(z) , n个 + ( 1 π ) ( 1 π 0 ) z(z) , t吨 ( π ( 1 π 0 ) + π 0 ) x个 , n个 + ( 1 π ) ( 1 π 0 ) x个 , t吨 .
(3)

之前的分配

混合权重的先验分布由Dirichlet分布给出:

w个 ( ) | α ~ D类 第页 ( α ) ,
(4)

哪里α是一个浓度参数,在我们使用的数值结果中α=1表示混合物重量的先验值。

混合中心和协方差矩阵上的先验分布由标准共轭正态逆Wishart分布给出:

δ k个 ( ) | τ , Σ k个 ( ) ~ N个 ( 0 , τ Σ k个 ( ) ) , k个 = 1 , , K(K) , = 1 , 2 , ,
(5)
Σ k个 ( ) | γ , S公司 k个 ( ) ~ W公司 ( γ , S公司 k个 ( ) ) , k个 = 1 , , K(K) , = 1 , 2 , ,
(6)

哪里τ是控制先验和IW强度的超参数(γ,∧)表示带参数的逆Wishart分布γ和比例矩阵∧。

假设异常率为贝塔先验值,

η | α η , β η ~ B类 e(电子) ( α η , β η ) ,
(7)

其中(α n个 ,β n个 )是与Beta先验相关的超参数。对于数值结果,我们将其设置为(1,1),以给出均匀分布。"

假设局部GC含量回归参数具有正态先验,

β | λ β ~ N个 ( 0 , λ β 2 ) ,
(8)

哪里 第页 是一个第页×第页单位矩阵。

假设基质污染含量和肿瘤内异质性水平存在离散先验,

第页 ( π 0 ) = { α π 0 , π 0 = 0 , β π 0 , π 0 > 0 ,
(9)

第页 ( π ) = { α π , π = 0 , β π , π > 0 , = 1 , , n个 ,
(10)

在我们使用的数值结果中απ0=βπ0=1和α π = 1,β π = 2.

假设肿瘤状态与转移矩阵形成非齐次马尔可夫链,

第页 ( x个 | x个 1 ) = { 1 ρ , x个 = x个 1 , ρ , x个 x个 1 ,
(11)

哪里ρ=(1/2)(1-exp(-(1/2L(左)) ( --1)以及 是的物理坐标-th探针和L(左)是我们设置为的特征长度L(左)数值结果为2000000。

后验推理

我们使用期望最大化算法估计未知模型参数。使用多次重启探索Log R Ratio的不同基线,并选择可能性最大的基线进行汇总统计计算。

摘要统计信息

我们使用Viterbi算法提取最可能的肿瘤状态序列,对于Viterbi-序列中的每个异常片段,我们计算了属于每个肿瘤状态的该片段的近似Bayes因子(分数)。此外,我们还记录了对数比基线调整的最大后验估计值β0和基质污染π0.

可利用性

我们的软件基于MATLAB的实现(用于64位Linux系统)可从相关网站上获得,用于学术和非商业用途[45]. 此外,本文分析的SNP数据也可从该网站和登录号为[GEO:GSE23785]的基因表达综合数据库中获得。

缩写

aCGH:

基于阵列的比较基因组杂交

BAF(曝气生物滤池):

B等位基因频率

有线电视:

副本编号变量

业务许可:

杂合性缺失

LRR公司:

对数R比

SNP公司:

单核苷酸多态性。

工具书类

  1. Beroukhim R、Getz G、Nghiemphu L、Barretina J、Hsueh T、Linhart D、Vivanco I、Lee JC、Huang JH、Alexander S、Du J、Kau T、Thomas RK、Shah K、Soto H、Perner S、Prensner J、Debiasi RM、Demichelis F、Hatton C、Rubin MA、Garraway LA、Nelson SF、Liau L、Mischel PS、Cloughesy TF、Meyerson M、Golub TA、Lander ES、Mellinghoff IK、,等:评估染色体畸变在癌症中的意义:方法学和在胶质瘤中的应用。美国国家科学院院刊,2007,104:20007-2012。10.1073/pnas.0710052104。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  2. Weir BA、Woo MS、Getz G、Perner S、Ding L、Beroukhim R、Lin WM、Province MA、Kraja A、Johnson LA、Shah K、Sato M、Thomas RK、Barletta JA、Borecki IB、Broderick S、Chang AC、Chiang DY、Chirieac LR、Cho J、Fujii Y、Gazdar AF、Giordano T、Greulich H、Hanna M、Johnson BE、Kris MG、Lash A、Lin L、Lindeman N、,等:描述肺腺癌中癌症基因组的特征。自然。2007, 450: 893-898. 10.1038/nature06358。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  3. Caren H、Kryh H、Nethander M、Sjoberg RM、Trager C、Nilsson S、Abrahamsson J、Kogner P、Martinsson T:11q缺失的高危神经母细胞瘤表现出预后不良、染色体不稳定表型,发病较晚。美国国家科学院院刊2010,107:4323-4328。10.1073/pnas.0910684107。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  4. Waddell N、Arnold J、Cocciardi S、da Silva L、Marsh A、Riley J、Johnstone CN、Orloff M、Assie G、Eng C、Reid L、Keith P、Yan M、Fox S、Devilee P、Godwin AK、Hogervorst FB、Couch F、Grimmond S、Flanagan JM、Khanna K、Simpson PT、Lakhani SR、Chenevix-Trench G:通过表达和拷贝数分析揭示的家族性乳腺肿瘤的亚型。乳腺癌研究治疗。2010, 123: 661-677. 10.1007/s10549-009-0653-1。

    第条 公共医学 谷歌学者 

  5. Bignell GR、Greenman CD、Davies H、Butler AP、Edkins S、Andrews JM、Buck G、Chen L、Beare D、Latimer C、Widaa S、Hinton J、Fahey C、Fu B、Swamy S、Dalgliesh GL、Teh BT、Deloukas P、Yang F、Campbell PJ、Futreal PA、Stratton MR:癌症基因组中突变和选择的特征。自然。2010, 463: 893-898. 10.1038/nature08768。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  6. Beroukhim R、Mermel CH、Porter D、Wei G、Raychaudhuri S、Donovan J、Barretina J、Boehm JS、Dobson J、Urashima M、Mc Henry KT、Pinchback RM、Ligon AH、Cho YJ、Haery L、Greulich H、Reich M、Winckler W、Lawrence MS、Weir BA、Tanaka KE、Chiang DY、Bass AJ、Loo A、Hoffman C、Prensner J、Liefeld T、Gao Q、Yecies D、Signoretti S、,等:人类癌症中的体细胞拷贝数变化。自然。2010, 463: 899-905. 10.1038/nature08822。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  7. Nannya Y、Sanada M、Nakazaki K、Hosoya N、Wang L、Hangaishi A、Kurokawa M、Chiba S、Bailey DK、Kennedy GC、Ogawa S:使用高密度寡核苷酸单核苷酸多态性基因分型阵列检测拷贝数的稳健算法。《癌症研究》2005,65:6071-6079。10.1158/0008-5472.CAN-05-0465。

    第条 公共医学 中国科学院 谷歌学者 

  8. Komura D、Shen F、Ishikawa S、Fitch KR、Chen W、Zhang J、Liu G、Ihara S、Nakamura H、Hurles ME、Lee C、Scherer SW、Jones KW、Shapero MH、Huang J、Aburatani H:使用高密度DNA寡核苷酸阵列对人类拷贝数变异进行全基因组检测。《基因组研究》,2006年,16:1575-1584。10.1101/gr.5629106。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  9. Colella S、Yau C、Taylor JM、Mirza G、Butler H、Clouston P、Bassett AS、Seller A、Holmes CC、Ragoussis J:QuantiSNP:一种客观的Bayes Hidden-Markov模型,用于使用SNP基因分型数据检测和准确绘制拷贝数变化。《核酸研究》2007,35:2013-2025。10.1093/nar/gkm076。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  10. Wang K,Li M,Hadley D,Liu R,Glessner J,Grant SF,Hakonarson H,Bucan M:PennCNV:一个集成的隐马尔可夫模型,用于全基因组SNP基因分型数据中的高分辨率拷贝数变异检测。基因组研究2007,17:1665-1674。10.1101/gr.6861907。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  11. Korn JM、Kuruvilla FG、McCarroll SA、Wysoker A、Nemesh J、Cawley S、Hubbell E、Veitch J、Collins PJ、Darvishi K、Lee C、Nizzari MM、Gabriel SB、Purcell S、Daly MJ、Altshuler D:SNP、常见拷贝数多态性和罕见CNV的综合基因型调用和关联分析。自然遗传学。2008, 40: 1253-1260. 10.1038/ng.237。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  12. Lindblad-Toh K、Tanenbaum DM、Daly MJ、Winchester E、Lui WO、Villapakkam A、Stanton SE、Larsson C、Hudson TJ、Johnson BE、Lander ES、Meyerson M:使用单核苷酸多态性阵列对小细胞肺癌进行异质性丢失分析。国家生物技术。2000, 18: 1001-1005. 10.1038/79269.

    第条 公共医学 中国科学院 谷歌学者 

  13. Zhao X,Li C,Paez JG,Chin K,Janne PA,Chen TH,Girard L,Minna J,Christiani D,Leo C,Gray JW,Sellers WR,Meyerson M:使用单核苷酸多态性阵列对癌症基因组中的拷贝数和等位基因改变进行综合观察。癌症研究,2004,64:3060-3071。10.1158/0008-5472.CAN-03-3308。

    第条 公共医学 中国科学院 谷歌学者 

  14. LaFramboise T、Weir BA、Zhao X、Beroukhim R、Li C、Harrington D、Sellers WR、Meyerson M:SNP阵列分析揭示的癌症中的等位基因特异性扩增。公共科学图书馆计算生物学。2005年,1:e65-10.1371/journal.pcbi.0010065。

    第条 公共医学 公共医学中心 谷歌学者 

  15. Diskin SJ,Li M,Hou C,Yang S,Glessner J,Hakonarson H,Bucan M,Maris JM,Wang K:全基因组SNP基因分型平台信号强度中基因组波的调整。《核酸研究》2008,36:e126-10.1093/nar/gkn556。

    第条 公共医学 公共医学中心 谷歌学者 

  16. Peiffer DA、Le JM、Steemers FJ、Chang W、Jennies T、Garcia F、Haden K、Li J、Shaw CA、Belmont J、Cheung SW、Shen RM、Barker DL、Gunderson KL:使用Infinium全基因组分型对染色体畸变进行高分辨率基因组剖析。《基因组研究》2006,16:1136-1148。10.1101/gr.5402306。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  17. Attiyeh EF、Diskin SJ、Attiyeh MA、Mosse YP、Hou C、Jackson EM、Kim C、Glessner J、Hakonson H、Biegel JA、Maris JM:基于非整倍体校正定量基因分型的单核苷酸多态性微阵列癌细胞基因组拷贝数测定。《基因组研究》2009,19:276-283。10.1101/gr.075671.107。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  18. Bengtsson H,Irizarry R,Carvalho B,Speed TP:单基因座水平原始拷贝数的估计和评估。生物信息学。2008, 24: 759-767. 10.1093/bioinformatics/btn016。

    第条 公共医学 中国科学院 谷歌学者 

  19. Bengtsson H,Neuvial P,Speed TP:TumorBoost:来自一对肿瘤正常基因分型微阵列的等位基因特异性肿瘤拷贝数的标准化。BMC生物信息学。2010, 11: 245-10.1186/1471-2105-11-245.

    第条 公共医学 公共医学中心 谷歌学者 

  20. Goransson H、Edlund K、Rydaker M、Rasmussen M、Winquist J、Ekman S、Bergqvist M、Thomas A、Lambe M、Rosenquist R、Holmberg L、Micke P、Botling J、Isaksson A:使用SNP阵列数据量化临床肺癌样本中的正常细胞分数和拷贝数中性LOH。公共科学图书馆一号。2009年,4:e6057-10.1371/journal.pone.0006057。

    第条 公共医学 公共医学中心 谷歌学者 

  21. Greenman CD、Bignell G、Butler A、Edkins S、Hinton J、Beare D、Swamy S、Santarius T、Chen L、Widaa S、Futreal PA、Stratton MR:PICNIC:一种利用微阵列癌症数据预测绝对等位基因拷贝数变化的算法。生物统计学。2010, 11: 164-175. 10.1093/生物统计/kxp045。

    第条 公共医学 公共医学中心 谷歌学者 

  22. Lamy P、Andersen CL、Dyrskjot L、Torring N、Wiuf C:使用Affymetrix SNP阵列估计癌症人群混合和等位基因拷贝数的隐马尔可夫模型。BMC生物信息学。2007, 8: 434-10.1186/1471-2105-8-434.

    第条 公共医学 公共医学中心 谷歌学者 

  23. Popova T,Manie E,Stoppa-Lyonnet D,Rigaill G,Barillot E,Stern MH:基因组改变打印(GAP):一种通过SNP阵列获得的复杂癌症基因组图谱的可视化和挖掘工具。基因组生物学。2009年,10:R128-10.1186/gb-2009-10-11-R128。

    第条 公共医学 公共医学中心 谷歌学者 

  24. Staaf J、Lindgren D、Vallon-Christerson J、Isaksson A、Goransson H、Juliusson G、Rosenquist R、Hoglund M、Borg A、Ringner M:使用全基因组SNP阵列基于分段检测癌细胞中的等位基因失衡和异基因丢失。基因组生物学。2008年9月:R136-10.1186/gb-2008-9-9-R136。

    第条 公共医学 公共医学中心 谷歌学者 

  25. Sun W、Wright FA、Tang Z、Nordgard SH、Van Loo P、Yu T、Kristensen VN、Perou CM:使用高密度SNP阵列对拷贝数状态和基因型调用进行综合研究。《核酸研究》,2009年,37:5365-5377。10.1093/nar/gkp493。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  26. Wang K,Li J,Li S,Bolund L,Wiuf C:使用CGH阵列数据评估肿瘤异质性。BMC生物信息学。2009, 10: 12-10.1186/1471-2105-10-12.

    第条 公共医学 公共医学中心 谷歌学者 

  27. Yamamoto G、Nannya Y、Kato M、Sanada M、Levine RL、Kawamata N、Hangaishi A、Kurokawa M、Chiba S、Gilliland DG、Koefler HP、Ogawa S:使用affmetrix单核苷酸多态性基因分型微阵列在全基因组检测非成虫原发性肿瘤标本中的等位基因组成的高灵敏度方法。Am J Hum基因。2007, 81: 114-126. 10.1086/518809.

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  28. Yau C,Holmes CC:使用SNP基因分型阵列发现CNV。《细胞遗传学研究》2008,123:307-312。10.1159/000184722.

    第条 公共医学 中国科学院 谷歌学者 

  29. LaFramboise T:单核苷酸多态性阵列:生物学、计算和技术进步的十年。《核酸研究》,2009年,37:4181-4193。10.1093/nar/gkp552。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  30. Ragoussis J:基因研究的基因分型技术。《基因组学与人类遗传学年鉴》。2009, 10: 117-133. 10.1146/anurev-genom-082908-150116。

    第条 公共医学 中国科学院 谷歌学者 

  31. Winchester L,Yau C,Ragoussis J:比较SNP阵列的CNV检测方法。功能基因组蛋白质组简介。2009, 8: 353-366. 10.1093/bfgp/elp017。

    第条 公共医学 中国科学院 谷歌学者 

  32. Pfeifer D、Pantic M、Skatulla I、Rawluk J、Kreutz C、Martens UM、Fisch P、Timmer J、Veelken H:使用高密度SNP阵列对CLL中的DNA拷贝数变化和LOH进行全基因组分析。鲜血。2007, 109: 1202-1210. 10.1182/血液-2006-07-034256。

    第条 公共医学 中国科学院 谷歌学者 

  33. Staaf J、Vallon-Christerson J、Lindgren D、Juliusson G、Rosenquist R、Hoglund M、Borg A、Ringner M:Illumina Infinium全基因组SNP数据的标准化提高了拷贝数估计值和等位基因强度比。BMC生物信息学。2008, 9: 409-10.1186/1471-2105-9-409.

    第条 公共医学 公共医学中心 谷歌学者 

  34. Gardina PJ,Lo KC,Lee W,Cowell JK,Turpaz Y:使用500K SNP映射阵列对等位基因比率、信号比率和杂合性丢失进行综合分析,确定原发性胶质母细胞瘤的倍体状态和拷贝数畸变。BMC基因组学。2008, 9: 489-10.1186/1471-2164-9-489.

    第条 公共医学 公共医学中心 谷歌学者 

  35. Marioni JC、Thorne NP、Valsesia A、Fitzgerald T、Redon R、Fiegler H、Andrews TD、Stranger BE、Lynch AG、Dermitzakis ET、Carter NP、Tavare S、Hurles ME:破浪:通过微阵列比较基因组杂交改进拷贝数变异检测。基因组生物学。2007年8月:R228-10.1186/gb-2007-8-10-R228。

    第条 公共医学 公共医学中心 谷歌学者 

  36. Abdel-Rahman WM、Katsura K、Rens W、Gorman PA、Sheer D、Bicknell D、Bodmer WF、Arends MJ、Wyllie AH、Edwards PA:光谱核型分析表明,以染色体重排模式为特征的其他结直肠癌亚群。美国国家科学院院刊,2001年,98:2538-2543。10.1073/pnas.041603298。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  37. Liang JC、Ning Y、Wang RY、Padilla-Nash HM、Schrock E、Soenksen D、Nagarajan L、Ried T:HL-60细胞系的光谱核型研究:检测涉及第5、7和16号染色体的复杂重排,并划定5q31.1上的关键缺失区域。癌症基因细胞基因。1999, 113: 105-109. 10.1016/S0165-4608(99)00030-8。

    第条 公共医学 中国科学院 谷歌学者 

  38. Rowan A、Halford S、Gaasenbeek M、Kemp Z、Sieber O、Volikos E、Douglas E、Fiegler H、Carter N、Talbot I、Silver A、Tomlinson I:结直肠癌发生途径中的精细分子分析。临床胃肠病学肝脏学。2005, 3: 1115-1123. 10.1016/S1542-3565(05)00618-X。

    第条 公共医学 中国科学院 谷歌学者 

  39. Chiang DY、Getz G、Jaffe DB、O'Kelly MJ、Zhao X、Carter SL、Russ C、Nusbaum C、Meyerson M、Lander ES:用大规模平行测序进行拷贝数变化的高分辨率绘图。自然方法。2009, 6: 99-103. 10.1038/nmeth.1276。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  40. Pleasance ED、Stephens PJ、O'Meara S、McBride DJ、Meynert A、Jones D、Lin ML、Beare D、Lau KW、Greenman C、Varela I、Nik-Zainal S、Davies HR、Ordonez GR、Mudie LJ、Latimer C、Edkins S、Stebbings L、Chen L、Jia M、Leroy C、Marshall J、Menzies A、Butler A、Teague JW、Mangion J、Sun YA、McLaughlin SF、Peckham HE、Tsung EF、,等:具有烟草暴露复杂特征的小细胞肺癌基因组。自然。2010, 463: 184-190. 10.1038/nature08629。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  41. Stephens PJ、McBride DJ、Lin ML、Varela I、Pleasance ED、Simpson JT、Stebbings LA、Leroy C、Edkins S、Mudie LJ、Greenman CD、Jia M、Latimer C、Teague JW、Lau KW、Burton J、Quail MA、Swerdlow H、Churger C、Natrajan R、Sieuwerts AM、Martens JW、Silver DP、Langero A、Russnes HE、Foekens JA、Reis-Fils JS、van t Veho L、Richardson AL、,Borresen-Dale AL等人:人类乳腺癌基因组中体细胞重排的复杂景观。自然。2009, 462: 1005-1010. 10.1038/nature08645。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  42. Ding L、Ellis MJ、Li S、Larson DE、Chen K、Wallis JW、Harris CC、McLellan MD、Fulton RS、Fultan LL、Abbott RM、Hoog J、Dooling DJ、Kobolt DC、Schmidt H、Kalicki J、Zhang Q、Chen L、Lin L、Wendl MC、McMichael JF、Magrini VJ、Cook L、McGrath SD、Vickery TL、Appelbaum E、Deschryver K、Davies S、Guintoli T、Lin,等:基底样乳腺癌转移和异种移植中的基因组重塑。自然。2010, 464: 999-1005. 10.1038/nature08989。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  43. 间隙。[http://bioinfo-out.curie.fr/projects/snp_gap/]

  44. GenoCN。[http://www.bios.unc.edu/~wsun/software/genoCN.htm]

  45. OncoSNP。[https://sites.google.com/site/oncsnp网站/]

下载参考资料

致谢

作者感谢Jean-Baptiste Cazier对本手稿进行的一般性讨论和仔细阅读,感谢Rachel Natrajan和Jorge Reis-Filho对早期版本工作的讨论和建议,感谢Dan Peiffer(Illumina)为HL-60和HT-29提供细胞系数据。CY由英国医学研究委员会生物医学信息学专家培训奖学金(参考号:G0701810)资助,此前由英国工程和物理研究委员会生命科学接口博士培训学生资助。JR、GM和SC得到了Wellcome Trust Grant 075491/Z/04/Z的支持。DM、RJ和OS得到了Hilton Ludwig癌症转移计划的支持。OS得到了国家卫生和医学研究委员会项目拨款489418的支持。我们也感谢审稿人的宝贵意见。

作者信息

作者和附属机构

作者

通讯作者

与的通信克里斯托弗·姚.

其他信息

作者的贡献

CY、CCH、SC和JR构思了该方法,并产生了初步想法和讨论。CY编写并开发了OncoSNP算法。DM、RJ和OS提供生物信息学分析,并对癌细胞株进行基因分型实验。GM、GS、AH和JR提供了肿瘤样本,并进行了乳腺癌分析的基因分型实验。CY、JR、OS和CCH撰写了这篇论文。

电子辅助材料

附加文件1:补充方法。统计方法的详细说明。(PDF 531 KB)

13059_2010_2385_MOESM2_ESM.gz

附加文件2:三种正常癌细胞系混合物的全基因组分析。显示三个正常癌细胞系混合物系列的全基因组拷贝数和LOH分析的绘图。(GZ 4 MB)

13059_2010_2385_MOESM3_ESM.gz

附加文件3:三种原发性乳腺肿瘤的全基因组分析。显示三种原发性乳腺肿瘤全基因组拷贝数和LOH分析的绘图。(GZ 5 MB)

作者提交的原始图像文件

权利和权限

转载和许可

关于本文

引用这篇文章

Yau,C.、Mouradov,D.、Jorissen,R.N。等。一种从单核苷酸多态性基因分型数据中检测异质性肿瘤样本基因组畸变的统计方法。基因组生物学 11,R92(2010年)。https://doi.org/10.1186/gb-2010-11-9-r92

下载引文

  • 收到:

  • 修订过的:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/gb-2010-11-9-r92

关键词