PICNIC: an algorithm to predict absolute allelic copy number variation with microarray cancer data

Chris D. Greenman; Graham Bignell; Adam Butler; Sarah Edkins; Jon Hinton; Dave Beare; Sajani Swamy; Thomas Santarius; Lina Chen; Sara Widaa; P. Andy Futreal; Michael R. Stratton

doi:10.1093/biostatistics/kxp045

生物统计学。2010年1月；11(1): 164–175.

2009年10月15日在线发布。数字对象标识：10.1093/生物统计/kxp045

预防性维修识别码：PMC2800165型

PMID：19837654

PICNIC：利用微阵列癌症数据预测绝对等位基因拷贝数变化的算法

克里斯·D·格林曼,^* 格雷厄姆·比格内尔,亚当·巴特勒,莎拉·埃德金斯,乔恩·辛顿,戴夫·比尔,萨贾尼·斯瓦米,托马斯·桑塔利乌斯,陈丽娜（Lina Chen）,萨拉·维达,P.安迪·福特雷尔、和迈克尔·斯特拉顿

作者信息文章注释版权和许可信息 PMC免责声明

关联数据

补充资料: 【补充资料】

kxp045_index.html（955字节）
GUID:700B56BD-08E3-49D1-8425-19088C2D686E

kxp045_1.pdf公司（230万）
GUID:D37AEDBE-99D8-4B93-A42A-7BA200F18A59

kxp045_2.pdf公司（15.1万）
GUID:0FCA988D-CA6F-42B5-8BF8-1F398DD11D8C

kxp045_补充_文本_1.doc（169000）
GUID:2BC33F3C-3824-442A-AB95-7B31C63B7F5B

摘要

高通量寡核苷酸微阵列通常用于研究基因疾病，包括癌症。用于提取通常与遗传病相关的二倍体基因组的基因型和拷贝数变异函数的算法。然而，癌症基因组本质上是非整倍体，在使用这些技术时会导致系统错误。我们介绍了一种针对癌症的预处理变换和隐马尔可夫模型算法。这就产生了基因型分类、杂合性缺失区域的规范和绝对等位基因拷贝数分割。结合独立的实验技术，证明了准确的预测。这些方法以755个癌细胞株的affymetrix全基因组SNP6.0数据为例，可以推断出一些生物学特性。这些数据和编码算法可以免费下载。

关键词：等位基因、癌症、复制、数量、体细胞、变异

1.我简介

癌症是一种遗传病，当基因突变提供足够的生长优势以诱导肿瘤转化时发生。例如，p14^{自动变速器}和第16页^墨水4aCDKN2A抑癌基因位点编码的蛋白质调节RB1和p53，分别控制细胞周期和凋亡。该基因座的纯合缺失消除了这种控制，促进了细胞分裂，并为癌症提供了选择性优势。肿瘤抑制基因也可以被微小的单核苷酸突变（例如p53和PTEN）灭活。突变使1个等位基因失活，半合子缺失可以去除其他等位基因以实现功能失活。这导致基因座间纯合子（LOH）丢失。相反，ERBB2的基因组扩增有助于不受控制的阳性生长信号。癌症基因的拷贝数状态可以作为各种癌症类型的预后标记，并且与ERBB2一样，可以构成有效的治疗靶点。因此，必须能够准确评估癌症基因组的拷贝数变化，并考虑到可用的全部信息内容，准确分析这些数据。鉴于基因型能够进行样本识别，微阵列提供了一个包罗万象的解决方案。

这些平台同时对数百万个单核苷酸多态性（SNP）进行基因分型实验，除SNP基因型外，SNP还产生拷贝数信息。微阵列技术在研究遗传病方面有着可靠的记录。例如，寡核苷酸微阵列产生两种基因型，应用于全基因组关联研究(WTCCC，2007年)并分析种群拷贝数变异（CNV）(麦卡罗和其他, 2006). 这些方法也已成功应用于检测癌症中的CNV(比格内尔和其他, 2004;堰和其他, 2007). 现代平台，如affymetrix全基因组SNP6.0平台，包含额外的非多态性探针，旨在在SNP密度较低的区域提供更高的拷贝数基因组分辨率。替代技术，如分子反转探针（MIP）(王、李、，和其他, 2007)和SNP珠阵列（Collela和其他, 2007;Wang、Moorhead、，和其他, 2007;佩弗和其他, 2007)已被类似地使用，并产生可用于推断“等位基因”拷贝数的等位基因比率。所有这些平台都需要算法来推断这些特征。

从循环二进制分割到层次聚类的拷贝数分割范围提取方法(黄和其他, 2007;拉夫兰博伊斯和其他, 2005,2006;锂和其他, 2008;李和朱，2007;马里奥尼和其他, 2007;奥尔申和其他2004年;Rueda和Diaz-Uriarte，2007年;Xing（兴）和其他, 2007). 事实证明，隐马尔可夫模型（HMM）在这一领域是一个特别强大的工具(贝鲁金和其他, 2006;科莱拉和其他, 2007;弗里德兰和其他, 2004;拉米和其他, 2007;沙普夫和其他, 2008;沙阿和其他, 2006;谢恩奎斯特和其他, 2007)除拷贝数分割外，还用于识别LOH。各种方法的比较见鲍罗什和其他(2007).

SNP基因型的分类方法也有很多种(Affymetrix（I），2006年;Affymetrix（II），2006年;卡瓦略和其他, 2007;吉安努拉图和其他, 2008;拉米和其他, 2006;华和其他, 2007;《兔子与速度》，2006年;肖和其他, 2007).

越来越多的方法为估计整个基因组的总拷贝数、发现片段的等位基因比例和鉴定SNPs的真实基因型这三重问题提供了更综合的方法。其中包括来自沙普夫和其他(2008)它采用由拷贝数强度和基因型（分类为杂合或纯合）组成的SNP数据，并实现HMM。状态旨在捕获拷贝数的趋势，而不是将拷贝数解析为其等位整数成分。然而，对于不需要训练数据的SNP数据来说，这是一种通用方法，只需要单个样本的数据即可快速实现。王的混合模型方法，卡瓦略，和其他, (2007)利用多个样本的基因型聚类模式，采用混合模型方法推断单个SNP的等位基因拷贝数和基因型。计算以每个SNP为基础，并独立处理连续的SNP。准确的分割和断点估计需要平滑处理（例如使用HMM），这在癌症研究中至关重要，例如，当需要知道某个特定断点是否正在破坏基因的功能时。PennCNV(王、李、，和其他, 2007)和鸟套装套装(科恩和其他, 2008)是最全面的，分别为illumina SNP微珠阵列和affymetrix全基因组SNP6.0阵列提供了等位基因拷贝数和基因型推断。

这项工作考虑了使用这些方法分析癌症数据时出现的问题，并讨论了可用于规避这些问题的定制技术。具体而言，癌症本质上是频率非整倍体，这导致这些方法所使用的预处理技术存在系统偏差。这也可能导致拷贝数状态与这些算法不一致。第2节对此问题进行了更详细的探讨。然后介绍适用于癌症数据的预处理和分割技术。使用affymetrix全基因组SNP6.0平台，使用一系列独立验证方法，对460个野生型和755个癌症样本验证了该方法。通过讨论完成论文。

2.C类ANCER相关BIASES

众所周知，癌症样本通常表现为非整倍体(Rajagopalan和Lengaue，2004年)例如，有许多四倍体和三倍体样本。这种可变倍性会影响此类算法中使用的预处理。更具体地说，当把DNA植入微阵列板时，数量是通过固定所用DNA的质量来控制的。对于非癌症样本，不同样本中的细胞具有非常相似的DNA数量（即来自二倍体基因组）。恒定质量的DNA有效地固定了平板上每个孔中的细胞数量，每个SNP等位基因产生的信号与所有样本的等位基因拷贝数成正比。这些信号足够敏感，可以区分等位基因差异，如图1（A），其中单个SNP在一组461个正常人中的等位基因强度根据3个野生型基因型类别AA、AB和BB明显聚集。Birdsuite和Wang的混合模型方法都需要这种结构，卡瓦略，和其他(2007)例如，与cDNA基因型相比，Birdsuite仅在70.13%的病例中正确识别了108个癌症样本的杂合状态，远低于使用野生型细胞基准测试的数据。

保存图片、插图等的外部文件。对象名称为biostskxp045f01_4c.jpg

在单独的窗口中打开

图1。

多个样本中单个SNP的等位基因强度。（A）在单个多态探针上，将每个野生型训练样本的A等位基因强度与B等位基因密度绘制成图。基因型AA、AB和BB的线性分离平均等位基因强度的MAP估计值用红色表示。（B）使用癌症样本绘制相同的等位基因强度。聚类明显减少。

由于微阵列板中传递到每个孔的DNA是由总质量控制的，因此四倍体样本中接种的细胞数量将是二倍体样本的一半。如果两个这样的样本具有相同拷贝数的区域，那么设计在该区域内杂交的井将在四倍体样本中产生比二倍体样本一半的信号。特别是，信号不再与拷贝数成正比，这将在做出此假设的任何推断中产生偏差。这对基因型等位基因拷贝数强度的聚类产生了不利影响。图1（B）显示相同SNP的等位基因强度图1（A）在一系列癌症中，聚集性明显受损。虽然理论上可以通过结合癌症的倍性来纠正这种影响，但通常情况下并不是这样先验的需要光谱核型分析（SKY）或流式分选样品以控制细胞总数。

通过SKY可以很容易地观察到倍性的偏差。例如，使用癌症细胞系样本HCC1806（二倍体）、HCC1187（三倍体）和ZR-75-30（四倍体），使用SKY计算每个染色体的平均拷贝数(霍沃思和其他, 2008)，并在SNP6.0阵列数据上使用Birdsuite。结果见图2（和补充图2，网址为生物统计学网上）《鸟巢》没有捕捉到天空卫视透露的倍性差异。

保存图片、插图等的外部文件。对象名称为biossksxp045f02_4c.jpg

在单独的窗口中打开

图2。

二倍体、三倍体和四倍体样本HCC1806、HCC1187和ZR-75-30的基因组拷贝数估计。使用SKY（虚线）、Birdsuite（红色）和PICNIC（绿色）获得拷贝数估计值。

这些数据表明，尽管目前的综合方法，如沙普夫和其他(2008)，王，卡瓦略，和其他(2007)和科恩和其他(2008)对于野生型细胞的综合拷贝数分析工作良好，这些方法不太适用于癌症样本，并且在倍性偏离正常值时显示出最大的误差。一个定制的预处理过程，捕获与正常聚类的偏离，如图1（B）和a因此，理想的分割程序可以校准到异常的倍性，并最终提供准确的等位基因拷贝数和癌症基因分型分析。

为此，我们接下来介绍两阶段程序预测癌症中的完整拷贝数（PICNIC）。我们首先介绍一个预处理步骤，该步骤利用他人观察到的基因型结构（Wang，卡瓦略，和其他, 2007;科恩和其他, 2008)将原始癌症数据转换为拷贝数和基因型强度。然后，我们引入贝叶斯HMM，利用预处理步骤产生的数据识别固定整数等位基因拷贝数的片段。我们还使用该模型将SNP分为复杂的癌症基因型。

3.C类ANCER BESPOKE方法

预处理基本上由两个步骤组成；微阵列板校正和标准化步骤。接下来是分割步骤。

在整个样本组中，由于实验过程中不同的运行时间和条件，每个阵列的总探针强度显著变化。为了减少这种“微阵列板”变化，我们简单地用每个样本的总微阵列信号划分所有强度。

归一化步骤是对在图1（B）。我们首先需要了解每个探针的野生型行为。这是通过将二元正态分布的混合物拟合到图1（A）贝叶斯方法有助于在聚类结构不太清晰、SNP信息较少的情况下进行这种拟合。这将导致最大值先验的（MAP）估算(A类_克,B_克)表示与基因型相对应的平均聚类位置克∈ {AA公司,AB公司,BB公司}. 假设它们呈线性排列，以便，

保存图片、插图等的外部文件。对象名为biostskxp045fx1_ht.jpg

（3.1）

接下来，我们利用这些信息将癌症数据转换为拷贝数密度第页_{计算机断层扫描}和基因型强度ϑ_{计算机断层扫描}.我们想要任何积分(x个_{计算机断层扫描}^A类,x个_{计算机断层扫描}^B)在通过3个基因型簇的线上有一个拷贝数密度的统一。我们首先对强度进行线性变换，将簇AA、AB和BB映射到平均位置（1,3）、（2,2）和（3,1），并映射剩余强度位点(A类₀,B₀)到（1,1）。基因型强度ϑ_{计算机断层扫描}然后定义为从原点到转化的癌症强度的（归一化）角度。然后我们定义转换，

保存图片、插图等的外部文件。对象名为biostskxp045fx2_ht.jpg

(3.2)

这就完成了预处理。示例见图3（A）和（B），其中显示了癌细胞系HCC1187基因组区域的拷贝数和基因型强度。拷贝数和基因型强度的组合清楚地揭示了样本中存在的所有等位基因拷贝数。

保存图片、插图等的外部文件。对象名称为biostskxp045f03_4c.jpg

在单独的窗口中打开

图3。

癌细胞株HCC1187的绝对拷贝数、基因型强度和突变点可能性。每个图包含3个部分。首先是拷贝数强度，其次是基因型强度。显示相关基因型。绿色和蓝色线条表示总拷贝数和次要估计拷贝数。黑色和红色线条代表杂合和纯合片段。最后，绘制了状态变化的可能性。水平尺度是基因组在兆碱基中的位置。垂直刻度表示染色体拷贝数。（A和B）分别来自第14和19号染色体。

最后一步涉及数据的分割和基因分型，这是使用贝叶斯HMM实现的。这些方法以前已成功应用于等位基因拷贝数，如PennCNV和Birdsuite。所使用的州往往包括在遗传疾病中观察到的大量基因型。然而，癌症并不表现出如此广泛的范围，HMM需要与癌症相关的特定拷贝数状态空间。具体来说，在形成体细胞拷贝数变体之前，每个亲本野生型片段都有一个拷贝，该区域内SNP的基因型为AA、AB或BB。拷贝数变体形成后，片段包含克和小时−克每个父段的副本(小时段总数），排序方式如下克≤小时−克.给，克和小时−克分别表示“次要”和“主要”副本编号。对于总拷贝数固定的基因组片段小时，有保存图片、插图等的外部文件。对象名为biostskxp045fx3_ht.jpg 可能的拷贝数状态，由索引。对于每个状态对(克,小时)得到4个基因型；{A×小时}，{A×(小时−克)，B×克}，{A×克，B×(小时−克)}，或{B×小时}. 这些基因型可能与LOH存在的地方一致(克=0）或我们有偶数个染色体(克=小时/2). 这导致在拷贝数状态的片段中有1到4种可能的基因型(克,小时). 该信息总结于表1，其示例可参见图3.

表1。

根据拷贝数状态进行基因型分类。前几个小拷贝数和大拷贝数的可能基因型描述

总拷贝数(小时)	基因型分类数	次要等位基因数量(克)0（LOH）	1	2
0	1	DEL公司	——	——
1	1	{甲，乙}	——	——
2	2	{AA、BB}	{AA、AB、BB}	——
三	2	{AAA、BBB}	{AAA、AAB、ABB、BBB}	——
4	三	{AAAA、BBBB}	{AAAA、AAAB、ABBB、BBBB}	{AAAA、AABB、BBBB}
5	三	{AAAAA、BBBBB}	｛AAAAA，AAAAB，ABBBB，BBBBB｝	{AAAAA、AAABB、AABBB、BBBBB}

在单独的窗口中打开

贝叶斯HMM用Baum–Welch算法拟合，用Viterbi算法分割(拉宾纳，1989年). 此过程对参数的初始种子设定敏感，这需要一种启发式方法来根据拷贝数强度准确校准拷贝数。然后，可以使用前向-后向方程推断几个有趣的特征，包括基因型分类，并将置信度与突变点估计值相关联。有关这些方法的详细信息，请参阅补充文本1，网址为生物统计学在线。

4.伏校准

为了评估性能，我们检查了HMM对缺失、LOH、扩增、断点、拷贝数估计以及使用从各种组织类型培养的癌细胞系进行基因分型的预测。我们还将这些结果与鸟服进行了基准测试。以下是对这些问题的考虑和总结表2。有关更多详细信息，请参阅补充表1，网址为生物统计学在线。

表2。

验证方法。总结结果以验证纯合子缺失、基因型、LOH、拷贝数、断点和扩增。使用的统计数据包括真阳性率和假阳性率（TPR、FPR）、正确呼叫的百分比和平均误差

数据类型	验证集	测试集	统计的	PICNIC公司	鸟套装
副本编号	天空	HCC106（二倍体）	%正确	65.35%	59.83%
副本编号	天空	HCC1187（三倍体）	%正确	80.56%	52.55%
副本编号	天空	ZR-75-30（四倍体）	%正确	77.67%	6.43%
纯合子缺失	7种已知TSG的验证性PCR	102个细胞系	TPR（FPR）	77.55% (0.15%)	59.18%（0.15%）
基因型	cDNA-hom基因分型	108个细胞系	%正确	96.45%	70.13%
LOH公司	400个微卫星标记	755个细胞系	TPR（FPR）	58.20% (5.34%)	不适用
断点	天空	HCC1806（二倍体）	第三方程序	55.41%	56.76%
断点	天空	HCC1187（三倍体）	第三方程序	46.81%	48.94%
断点	天空	ZR-75-30（四倍体）	第三方程序	75.51%	63.27%
扩增子	GLO1扩增簇的qPCR	58个细胞系	平均误差	5.44%	11.51%

在单独的窗口中打开

通过将结果与使用SKY获得的拷贝数进行比较，评估PICNIC和Birdsuite的预测拷贝数(霍沃思和其他, 2008). 这是针对HCC1806（二倍体）、HCC1187（三倍体）和ZR-75-30（四倍体）确定的。然后测定正确和错误预测拷贝数的基因组范围（Mb），PICNIC分别为65.35%、80.56%和77.67%。鸟巢的数值分别为59.83%、52.55%和6.43%。虽然二倍体样本的结果相似，但使用癌症专用软件对更复杂的基因组的改进是显而易见的，如图2。我们还使用了由霍沃思和其他(2008)使用PICNIC和Birdsuite在这3个样本中检测到多少。PICNIC识别率为55.41%、46.81%和75.51%，鸟巢识别率分别为56.76%、48.94%和63.27%。

为了研究缺失检测的特异性和敏感性，使用PICNIC和Birdsuite筛选了7个已知的肿瘤抑制基因（CDKN2C、CDKN2A、PTEN、RB1、MAP2K4、SMAD4和STK11）是否存在缺失。同样的基因也通过多重聚合酶链反应（PCR）和每个外显子的探针进行筛选。然后在102个细胞系中比较这两种独立方法。PICNIC共检测到38/49个（77.55%）的缺失，显示出良好的敏感性和特异性。对于鸟服，这一比例降至59.18%。

为了测试LOH预测的性能，我们推导了大约400个微卫星标记的两个等位基因的重复长度。由于这两个等位基因来源于广泛的计数选择，一对相同的重复长度表示LOH，并被指定为LOH。将每个标记的HMM LOH状态与微卫星LOH状态进行比较。PICNIC仅鉴定出4989/93410（5.34%）个具有2个不同微卫星重复序列长度的标记为LOH，具有极好的特异性。尽管敏感性较低，符合率为40970/70391（58.2%），但这与标记产生相同重复长度等位基因的比率一致（正常样本为32.7%）。无法从Birdsuite获得分段LOH状态。

为了测试扩增预测的性能，使用20个探针进行定量PCR（qPCR），比较含有GLO1的常见扩增基因簇与参考控制基因β-actin的拷贝数。该簇与参考基因的相对拷贝数也是根据预测拷贝数状态计算出来的，这两种方法和结果都进行了比较。使用PICNIC和Birdsuite，该区域的平均相对拷贝数与qPCR的差异分别为5.44%和11.51%。

PICNIC为所有多态性探针提供了基因型可能性。然后使用最大似然来确定探针是杂合的还是纯合的等位基因。为了验证分类，在108个细胞系中对20个探针的cDNA进行了基因分型。共有1406/1448个（97.10%）纯合SNPs被正确鉴定为纯合SNPs，441/467个（94.43%）被正确鉴定为杂合SNPs。鸟巢的这一数字分别降至78.12%和45.27%。

总之，尽管在癌症数据上使用通用拷贝数软件会导致系统性错误，这在无核倍体基因组中最为明显，但针对肿瘤数据的技术，如PICNIC、，提供克服这些偏见的有效方法，并提供有关癌症等位基因整数拷贝数和基因型信息的准确信息。

5.设计讨论

研究肿瘤标本的基因型和CNV是肿瘤基因组学的重要组成部分。尽管寡核苷酸平台（如affymetrix全基因组SNP6.0阵列）已通过VanillaICE、Wang、，卡瓦略，和其他(2007)癌症的非整倍体性质产生了偏见，需要更多的定制方法。我们引入了一种算法，成功地满足了这些效果。这些技术可以获得癌症中完整等位基因拷贝数的完整图像，用于癌症中观察到的全范围非整倍体。

该过程（PICNIC）是通过使用affymetrix全基因组SNP6.0阵列技术获得的数据，利用来自广泛组织类型和组织学的461个正常样本和755个癌细胞株的训练集实现的，并使用Matlab实现。结果表明，该方法能够准确预测完整的主要和次要拷贝数、复杂的癌症基因型、纯合子缺失、扩增和LOH区域，具有良好的断点准确性。这允许检测诸如拷贝中性杂合缺失和半合子缺失等细微变化，从而在癌症基因组中提供更完整的CNV图谱。

使用461个正常样本执行预处理训练步骤，并用大约3 Ghz×100 h的计算时间完成affymetrix全基因组SNP 6.0阵列。这一步只需完成一次，然后可以在许多样本上快速实现重整化。对1216个野生型和癌症样本执行分割步骤，每个样本的运行时间约为3 Ghz×3 h（应用中使用了多节点场），最大分段拷贝数为15。可以通过删除最大分段拷贝数或删除Baum–Welch优化以及仅使用带种子参数的Viterbi分段来减少此时间。运行时间与样本数和探针数呈线性关系，但与最大分段拷贝数呈二次关系。

由于各种因素，数据质量有时会受到影响。实验协议或条件可能会产生噪声数据，很容易通过优化修复，或重复运行。受污染的样品产生虚假的结果，补充图1，网址为生物统计学网上展示了一个假定的例子，但此类案例可以提供资源。虽然细胞系通常由单个外生长克隆组成，但有证据表明，细胞系偶尔在不同的基因组区域包含多个拷贝数不同的亚克隆。按克隆包含不同拷贝数的区域可能会产生意外（非整数）拷贝数强度。这种嵌合体为癌症中CNV的整个领域提供了一个难题。样本HCC1187的11号染色体就是一个可能的例子（参见图1（B）在里面补充文本1，网址为生物统计学在线），其中该染色体的平均拷贝数强度介于与拷贝数3和4相关的平均值之间）。基因型强度也受到影响，从所有现有克隆中重现平均信号。最后，我们注意到，该算法仅适用于细胞系，正常组织污染或包含多个显性克隆的原始样本可能也无法分割。我们注意到，预处理步骤适用于所有样本，但与可能存在的任何镶嵌或正常污染无关。

这些实验产生了大量宝贵的数据，有助于识别候选抑癌基因、致癌基因和基因融合。所有分析样本的分段数据可在以下位置查看：http://www.sanger.ac.uk/cgi-bin/genetics/CGP/cghviewer/CghHome.cgi原始数据（*.cel文件）是一个开放资源，可从www.sanger.ac.uk/genestics/CGP/Archive/获得。该算法是在（UNIX）Matlab中编码的，预处理和分段算法都可以在www.sanger.ac.uk/genestics/CGP/software/的免费Berkeley软件发行许可证下获得。

S公司补充材料

补充材料位于http://biostatistics.oxfordjournals.org.

F类发展中

支付这篇文章的开放获取出版费用的资金由Wellcome Trust提供。

补充材料

【补充资料】

单击此处查看。

致谢

我们要感谢Todd Golub使用基因型cDNA。我们也感谢克里斯·巴恩斯、凯伦·霍沃思、保罗·爱德华兹和裁判们的有益讨论。这些研究由威康信托基金资助。利益冲突：未申报。

工具书类

水深（I）技术报告。2006.BRLMM：一种改进的基因芯片人类定位500k阵列集的基因型调用方法。Affymetrix，Inc.白皮书http://www.affmetrix.com/support/technical/whitepapers/brlmm_whitepaper.pdf.[谷歌学者]
Affymetrix（II）BRLMM–P：SNP 5.0阵列的基因型调用方法。技术报告。2006Affymetrix，Inc.白皮书http://www.affmetrix.com/support/technical/whitepapers/brlmmp_whitepaper.pdf.[谷歌学者]
男爵夫人A、Delaney A、Li HI、Nayar T、Flibotte S、Qian H、Chan S、Asano J、Ally A、Cao M和其他评估寡核苷酸微阵列数据中基因组拷贝数变异的高通量检测算法。BMC生物信息学。2007;8:368. [PMC免费文章][公共医学][谷歌学者]
Beroukhim R、Lin M、Park Y、Hao K、Zhao X、Garraway LA、Fox EA、Hochberg EP、Mellinghoff IK、Hofer MD和其他.使用高密度寡核苷酸SNP阵列推断非配对肿瘤的异位性丢失。《公共科学图书馆·计算生物学》。20062，e41。[PMC免费文章][公共医学][谷歌学者]
Bignell GR、Huang J、Greshock J、Watt S、Butler A、West S、Grigorova M、Jones KW、Wei W、Stratton MR和其他使用寡核苷酸微阵列对DNA拷贝数进行高分辨率分析。基因组研究。2004;14:287–295. [PMC免费文章][公共医学][谷歌学者]
Carvalho B、Bengtsson H、Speed TP、Irizarry RA。高密度寡核苷酸SNP阵列数据的探索、标准化和基因型调用。生物统计学。2007;8:485–499.[公共医学][谷歌学者]
Colella S、Yau C、Taylor JM、Mirza G、Butler H、Clouston P、Bassett AS、Seller A、Holmes CC、Ragoussis J.QuantiSNP：一种客观的Bayes-hidden-Markov模型，用于使用SNP基因分型数据检测和准确绘制拷贝数变化。核酸研究。2007;35:2013–2025. [PMC免费文章][公共医学][谷歌学者]
Fridlyand J，Snijders A，Pinkel D，Albertson D，Jain A.阵列CGH数据分析的隐马尔可夫模型方法。多元分析杂志。2004;90:132–153. [谷歌学者]
Giannoulatou E，Yau C，Colella S，Ragoussis J，Holmes CC。GenoSNP：一种不需要参考群体的样本内SNP基因分型算法。生物信息学。2008;24:2209–2214.[公共医学][谷歌学者]
Howarth KD、Blood KA、Ng BL、Beavis JC、Chua Y、Cooke SL、Raby S、Ichimura K、Collins VP、Carter NP和其他阵列绘画揭示了乳腺癌细胞系中破坏癌症相关基因的高频率平衡易位。致癌物。2008;27:3345–3359. [PMC免费文章][公共医学][谷歌学者]
Hua J，Craig DW，Brun M，Webster J，Zismann V，Tembe W，Joshipura K，Huentelman MJ，Dougherty ER，Stephan DA。SNiPer-HD：通过高密度SNP阵列的期望最大化算法提高基因型调用准确性。生物信息学。2007;23:57–63.[公共医学][谷歌学者]
黄J、魏伟、陈杰、张杰、刘G、狄X、梅R、石川S、阿布拉塔尼H、琼斯KW和其他CARAT：一种使用高密度寡核苷酸阵列检测DNA拷贝数变化等位基因的新方法。BMC生物信息学。2007;7：83。 [PMC免费文章][公共医学][谷歌学者]
Korn JM、Kuruvilla FG、Mccarroll SA、Wysoker A、Nemesh J、Cawley S、Hubbell E、Veitch J、Collins PJ、Darvishi K和其他SNP、常见拷贝数多态性和罕见CNV的综合基因型调用和关联分析。自然遗传学。2008;40:1253–1260. [PMC免费文章][公共医学][谷歌学者]
Laframboise T，Harrington D，Weir BA。PLASQ：一种基于广义线性模型的程序，用于根据SNP阵列数据确定癌细胞中的等位基因剂量。生物统计学。2006;8:323–336.[公共医学][谷歌学者]
Laframboise T、Weir BA、Zhao X、Beroukhim R、Li C、Harrington D、Sellers WR、Meyerson M.通过SNP阵列分析揭示癌症中的等位基因特异性扩增。《公共科学图书馆·计算生物学》。20051，e65。[PMC免费文章][公共医学][谷歌学者]
Lamy P，Andersen CL，Dyrskjot L，Torring N，Wiuf C.使用affymetrix SNP阵列估计癌症人群混合和等位基因拷贝数的隐马尔可夫模型。BMC生物信息学。2007;8:434. [PMC免费文章][公共医学][谷歌学者]
Lamy P、Andersen CL、Wikman FP、Wiuf C.非对称性单核苷酸多态性阵列的基因分型和注释。核酸研究。200634，e100。[PMC免费文章][公共医学][谷歌学者]
Li C、Beroukhim R、Weir BA、Winkler W、Garraway LA、Sellers WR、Meyerson M。使用SNP阵列对肿瘤样本进行主拷贝比例分析。BMC生物信息学。2008;9:204. [PMC免费文章][公共医学][谷歌学者]
Li Y，Zhu J.使用融合分位数回归分析癌症研究的阵列CGH数据。生物信息学。2007;23:2470–2476.[公共医学][谷歌学者]
Marioni JC、Thorne NP、Valsesia A、Fitzgerald T、Redon R、Fiegler H、Andrews TD、Stranger BE、Lynch AG、Dermitzakis ET和其他破浪：改进基于微阵列的比较基因组杂交的拷贝数变异检测。基因组生物学。2007;8：R228。 [PMC免费文章][公共医学][谷歌学者]
Mccarroll SA、Hadnott TN、Perry GH、Sabeti PC、Zody MC、Barrett JC、Dallaire S、Gabriel SB、Lee C、Daly MJ和其他人类基因组中常见的缺失多态性。自然遗传学。2006;38:86–92.[公共医学][谷歌学者]
Olshen AB，Venkatraman ES，Lucito R，Wigler M.用于分析基于阵列的DNA拷贝数数据的循环二进制分割。生物统计学。2004;5:557–572.[公共医学][谷歌学者]
Peiffer DA、Le JM、Steemers FJ、Chang W、Jennies T、Garcia F、Haden K、Li J、Shaw CA、Belmont J和其他使用infinium全基因组基因分型对染色体畸变进行高分辨率基因组分析。基因组研究。2007;16：1136–1148。 [PMC免费文章][公共医学][谷歌学者]
Rabbee N，速度TP。affymetrix SNP阵列的基因型调用算法。生物信息学。2006;22:7–12.[公共医学][谷歌学者]
Rabiner LR。语音识别中隐藏马尔可夫模型和选定应用的教程。IEEE会议记录。1989;77:257–286. [谷歌学者]
Rajagopalan H，Lengaue C.非整倍体与癌症。自然。2004;432:338–341.[公共医学][谷歌学者]
Rueda OM，Díaz-uriarte R.灵活准确地检测aCGH的基因组拷贝数变化。《公共科学图书馆·计算生物学》。20073，e122。[PMC免费文章][公共医学][谷歌学者]
Scharpf RB，Parmigiani G，Pevsner J，Ruczinski I.使用高通量SNP阵列评估染色体改变的隐马尔可夫模型。应用统计学年鉴。2008;2:687–713. [PMC免费文章][公共医学][谷歌学者]
Shah SP、Xuan X、Deleeuw RJ、Khojasteh M、Lam WL、Ng R、Murphy KP。使用稳健HMM将拷贝数多态性整合到阵列CGH分析中。生物信息学。2006;22：e431–e439。[公共医学][谷歌学者]
Stjernqvist S，Ryden T，Skold M，Staaf J.阵列CGH拷贝数数据的连续诱导隐马尔可夫模型。生物信息学。2007;23:1006–1014.[公共医学][谷歌学者]
Wang K，Li M，Hadley D，Liu R，Glessner J，Grant SFA，Hakonarson H，Bucan M.PennCNV：一种用于全基因组SNP基因分型数据中高分辨率拷贝数变异检测的集成隐马尔可夫模型。基因组研究。2007;17:1665–1674. [PMC免费文章][公共医学][谷歌学者]
Wang W、Carvalho B、Miller ND、Pevsner J、Chakravarti A、Irizarry RA。使用等位基因特异性混合模型估计全基因组拷贝数。计算生物学杂志。2008;15:857–866. [PMC免费文章][公共医学][谷歌学者]
Wang Y、Moorhead M、Karlin-neumann G、Wang N、Ireland J、Lin S、Chen C、Heiser L、Chin K、Esserman L和其他分子反转探针（MIP）在等位基因拷贝数测定中的性能。基因组生物学。2007;8：R246。 [PMC免费文章][公共医学][谷歌学者]
Weir BA、Woo MS、Getz G、Perner S、Ding L、Beroukhim R、Lin WM、马萨诸塞州Kraja A、Johnson LA和其他描述肺腺癌中癌症基因组的特征。自然。2007;450:893–898. [PMC免费文章][公共医学][谷歌学者]
威康信托病例控制联盟（WTCCC）对7种常见疾病的14000例病例和3000个共享对照进行全基因组关联研究。自然。2007;447:661–678. [PMC免费文章][公共医学][谷歌学者]
Xiao Y，Segal MR，Yang YH，Yeh R.用于非对称性SNP微阵列的多阵列多SNP基因分型算法。生物信息学。2007;23:1459–1467.[公共医学][谷歌学者]
Xing B，Greenwood CMT，Bull SB.估算拷贝数变化的层次聚类方法。生物统计学。2007;8：632–653。[公共医学][谷歌学者]

文章来自生物统计（英国牛津）由以下人员提供牛津大学出版社