Global variation in copy number in the human genome

Richard Redon; Shumpei Ishikawa; Karen R. Fitch; Lars Feuk; George H. Perry; T. Daniel Andrews; Heike Fiegler; Michael H. Shapero; Andrew R. Carson; Wenwei Chen; Eun Kyung Cho; Stephanie Dallaire; Jennifer L. Freeman; Juan R. Gonzalez; Monica Gratacos; Jing Huang; Dimitrios Kalaitzopoulos; Daisuke Komura; Jeffrey R. MacDonald; Christian R. Marshall; Rui Mei; Lyndal Montgomery; Kunihiro Nishimura; Kohji Okamura; Fan Shen; Martin J. Somerville; Joelle Tchinda; Armand Valsesia; Cara Woodwark; Fengtang Yang; Junjun Zhang; Tatiana Zerjal; Jane Zhang; Lluis Armengol; Donald F. Conrad; Xavier Estivill; Chris Tyler-Smith; Nigel P. Carter; Hiroyuki Aburatani; Charles Lee; Keith W. Jones; Stephen W. Scherer; Matthew E. Hurles

doi:10.1038/nature05329

自然。作者手稿；PMC 2009年4月17日发布。

以最终编辑形式发布为：

自然。2006年11月23日；444(7118): 444–454.

数字对象标识：10.1038/性质05329

预防性维修识别码：PMC2669898型

EMSID:英国MS4526

PMID：17122850

人类基因组拷贝数的全球变异

理查德·雷登，^1,^# 石川慎培，^2,^# 凯伦·菲奇，^三，^# 拉尔斯·费克，^4,^5,^# 乔治·H·佩里，^6,^# T.丹尼尔·安德鲁斯，¹ 海克·菲格勒，¹ 迈克尔·H·沙佩罗，^三安德鲁·卡森，^4,⁵ 陈文伟（Wenwei Chen），^三尹京周，⁶ 斯蒂芬妮·达尔莱尔，⁶ 詹妮弗·弗里曼，⁶ 胡安·冈萨雷斯，⁷ 莫妮卡·格拉塔科斯，⁷ Jing Huang（黄晶），^三迪米特里奥斯·卡拉伊佐普洛斯，¹ 高村大辅，⁸ 杰弗里·麦克唐纳，⁴ 克里斯蒂安·马歇尔，^4,⁵ 瑞梅，^三林达尔·蒙哥马利，¹ 西村邦弘，² 冈村康治，^4,⁵ 范申，^三马丁·萨默维尔，⁹ 乔尔·钦达，⁶ 阿尔曼·瓦尔塞西亚，¹ 卡拉·伍德沃克，¹ 杨凤堂，¹ 张俊君，⁴ 塔蒂亚娜·泽加尔，¹ 简·张，^三路易斯·阿蒙戈尔，⁷ 唐纳德·康拉德，¹⁰ 泽维尔·埃斯蒂维尔，^7,¹¹ 克里斯·泰勒-史密斯，^1,^* 奈杰尔·卡特，^1,^* Hiroyuki Aburatani（阿布拉塔尼），^2,^12,^* 查尔斯·李，^6,^13,^* 基思·琼斯，^三，^* 斯蒂芬·舍勒，^4,^5,^*和马修·E·赫尔斯^1,^*

理查德·雷登

¹Wellcome Trust Sanger Institute，Wellcome-Trust Genome Campus，剑桥，CB10 1SA，英国

查找文章依据理查德·雷登

石川慎培

²日本东京大学先进科学与技术研究中心基因组科学，地址：4-6-1 Komaba，Meguro，Tokyo 153-8904

查找文章依据石川慎培

凯伦·菲奇

^三Affymetrix公司，美国加利福尼亚州圣克拉拉

查找文章依据凯伦·菲奇

拉尔斯·费克

⁴应用基因组学中心以及遗传学和基因组生物学项目，患病儿童医院，马拉斯中心-东塔，101 College Street，Rm。加拿大安大略省多伦多市14-701，M5G 1L7

⁵多伦多大学分子和医学遗传学系

查找文章依据拉尔斯·费克

乔治·H·佩里

⁶美国马萨诸塞州波士顿市百翰女子医院病理科02115

查找文章依据乔治·H·佩里

T.丹尼尔·安德鲁斯

¹Wellcome Trust Sanger Institute，Wellcome-Trust Genome Campus，剑桥，CB10 1SA，英国

查找文章依据T.丹尼尔·安德鲁斯

海克·菲格勒

¹Wellcome Trust Sanger Institute，Wellcome-Trust Genome Campus，剑桥，CB10 1SA，英国

查找文章依据海克·菲格勒

迈克尔·H·沙佩罗

^三Affymetrix公司，美国加利福尼亚州圣克拉拉

查找文章依据迈克尔·H·沙佩罗

安德鲁·卡森

⁴应用基因组学中心和遗传与基因组生物学项目，病童医院，MaRS中心-东塔，101 College Street，Rm。加拿大安大略省多伦多市14-701，M5G 1L7

⁵多伦多大学分子和医学遗传学系

查找文章依据安德鲁·卡森

陈文伟（Wenwei Chen）

^三Affymetrix公司，美国加利福尼亚州圣克拉拉

查找文章依据陈文伟（Wenwei Chen）

恩敬秋（Eun Kyung Cho）

⁶美国马萨诸塞州波士顿市百翰女子医院病理科02115

查找文章依据恩敬秋（Eun Kyung Cho）

斯蒂芬妮·达尔莱尔

⁶美国马萨诸塞州波士顿市百翰女子医院病理科02115

查找文章依据斯蒂芬妮·达尔莱尔

詹妮弗·弗里曼

⁶美国马萨诸塞州波士顿市百翰女子医院病理科02115

查找文章依据詹妮弗·弗里曼

胡安·冈萨雷斯

⁷基因与疾病计划，以及西班牙加泰罗尼亚巴塞罗那基因组调控中心巴塞罗那CeGen单位

查找文章依据胡安·冈萨雷斯

莫妮卡·格拉塔科斯

⁷基因和疾病计划，以及西班牙加泰罗尼亚巴塞罗那基因组调控中心巴塞罗那CeGen单位

查找文章依据莫妮卡·格拉塔科斯

Jing Huang（黄晶）

^三Affymetrix公司，美国加利福尼亚州圣克拉拉

查找文章依据Jing Huang（黄晶）

迪米特里奥斯·卡莱佐普洛斯

¹Wellcome Trust Sanger Institute，Wellcome-Trust Genome Campus，剑桥，CB10 1SA，英国

查找文章依据迪米特里奥斯·卡拉伊佐普洛斯

高村大辅

⁸可靠和高性能计算，东京大学先进科学技术研究中心，4-6-1 Komaba，Meguro，Tokyo 153-8904 Japan

查找文章依据高村大辅

杰弗里·麦克唐纳

⁴应用基因组学中心和遗传与基因组生物学项目，病童医院，MaRS中心-东塔，101 College Street，Rm。加拿大安大略省多伦多市14-701，M5G 1L7

查找文章依据杰弗里·麦克唐纳

克里斯蒂安·马歇尔

⁴应用基因组学中心和遗传与基因组生物学项目，病童医院，MaRS中心-东塔，101 College Street，Rm。加拿大安大略省多伦多市14-701，M5G 1L7

⁵多伦多大学分子和医学遗传学系

查找文章依据克里斯蒂安·马歇尔

芮梅

^三Affymetrix公司，美国加利福尼亚州圣克拉拉

查找文章依据芮梅

林达尔·蒙哥马利

¹Wellcome Trust Sanger Institute，Wellcome-Trust Genome Campus，剑桥，CB10 1SA，英国

查找文章依据林达尔·蒙哥马利

西村邦弘

²日本东京大学先进科学与技术研究中心基因组科学，地址：4-6-1 Komaba，Meguro，Tokyo 153-8904

查找文章依据西村邦弘

冈村康治

⁴应用基因组学中心和遗传与基因组生物学项目，病童医院，MaRS中心-东塔，101 College Street，Rm。加拿大安大略省多伦多市14-701，M5G 1L7

⁵多伦多大学分子和医学遗传学系

查找文章依据冈村康治

范申

^三Affymetrix公司，美国加利福尼亚州圣克拉拉

查找文章依据范申

马丁·J·萨默维尔

⁹加拿大埃德蒙顿阿尔伯塔大学医学遗传学和儿科系

查找文章依据马丁·萨默维尔

乔尔·钦达

⁶美国马萨诸塞州波士顿市百翰女子医院病理科02115

查找文章依据乔尔·钦达

阿曼德·瓦尔塞斯

¹Wellcome Trust Sanger Institute，Wellcome-Trust Genome Campus，剑桥，CB10 1SA，英国

查找文章依据阿尔曼·瓦尔塞西亚

卡拉·伍德沃克

¹Wellcome Trust Sanger Institute，Wellcome-Trust Genome Campus，剑桥，CB10 1SA，英国

查找文章依据卡拉·伍德沃克

杨凤堂

¹Wellcome Trust Sanger Institute，Wellcome-Trust Genome Campus，剑桥，CB10 1SA，英国

查找文章依据杨凤堂

张俊军

⁴应用基因组学中心和遗传与基因组生物学项目，病童医院，MaRS中心-东塔，101 College Street，Rm。加拿大安大略省多伦多市14-701，M5G 1L7

查找文章依据张俊君

塔蒂亚娜·泽加尔

¹Wellcome Trust Sanger Institute，Wellcome-Trust Genome Campus，剑桥，CB10 1SA，英国

查找文章依据塔蒂亚娜·泽加尔

简·张

^三Affymetrix公司，美国加利福尼亚州圣克拉拉

查找文章依据简·张

路易斯·阿蒙戈尔

⁷基因和疾病计划，以及西班牙加泰罗尼亚巴塞罗那基因组调控中心巴塞罗那CeGen单位

查找文章依据路易斯·阿蒙戈尔

唐纳德·康拉德

¹⁰美国伊利诺伊州芝加哥市东58街920号芝加哥大学人类遗传学系

查找文章依据唐纳德·康拉德

泽维尔·埃斯蒂维尔

⁷基因和疾病计划，以及西班牙加泰罗尼亚巴塞罗那基因组调控中心巴塞罗那CeGen单位

¹¹西班牙加泰罗尼亚巴塞罗那蓬佩法布拉大学生命与健康科学系

查找文章依据泽维尔·埃斯蒂维尔

克里斯·泰勒-史密斯

¹Wellcome Trust Sanger Institute，Wellcome-Trust Genome Campus，剑桥，CB10 1SA，英国

查找文章依据克里斯·泰勒-史密斯

奈杰尔·卡特

¹Wellcome Trust Sanger Institute，Wellcome-Trust Genome Campus，剑桥，CB10 1SA，英国

查找文章依据奈杰尔·卡特

Hiroyuki Aburatani（阿布拉塔尼）

²日本东京大学先进科学与技术研究中心基因组科学，地址：4-6-1 Komaba，Meguro，Tokyo 153-8904

¹²日本科学技术署川口，斋玉，332-0012，日本

查找文章依据Hiroyuki Aburatani（阿布拉塔尼）

查尔斯·李

⁶美国马萨诸塞州波士顿布莱根妇女医院病理科02115

¹³美国马萨诸塞州波士顿哈佛医学院02115

查找文章依据查尔斯·李

基思·琼斯

^三Affymetrix公司，美国加利福尼亚州圣克拉拉

查找文章依据基思·琼斯

斯蒂芬·舍勒

⁴应用基因组学中心和遗传与基因组生物学项目，病童医院，MaRS中心-东塔，101 College Street，Rm。加拿大安大略省多伦多市14-701，M5G 1L7

⁵多伦多大学分子和医学遗传学系

查找文章依据斯蒂芬·舍勒

马修·E·赫尔斯

¹Wellcome Trust Sanger Institute，Wellcome-Trust Genome Campus，剑桥，CB10 1SA，英国

查找文章依据马修·E·赫尔斯

作者信息版权和许可信息 PMC免责声明

关联数据

补充资料: 补充文件列表。
NIHMS4526增补-S_指南.doc（2500）
指南：218211FB-5C58-4640-AE87-05109D75D211
补充方法。
NIHMS4526补充S方法.pdf（61K）
GUID:F1F1FECB-047F-4E61-A8A0-3EB116E72E27
补充图。
NIHMS4526补充S图.pdf（530万）
GUID:CBEAA3B2-5F24-4E7A-8D84-7E7129C79712
补充表1-8；11-21.
美国国立卫生研究院第4526号增补表.pdf（150万）
GUID:944EB345-0D52-4FAC-BBA4-F74FD4045701
补充表9。
NIHMS4526增补-S_Table9.xls（190万）
GUID:F4576301-2424-4D50-80D1-FBA1176B0EFB
补充表10。
NIHMS4526增补-S_表10.xls（130万）
GUID:804AF114-02AE-4B49-8814-01AD4195E408
补充说明1–传播等位基因缺失分析。
NIHMS4526增补-S_LTA.pdf（437000）
GUID:282AA8DB-5D1D-400E-ABB1-D2302FFE46B7
补充说明2-1q21复制/删除障碍。
NIHMS4526增补-S_MedGen.pdf（141K）
GUID:63B3CDDE-480C-4682-8BF6-19DFF43E8E63
补充参考。
NIHMS4526增补-S_ref.pdf（1.9万）
GUID:42320297-86E8-4B43-A06C-3CA8D26FF622

摘要

DNA序列的拷贝数变异（CNV）具有重要的功能，但尚未完全确定。通过对来自欧洲、非洲或亚洲四个祖先群体的270名个体的研究，我们构建了人类基因组的第一代CNV图谱（HapMap集合）。使用两种互补技术对这些个体的DNA进行CNV筛查：单核苷酸多态性（SNP）基因分型阵列和基于克隆的比较基因组杂交。在这些群体中鉴定出1447个拷贝数可变区，覆盖360个百万碱基（占基因组的12%）；这些CNV区域包含数百个基因、疾病位点、功能元件和片段重复。引人注目的是，这些CNV每个基因组包含的核苷酸含量比SNP更多，这突出了CNV在遗传多样性和进化中的重要性。获得的数据描绘了许多CNV的连锁不平衡模式，并揭示了种群间拷贝数的巨大差异。我们还展示了该资源在遗传病研究中的用途。

介绍

人类基因组中的遗传变异有多种形式，从显微镜下可见的大型染色体异常到单核苷酸变化。最近，多项研究发现，DNA片段的亚显微拷贝数变化很大，大小从千碱基（kb）到兆碱基（Mb）不等¹^-⁸.删除、插入、重复和复杂的多站点变体⁹拷贝数变异（CNV）或拷贝数多态性（CNP）统称为拷贝数变异¹⁰和其他被检查的哺乳动物¹¹我们将CNV定义为1 kb或更大的DNA片段，与参考基因组相比拷贝数可变¹⁰CNV可以是结构简单的，例如串联复制，也可以涉及基因组中多个位点同源序列的复杂获得或丢失(补充图1).

70年前，CNV与表型的早期关联被描述为酒吧中的基因黑腹果蝇被证明会导致Bar-eye表型¹²CNV通过干扰基因和改变基因剂量影响基因表达、表型变异和适应⁷^，¹³^-¹⁵，并可导致疾病，如微缺失或微重复障碍¹⁶^-¹⁸或具有复杂疾病特征的风险，如HIV-1感染和肾小球肾炎¹⁹^，²⁰.CNV通常代表其他类型突变与特定疾病密切相关的基因中的少数致病等位基因：CHARGE综合征²¹帕金森和阿尔茨海默病²²^，²³此外，CNV可以通过位置效应间接影响基因表达，容易发生有害的遗传变化，或为进化中的染色体变化提供底物¹⁰^，¹¹^，¹⁷^，²⁴.

在本研究中，我们调查了四个不同祖先群体中CNV的全基因组特征，并根据其复杂性以及拷贝是否获得或丢失将CNV分为不同类型(补充图1). 为了最大限度地利用这些数据以及将CNV与SNP整合用于遗传研究的潜力，我们使用国际单克隆抗体图DNA和细胞系收集进行了实验²⁵来自表面上健康的个体。其结果是人类基因组拷贝数变异的第一幅综合图，为基因组结构和人类疾病的研究提供了重要资源。

评估全基因组拷贝数变异的两个平台

HapMap集合由四个群体组成：30个来自尼日利亚的约鲁巴族（YRI）父母-后代三人组，30个来自美国犹他州（CEU）的欧洲血统父母-后代三人组，45个来自日本东京（JPT）的无关日本人，以及45个来自中国北京（CHB）的无关汉族人。使用EBV转化的淋巴母细胞系的基因组DNA。

使用两个技术平台评估CNV(图1)：（i）Affymetrix GeneChip®Human Mapping 500K Early Access Arrays（500K EA）杂交强度的比较分析，其中分析了474642个SNP；（ii）与全基因组TilePath（WGTP）的比较基因组杂交由26574个大插入克隆组成的阵列，占人类基因组常染色部分的93.7%²⁶.

在单独的窗口中打开

图1

两个拷贝数变化（CNV）检测平台的协议大纲

示意图显示了WGTP阵列上比较基因组杂交（CGH）的实验程序和500K EA平台上的比较强度分析（参见补充方法详细信息），用于比较两个男性基因组（NA10851和NA19007）。基因组图谱显示了日志₂这两个基因组的拷贝数之比染色体-by-染色体。500K EA数据在5探针窗口上平滑。基因组图谱下方是8号染色体的放大图，以及一个10Mb窗口，其中包含两个平台上确定的NA19007中的大量重复（用红色括号表示）。

为每个平台设置了严格的质量控制标准，并对WGTP上的82个个体和500K EA平台上的15个个体重复实验。最终数据集的质量通过日志中的标准偏差进行评估₂WGTP平台的常染色体探针比率为0.047(补充图2)，500K EA平台为0.220，这两项都是对已发布数据的改进⁸^，²⁷.

这两个数据集的不同性质要求开发不同的算法来识别CNV。本质上，这些算法将强度比的连续分布分割为拷贝数变化的离散区域。为了训练阈值参数，我们试图通过实验验证203个CNV，这些CNV在两个特征良好的基因组中以不同的置信度定义⁴^，⁵^，⁷（NA10851和NA15510）。通过在这两个平台上进行技术复制实验，我们评估了在代表数据质量谱的一组实验中，不同算法参数的CNV调用为假阳性的比例。两种算法的阈值参数均设置为每次实验的平均假阳性率低于5%（方法，补充方法和补充表1-4^26，28).

由于所有DNA均来自淋巴母细胞系，我们将体细胞人工制品（如培养诱导的重排和非整倍体）与生殖系CNV进行了区分。我们对所有可用的268个HapMap细胞系进行了核型分析(补充表5)并在WGTP和500K EA强度数据中寻找染色体异常的证据。我们鉴定了30个染色体结构异常的细胞系(补充表5和补充图3)，并从进一步分析中删除了异常染色体。染色体9、12和X似乎特别容易三体。对于具有12号染色体镶嵌三体的细胞系，我们通过array-CGH证实，该三体在同一个体的血液DNA中不明显(补充图4). 此外，我们在单核苷酸多态性三联体的SNP基因型中寻找体细胞缺失的信号。双亲基因组中的体细胞缺失表现为一组SNP，在这些SNP中，后代中的等位基因在双亲中均未发现⁵我们评估了120对三亲中的所有初步CNV呼叫，发现其中17个（4758个）位于基因组区域，这些区域包含与亲本基因组中的体细胞缺失兼容的高度显著的HapMap II期SNP基因簇(补充表5A，补充图5，补充说明). 这些假定的细胞系人工制品已从进一步分析中删除。将此分析外推到整个HapMap集合中，表明我们观察到的缺失中不到0.5%可能是体细胞人工制品。

通过其他方式评估CNV呼叫结果的质量²⁶^，²⁸.技术复制实验（10个个体重复三次）表明，CNV呼叫具有高度可复制性(补充表6)而且噪音较大的实验的特点是假阴性率较高，而不是假阳性率较高(补充图2). 在67个可以推断CNV基因型的双等位基因CNV中，研究了三人组中CNV的遗传性(图2，补充表7). 在12060个双等位基因CNV基因型中，只有约0.2%表现出孟德尔不一致，这可能反映了基因分型错误率，而不是从头开始这些地点发生的事件。对CNV亚群进行了额外的局部特异性实验验证(补充表4). 与在多个个体中发现的CNV相比，仅调用单个个体的CNV（“单个CNV”）更有可能是假阳性。我们试图验证仅在一个平台上调用的50个单一CNV（每个平台25个），以及在两个平台上都调用的14个单一CNVs。两个平台复制的所有14个单体CNV均被证实为真阳性，而在仅由一个平台调用的50个CNV中，有38个得到了类似的确认（假阳性率为24%）。通过对整个数据集的这些验证率进行外推，我们发现（见下文）的拷贝数可变区域中只有8%（24%乘以仅在一个平台上调用的单个CNV的频率）可能为假阳性。

在单独的窗口中打开

图2

4个HapMap三组中5个CNV的遗传性

面板A。WGTP日志的分布₂5个可遗传CNV的比率。日志的每个直方图₂270个HapMap个体的比率显示出三个簇，每个簇对应于双等位基因CNV的一个基因型，其中两个等位基因由断裂和完整的条带表示，代表较低和较高的拷贝数等位基因。每个直方图上方的红线表示对数₂B组中12人的比率。

面板B。四个父母-子女三人组中五个CNV的孟德尔遗传。从WGTP克隆中对单个CNV进行基因分型：green-Chr8tp-17E9；黄色——Chr1tp-31C8；蓝色-Chr5tp-22E4；红色-Chr6tp-5C12；黑色-Chr6tp-11A11。

全基因组拷贝数变异图

对于WGTP和500K EA平台，每次实验检测到的CNV平均数分别为70和24(补充表8-10). 由于比较分析的性质，每个WGTP实验在测试和参考基因组中检测到CNV，而每个500K EA实验在单个基因组中检测CNV。两个平台的CNV平均大小分别为228 kb和81 kb，平均大小为341 kb和206 kb。因此，在WGTP和500K EA平台上，单个实验中拷贝数可变的基因组平均长度分别为24 Mb和5 Mb。WGTP CNV的较大中位数部分反映了在包含大量克隆的平台上不可避免地高估了CNV边界，因为可以检测到仅包含克隆的一部分的CNV，但报告时会将其视为涉及整个克隆。

通过合并每个个体中识别的重叠CNV，我们在270个样本中描绘了一组最小的离散拷贝数可变区域（CNVR）(图3，补充表11). 我们在WGTP上鉴定了913个CNVR，在500K EA平台上鉴定了980个CNVRs，并绘制了它们的基因组分布图(图4). 这些CNVR中约有一半在多个个体中调用，43%在一个平台上识别的所有CNV在另一个平台中复制。综合这些数据，共产生1447个离散的CNVR，覆盖人类基因组的12%（~360Mb）。通过对一组区域进行局部特异性定量分析，我们验证了173（12%）个CNVR(补充表4和12). 这1447个CNVR中有少数（30%）与先前研究中确定的重叠¹^-^三^，⁵^-⁸^，²⁹结合不同类别的实验复制结果显示，在这里检测到的1447个CNVR中，有957个（66%）已经在WGTP和500K EA平台上复制，或者通过特定于位置的分析，或者在其他个体中复制，或者在之前的研究中复制(补充表12). CNV的全基因组视图表明，虽然常见的大规模CNV以异质方式分布在整个基因组中(补充图6)，没有大范围的基因组可以免于CNV(图4)对CNV敏感的染色体比例从6%到19%不等(补充图7).

在单独的窗口中打开

图3

定义拷贝数变量区域（CNVR）、拷贝数变量（CNV）和CNV结束

图中示意性地显示了四个基因座（蓝色）的五个个体中的重叠CNVs，虚线表示重叠。拷贝数可变区域（CNVR）表示重叠CNV的并集（绿色）。通过要求仅合并重叠超过阈值比例的个别特定CNV来识别独立并列拷贝数变体（黑色）。包含CNV断点的间隔（红色）是使用平台相关标准定义的(补充方法)，并包含大量重组热点⁷⁵^，⁷⁶(补充表13)这是由于片段重复的富集，其中推测的重组热点较少。

在单独的窗口中打开

图4

拷贝数可变区的基因组分布

1447个CNVR的染色体位置由象形文字两侧的线条表示。绿线表示与片段复制相关的CNVR。右行的长度表示每个CNVR的大小。左侧行的长度表示检测到CNVR的频率（270个HapMap样本中的次要调用频率）。当两个平台都识别一个CNVR时，显示两个平台的最大呼叫频率。为了清楚起见，长度和频率的动态范围进行了对数变换（参见比例尺）。所有数据均可在基因组变异数据库中查看(http://projects.tcag.ca/variation网站/).

参考人类基因组组装中的缺口与CNVs相关的可能性极高；在构建35组件的345个间隙中，48%（164/345）位于CNVR的侧面或重叠。这一发现突出了在结构动态区域生成参考序列的复杂性，并强调了对这些基因组区域进行持续表征的必要性。

比较两个平台上确定的CNVR可以发现，WGTP和500K EA平台在很大程度上是相辅相成的。500K EA平台更适合检测较小的CNV(补充图8)而WGTP平台在检测重复基因组区域中的CNV方面具有更大的能力(补充表13)其中500K EA覆盖率较差³⁰.

一些CNVR包含两个或多个独立并列的CNV。例如，在一个个体中发现的一个小的缺失与另一个个体的大得多的重复重叠，合并成一个单独的CNVR，尽管这些代表不同的事件。为了描述独立的CNV（CNV“事件”），我们应用了更严格的合并标准来分离并列的CNV(图3)，并在WGTP和500K EA平台上分别确定了1116和1203个CNV(图5和补充表11). 我们将这些CNV分为五种类型：（i）缺失，（ii）重复，（ii。由于这些比较数据的固有相对性，无法明确确定大多数CNV的祖先状态，因此也无法确定它们是删除还是复制。这里我们采用了假设次要等位基因是衍生等位基因的惯例³¹因此，缺失具有低拷贝数的次要等位基因，重复具有高拷贝数的较小等位基因。在WGTP平台上发现了大约相等数量的删除和重复，而在500K EA平台上，删除数量大约比重复数量多2:1。此外，在500K EA平台上鉴定出33个纯合缺失（相对于参考序列），并通过位点特异性分析进行了实验验证(补充表14). 其中大多数（27/33）在之前的全基因组缺失调查中没有观察到⁷.

在单独的窗口中打开

图5

拷贝数变体的类别

从WGTP和500K EA平台识别的CNV可以根据日志的人口分布进行分类₂比率（以WGTP数据为例）分为五种不同类型（见正文）。如果代表不同基因型的簇足够不同，则可以对双等位基因CNV（缺失和重复）进行基因分型。给出了WGTP和500K EA平台上识别的每类CNV的数量，以及重叠片段重复的CNV的比例。在500K EA和WGTP平台上，CNVRs重叠片段重复的总比例分别为20%和34%。

为了研究CNV的形成机制，我们研究了CNV位点的序列背景。非等位同源重组（NAHR）可以通过高度相似重复序列之间的重组产生重排³²^，³³节段重复被定义为参考基因组组装中的序列与另一个基因组位置在>1kb上共享>90%的序列相似性³⁴^，³⁵我们发现1447个CNVR中有24%与节段性重复相关，显著增加（p<0.05）。这种关联源于两个因素：（i）NAHR产生的重排和（ii）并非所有带注释的片段重复在人类中都是固定的，但实际上是CNV。后一点强调了基于单个基因组序列（尽管来自多个个体）定义片段重复的本质任意性。

CNV与片段复制相关的可能性取决于其长度和分类：多等位基因CNV、复杂CNV和同时发生缺失和复制的位点显著丰富了片段复制(图5，补充图9). 考虑到NAHR在产生复杂结构变化中所起的作用，这并不奇怪³⁶，大小不同的串联复制阵列³⁷以及相互删除和复制³⁸.

染色体内重复与CNV相关的片段重复的可能性大于染色体间重复，并且与其重复拷贝的序列相似性增加高度相关(补充图10). 众所周知，NAHR主要作用于细胞内片段复制，并要求复制副本之间97-100%的序列相似性³³^，³⁹.

NAHR在基因组重复区域中产生CNV的这一作用得到了可能包含CNV断点的间隔内片段重复的富集的支持(图3). 我们从500K EA平台和WGTP平台中分别鉴定出88个CNV和53个CNV，其中包含一对片段重复，两端各一个。这些成对的片段重复偏向于高（>97%）序列相似性，并且与最长的CNV更频繁相关(补充图11). 除了片段重复之外，还有其他类型的序列同源性可以促进NAHR，例如分散的重复元件，例如铝元素⁴⁰。我们对所有类型的序列同源性进行了详尽的搜索⁴¹并从500K EA平台和WGTP平台上分别鉴定出121个CNV和223个CNV，其中CNV两端之间的完美序列恒等式长度超过100bp。

CNV的基因组影响

已知缺失偏向于基因⁵，作为选择的结果。相反，人们对复制的选择性压力知之甚少；基因家族的存在证明了在长期进化过程中，正选择作用于某些基因重复⁴²我们确定了属于CNVR的不同类别的功能序列，并测试了这些CNVR中的功能序列是否显著丰富或贫乏(表1，补充表13，补充方法).

表1

拷贝数可变区域（CNVR）内的功能序列

通过随机排列常染色体CNVR的基因组位置来评估CNVRs中功能序列丰富或缺乏的统计意义(补充方法). 重要观察结果以粗体显示。注意，两个保守的非编码元素（CNC）⁷⁷并且CNVR偏向于远离基因，因此CNVR中CNC的富集并不意外。

功能顺序	WGTP净现值	50万EA CNVR	合并的CNVR
RefSeq基因	2,561	1,140 ^**	2909个 ^**
OMIM基因	251	112 ^**	285
超保守元素	48 ^**	16 ^**	50 ^**
保守的非编码元素	111,295 ^*	81,517 ^*	130,352 ^*
非编码RNA	57	29 ^**	67

在单独的窗口中打开

^*显著富集（p<0.05）

^**显著（p<0.05）贫困

无法精确定义CNVR的断点；因此，其中一些功能序列可能侧翼而不是被CNVR包围。我们观察到所有功能序列的显著缺失（除了保守的非编码序列⁴³)在500K EA平台上检测到的CNVR中，提供了最高分辨率的断点映射(表1). 因此，CNV优先位于基因和人类基因组中的超保守元素（UCE）之外⁴⁴。我们试图通过实验验证包含12个UCE的11个CNV。除了两个CNV之外，所有CNV都经过验证，但实际上只有两个UCE属于这些CNV(补充表13B)因此，UCEs针对CNV的选择可能比这项分析显示的还要强烈。然而，包括已知疾病相关基因在内的数千个假定功能序列位于这些CNV的侧面或内部：1447个CNVR中超过一半（58%）与已知RefSeq基因重叠，99%以上与保守的非编码序列重叠⁴³.

我们研究了缺失或重复是否同样可能包含这些不同类别的功能序列。我们观察到，与疾病相关基因OMIM数据库（p=0.017，chi-squared）和RefSeq基因（p=1.7×10⁻⁹). 因此，在重复方面，缺失偏向于远离基因。UCE也有同样的趋势，但其数量太少，无法提供统计意义。

如果缺失受到比复制更强的净化选择（从人群中去除有害变体）⁸^，⁴⁵那么，平均而言，删除的频率应该低于重复。虽然平均而言，缺失几乎比重复短三倍（43kb vs.500K EA中的120kb），但我们检测到缺失和重复被调用的频率没有显著差异（使用G-test进行独立性检验，p>0.05）⁴⁶WGTP数据）。我们注意到，如果长重复出现的频率高于长删除，那么我们的长度分析可能会混淆，而如果拷贝数的相对变化较小（3:2 vs.2:1），导致检测重复的能力较低，则我们的频率分析可能会混乱。

我们使用基因本体（GO）数据库确定了CNV中富集的基因的功能类别(补充表15). 在1447个CNVRs重叠的基因中，GO类别最丰富的是细胞粘附。其他高度丰富的类别包括对气味和化学刺激的感官感知。有趣的是，神经生理学过程也是一个高度丰富的GO类别。CNVRs中最丰富的GO类别与之前CNV基因分析中确定的类别有明显重叠¹⁴已知在片段重复中发现的基因在GO类别方面存在偏见³⁴然而，在与节段性复制无关的CNVRs中也观察到细胞粘附基因的富集。我们还研究了CNV中的功能类别，因为这些功能类别可能揭示了更可能对剂量敏感的基因类别。我们注意到，与细胞信号传导、细胞增殖和许多激酶和磷酸化相关类别相关的GO类别越来越少。CNVs中这些基因功能的贫乏很可能反映了对发育至关重要的细胞信号分子的拷贝数改变和对剂量敏感的致癌基因或肿瘤抑制基因的纯化选择⁴⁷这可能导致早期肿瘤发生。

医学相关性的拷贝数变化

在缺乏HapMap供体的表型信息的情况下，我们的数据与突出基因组中需要在疾病研究中考虑的可变区域最为相关，而不是直接应用于临床诊断。

我们发现OMIM病态图谱中的286/1961（15.6%）基因与CNV重叠(补充表16). 我们观察到许多可能与孟德尔病和复杂疾病相关的例子。例如，涉及DiGeorge和Williams-Beuren综合征等基因组疾病（导致33种不同疾病）的25个基因座中的12个的断点区域³⁹被发现具有高度多态性(补充表17). 在DiGeorge、Smith Magenis、Williams Beuren、Prader Willi和Angelman综合征中通常被删除的区域内也发现了CNVs，这可能与识别不典型或非典型病例有关。正如预期的那样，我们还在脊髓肌萎缩症和肾病基因座发现了CNV，因为这些疾病本质上是隐性的，具有相对较高的载波频率³³最后，发现39个CNV位于36个染色体臂末端的500 kb范围内，这与评估疾病中的亚端粒重排有关。

我们发现已知的CNV与复杂性状有关，包括CCL3L1级和FCGR3B公司^19，20。还记录了一些新的观察结果。两个CEU样本（母亲和后代）表现出CNV-95的增加，涉及磁盘1在精神分裂症中被破坏⁴⁸CNV-575包含LPA载脂蛋白A基因，显示了人群变异性，这可能影响动脉粥样硬化的易感性。这个CRYBB2-CRYBB3型在CEU和YRI样品中观察到CNV-1367中的β-晶体蛋白基因作为增益和损耗。然而，仅在亚洲人中检测到增加，这使我们推测晶体蛋白拷贝数的变化可能与年龄相关性白内障发病的人群差异有关⁴⁹根据类似的理论基础，我们强调CNV-507可能参与结节病，因为它接近结节病BTLN2型基因⁵⁰和CNV-505在银屑病易感性中的作用，因为它涵盖6p21.3-PSORS1型–易感性位点⁵¹.

我们还强调了解决复杂CNV区域中基因型-表型相关性的挑战，以及CNV检测如何描绘不稳定的基因组区域（详见补充说明包括补充图12). 我们确定了先天性心脏缺陷和晶状体异常患者⁵²共享包含相关候选基因的1q21.1的1Mb缺失或重复区域。在其他智力迟钝的病例中观察到相同间隔的重复²⁹先证者可以从未受影响的父母那里继承疾病相关的重排，这强调了由于剂量效应导致的某些疾病的可变外显率⁵³^，⁵⁴我们发现，该基因座高度重复，多态性倒置，包含装配间隙，两侧是可变拷贝数的片段重复，所有特征在人类基因组的CNV区域中越来越多地被观察到。

CNV在SNP基因型上的印记

缺失扰乱了家系内标记基因型的模式⁵⁴这些模式突出了这种删除的位置。以缺失为特征的SNP基因型模式是：纯合子缺失中的无效基因型、家族中的孟德尔差异和群体中的Hardy-Weinberg不平衡⁵^，⁷重复同样会导致对标记基因型的误解⁵³^，⁵⁵，尽管对其对高密度SNP图的影响知之甚少。

我们基于染色体对染色体的缺失和重复来表征第一阶段HapMap SNP基因型的模式，以考虑到区域偏见，并发现大多数类型的异常SNP基因在大多数染色体上的缺失和复制都显著丰富(补充图13). 我们复制了缺失中SNP基因型的模式（如上所述），并证明重复也会显著影响SNP基因类型。重复中丰富的SNP失败谱将其与缺失区分开来(补充图13，补充表18). 最值得注意的是，表现出孟德尔不一致的SNPs在缺失中比重复更常见，而Hardy-Weinberg不平衡的SNPs和基因型缺失的SNPs则相反。

细胞系人工制品也影响SNP基因型。例如，NA12056中17p的部分缺失导致该个体的杂合子SNP基因型在17号染色体的数个百万碱基上明显不足（HapMap版本20）。

CNV周围的连锁不平衡：关联研究的意义

识别致病变异的间接方法，如家系中连锁标记的共同分离以及与致病变异连锁不平衡（LD）标记的遗传关联，被认为是对潜在突变的性质一无所知的⁵⁶这就提出了一个问题，即基于SNP的全基因组关联研究是否具有与疾病相关SNP相同的检测疾病相关CNV的能力。这个问题可以通过考虑最大成对LD（r²)特定变异体（CNV或SNP）与其相邻的任何多态性标记之间。如果相邻标记处于高LD（r²接近1）对于感兴趣的变体，该变体被相邻标记“标记”；通过了解标记处的基因型，可以高概率地预测感兴趣变体的基因型。

最近对CNV周围的LD的研究产生了相互矛盾的证据，证明CNV被邻近SNP“标记”的程度⁶^-⁸在这里，我们通过考虑CNV（不考虑其基因组位置）和分析CNV基因型，对双等位基因CNV和I期HapMap SNP的LD特性进行了平衡比较(补充表7和补充图14)频率和质量与SNP基因型相同⁵^，⁷^，²⁵（详见方法）。我们使用与第一阶段HapMap（CEU、YRI、JPT+CHB）相同的三个分析面板，对65个左右的双等位基因CNV进行成对LD量化。比较相邻SNP“标记”的变异体与任意阈值r的比例²>0.8表明，尽管在非非洲人群中75-80%的第一阶段SNP被标记，但在相同人群中只有51%的CNV被标记(图6A和补充表19). 在YRI中，SNP和CNV都表现出较低的LD，只有22%的CNV被标记为r²>0.8.

在单独的窗口中打开

图6

CNVs和SNPs之间的连锁不平衡模式

面板A。随着成对LD（r²)对代理SNP的要求有所放宽。I期单核苷酸多态性和65个双等位基因CNV都显示了这种累积分布。

面板B。日志直方图₂显示了13个多等位基因CNV在所有HapMap个体之间的比率。最大平方皮尔逊相关系数（R²)在相邻的I期单核苷酸多态性（HapMap SNP）中观察到，该SNP与成对LD（r²)在双等位基因CNV(补充图15)-针对每个CNV给出。

对于CNV周围的明显LD低于SNP的这些观察结果，我们考虑了三种解释。首先，一些重复可能代表转座事件，会在（未知）受体基因座周围产生LD，而不是供体基因座。已知一种基因型CNV是重复转座⁵⁷，但证据来自从头开始致病性复制强烈表明，无论复制是否由NAHR引起，都倾向于串联复制，而不是分散复制⁵⁸第二，一些CNV可能会经历反复突变或逆转，特别是串联重复，这在机械上容易发生不均匀交叉，导致逆转回到单个拷贝¹²然而，与缺失相比，具有侧翼SNP的低LD中没有重复。最后，我们认为，在HapMap第一阶段，CNV可能优先出现在SNP基因型密度较低的基因组区域。我们发现，CNV富集在基因组的片段重复区域，其中由于技术困难，基因型SNP很少²⁵因此，降低双等位基因CNV周围明显LD的最强因素并不是这些CNV周围的LD必然较低，而是HapMap项目第一阶段基因型SNP对基因组结构动态区域的平均覆盖率较低。

我们研究了多等位基因CNV的拷贝数是否可以由附近的SNP可靠预测。我们将多等位基因CNV的二倍体基因组拷贝数视为一个数量性状，并询问哪些附近的SNP对该性状的预测力最强，以及这些SNP的预测力有多强。我们鉴定了13个多等位基因CNV，其中定量WGTP数据明显聚集成离散的二倍体基因组拷贝数，并使用皮尔逊相关系数（R²) (补充图15). 我们发现多等位基因CNV的二倍体拷贝数很难由相邻的SNP预测(图6B). 这可能是因为结合来自几个SNP的信息可以为预测这些位点的二倍体基因组拷贝数提供更大的能力。

拷贝数变异的群体遗传学

与其他类型的人类遗传变异相比，拷贝数变异的群体遗传学仍未被探索。拷贝数变异在不同种群内和种群间的分布是由突变、选择和人口统计学历史决定的。一系列多态性，包括SNP²⁵，微卫星⁵⁹和铝插入变量⁶⁰，已用于调查人口结构。为了证明拷贝数变异基因型在群体遗传推断中的效用，我们进行了群体聚类⁶¹67个基因型双等位基因CNV。我们在三个祖先种群的假设下获得了最优聚类，非洲、欧洲和亚洲种群有明显的差异(图7). 个体变异的群体分化通常由统计量F估计_标准时间，从0（未分化）到1（特定人群）不等⁶².平均F_标准时间相同的67个常染色体CNV为0.11，与所有常染色体I期HapMap单核苷酸多态性的观察结果非常相似（0.13）²⁵.

在单独的窗口中打开

图7

CNV基因型的群体聚类

三角形图显示了假设三个祖先种群（k=3）的210个不相关的HapMap个体的聚类。一个个体与三角形每个顶点的接近程度表明了该基因组在三个推断的祖先种群中的比例。来自同一种群的大多数个体在一个共同的顶点附近聚集在一起，表明通过该分析获得的种群之间存在明显的差异。该聚类在质量上与之前获得的具有相似数量的双等位基因的聚类相似铝非洲、欧洲和亚洲不同人群样本的插入多态性⁶⁰.

最近的群体特异性正向选择提高了群体分化。为了探索所有CNV的种群分化，我们设计了一个统计数据，V_标准时间，它根据定量强度数据估计人口分化，范围从0到1，类似于F_标准时间(补充图16). 估算V_标准时间对于WGTP阵列上的所有克隆和500K EA阵列上的全部CNV，显示了一些异常值，这些异常值的种群分化水平暗示了种群特定的选择压力(图8和补充表20). 在这些异常值中，有两个CNV先前被证明具有较高的人群分化⁷^，¹⁹:UGT2B17型是一个编码UDP-葡萄糖醛酸转移酶的基因，在雄激素代谢和外源结合中起作用⁶³^，⁶⁴、和CCL3L1级是一个趋化因子编码的多拷贝基因，在该基因上，更多的拷贝数可以防止HIV-1感染¹⁹.

在单独的窗口中打开

图8

拷贝数变异的种群分化

按V估计的种群分化_标准时间对于三个群体中的每一个，沿着每条染色体绘制成对比较图。对于每个成对比较，V_标准时间WGTP平台上所有克隆的值以较浅的颜色显示，并带有填充圆圈，V_标准时间500K EA平台上检测到的CNV值与未填充圆圈叠加在较暗的阴影中。绘制了显示每个群体中无关个体之间log2比率分布的直方图（在WGTP平台上），其中4个CNV表现出高度的群体分化，标记为A-D。每个直方图都标记有WGTP克隆的染色体坐标，以及文本中提到的CNV的侧翼/包围基因。

并非所有最近正选择的地区都表现出较高的人口分化⁶⁵。为了检测最近可能处于阳性选择状态的其他CNV，我们确定了位于先前显示的基因组位置124/752（16%）范围内的CNVRs⁶⁶显示单倍型模式暗示部分选择性扫描(补充表21). 其中两个重叠的CNV也属于表现出最高种群分化的集合，如表3所示。这些与选择相关的CNV之一是特定于CEU的复制(图8)位于地图与一组称为“tau病”的神经退行性疾病相关的基因⁶⁷。两个地图基因和重复位于一个染色体区域内，该区域最近被证明具有复杂的进化历史，其特征是常见的染色体倒置、倒置单倍型之间的深度差异和最近欧洲人群中的正向选择⁶⁸。我们采用了用于识别SNP处部分选择性扫描的方法⁶⁶^，⁶⁹估计67个可基因型CNV两侧的相对扩展单倍型纯合性值（REHH）(补充方法). 我们没有在任何一个人群中发现任何CNV阳性选择的令人信服的信号（两侧均p<0.01），尽管一些CNV明显存在较弱的信号（p<0.05）(补充图17和补充表21).

讨论

我们的人类基因组拷贝数变异图显示了这种形式的基因组变异的普遍性和复杂性。拷贝数变异区域内和两侧所有类型的功能序列的丰富性表明，CNV对表型变异的贡献可能是显著的。拷贝数变化对基因表达变化的影响强调了这一预测（Barbara Stranger和Emmanouil Dermitzakis，个人交流）。

现在，CNV评估应成为表型变异遗传基础（包括疾病易感性）所有研究设计的标准。同样重要的是CNV注释在所有未来的基因组装配中。由于无法区分正常变异和致病变异，导致严重散发性疾病的CNVs的鉴定受到阻碍。我们的CNV地图，与DECIPHER一起(http://www.sanger.ac.uk/PostGenomics/decipher/)该项目共享罕见、严重表型患者的拷贝数信息，应该会推动这一领域的进展。对于孟德尔遗传病，我们的数据包含许多已知的和候选的隐性疾病等位基因，现有的连锁数据可用于优先选择CNV进行进一步研究。

遗传关联研究是识别具有复杂遗传病风险的单倍型的主要策略。此类研究通常基于候选基因座或全基因组内的SNP基因分型⁵⁶我们对CNVs和SNPs之间的连锁不平衡进行的分析使我们对CNV影响复杂疾病风险将通过此类方法进行检测感到有限的乐观。我们已确定的标记SNP(补充表19)对于特定CNV，可以用作这些CNV的代理。此外，对于tag-SNP不易识别但与候选基因接近的CNV，可以开发CNV特异性基因分型分析。最后，我们看到了从定量SNP基因分型数据中挖掘CNV信息的巨大优势，以及通过以不可标记的CNV为目标来丰富未来几代全基因组SNP基因型平台的巨大优势。

任何地图的整体效用都取决于其覆盖范围和完整性。根据现有数据推断，较小的缺失（<20kb）比较大的缺失（>20kb⁵，复制也可能如此。虽然我们已经生成了迄今为止所描述的最完整的CNV图，但鉴于我们检测较小CNV的能力较低，这些个体中拷贝数变异>1 kb的很大一部分仍有待描述。没有任何一种可用的技术能够捕获所有变化。较小的重排可以使用序列组装比较等技术进行检测⁷⁰，成对-end序列关系⁴，序列跟踪分析⁷¹和高分辨率平铺阵列⁵最终，需要知道每个CNV的精确染色体位置和序列内容。目前，生成这种信息需要使用多种实验方法。然而，在未来，独立组装的全基因组序列的比较可能会提供一个明确的解决方案。

我们对人类遗传变异的研究将细胞遗传学、亚显微拷贝数变异和单核苷酸多态性联系在一起，为未来的遗传研究提供了框架。这一框架需要得到参考基因组序列的不断完善和结构变异的可靠命名和数据库的支持，这两者都是通过国际合作促进的，以进一步揭示人类基因组变异的复杂性。

方法

WGTP和500K EA阵列的CNV测定

使用WGTP和500K EA平台进行CNV调用的实验方法和算法在补充方法在两份随附文件中²⁶^，²⁸.

500K EA和WGTP数据质量评估

为了估计两种平台上的假阳性和假阴性率，我们使用定量PCR对NA15510重复实验中调用的CNV进行了实验测试⁴(补充表1-4). 使用500K EA，来自该样本的CNV呼叫的平均假阳性率为2.3%（15次CNV呼叫中的0.33次），假阴性率为24%（3.3次验证的CNV未在任何一次重复中调用/38次验证的总CNV）²⁸使用WGTP，我们发现平均假阳性率为5%（68.2中的3.4），假阴性率为37.8%（154名受试者中的58名未被召回）²⁶。通过分析10个HapMap DNA（一式三份）来评估再现性(补充表6). 对于500K EA平台，平均而言，80%的CNV在所有三个重复中被调用，10%被调用两次，10%只被调用一次。对于WGTP平台，使用调用次数最少的复制作为基线，平均73%的CNV在3次实验中被调用，14%被调用两次，13%被调用一次²⁶.

群体遗传学和统计学分析

在WGTP和500K EA平台上鉴定出67个适合基因分型的非冗余双等位基因CNV。使用两种程序将强度比聚类为离散拷贝数基因型：Kmeans和Medoids周围分区（PAM）⁷²使用HaploView在65个双等位基因CNV和CNV边界500 kb范围内所有过滤的非冗余第一阶段HapMap单核苷酸多态性之间估计成对LD（r2）⁷³。使用STRUCTURE进行群体聚类⁶¹并使用F估计特定人群的CNV_标准时间⁶²和新的统计V_标准时间(补充图16). V（V）_标准时间通过考虑（V）计算_T型−伏_S公司)/V（V）_T型其中V_T型是所有无关个体之间log2比率的明显差异，V_S公司是每个种群内的平均方差，根据种群大小进行加权。用于REHH分析⁶⁹^，⁷⁴，我们将每个基因型CNV作为位于CNV末端的SNP进行处理，并使用Sweep(http://www.broad.mit.edu/mpg/sweep/resources.html). 请参见补充方法了解更多详细信息。

数据发布

来自500K EA和500K商用阵列的原始数据发布在基因表达综合网站上(网址：www.ncbi.nlm.nih.gov/geo/)，具有加入编号GSE5013标准和5 173英镑.WGTP数据发布在ArrayExpress上(网址：www.ebi.ac.uk/arrayexpress/)注册号为E-TABM-107，位于Wellcome Trust Sanger Institute(www.sanger.ac.uk/humgen/cnv/data/). CNV呼叫已在基因组变异数据库中发布(http://projects.tcag.ca/variation网站/)与所有其他CNV数据集成。

补充材料

补充文件清单

单击此处查看。^{（25K，文档）}

补充方法

单击此处查看。^{（61K，pdf格式）}

补充注释2-1q21重复/缺失障碍

单击此处查看。^{（141K，pdf格式）}

补充参考文献

单击此处查看。^{（19K，pdf）}

致谢

作者感谢克里斯汀·伯德、袁晨、马克·戴利、西亚拉·法希、安·约瑟夫·乔治·何永舒、卡霍里·博泽、胡志洲、维克拉姆·贾扬斯、科迪莉亚·朗福德、马丁·李、赵璐、刘国英、詹金·刘、平冈·梅古罗、洛伦娜·潘塔诺、塔拉·巴顿、伊茨克·佩尔桑吉夫·普雷纳耶古姆、英奇、西蒙·罗素、马克·沙乔夫斯基、玛丽·沙戈、，Kaori Shiina和Yali Xue寻求建议、共享数据、技术援助或生物信息学支持。疾病儿童医院的应用基因组学中心和Wellcome Trust Sanger Institute的微阵列设施分别获得了数据库支持和阵列打印的认可。作者感谢詹姆斯·卢普西（James R.Lupski）和乔纳森·普里查德（Jonathan Pritchard）对手稿早期版本的深刻评论。该研究得到了威康信托基金会（MEH、NPC、CTS）、加拿大创新基金会和安大略创新信托基金会、加拿大卫生研究院（CIHR）、加拿大基因组/安大略基因组研究所（SWS）、麦克劳林分子医学中心（SWS，病童基金会医院（SWS）、布里格姆女子医院病理科（CL）、白血病和淋巴瘤学会（CL以及日本教育、文化、体育、科学和技术部（SI）、“信息社会大学研究部”（SGR2005-00008）（XE）以及Genoma España和Genome Canada联合R+d+i项目（XE和SWS）的优先领域“应用基因组学”科学研究，由Genoma España（XE）支持的巴塞罗那国家基因分型中心Node（CeGen）和卡洛斯研究所III（CIBER-CB06/03/0034），以及J.K.Pritchard（DC）的Packard奖学金。LF由CIHR、RR、Sanger Institute博士后奖学金和自然科学与工程研究理事会AC提供资助。SWS是CIHR的研究员和霍华德·休斯医学院的国际学者。

工具书类

1Iafrate AJ等人。人类基因组大规模变异的检测。自然遗传学。2004;36:949–51.[公共医学][谷歌学者]

2Sebat J等人。人类基因组中的大规模拷贝数多态性。科学。2004;305:525–8.[公共医学][谷歌学者]

三。Sharp AJ等。人类基因组中的片段复制和拷贝数变异。美国人类遗传学杂志。2005;77:78–88. [PMC免费文章][公共医学][谷歌学者]

4Tuzun E等。人类基因组的精细结构变异。自然遗传学。2005;37:727–732.[公共医学][谷歌学者]

5Conrad DF、Andrews TD、Carter NP、Hurles ME、Pritchard JK。人类基因组中缺失多态性的高分辨率调查。自然遗传学。2006;38:75–81.[公共医学][谷歌学者]

6Hinds DA、Kloek AP、Jen M、Chen X、Frazer KA。常见的缺失和SNPs在人类基因组中处于连锁不平衡状态。自然遗传学。2006;38:82–5.[公共医学][谷歌学者]

7McCarroll SA等。人类基因组中常见的缺失多态性。自然遗传学。2006;38:86–92.[公共医学][谷歌学者]

8Locke DP等。人类基因组重复区域内CNP的连锁不平衡和遗传性。美国人类遗传学杂志。2006;79:275–290. [PMC免费文章][公共医学][谷歌学者]

9Fredman D等人，节段基因组重复中的复杂SNP相关序列变异。自然遗传学。2004;36:861–6.[公共医学][谷歌学者]

10Feuk L、Carson AR、Scherer SW。人类基因组的结构变异。Nat Rev基因。2006;7:85–97.[公共医学][谷歌学者]

11Freeman JL等人，《拷贝数变异：基因组多样性的新见解》。基因组研究。2006;16:949–961.[公共医学][谷歌学者]

12桥梁CB。Bar“基因”：重复。科学。1936年；83:210–211.[公共医学][谷歌学者]

13Buckland PR.多态重复基因：它们与人类表型变异的相关性。医学年鉴。2003;35:308–15.[公共医学][谷歌学者]

14Nguyen DQ，Webber C，Ponting CP。人类拷贝数变体的选择偏差。公共科学图书馆-遗传学。2006;2：e20。 [PMC免费文章][公共医学][谷歌学者]

15Repping S等人。高突变率导致人类Y染色体中广泛的结构多态性。自然遗传学。2006;38:463–7.[公共医学][谷歌学者]

16Inoue K，Lupski JR。基因组疾病的分子机制。Annu Rev基因组学Hum Genet。2002年；三:199–242.[公共医学][谷歌学者]

17Lupski JR、Stankiewicz P.《基因组疾病：重排和传递表型的分子机制》。公共科学图书馆-遗传学。2005;1：e49。 [PMC免费文章][公共医学][谷歌学者]

18Shaw-Smith C等人。基于微阵列的比较基因组杂交（array-CGH）检测学习障碍/智力低下和畸形患者的亚显微染色体缺失和重复。医学遗传学杂志。2004;41:241–8. [PMC免费文章][公共医学][谷歌学者]

19Gonzalez E等。CCL3L1基因片段重复对HIV-1/AIDS易感性的影响。科学。2005;307:1434–40.[公共医学][谷歌学者]

20Aitman TJ等。Fcgr3拷贝数多态性易导致大鼠和人类肾小球肾炎。自然。2006;439:851–5.[公共医学][谷歌学者]

21Jongmans MC等人。CHARGE综合征：CHD7基因突变的表型谱。医学遗传学杂志。2006;43:306–14. [PMC免费文章][公共医学][谷歌学者]

22Singleton AB等人。α-Synuclein基因座三倍化导致帕金森氏病。科学。2003;302:841.[公共医学][谷歌学者]

23Rovelet Lecrux A等人APP基因座重复导致常染色体显性早发性阿尔茨海默病伴脑淀粉样血管病变。自然遗传学。2006;38:24–6.[公共医学][谷歌学者]

24Feuk L、Marshall CR、Wintle RF、Scherer SW。结构变异：改变染色体的景观和疾病研究的设计。人类分子遗传学。2006;15（补充1）：R57–66。[公共医学][谷歌学者]

25人类基因组的单倍型图谱。自然。2005;437：1299–320。 [PMC免费文章][公共医学][谷歌学者]

26Fiegler H等人。准确可靠的高通量检测人类基因组拷贝数变化。基因组研究。新闻界。[PMC免费文章][公共医学][谷歌学者]

27Ylstra B、van den Ijssel P、Carvalho B、Brakenhoff RH、Meijer GA、BAC走向未来！或寡核苷酸：微阵列比较基因组杂交（阵列CGH）的前景核酸研究。2006;34:445–50. [PMC免费文章][公共医学][谷歌学者]

28Komura D等人。使用高密度DNA寡核苷酸阵列对人类拷贝数变体进行全基因组检测。基因组研究。新闻界。[PMC免费文章][公共医学][谷歌学者]

29de Vries BB等人，《精神发育迟滞的诊断基因组图谱》。美国人类遗传学杂志。2005;77:606–16. [PMC免费文章][公共医学][谷歌学者]

30Wirtenberger M，Hemminki K，Chen B，Burwinkel B.用于全基因组交叉区域检测的SNP微阵列分析。人类遗传学。2005;117：389–97。[公共医学][谷歌学者]

31Marth GT、Czabarka E、Murvai J、Sherry ST。全基因组人类变异数据中的等位基因频谱揭示了三大世界人口差异人口史的信号。遗传学。2004;166:351–72. [PMC免费文章][公共医学][谷歌学者]

32Hurles M.同源重组如何产生可变基因组。人类基因组学。2005;2:179–86. [PMC免费文章][公共医学][谷歌学者]

33Stankiewicz P，Lupski JR。基因组结构、重排和基因组疾病。趋势Genet。2002年；18:74–82.[公共医学][谷歌学者]

34Bailey JA等人。人类基因组中的最新片段复制。科学。2002年；297:1003–7.[公共医学][谷歌学者]

35张杰等。人类基因组序列中片段重复和潜在装配错误的全基因组检测。基因组生物学。2003;4：R25。 [PMC免费文章][公共医学][谷歌学者]

36Aradhya S等人。涉及NEMO和LAGE2基因的35 kb重复发生多重致病性和良性基因组重排。人类分子遗传学。2001;10:2557–67.[公共医学][谷歌学者]

37Neitz M，Neitz J.正常红绿色视觉的视觉色素基因数量和比率。科学。1995;267:1013–6.[公共医学][谷歌学者]

38Chance PF等人2。17号染色体上一个区域的DNA重复/缺失导致的自体显性神经病变。人类分子遗传学。1994;三:223–228.[公共医学][谷歌学者]

39Lupski JR，Stankiewicz P，编辑。基因组疾病：疾病的基因组基础。Humana出版社；新泽西州托塔瓦：2006年。[公共医学][谷歌学者]

40Deininger PL、Batzer MA、Alu重复序列与人类疾病。分子遗传学。1999;67:183–93.[公共医学][谷歌学者]

41Kurtz S等人，《新闻记者：基因组重复分析的多种应用》。核酸研究。2001;29:4633–42. [PMC免费文章][公共医学][谷歌学者]

42Hurles M.基因复制：备件的基因组交易。《公共科学图书馆·生物》。2004;2：E206。 [PMC免费文章][公共医学][谷歌学者]

43Drake JA等。保守的非编码序列是选择性限制的，而不是突变的冷点。自然遗传学。2006;38:223–7.[公共医学][谷歌学者]

44Bejerano G等人。人类基因组中的超保守元素。科学。2004;304:1321–5.[公共医学][谷歌学者]

45Brewer C、Holloway S、Zawalnyski P、Schinzel A、FitzPatrick D。人类畸形的染色体复制图：疑似单倍体和三倍体的区域以及节段非整倍体的耐受性。美国人类遗传学杂志。1999;64：1702–8。 [PMC免费文章][公共医学][谷歌学者]

46Sokal RR、Rohlf JF。生物测定。W.H.Freeman公司；1994[谷歌学者]

47Futreal PA等人，人类癌症基因普查。Nat Rev癌症。2004;4:177–83. [PMC免费文章][公共医学][谷歌学者]

48Millar JK等。DISC1和PDE4B是精神分裂症中调节cAMP信号的相互作用遗传因子。科学。2005;310:1187–91.[公共医学][谷歌学者]

49Sasaki K、Sasaki H、Jonasson F、Kojima M、Cheng HM。应用WHO分类系统，晶状体透明度特性与年龄相关性白内障发病率的种族差异。眼科研究。2004;36:332–40.[公共医学][谷歌学者]

50Valentonyte R等。结节病与BTNL2中剪接位点的截断突变有关。自然遗传学。2005;37:357–64.[公共医学][谷歌学者]

51Orru S，Giuressi E，Carcassi C，Casula M，Contu L。主要银屑病易感性位点（PSORS1）在角质结蛋白基因（CDSN）周围70-Kb区间的定位美国人类遗传学杂志。2005;76:164–71. [PMC免费文章][公共医学][谷歌学者]

52Christiansen J等人。染色体1q21.1连续基因缺失与先天性心脏病相关。圆形Res。2004;94:1429–35.[公共医学][谷歌学者]

53Lupski JR等。与1A型夏科特-马利牙病相关的DNA复制。单元格。1991;66:219–32.[公共医学][谷歌学者]

54Chance PF等。DNA缺失与遗传性神经病相关，易患压力麻痹症。单元格。1993;72:143–51.[公共医学][谷歌学者]

55Matise TC等人。串联重复的检测和连锁分析的含义。美国人类遗传学杂志。1994;54:1110–21. [PMC免费文章][公共医学][谷歌学者]

56Hirschorn JN，Daly MJ。常见疾病和复杂性状的全基因组关联研究。Nat Rev基因。2005;6:95–108.[公共医学][谷歌学者]

57Wong Z，Royle NJ，Jeffreys AJ。一种新的人类DNA多态性，由DNA从6号染色体转移到16号染色体引起。基因组学。1990;7:222–34.[公共医学][谷歌学者]

58Woodward KJ等。Pelizaeus-Merzbacher病患者的异质性重复表明了耦合同源和非同源重组的机制。美国人类遗传学杂志。2005;77:966–87. [PMC免费文章][公共医学][谷歌学者]

59Rosenberg NA等人。人类群体的遗传结构。科学。2002年；298:2381–5.[公共医学][谷歌学者]

60Bamshad MJ等。人类群体遗传结构和群体成员推断。美国人类遗传学杂志。2003;72:578–89. [PMC免费文章][公共医学][谷歌学者]

61Pritchard JK，Stephens M，Donnelly P.利用多点基因型数据推断种群结构。遗传学。2000年；155:945–59. [PMC免费文章][公共医学][谷歌学者]

62Weir BS，Cockerham CC。人口结构分析中的F统计量估计。进化。1984;38:1358–1370.[公共医学][谷歌学者]

63Turgeon D，Carrier JS，Chouinard S，Belanger A.UGT2B17酶对外源物质的葡萄糖醛酸化活性。药物Metab处置。2003;31：670–6。[公共医学][谷歌学者]

64Wilson W，3rd，等。与UGT2B15相关的UGT2B1 7基因常见缺失多态性的特征。基因组学。2004;84:707–14.[公共医学][谷歌学者]

65Xue Y等。一种非活性形式的半胱天冬酶-12在人类中的传播是由于最近的正向选择。美国人类遗传学杂志。2006;78:659–70. [PMC免费文章][公共医学][谷歌学者]

66Voight BF、Kudaravalli S、Wen X、Pritchard JK。人类基因组中最近的正选择图谱。《公共科学图书馆·生物》。2006;4：e72。 [PMC免费文章][公共医学][谷歌学者]

67Rademakers R、Cruts M、van Broeckhoven C。τ（MAPT）在额颞叶痴呆和相关τ病中的作用。哼，变种。2004;24：277–95。[公共医学][谷歌学者]

68Stefansson H等人。欧洲人在选择中常见的倒置。自然遗传学。2005;37:129–37.[公共医学][谷歌学者]

69Sabeti PC等。从单倍型结构检测人类基因组中最近的阳性选择。自然。2002年；419:832–7.[公共医学][谷歌学者]

70Khaja R等。基因组组装比较以识别人类基因组中的结构变异。自然遗传学。提交。[PMC免费文章][公共医学][谷歌学者]

71Bennett EA、Coleman LE、Tsui C、Pittard WS、Devine SE。人类转座因子引起的自然遗传变异。遗传学。2004;168:933–51. [PMC免费文章][公共医学][谷歌学者]

72考夫曼·L、卢梭·PJ。在数据中寻找群体：聚类分析简介。威利；纽约：1990年。[谷歌学者]

73Barrett JC、Fry B、Maller J、Daly MJ。Haploview：LD和单倍型图谱的分析和可视化。生物信息学。2005;21:263–5.[公共医学][谷歌学者]

74Walsh EC等。在168个与免疫功能相关的基因中搜索进化选择信号。人类遗传学。2006;119:92–102.[公共医学][谷歌学者]

75Petes TD。减数分裂重组热点和冷点。Nat Rev基因。2001;2:360–9.[公共医学][谷歌学者]

76Myers S、Bottolo L、Freeman C、McVean G、Donnelly P。人类基因组重组率和热点的精细地图。科学。2005;310:321–4.[公共医学][谷歌学者]

77Dermitzakis ET等。人类21号染色体保守非基因序列（CNG）与小鼠和狗基因组的比较表明，它们的选择约束与基因环境无关。基因组研究。2004;14:852–9. [PMC免费文章][公共医学][谷歌学者]

人类基因组拷贝数的全球变异

理查德·雷登

石川慎培

凯伦·菲奇

拉尔斯·费克

乔治·H·佩里

T.丹尼尔·安德鲁斯

海克·菲格勒

迈克尔·H·沙佩罗

安德鲁·卡森

陈文伟（Wenwei Chen）

恩敬秋（Eun Kyung Cho）

斯蒂芬妮·达尔莱尔

詹妮弗·弗里曼

胡安·冈萨雷斯

莫妮卡·格拉塔科斯

Jing Huang（黄晶）

迪米特里奥斯·卡莱佐普洛斯

高村大辅

杰弗里·麦克唐纳

克里斯蒂安·马歇尔

芮梅

林达尔·蒙哥马利

西村邦弘

冈村康治

范申

马丁·J·萨默维尔

乔尔·钦达

阿曼德·瓦尔塞斯

卡拉·伍德沃克

杨凤堂

张俊军

塔蒂亚娜·泽加尔

简·张

路易斯·阿蒙戈尔

唐纳德·康拉德

泽维尔·埃斯蒂维尔

克里斯·泰勒-史密斯

奈杰尔·卡特

Hiroyuki Aburatani（阿布拉塔尼）

查尔斯·李

基思·琼斯

斯蒂芬·舍勒

马修·E·赫尔斯

关联数据

摘要

介绍

评估全基因组拷贝数变异的两个平台

全基因组拷贝数变异图

CNV的基因组影响

表1

医学相关性的拷贝数变化

CNV在SNP基因型上的印记

CNV周围的连锁不平衡：关联研究的意义

拷贝数变异的群体遗传学

讨论

方法

WGTP和500K EA阵列的CNV测定

500K EA和WGTP数据质量评估

群体遗传学和统计学分析

数据发布

补充材料

补充文件清单

补充方法

补充数字

补充表1-8；11-21

补充表9

补充表10

补充说明1–传播等位基因缺失分析

补充注释2-1q21重复/缺失障碍

补充参考文献

致谢

工具书类