跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
基因组生物学。2009; 10(9): 237.
2009年9月2日在线发布。 doi(操作界面):10.1186/gb-2009-10-9-237
预防性维修识别码:PMC2768970型
PMID:19723346

个人基因组学的前景与现实

简短摘要

韩国人的第二个个人基因组序列揭示了遗传祖先的一些信息,但与医学的相关性仍然很小。

摘要

高质量和注释最好的个人基因组的出版告诉了我们很多关于测序技术的信息,一些关于遗传祖先的信息,但仍然很少有医学意义。

哪个国家公布的个人基因组数量最多?美国,英国?实际上,这是韩国。中最近的一篇文章自然作者:Kim等。[1]展示了韩国男性AK1的基因组序列,AK1是第七个公布的人类个体基因组序列,第二个来自韩国。个人基因组测序的快速进展是可能的,因为所谓的“下一代”测序技术已经大大降低了成本,增加了吞吐量。但这些优势是有代价的:短的、容易出错的读取来自单个分子,这些分子必须重新缝合在一起才能对起始序列进行最佳猜测。我们仍处于研究如何应用现有技术来获取生物信息的阶段:1000美元的基因组提供改变生命的个人医学见解的目标还有一段路要走。

基因组测序仍然是一门不精确的科学

基因组测序项目的第一个目标是按照正确的顺序组装约60亿As、Cs、Gs和Ts,组成个体的二倍体基因组。这既是规模上的挑战,也是因为序列的复杂性,如重复元素。通过一系列坦率的英勇措施,金等。[1]他们成功地生成了一个序列,该序列可能比迄今为止使用新测序技术获得的任何其他单个人类基因组更完整、更准确。尽管如此,为生产这样一个高质量的序列所投入的努力,包括从细菌人工染色体(BACs)中克隆和高覆盖率测序基因组的大片段,通常是不可行的,最终产品仍远未完成。明确的信息是,在我们进入廉价、完整和可靠的个人基因组测序时代之前,测序技术还有很长的路要走。

AK1序列的高覆盖深度(基因组的大多数部分被测序约28次(28×))意味着可以准确地调用大多数变异位点(由AK1二倍体基因组内的杂合性或该基因组与参考基因组之间的纯合性差异引起)。然而,变异检测的敏感性很低:作者估计他们遗漏了6%的单核苷酸多态性(SNP)和20%以上的插入/缺失变异(indels)。在整个基因组中,总共有150000个缺失的SNP和60000个未知的INDEL。然而,由于用于推导SNP敏感性估计值(来自Illumina 610 K基因分型阵列)的一组“真”调用偏向于可能容易进行基因型和序列分析的区域,因此遗漏的真实数字可能会更高。SNP和indel检测在重复或拷贝数可变区域的灵敏度较低。最后,任何基因组的非平凡比例(文特尔基因组的150 Mb[2]和韩国第一个基因组中近6%的读数[]例如)不存在于“参考人类基因组”序列中,因此根本无法将读取映射到这些称为的片段或变体。

作者特别致力于使用BAC的定向测序和基于高分辨率芯片的方法来识别较大的indels,即拷贝数变体(CNV)。检测到了大量高质量的CNV,但值得注意的是,在基因组的高度重复区域中也会遗漏此类变异,并且不会改变DNA拷贝数的结构重排(例如反转)很可能被大大低估。

目前已测序的单个基因组之间的比较(表(表1)1)由于所使用的化学、覆盖率、比对和变体调用算法的差异,情况变得复杂,但最重要的可能是缺乏“基本事实”大规模序列数据,从中可以推断出误差率的无偏估计。到目前为止,只有一个个体基因组使用两种技术进行了测序——匿名尼日利亚约鲁巴男性(NA18507),由Illumina GA(Solexa)测序[4]和应用生物系统的SOLiD[5]系统-但尚未公布两个版本的明确比较。

表1

按出版日期排列的七个个人基因组摘要

年份个人人口站台新闻报道参考
2007克雷格·文特尔欧洲的毛细管7.5×[2]
2008詹姆斯·沃森欧洲的4547.4×[10]
2008NA18507号尼日利亚语(约鲁巴语)佐治亚州Illumina40.6×[4]
2008YH公司汉族佐治亚州Illumina36×[11]
2008AML患者欧洲的佐治亚州Illumina14×,33×*[12]
2009Seong-Jin Kim(SJK)韩国人照度GA29×[]
2009NA18507号尼日利亚语(约鲁巴语)SOLiD公司17.9×[5]
2009AK1公司韩国人佐治亚州Illumina27.8×[1]

*正常基因组测序14倍,肿瘤基因组测序33倍。请注意,NA18507已使用不同技术测序两次。AML,急性髓细胞白血病。

线粒体DNA(mtDNA)提供了一个有用的测试案例:它的高拷贝数和缺乏重复应该会产生高质量的序列,因为还有数千个额外的mtDNA序列及其系统发育可用[6],即使没有基本事实,我们也可以评估一个新序列。在AK1的情况下,序列通过了这项测试,但由于在某些位置(例如3521)的对齐困难,对异质性(个体内这种多拷贝分子的变异)的评估仍然存在问题。

个体基因组序列作为祖先的标志

随着第一批人类基因组序列的问世,我们希望从中获得什么生物信息?一个领域是祖先:我们对我们的祖先感到好奇,因为人类在基因上与他们的地理邻居比与更远的人更相似,有了足够的基因信息,我们可以在非常精细的范围内推断出一个人的地理祖先[7]. 令人欣慰的是,公布的个人基因组确实符合预期。如图所示图11研究表明,文特尔属于欧洲地区,而沃森基因组序列除了预期的主要欧洲成分外,还显示出与非洲人口中的主要成分相对应的强大的次要祖先成分。这可以被视为对沃森有大量非洲混血儿这一观点的支持,这一说法以前在主流媒体上发表过,但(据我们所知)从未在文献中得到正式支持。然而,另一种可能的解释是,该成分是Watson基因组中覆盖率低和序列质量较差的伪影。不出所料,约鲁巴NA18507基因组与图中的另一个HapMap约鲁巴(YRI(HapMaps))一起下降图1),1)图中,汉族YH基因组和来自HapMap的其他汉族群体图1)。1). 这两个韩国基因组,SJK和AK1,显示出与东亚人群的密切联系。Y染色体和线粒体DNA分析证实了这些结论。SJK和AK1的mtDNA单倍型群(以单一SNP为特征的相似单倍型组,共有一个共同祖先)分别为D4,而Y单倍型为O2b和O3a,所有单倍型均在韩国人群中流行[8].

保存图片、插图等的外部文件。对象名称为gb-2009-10-9-237-1.jpg

世界范围内个人基因组的祖先推断。程序STRUCTURE用于根据基因型将六个个人基因组(表1)和来自HGDP-CEPH和HapMap面板的个人分配到七个聚类中,如前所述[9]. 上半部分:每个细竖条代表一个个体,并根据从七个遗传簇推断出的祖先划分颜色。根据个人的姓名或代码(个人基因组)或来源群体(HGDP-CEPH和HapMap)对个人进行排序。个人基因组主要分为绿色(NA18507;非洲)、青色(文特、沃森;欧洲)或橙色(YH、SJK、AK1;东亚)集群。下半部分:个人基因组推断祖先的扩展视图。

所有这些结论都可以通过标准基因分型获得,其价格比完整基因组序列的成本低三个数量级,那么完整序列是否提供了额外的见解?. []强调SJK(韩语)和YH(中文)基因组之间的差异,我们预计基因分型通常会遗漏的罕见变异将提供更多有关精细祖先的信息。但在我们能够从这种比较中充分受益之前,还需要更多的个人基因组。

基姆等。[1]报告了区域SNP和indel密度之间的强烈相关性,这是一个意外发现,并提出“统一的分子或时间考虑是产生和/或消除这两种变体的基础”。事实上,这种相关性是从群体遗传学中直接预测的:SNP和indel密度都取决于AK1和参考基因组之间的合并时间(即自最近的共同祖先以来的时间)。由于融合时间在整个基因组中不同,预计这两种密度将以相关方式变化。

我们离基于基因组的个性化医学还有多远?

当然,人类基因组测序的主要目标并不是为了获得对遗传祖先或合并时代后果的更深入的了解,而是为了生成信息,为个体化医疗实践提供信息。这里有两个问题:首先,已经指出的遗传变异检测不完全意味着,当前的基因组测序方法错过了影响健康的变异中的一部分;其次,我们目前解释已识别变异的医学意义的能力尚不成熟。

基姆等。[1]应用一种未公开的算法(Trait-o-matic)来识别AK1基因组中与表型特征相关的变异,包括各种常见疾病风险的增加,以及进化上高度保守的位置或与严重疾病相关的基因中的蛋白质改变变体。该分析确定了773个潜在的医学相关变体。正如在血统分析中一样,使用SNP基因分型芯片可以很容易地识别出突出显示的常见变异。尽管如此,其中许多与性状密切相关(也就是说,它们已实现全基因组意义和独立复制),但通常对疾病风险的预测价值很低。AK1基因组中可能更有趣的变异是那些SNP芯片无法识别的变异:低频变异可能会破坏重要基因的功能。作者在AK1中总共鉴定了504个变体,这些变体改变了与疾病或性状相关的基因的蛋白质序列,但这份列表说明了与这些变体的功能解释相关的严重挑战。

有一些直接的结果:例如,据报道,AK1基因组携带与脑瘫、色素性视网膜炎和丙二酰辅酶A脱羧酶缺乏症等严重隐性疾病相关的基因中早发的stop-coon突变的单拷贝;这些不太可能与AK1自身的疾病表型有关,但可能(如果是真的)对遗传咨询很重要。相比之下,Trait-o-matic强调的773个变体中绝大多数的临床重要性尚不明确。例如,临床医生如何在已知与癌症风险或进展相关的基因中制造新的蛋白改变变体?一个被测序的个体应该如何应对与抑郁、双相情感障碍和精神分裂症风险增加相关的一系列令人困惑的变异?

由于目前与复杂性状和疾病相关的大多数常见变异仅在欧洲血统人群中被确定和研究,这进一步增加了不确定性,而且,由于非欧洲人群中不同的基因-基因和基因-环境相互作用而改变风险状况的可能性在很大程度上尚未探索。显然,在个人基因组序列成为临床决策的常规信息来源之前,还有很多工作要做。

个人基因组学尚处于初级阶段。像所有婴儿一样,它发出很多噪音,吸引了很多注意力,但沟通能力很差:例如,读者将无法找到两个韩国基因组的比较,或同一约鲁巴基因组的两个版本。但是婴儿会成长,AK1和其他个体基因组的发表确实代表了在实现经济实惠、医学相关的个人基因组学道路上的重要里程碑。然而,它们也有助于提醒我们在到达目的地之前还有多远的路要走。

除了降低成本和提高准确性外,我们还期待着一些关键步骤,如技术进步从头开始组装-如前所述,在不使用参考序列的情况下将读取数据拼接在一起,这一过程将受益于更长的读取长度和表型解释的改进。一些个人基因组学研究对象勇敢地将他们的基因组连同他们的名字一起呈现给世界上的“疣和所有人”,而其他人则掩盖了某些区域或选择保持匿名。任何立场都可能受到批评,披露所有这些信息的道德含义也正在研究之中。我们都应该感谢这些先驱者。

致谢

我们的工作得到了威康信托基金的支持。

工具书类

  • Kim JI、Ju YS、Park H、Kim S、Lee S、Yi JH、Mudge J、Miller NA、Hong D、Bell CJ、Kim HS、Chung IS、Lee WC、Lee JS、Seo SH、Yun JY、Woo HN、Lee H、Suh D、Lee S、Kim HJ、Yavartanoo M、Kwak M、Zheng Y、Lee MK、Park H、Kim JY、Gokcumen O、Mills RE、Zaranek AW等。韩国个体的高度注释的全基因组序列。自然。2009;460:1011–1015. [PMC免费文章][公共医学][谷歌学者]
  • Levy S、Sutton G、Ng PC、Feuk L、Halpern AL、Walenz BP、Axelrod N、Huang J、Kirkness EF、Denisov G、Lin Y、MacDonald JR、Pang AW、Shago M、Stockwell TB、Tsiamouri A、Bafna V、Bansal V、Kravitz SA、Busam DA、Beeson KY、McIntosh TC、Remington KA、Abril JF、Gill J、Borman J、Rogers YH、Frazier ME、Scherer SW、Strausberg RL、Venter JC。人类个体的二倍体基因组序列。《公共科学图书馆·生物》。2007;5:e254.doi:10.1371/journal.pbio.0050254。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Ahn SM、Kim TH、Lee S、Kim D、Gang H、Kim DS、Kim BC、Kim SY、Kim WY、Kim C、Park D、Lee YS、Kim S、Reja R、Jho S、Kim CG、Cha JY、Kim KH、Lee B、Bhak J、Kim SJ。第一个韩国基因组序列和分析:社会民族的全基因组测序。基因组研究。2009DOI:10.1101/gr.092197.109。[PMC免费文章][公共医学][谷歌学者]
  • Bentley DR、Balasubramanian S、Swerdlow HP、Smith GP、Milton J、Brown CG、Hall KP、Evers DJ、Barnes CL、Bignell HR、Boutell JM、Bryant J、Carter RJ、Keira Cheetham R、Cox AJ、Ellis DJ、Flatbush MR、Gormley NA、Humphray SJ、Irving LJ、Karbelashvili MS、Kirk SM、Li H、Liu X、Maisinger KS、Murray LJ、Obradovic B、Ost T、Parkinson ML、Pratt MR等。使用可逆终止剂化学进行精确的全人类基因组测序。自然。2008;456:53–59. doi:10.1038/nature07517。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • McKernan KJ、Peckham HE、Costa GL、McLaughlin SF、Fu Y、Tsung EF、Clouser CR、Duncan C、Ichikawa JK、Lee CC、Zhang Z、Ranade SS、Dimalanta ET、Hyland FC、Sokolsky TD、Zhan L、Sheridan A、Fu H、Hendrickson CL、Li B、Kotler L、Stuart JR、Malek JA、Manning JM、Antipova AA、Perez DS、Moore MP、Hayashibara KC、Lyons MR、Beaudoin RE等。通过使用双碱基编码的短读大规模平行连接测序发现的人类基因组中的序列和结构变异。基因组研究。2009数字对象标识码:10.1101/gr.091868.109。[PMC免费文章][公共医学][谷歌学者]
  • Pereira L、Freitas F、Fernandes V、Pereira JB、Costa MD、Cosa S、Maximo V、Macaulay V、Rocha R、Samuels DC。5140人线粒体基因组的多样性。Am J Hum基因。2009;84:628–640. doi:10.1016/j.ajhg.2009.04.013。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Li JZ、Absher DM、Tang H、Southwick AM、Casto AM、Ramachandran S、Cann HM、Barsh GS、Feldman M、Cavalli-Sforza LL、Myers RM。从全基因组变异模式推断的全球人类关系。科学。2008;319:1100–1104. doi:10.1126/science.1153717。[公共医学] [交叉参考][谷歌学者]
  • Jin HJ,Tyler-Smith C,Kim W.线粒体DNA和Y染色体标记分析揭示的韩国人口。公共科学图书馆一号。2009;4:e4210.doi:10.1371/journal.pone.0004210。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • He M,Gitschier J,Zerjal T,de Knijff P,Tyler-Smith C,Xue Y.HapMap样本的地理亲和力。公共科学图书馆一号。2009;4:e4684.doi:10.1371/journal.pone.0004684。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Wheeler DA、Srinivasan M、Egholm M、Shen Y、Chen L、McGuire A、He W、Chen YJ、Makhijani V、Roth GT、Gomes X、Tartaro K、Niazi F、Turcotte CL、Irzyk GP、Lupski JR、Chinault C、Song XZ、Liu Y、Yuan Y、Nazareth L、Qin X、Muzny DM、Margulies M、Weinstock GM、Gibbs RA、Rothberg JM。通过大规模平行DNA测序获得的个人完整基因组。自然。2008;452:872–876. doi:10.1038/nature06884。[公共医学] [交叉参考][谷歌学者]
  • Wang J,Wang W,Li R,Li Y,Tian G,Goodman L,Fan W,Zhang J,Li J,ZhangJ,Guo Y,Feng B,Li H,Lu Y,Fang X,Liang H,Du Z,Li D,Zhao Y,Hu Y,Yang Z,Zheng H,Hellmann I,Inouye M,Pool J,Yi X,Zhau J,Duan J,Zhou Y,Qin J,et al.亚洲个体的二倍体基因组序列。自然。2008;456:60–65. doi:10.1038/nature07484。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Ley TJ、Mardis ER、Ding L、Fulton B、McLellan MD、Chen K、Dooling D、Dunford-Shore BH、McGrath S、Hickenbotham M、Cook L、Abbott R、Larson DE、Koboltt DC、Pohl C、Smith S、Hawkins A、Abbont S、Locke D、Hillier LW、Miner T、Fulton-L、Magrini V、Wylie T、Glasscock J、Conyers J、Sander N、Shi X、Osborne JR、Minx P等。细胞遗传学正常的急性髓细胞白血病基因组的DNA测序。自然。2008;456:66–72. doi:10.1038/nature07485。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

文章来自基因组生物学由以下人员提供BMC公司