NHGRI标志
副主持人

基因组信息科

职员科学家

基因组信息科

教育类

马里兰大学博士

传记

科伦博士是美国国家人类基因组研究所计算和统计基因组分所基因组信息科的助理研究员。完成硕士学位后,科伦博士加入了J.Craig Venter Institute(JCVI),在格兰格·萨顿博士的监督下担任生物信息学工程师。在JCVI的三年时间里,他为Celera Assembler的开发做出了贡献,Celera Assembler用于组装黑腹果蝇和人类基因组。与此同时,科伦博士在马里兰大学帕克分校米海·波普博士的监督下工作,他在那里开发了多个用于宏基因组组装和分析的工具。2010年,科伦博士加入了国家生物防御分析与对策中心(NBACC),领导基因组组装开发,并率先使用单分子测序重建完整基因组。2015年,科伦博士加入NHGRI,成为基因组信息科的创始成员。

科学总结

科伦博士研究高效分析大规模基因组数据集的算法,重点是基因组组装。 

基因组组装是从测序仪器产生的相对较短范围的数据中重建完整序列的过程,就像一个由数十亿块组成的巨大拼图。由于短程测序的广泛可用性,它有时被认为是常规的。然而,没有一个复杂的基因组是真正完整的。挑战在于基因组中无法正确定位的重复区域。当前基因组组装软件的另一个局限性是它将每个基因组表示为一个序列。尽管如此,已测序的基因组通常是二倍体,这意味着它们包含每个染色体的两个副本,一个来自父母。尝试将两个副本表示为一个序列会导致马赛克效果,就像您将两个图像叠加在一起一样,这会导致数据丢失和分析错误。为了缓解这些问题,组装项目的第一步通常是费力且耗时一年的近亲繁殖,以使两个副本尽可能相似。这很容易出错,而且由于世代较长(例如牛和其他农业物种),通常不可行。 

科伦博士率先使用较新的噪声长读数据(如太平洋生物科学(PacBio)和牛津纳米孔(ONT)仪器生成的数据)进行高质量组装。这项工作彻底改变了细菌基因组组装,提供了完整和准确的序列,而这以前需要多年的人工努力,并有助于优化组装过程中所有步骤的算法。为了组装二倍体基因组,科伦博士领导开发了一种方法,该方法使用父母的基因组信息来识别属于孩子的母系或父系遗传基因组的序列,从而为单个个体生成两个完整的序列。这种方法是目前精确重建完整二倍体基因组的最新技术。最近,科伦博士指导了一个项目,更新流行的Canu汇编程序,以最佳地利用新提供的高准确度(超过99%的准确度)长读取。他的研究表明,通过几种算法,数据准确性可以进一步提高,基本上达到完美。这些突破使我们能够研究以前不可见的人类基因组区域,纠正当前参考中的错误,并导致第一个真正完整的人类基因组序列。科伦博士的工作继续以这一成功为基础,以使完整和准确的基因组成为常规。

出版物

Nurk S*、Koren S*,Rhie A*、Rautiainen M*、Bzikadze AV、Mikheenko A、Vollger MR、Altemose N、Uralsky L、Gershman A、Aganezov S、Hoyt SJ、Diekhans M、Logsdon GA、Alonge M、Antonarakis SE、Borchers M、Bouffard GG、Brooks SY、Caldas GV、Cheng H、Chin CS、Chow W、de Lima LG、Dishuck PC、Durbin R、Dvorkina T、Fiddes IT、Formenti G、Ful吨RS,Fungtammasan A、Garrison E、Grady PGS、Graves Lindsay TA、Hall IM、Hansen NF、Hartley GA、Haukness M、Howe K、Hunkapiler MW、Jain C、Jain M、Jarvis ED、Kerpedjiev P、Kirsche M、Kolmogorov M、Korlach J、Kremitzki M、Li H、Maduro VV、Marschall T、McCartney AM、McDaniel J、Miller DE、Mullikin JC、Myers EW、Olson ND、Paten B、Peluso P、Pevzner PA、,Porubsky D、Potapova T、Rogaev EI、Rosenfeld JA、Salzberg SL、Schneider VA、Sedlazeck FJ、Shafin K、Shew CJ、Shumate A、Sims Y、Smit AFA、Soto DC、SovićI、Storer JM、Streets A、Sullivan BA、Thibaud-Nissen F、Torrance J、Wagner J、Walenz BP、Wenger A、Wood JMD、Xiao C、Yan SM、Young AC、Zarate S、Surti U、McCoy RC、Dennis MY、Alexandrov IA、,Gerton JL、O'Neill RJ、Timp W、Zook J、Schatz MC、Eichler EE、Miga KH、Phillippy AM。人类基因组的完整序列.科学类2022年4月;376(6588):44-53. doi:10.1126/science.abj6987。Epub 2022年3月31日。

Nurk S*、Walenz BP*、Rhie A、Vollger MR、Logsdon GA、Grothe R、Miga KH、Eichler EE、Phillippy AM、Koren S。HiCanu:通过高保真长阅读准确组装片段复制、卫星和等位基因变体.基因组研究2020年9月;30(9):1291-1305.

Miga KH*、Koren S*、Rhie A、Vollger MR、Gershman A等。完整人类X染色体的端粒-端粒组装.自然2020年9月;585(7823):79-84.

Koren S*、Rhie A*、Walenz BP、Dilthe AT、Bickhart DM等。单倍型解析基因组的三重组合从头组装.Nat生物技术2018年10月22日。

Jain M*、Koren S*、Miga KH*、Quick J*、Rand AC*、Sasani TA*、Tyson JR*、Beggs AD、Dilte AT、Fiddes IT、Malla S等。人类基因组的纳米孔测序和超长读取组装.Nat生物技术2018年4月;36(4):338-345.

Koren S*、Walenz BP*、Berlin K、Miller JR、Bergman NH、Phillippy AM.Canu:通过自适应K-mer加权和重复分离实现可扩展且准确的长读汇编。基因组Res.2017年5月;27(5):722-736. doi:10.1101/gr.215087.116。

Berlin K*、Koren S*、Chin CS、Drake JP、Landolin JM等。用单分子测序和位置敏感散列法组装大基因组.国家生物技术。2015年6月;33(6):623-30.

Koren S、Harhay GP、Smith TP、Bono JL、Harhay-DM等。利用单分子测序降低微生物基因组的组装复杂性.基因组生物学. 2013;14(9):R101。

*表示共同优先或共同对应

上次更新时间:2023年6月21日