跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

网站是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2015年9月3日;43(15):7217-28。
doi:10.1093/nar/gkv677。 Epub 2015年6月30日。

缺失的indels:人类基因组中indel变异的估计和阻碍检测的因素分析

附属公司

缺失的indels:人类基因组中indel变异的估计和阻碍检测的因素分析

越江等。 核酸研究. .

摘要

随着高通量测序(HTS)的发展,成千上万的人类基因组现已测序。每当不同的研究分析同一基因组时,他们通常会就单核苷酸多态性的数量达成一致,但在插入和缺失变体(indels)的数量上却存在显著差异。此外,有证据表明,指数经常被严重低估。在这份手稿中,我们通过结合不同测序技术的数据,得出了人类基因组中indel变体的总数,同时评估了indel检测的准确性。我们估计约鲁班基因组中约有100万indels,远高于最近几项HTS研究的结果。我们确定了indel检测困难的两个关键来源:覆盖不足、读取长度或对齐质量;重复序列的存在,包括短穿插元素和均聚物/二聚体。我们量化了这些因素对吲哚检测的影响。测序数据的质量在改进HTS方法的indel检测中起着重要作用。然而,长均聚物和重复物中存在许多吲哚,它们的检测受到严重阻碍。indel事件的真实数量可能甚至高于我们目前的估计,需要新的技术和技术来检测它们。

PubMed免责声明

数字

图1。
图1。
修改的参考基因组和读取覆盖率的计算。缺失的索引基因组序列是通过将缺失的两个侧翼片段粘合在一起而创建的,之后测序读数将同时与参考序列和修改后的序列对齐。缺失内外潜在的重复序列(用红色标记)可能会影响读取比对的唯一性:跨越整个重复的读取可以与参考基因组(绿色箭头)或供体indel序列(蓝色箭头)唯一比对,而读取不跨越重复区域(橙色虚线箭头)将与参考序列和修改后的序列对齐。侧翼段的长度可能因读取长度和重复长度而不同,如图所示。参考和备用indel事件的覆盖率计算为与每个(而不是两者)唯一对齐的读取数。
图2。
图2。
序列覆盖和比对质量对indel检测的影响。(A类)Kidd等人使用不同的支持读取数设置的索引分数。”“无侧翼序列长度要求”(红色曲线)显示了Kidd等人中由不同数量的Illumina 100 bp读数支持的indels分数侧翼长度至少为10 bp’(蓝色曲线),另外要求支撑读数在indels断点两侧具有至少10 bp的序列。(B类)根据读取覆盖率和对齐质量将Kidd indel集合分为四类:无读取覆盖率、1-4读取覆盖率,至少5读取覆盖率以及至少5读取的覆盖率,附加侧翼序列对齐至少10 bp。这个X(X)-轴表示各类Kidd indels的PRISM检测灵敏度。这个-轴与每个类别的大小成比例。每个方框的面积表示PRISM检测到(橙色)或缺失(蓝色)的索引的相对比例。PRISM检测的灵敏度由平方的组合橙色分数定义。绝大多数检测到的Kidd indels是那些具有高覆盖率和高质量对齐(暗框或范围框)的。
图3。
图3。
覆盖率和PRISM指数检测指标对GC内容的依赖性。参考基因组被切割成200 bp片段,并通过GC含量进行装箱。PRISM indel检测灵敏度(绿色曲线)和饱和度(红色曲线)随基因组覆盖率(黑色曲线)一起显示。图中还显示了相同GC盒中完整参考基因组的分布(蓝色半透明直方图),以及Alu元素的分布(红色半透明直方图)。这两个直方图表明,铝在GC含量较高的区域通常过度出现,而且PRISM灵敏度的显著下降与铝元素的存在很好地对应(铝直方图的粉红色和洋红色区域)。
图4。
图4。
使用PRISM结合BWA读取对准器估计约鲁班基因组NA18507中1–10 bp indels的总数。该工作流程包括四组值的估计:PRISM FDR和PRISM检测到的真正指数的数量(绿色框);从Kidd和Mills集合组合的参考indel注释的可靠性(通过错误发现率、FDR、蓝框);参考指数Illumina读数覆盖范围的不完整性(通过假阴性率FNR;黄色方框);以及计算PRISM中indel检测的调整灵敏度,该灵敏度用于估计基因组中indel的总数(橙色方框)。每个框显示初始指数计数或管道灵敏度(红色数字)以及基于括号中所示方程式计算的估计值(蓝色数字)。补充材料中提供了方程式和工作流程的详细说明。
图5。
图5。
Kidd和Mills indel注释集的覆盖范围和FIR。(A类)PRISM检测到的indel(橙色)和遗漏的indel(蓝色)分别显示了覆盖Illumina读数的数量分布。两个直方图之间的重叠以棕色显示。为了补偿检测到的索引和丢失的索引数量不相等,每个直方图都进行了标准化,使面积=1,即表示概率密度。仅显示高达100X的覆盖范围。大多数检测到的索引被至少10次读取覆盖,而大多数缺失的索引被覆盖<10次读取。(B类)FIR的归一化直方图分别显示了PRISM检测到的Kidd和Mills指数(橙色)和缺失指数(蓝色),重叠部分显示为棕色。只有至少有10个覆盖读数的指数才用于分析。检测到的指数往往具有较高的FIR。
图6。
图6。
用PRISM定量检测均聚物(A)和二聚体(B)中的吲哚。”36 bp和100 bp分别代表36 bp和100bp的读取集。(A类)PRISM检测灵敏度使用参考集定义(Kidd等人,2008)。indel密度是均聚物区域每1 Kbp检测到的indel数。给定长度的残余茚分数是相同长度或更长的均聚物中检测到的茚的比例(即累积分布函数的倒数)。随着均聚物长度的增加,吲哚密度首先保持增长,这表明较长的均聚物中存在更多的吲哚。峰值后,indel密度开始随着棱镜灵敏度的降低而降低,这表明密度受到检测较长均聚物中indel的难度的影响。(B类)计算了二聚体区域检测到的indels的类似指标,并观察到类似的模式。
图7。
图7。
人类和灵长类物种均聚物中吲哚长度分布的比较。(A类)人类和四种灵长类动物短均聚物(2-10 bp)中indels的长度分布。将1–10 bp指数的数量标准化为1 bp指数的数目。在进化树中,这些物种按照与人类距离的升序排列,即人类、黑猩猩、大猩猩、猩猩和猕猴。五种植物不同长度的吲哚比例一致。(B类)人类和四种灵长类动物均聚物中吲哚长度超过10 bp的归一化长度分布。长茚的比例与人类和灵长类动物之间的进化距离呈正相关。(C类)四种灵长类动物的indel长度在均聚物中的分布10 bp或更长,其中人类有1 bp indel。灵长类物种离人类越远,相应的分布越偏向于较长的indels。

类似文章

引用人

  • 确定指数长度分布的统计框架。
    Wygoda E、Loewenthal G、Moshe A、Alburquerque M、Mayrose I、Pupko T。 Wygoda E等人。 生物信息学。2024年2月1日;40(2):btae043。doi:10.1093/bioinformatics/btae043。 生物信息学。2024 PMID:38269647 免费PMC文章。
  • 高级变体分类框架降低了人口测序数据中预测的功能丧失变体的假阳性率。
    歌手Berk M、Gudmundsson S、Baxter S、Seaby EG、England E、Wood JC、Son RG、Watts NA、Karczewski KJ、Harrison SM、MacArthur DG、Rehm HL、O'Donnell-Luria A。 Singer-Berk M等人。 美国人类遗传学杂志。2023年9月7日;110(9):1496-1508. doi:10.1016/j.ajhg.2023.08.005。Epub 2023年8月25日。 美国人类遗传学杂志。2023 PMID:37633279 免费PMC文章。
  • 高级变体分类框架降低了人口测序数据中预测功能丧失(pLoF)变体的假阳性率。
    歌手Berk M、Gudmundsson S、Baxter S、Seaby EG、England E、Wood JC、Son RG、Watts NA、Karczewski KJ、Harrison SM、MacArthur DG、Rehm HL、O'Donnell-Luria A。 Singer-Berk M等人。 medRxiv[预打印]。2023年3月9日:2023.03.08.23286955。doi:10.1101/2023.03.08.23286955。 医学研究。2023 PMID:36945502 免费PMC文章。 已更新。 预打印。
  • 临床外显子序列——错误和警告。
    Corominas J、Smeekens SP、Nelen MR、Yntema HG、Kamsteg EJ、Pfunt R、Gilissen C。 Corominas J等人。 哼,变种。2022年8月;43(8):1041-1055. doi:10.1002/humu.24360。Epub 2022年3月15日。 哼,变种。2022 PMID:35191116 免费PMC文章。 审查。
  • 酵母杂合基因组中的可变自发突变和杂合性丢失。
    Nguyen DT、Wu B、Long H、Zhang N、Patterson C、Simpson S、Morris K、Thomas WK、Lynch M、Hao W。 Nguyen DT等人。 分子生物学进化。2020年11月1日;37(11):3118-3130. doi:10.1093/molbev/msaa150。 分子生物学进化。2020 PMID:33219379 免费PMC文章。

工具书类

    1. Mills R.E.、Luttig C.T.、Larkins C.E.、Beauchamp A.、Tsui C.、Pittard W.S.、Devine S.E.人类基因组插入和缺失(INDEL)变异的初始图谱。基因组研究2006;16:1182–1190.-项目管理咨询公司-公共医学
    1. Kidd J.M.、Cooper G.M.、Donahue W.F.、Hayden H.S.、Sampas N.、Graves T.、Hansen N.、Teague B.、Alkan C.、Antonacci F.等人。八个人类基因组结构变异的绘图和测序。自然。2008;453:56–64.-项目管理咨询公司-公共医学
    1. Mills R.E.、Pittard W.S.、Mullaney J.M.、Farooq U.、Creasy T.H.、Mahurkar A.A.、Kemeza D.M.、Strassler D.S.、Ponting C.P.、Webber C.等。人类基因组中微小插入和缺失引起的自然遗传变异。基因组研究2011;21:830–839.-项目管理咨询公司-公共医学
    1. Bamshad M.J、Ng S.B.、Bigham A.W.、Tabor H.K.、Emond M.J.、Nickerson D.A.、Shendure J.外显子测序作为孟德尔病基因发现的工具。Genet国家牧师。2011;12:745–755.-公共医学
    1. Saunders C.J.、Miller N.A.、Soden S.E.、Dinwiddie D.L.、Noll A.、Alnadi N.A.、Andraws N.、Patterson M.L.、Krivohlavek L.A.、Fellis J.新生儿重症监护病房遗传病诊断的快速全基因组测序。科学。Transl.公司。2012年医学;4:154ra135。-项目管理咨询公司-公共医学

出版物类型