跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2018年10月1日;10(10):2697-2708.
doi:10.1093/gbe/evy199。

将罪恶转化为美德:使用批处理效应检测大型基因组数据集中的错误

附属机构

化恶为善:利用批量效应检测大基因组数据集中的错误

法布里齐奥·马费索尼等。 基因组生物进化. .

摘要

在编译包含大量个体的数据集时,通常不可避免地要合并来自不同测序中心或测序平台的数据。然而,不同的数据可能包含特定的系统误差,这些误差将显示为SNP。在这里,我们设计了一种方法来检测组合数据集中的系统错误。为了测量个体基因组之间的质量差异,我们研究了存在于不同染色体上并在个体中共生的变体对。然后,利用不同基因组中这些变体对的丰度来检测由于批处理效应引起的系统误差。将我们的方法应用于1000个基因组数据集,我们发现编码区域因错误而变得丰富,其中约1%的高频变异被预测为错误,而编码区域以外的错误则更为罕见(<0.001%)。正如预期的那样,与使用不同测序技术生成的数据集中的其他变体相比,发现预测错误的频率更低,这表明许多候选者确实是错误的。然而,在其他大型数据集中也发现了预测的1000个基因组错误;因此,我们的观察结果并非针对1000个基因组数据集。我们的结果表明,通过使用大规模数据集中产生的变化来检测系统误差,可以将批处理效应转化为优点。

PubMed免责声明

数字

图</sc>。1
F类. 1.
-方法概述。()对不同测序质量或处理的样本生成的数据进行测序可能会引入不同的错误(黑点)。由于这些错误将出现在来自同一平台的样本中,因此它们将发出不同染色体之间链接的信号(虚线)。(b)可以计算每个样本(虚线)对联动信号的贡献,并用于识别来自同一批次、具有类似错误曲线的样本以及错误。另请参阅补充图1,在线补充材料。
图</sc>。2
F类. 2.
-编码区常见变异之间的染色体间连锁特征(>5%的次要等位基因频率)。()在1000个基因组群体中,单独分析时,错误发现率(FDR)<5%的染色体间连锁变异体数量。通过比较P(P)每个链接对的值对的分布P(P)在个体间排列染色体后的值。人口标签的颜色根据大陆而定:蓝色代表亚洲,红色代表非洲,黑色代表欧洲,黄色代表其他国家。(b)在一个群体(行)中染色体间连锁变异的分数,在另一个群体中也连锁(列)。较深的颜色表示链接变体的比例较高。种群的顺序由左图所示的层次聚类图决定,该聚类图是根据链接变体的共享进行计算的。(c(c))北京人对连锁小等位基因(nAB)数量给出的连锁信号(bars)的贡献。具有相似nAB值的个体通过高斯混合模型进行分组,其拟合分布显示为彩色线。(d日)不同1000个基因组群体个体的nAB分布。颜色表示每个个体的测序中心。在多个中心测序的个体用单独的颜色标记。
图</sc>。三。
F类. 3.
-在编码区检测到的1000个基因组数据集中的候选错误的特征()或基于基因间数据集的全基因组(b). 对于错误候选(红色)和频率匹配背景变体(灰色),条形图显示了非同义与同义变体、颠倒与转换、GG或CC二聚体前后引入Gs或Cs的替代等位基因的比例,以及杂合子显著过剩的位置(P(P)值<0.05)。小提琴图显示了支持替代等位基因的序列在个体中的比例,其中至少有一个序列显示了替代等位蛋白。右侧显示了错误候选基因(红色)和背景变异基因(灰色)的替代等位基因的基本组成。
F<sc>图</sc>。4
F类. 4.
-错误候选(左)和背景变体(右)与基因组中重复区域(顶部)的重叠,以及1000基因组项目提供的可访问性过滤器(中间和底部)。使用≥5%的次要等位基因频率滤波器检测到的候选基因和20000个背景变异与RepeatMasker中的已知重复重叠(http://www.repeatmasker.org; 最后一次访问时间为2017年9月1日),从UCSC基因组浏览器下载了hg19注释,并从1000基因组项目中考虑了覆盖率和绘图质量的两个过滤器。覆盖过滤器排除覆盖深度(所有样本的总和)高于或低于平均深度2倍(pilotMask)或50%(strictMask)的区域。如果>20%的重叠读取的映射质量为零(pilotMask)或>0.1%(strictMask),则区域被视为低映射。LTR、RNA相关重复序列和RepeatMasker分类为“未知”或“其他”的重复序列在这里用深蓝色标记为“其他”。

类似文章

引用人

工具书类

    1. Alexander DH,Novembre J,Lange K.,2009年。对不相关个体的祖先进行快速的基于模型的估计。基因组研究19:1655–1664。-项目管理咨询公司-公共医学
    1. Chen L、Liu P、Evans TC、Ettwiller LM。。2017年。DNA损伤是测序错误的普遍原因,直接混淆了变异鉴定。《科学》355(6326):752-756。-公共医学
    1. Dom JC、Lottaz C、Borodina T、Himmelbauer H.,2008年。高通量DNA测序的超短读取数据集中存在大量偏差。核酸研究36(16):e105。。-项目管理咨询公司-公共医学
    1. Drmanac R等人,2010年。使用自组装DNA纳米阵列上的未定义碱基读取进行人类基因组测序。《科学》327(5961):78–81。-公共医学
    1. Fuchsberger C等人,2016年。2型糖尿病的遗传结构。《自然》536(7614):41–47。-项目管理咨询公司-公共医学

出版物类型