跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并且被安全地传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2012年10月;9(10):999-1003.
doi:10.1038/nmeth.2148。 Epub 2012年9月2日。

Hi-C数据的迭代校正揭示了染色体组织的特征

附属公司

Hi-C数据的迭代校正揭示了染色体组织的特征

马克西姆·伊马卡耶夫等。 Nat方法. 2012年10月.

摘要

从全基因组染色体构象捕获(3C)分析获得的染色体相互作用中提取有生物学意义的信息需要消除系统偏差。我们提出了一种计算管道,它将绘制测序读数的策略与用于迭代纠正偏差的数据驱动方法相结合,从而生成相对接触概率的全基因组图。我们在通过高通量3C方法Hi-C获得的公开数据上验证了该ICE(迭代校正和特征向量分解)技术,并且我们证明了对获得的映射进行特征向量分解可以深入了解局部染色质状态、染色体相互作用的整体模式,人类和小鼠染色体的保守组织。

PubMed免责声明

数字

图1
图1。映射、过滤和迭代校正Hi-C读数的管道
()相互作用的染色质区域被测序,并使用迭代映射将读数映射到基因组。仅保留所示的双面读取(DS)或单面读取(SS)。条形图显示通过截断映射到固定长度的DS读取的分数,红线显示迭代映射的结果。(b、 c(c))以1Mb分辨率装箱的原始和迭代校正的全基因组Hi-C图(未显示过滤出的百万碱基)。覆盖率配置文件是地图中每列的总和。垂直黄线显示染色体边界。请注意,经过迭代校正后,覆盖轮廓是均匀的。(d日)SS和DS在染色体内的分数是着丝粒距离的函数,以1 Mb的分辨率绘制,与每个着丝粒的距离不超过10 Mb;线代表平均值,竖条代表25第个和75第个百分位数](e(电子))可分解偏差和特征向量(E类1E类2)由ICE获得(分辨率为1Mb)。未通过过滤器(请参阅联机方法)或不包含映射读取的区域显示为间隙。垂直的黄线显示染色体的边界。
图2
图2。Hi-C数据的迭代校正
()使用模拟数据进行迭代校正的图示。(上图)染色体内的两种特定相互作用(以拱形显示),(中间)其模拟的Hi-C热图和随机实验可见性向量。请注意,可见性诱导的噪音掩盖了特定的交互作用。(底部)染色体的迭代校正图,其中能见度是相等的,显示了两个特定的相互作用作为热图上的亮点。(b)Yaffe和Tanay在1Mb分辨率下计算的偏差矩阵(顶部)可以近似为偏差向量B的乘积×Bj个(中间),生成基本相同的偏差矩阵(第页=0.99),其代数差异显示在同一配色方案的底部(也是补充图4)。(c(c))比较使用HindIII和NcoI酶获得的染色体内Hi-C图谱(分辨率为200kb)。在地图的非对角线区域之间计算相关性,并绘制成与主对角线距离的函数,即基因组分离,如插图所示。对原始数据(红色)、单一校正数据(蓝色)和迭代校正数据(黄色)进行分析。(d日)染色体间热图(chr1与chr2,粗颗粒至10MB,校正前(顶行)和校正后(底部原始)HindIII和Ncol的接触频率按颜色显示(另请参见补充图5)。(e(电子))(左)从10%对90%的读数推断出的偏差的交叉验证。(右)利用基因组距离缩放染色体内接触概率,L(左)对于Hi-C HindIII数据,在200 kb分辨率下,校正前(红色)和校正后(黄色)。黑线显示之前报告的1/L缩放。
图3
图3。迭代校正的Hi-C数据的特征向量分解揭示了染色体组织的全基因组特征
()的配置文件E类1和chr1的基因组特征(1Mb分辨率),E类1来自Hi-C HindIII数据(b)的散点图E类1与GC含量。灰色圆点显示GC含量和E类1单个1Mb区域。黑色方块表示E类1和平均GC含量。几个染色体用数字表示。(c(c))成对基因组区域之间的染色体间接触热图及其功能E类1价值观;热图显示了接触富集的自然对数(参见在线方法)。注意具有类似值的区域的趋势E类1以相互作用。(d日)(左)分布E类1值。(右)自相关E类1(蓝色)与1000次洗牌相比E类1(灰色线表示平均值,错误线表示标准偏差)。(e(电子))(左)观测特征值分布(λk个)以及随机重采样数据的特征值分布(见在线方法)。十三个重要特征值以红色显示。(右)为Ncol和HindIII Hi-C数据获得的主要特征向量的皮尔逊相关系数矩阵,揭示了前三个特征向量的稳健性。((f))变更E类2沿着染色体臂,在着丝粒和端粒附近具有较高的值。灰点表示单个基因组区域的值,黑线表示平均值。()基因组范围的染色体间相互作用映射到E类1E类21Mb分辨率的空间。区域根据先前提出的染色质类型着色。注意,没有明显的集群分离。E类1E类2为Hi-C HindIII数据集计算。
图4
图4。跨数据库和跨物种比较揭示了进化保守的全基因组染色体组织
()(左上角)的散点图E类1对于人与小鼠在同基因区域的比较;(右上角)观察到的物种间相关性的比较E类1(第页=.81,P(P)<1e-10),含GC分层排列数据(第页=.50,P(P)<1e-10);(底部)人类vs.同步小鼠E类1沿着人类chr1;小鼠轮廓中的间隙反映了人类chr1的区域,而在小鼠中没有相应的同步区。人类E类1用于TCC HindIII数据,鼠标E类1计算小鼠Hi-C数据。(b)所有染色体臂对上平均的迭代修正的染色体间接触概率热图;热图显示了接触富集、重定标和重定标到80×80图的自然对数(见在线方法)。这些数据是关于人类淋巴母细胞Hi-C HindIII、人类淋巴细胞母细胞TCC和小鼠前B细胞Hi-C的十六点一六

类似文章

引用人

工具书类

    1. Chhabra SR、Butland G、Elias DA等,《应用环境微生物》。2011;77:7595–7604.-项目管理咨询公司-公共医学
    1. Cheung MS,Down TA,Latorre I,等。核酸研究。2011;39:e103。-项目管理咨询公司-公共医学
    1. Quail MA、Kozarewa I、Smith F等,《自然方法》。2008;5:1005–1010.-项目管理咨询公司-公共医学
    1. Teytelman L、Ozaydin B、Zill O等。公共科学图书馆。2009;4:e6700。-项目管理咨询公司-公共医学
    1. Simonis M、Klous P、Splinter E等人,《自然遗传学》。2006;38:1348–1354.-公共医学

出版物类型