跳到主页面内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https公司

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2014;42(16):e125。
doi:10.1093/nar/gku600。 Epub 2014年7月17日。

配对全长cDNA文库的构建及转录起始位点和终止位点的鉴定

附属公司

配对全长cDNA文库的构建及转录起始位点和终止位点的鉴定

松本圭子等。 核酸研究. 2014.

摘要

为了鉴定和表征从转录起始位点(TSS)到多聚(A)加成位点(PAS)的转录结构,我们构建并分析了14种组织类型和4种细胞系的人类TSS/PAS配对全长cDNA文库。收集的信息使我们能够定义总共8530/9400个RefSeq基因的TSS簇(TSC)和PAS簇(PAC)关系,以及它们假定的替代启动子/终止子的4251/5618和干预转录物的4619/4605。对假定的替代TSC和替代PAC的分析表明,它们的选择似乎大多是独立的,很少有例外。在这些例外情况下,成对的转录单位很少相互重叠,偶尔被Rad21/CTCF分开。我们还确定了总共172个类似的病例,其中TSC和PAC跨越相邻但不同的基因。在这些情况下,不同的转录物可能利用特定基因或相邻基因的不同功能单位。这种方法对于鉴定癌细胞中的融合基因转录物也是有用的。此外,我们可以构建cDNA文库,其中3'-末端配对随机分布在转录物上。这些文库可用于组装先前未表征的替代启动子产物的内部结构,以及干预转录物。

PubMed免责声明

数字

图1。
图1。
配对全长cDNA文库的构建和表征。(A类)配对全长cDNA文库构建示意图。简言之,通过BAP-TAP-RNA连接酶处理,RNA的帽状结构被合成的寡核苷酸取代。PCR扩增出两端带有连接位点的全长cDNA。生物素化寡糖用于5′端PCR引物。PCR扩增子被循环并片段化。随后,用亲和素柱回收含有生物素的片段。非圆形片段通过核酸外切酶处理降解。对于纯化的“TSS-PAS”配对片段,将序列适配器连接到两端,并生成下一代测序模板。有关协议的详细信息,请参阅材料和方法部分、补充方法以及我们的网站:http://dbtss.hgc.jp/cgi-bin/protocol_matepairLibrary.cgi. (B类)TSS/PAS库中确定的TSC和PAC示例。案例PCCB公司基因显示。峰值表示来自TSS/PAS配对库(上部)的标签计数。标签计数的数量显示在页边空白处。虚线曲线表示TSC-PAC对。TSC/PAC派生的单元格类型显示在左边。上部面板的放大显示在所示区域的中间面板中。下部面板显示标记序列。突出显示了从适配器或多(A)序列衍生的碱基,这些碱基与参考基因组不匹配。
图2。
图2。
评估TSS/PAS库。(A类)TSS/PAS配对标记相对于RefSeq基因的位置。TSS/PAS标签的频率根据其在RefSeq基因区域内或外部的位置进行计算(左侧面板)。在与RefSeq基因相关的标签中,根据RefSeq转录模型的内部位置进一步分离其分布(右侧面板)。顶部面板显示TSS标签,底部面板显示PAS标签。右侧面板表示左侧面板中“RefSeq内部”的填充细分。(B类)TSS标签和PAS标签相对于RefSeq NM转录模型的位置分布。顶部面板显示TSS标签,底部面板显示PAS标签(有关较长人群的进一步细分,请参阅补充图S2J)。此外,请注意,在许多情况下,RefSeq模型包括一个带有远端5′-外显子的长转录物。同时,RefSeq注释了另一个5′-外显子,该外显子与我们的TSC重叠,位于远端5′-外显子的下游(右侧边缘;补充图S2J)。有关TSC或我们的数据与RefSeq数据之间重叠的更多详细信息,请参见补充图S2A–C。(C类)TSS标签和PAS标签到TSC或PAC(分别为左面板和右面板)的偏差分布的统计显著性,根据假设泊松分布的mRNA随机分布进行计算。TSC或PAC的数量表示P(P)显示值(x轴)。图中的百分比显示了所示人口的比例(P(P)<1e−10)。
图3。
图3。
单个基因内多个TSC和PAC的特征。(A、 B类)观察到多个TSC和PAC的基因示例。峰值表示来自TSS/PAS mate-pair library(MPL)的标签计数,曲线表示TSC-PAC对。每个峰值代表TSC或PAC的集群。AP:选择性启动子区;AT:替代终端位置。(C类)RefSeq NM(蛋白质编码基因;顶部面板)和NR(假定lncRNAs;底部面板)基因的数量,其中鉴定了多个TSC(左侧面板)和PAC(右侧面板)。
图4。
图4。
多个TSC和PAC的特征。(A类)潜力的存在顺式-多个TSC和PAC之间的调控基序。为两个TSC(++)(+−)或两个TSCs(−−)检测到TATA盒(左面板)或CpG孤岛(右面板)的备选TSC数量。(B类)替代PAC的类似分析结果(如(a)所示),以及存在典型聚(a)加成序列。对于每个定义顺式-motif,请参见“材质和方法”部分。(C类)检测到的TSC(左侧面板)和PAC(右侧面板)的组织特异性。根据材料和方法一节中描述的程序,计算每个TSC或PAC的曲线图中的Z得分。百分比表示属于所示人群的比例。(D类)方框图显示TSC和PAC的Z分数分布。通过Wilcoxon的符号秩检验评估的差异的统计显著性显示在顶部。
图5。
图5。
相互优选的TSC-PAC对的特征。(A类)单个基因内两对TSC-PAC蛋白编码区的重叠。显示了在成对的TSC PAC之间重叠的成因区域的比例的箱线图。左侧条目表示总人口,右侧条目表示“首选”TSC PAC。通过Wilcoxon符号秩检验评估差异的统计学显著性。(B类)多个TSC和PAC的示例,相互选择优先于其他配对。案例北京国际机场SLC25A27型显示了基因。所示组织中也显示了所示TSC-PAC关系的表达谱。垂直线表示各自的标签计数。(C类)“首选”TSC–PAC关系的表达模式。对于每个“首选”TSC-PAC对(单位A和B),计算所示组织中每个单位(单位A位于x轴,单位B位于y轴)的表达模式Z分数。(D类)将与(C)中的图类似的图与总“首选”TSC-PAC图重叠。插图中显示了组织的颜色代码。(E类)表达模式在Z评分>2的指示组织之间切换的“首选”TSC-PAC关系的数量。
图6。
图6。
转录结构和染色质特征之间的关系。(A类)所示染色质特征的HeLa细胞中ChIP Seq信号的密度。ChIP序列标签密度的色码显示在页边。转录水平>5 ppm(上限)和<5 ppm(下限)的情况分别以蓝色和红色显示。对于Pol II、H3K4me1、H3K4me3和H3K27Ac,使用RefSeq基因5′端5 kb内的峰值进行集中。对于H3K36me3、H3K27me3、Rad21和CTCF,被定义为TSC和PAC之间区域的转录区域被归一化,ChIP-Seq信号被相应绘制。对于CTD-PS2,从PAC中选择位于−5 kb至5 kb范围内的峰,并将其集中在峰的中心。(B类)所示位置(x轴)的ChIP序列信号强度的平均值。(C、 D类)首选TSC-PAC区域的类似分析结果(A)和(B)。
图7。
图7。
(A类)首选TSC-PAC对之间的染色质特征。指示区域中确定的Rad21和CTCF的ChIP Seq峰值频率。(B类)所示人群的ChIP序列信号密度。通过Wilcoxon符号秩检验评估的差异的统计显著性显示在顶部。
图8。
图8。
使用TSS/PAS库分析不同转录区域。(A类)TSC-PAC配对“连接”相邻RefSeq基因的基因组区域示例。显示了TSS-PAS标签的模式(来自HeLa dT库)和ChIP Seq模式。用于ChIP-Seq的抗体显示在左边缘。对于ChIP Seq轨迹,y轴使用统一的比例。(B类)ChIP序列峰值频率(P(P)“连接的”RefSeq基因中Rad21和CTCF的<1e−5(截至MACS)。在相应RefSeq区域之间的区域中识别出ChIP Seq峰值的病例被计入“连接”RefSeq基因的总病例中。对HeLa细胞中TSC-PAC对>5 ppm(较高)和<5 ppm(较低)的病例分别进行群体计数。(C类)指示种群【TSC-PACs>5 ppm(左)和<5 ppm(右)的“连接”基因】的ChIP Seq信号密度箱线图(归一化标签计数的倍数除以归一化背景输入)。用于ChIP Seq分析的抗体显示在底部。通过Wilcoxon的符号秩检验评估的差异的统计显著性显示在顶部。(D类)本研究中确定的癌细胞中的融合基因转录物。显示了以下情况的图形视图BCAS4公司-业务连续性评估系统3MCF7细胞中的基因(顶部)和CCDC6公司-房地产税LC2AD细胞中的基因(底部)。左边缘显示了已识别融合基因转录物的RT-PCR验证。
图9。
图9。
TSS/Random cDNA文库的构建和表征。(A类)从TSS/Random库中识别的TSS-Random标签示例。(B类)TSS/PAS库中相对于RefSeq转录模型的TSS和PAC分布。(C类)TSS和TSS/Random库中内部标记的大小分数(dR0.5、dR1.0和dR2.0)的分布。(D、 E类)通过0.5-kb(左)、1-kb(中)和2-kb(右)TSS/Random库标签覆盖RefSeq转录模型中的外显子。
图10。
图10。
推测的替代启动子产物和干预性lncRNA转录本的映射组装。(A类)使用TSS-PAS/随机标记进行RNA组装的统计。(B类)在假定的替代启动子产物的指定覆盖范围内成功组装的转录本的数量分布(上面板)和组装转录本的长度分布(下面板)。(C、 D类)NR基因和假定干预lncRNAs的分析结果与(B)相同。

类似文章

引用人

工具书类

    1. Brosius J.片段化基因。纽约学院安。科学。2009;1178:186–193.-公共医学
    1. Finta C.,Zaphiropoulos P.G.人类细胞色素P450 3A基因座。通过捕获下游外显子进行基因进化。基因。2000;260:13–23.-公共医学
    1. Suzuki Y.,Sugano S.使用寡核苷酸方法构建全长富集和5'末端富集的cDNA文库。方法分子生物学。2003;221:73–91.-公共医学
    1. Suzuki Y.、Yoshitomo Nakagawa K.、Maruyama K.、Suyama A.、Sugano S.完整长度丰富和5'末端丰富cDNA文库的构建和表征。基因。1997;200:149–156.-公共医学
    1. Kodzius R.、Kojima M.、Nishiyori H.、Nakamura M.、Fukuda S.、Tagami M.、Sasaki D.、Imamura K.、Kai C.、Harbers M.等。CAGE:基因表达的帽分析。自然方法。2006;3:211–222。-公共医学

出版物类型