跳到主页内容
美国国旗

美国政府的官方网站

点政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

网站是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2004年8月;14(8):1562-74.
doi:10.1101/gr.1953904。 Epub 2004年7月15日。

人类启动子中DNA序列的聚类

附属公司

人类启动子中DNA序列的聚类

彼得·菲茨杰拉德等。 基因组研究. 2004年8月.

摘要

我们已经确定了一组13010个人类基因组启动子序列中65536个八碱基长(8-mer)的DNA序列中每个序列的分布,这些启动子序列与假定的转录起始点(TSS)对齐。有限数量的8-mers在其分布(簇)中有峰值,大多数簇位于TSS的100 bp范围内。在TSS附近具有最大统计显著聚集性的156个DNA序列可分为9组相关序列。每组由一个一致序列定义,其中七个一致序列是转录因子(TFs)SP1、NF-Y、ETS、CREB、TBP、USF和NRF-1的已知结合位点。我们命名为Clus1的一个序列是未知的TF结合位点。第九个序列组由聚集在TSS下游的链特异性Kozak序列组成。对这些TF共有序列的共现性进行的检查表明,除受TBP(TATA盒)约束的序列外,大多数TF共有的序列都是正相关的。来自29个组织的人类mRNA表达数据表明,聚集的ETS、NRF-1和Clus1序列主要存在于看家基因(例如核糖体基因)的启动子中。相反,TATA在组织特异性基因的启动子中更为丰富。该分析确定了5082个启动子中的8个DNA序列,我们认为这些序列对调节基因表达很重要。

PubMed免责声明

数字

图1
图1
在13010个人类启动子中,二核苷酸(CG,GC,TT,CA)的分布范围为-1000-500 bp。
图2
图2
在人口最多的仓位绘制的每个8 mer DNA序列的聚类因子:全部32896个8 mer(A类); 8687个8-mers,最大箱子包含≥20个成员(B类); 从1000个随机七阶马尔可夫模型数据集中的一个数据集中,6838个8-mers包含一个≥20个成员的最大bin,聚类因子从-1000 bp到500 bp(C类); 包含最大bin且≥20个成员的7471个8-mers的聚类因子为-2500至-1000bp(D类); 图2B中8687个8倍体的聚类因子值为–1000到500 bp,基于0到500 bp之间的TSS随机易位(E类).
图3
图3
概率项P(P)=[–log10(1 –第页)]对于8687个8-mers,最大bin包含≥20个成员。线上方的159个DNA序列P(P)=7,一千万分之一(单次抽样)的随机概率,被手动注释。
图4
图4
13010个启动子序列中每个32896个DNA序列的出现次数绘制为一个灰点。所有159个层序的丰度P(P)≥7绘制为黑色三角形。
图5
图5
显示最大聚集性的DNA 8-mer(ACCGGAAG)的分布(每个bin的出现次数,作为相对于TSS的位置的函数)(A类)第159个8月(CCGCCTCC;B类).
图6
图6
5个月CCAAT和9个月RRCCAATSR的分布(A类)CCAAT共识RRCCAATSR和中央CCAAT的15个单碱基变体(B类).
图7
图7
选定序列的分布(8-mers和一致模式)。(A类)三个SP1(CCCGCCC、CCCCGCCC、CCCCCCCC)序列和一个非峰值单碱基变异(CCCCCCC)。(B类)Clus1(TCTCGCGA)序列。(C类)两个USF(TCACGTGG,TCACGTGA)序列。(D类)三个(TGACGTCA、TGATGTCA、TTGCGTCA)CREB样序列。(E类)TATAAAAD序列的链特异性定位。(F类)TATA的两个变体(TATATAD和TATAAGD),仅加链(+)。(G公司)三个NRF-1(CGCCTGCG、CGCGTGCG和CGCATGCG)序列。(H(H))ETS核心(CCGGAA)、一致序列(VCCGGAARY)和峰值(VGCGGAARY”)和非峰值VCCGGAAYR变体。
图8
图8
Kozak八聚体AGATGGCG在正链(+)和负链(-)上的分布。
图9
图9
TSS、SRY(WWAACAAWA)和LYF1(TTTGGGAGR;Ikaros;A类); 以及均匀分布的Myb(AACKGNC)、HSF2(GAANNWTCK)和TRE(TGAGTCA);B类). (C类)核心启动子元件启动子Inr(YYANWYY)。(D类)核心启动子元件下游启动子元件DPE(RGWCGTG)。

类似文章

引用人

工具书类

    1. Ashburner,M.和Lewis,S.,2002年。生物学家本体论:基因本体论:解开网络。诺华公司成立。交响乐团。247: 66–80.-公共医学
    1. Bendall,A.J.和Molloy,P.L.1994。bHLH-Zip蛋白USF结合DNA的碱基偏好:MgCl2对特异性的影响以及与Myc家族成员结合的比较。核酸研究22:2801–2810。-项目管理咨询公司-公共医学
    1. Boyd,K.E.和Farnham,P.J.,1999年。活细胞中位点特异性转录因子结合和启动子活性的共同检查。分子细胞。生物学19:8393–8399。-项目管理咨询公司-公共医学
    1. Breathnach,R.和Chambon,P.,1981年。编码蛋白质的真核分裂基因的组织和表达。每年。生物化学评论。50: 349–383.-公共医学
    1. Brown,T.A.和McKnight,S.L.1992年。GABPα和两种新定义的ets相关蛋白的蛋白质-蛋白质和蛋白质-DNA相互作用的特异性。基因与发育6:2502–2512。-公共医学

网站参考

    1. http://genome.nci.nih.gov/publications/promoters网站; 本文的补充数据。
    1. http://transfac.gbf.de/transfac公司; 转录因子数据库。
    1. 网址:http://expression.gnf.org; GNF基因表达图谱。
    1. http://genome.ucsc.edu/; UCSC基因组生物信息学网站。
    1. http://dbtss.hgc.jp/index.html; TSS数据库(DBTSS)。