跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

HTTP服务器

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2008年8月22日;4(8):e1000154。
doi:10.1371/journal.pcbi.1000154。

基于特征的蛋白质-DNA相互作用建模方法

附属公司

基于特征的蛋白质-DNA相互作用建模方法

艾伦·沙龙等。 公共科学图书馆计算生物学. .

摘要

转录因子(TF)与其DNA靶位点的结合是一种基本的调控相互作用。用于表示TF结合特异性的最常见模型是位置特异性评分矩阵(PSSM),它假定结合位置之间的独立性。然而,在许多情况下,这种简化假设并不成立。在这里,我们提出了基于对数线性模型的特征模体模型(FMM),这是一种新的概率方法,用于建模TF-DNA交互。我们的方法使用序列特征来表示TF绑定特性,其中每个特征可能跨越多个位置。我们发展了模型的数学公式,并设计了一种算法,用于从绑定站点数据中学习其结构特征。我们还开发了一个鉴别基序查找器,它可以发现与背景集相比在序列目标集中丰富的从头开始的FMM。我们基于Harbison等人的合成数据和广泛使用的TF染色质免疫沉淀(ChIP)数据集评估了我们的方法。然后,我们将我们的算法应用于小鼠和人类的高通量TF ChIP数据,揭示小鼠和人类TF结合特异性中存在的序列特征,并表明FMM对TF结合的解释明显优于PSSM。我们的FMM学习和motif finder软件位于http://genie.weizmann.ac.il/。

PubMed免责声明

利益冲突声明

提交人声明,不存在相互竞争的利益。

数字

图1
图1。在具有四个位置的TFBS的玩具示例中比较FMM和PSSM。
(A) TF识别的八个输入TFBS。(B) (A)中输入数据的PSSM,显示其对数线性模型网络表示、每个位置的概率分布和序列标识。请注意,PSSM按照输入数据的预期,为位置2和3的CG和GC分配了较高的概率,但它也不希望(不可避免)为这些位置的CC和GG分配了相同的高概率。(C) (A)中输入数据的FMM,显示相关的对数线性模型网络,具有3个特征和序列徽标。请注意如果 1如果 2根据需要,将高概率分配给位置2和3的CG和GC,而不是分配给这些位置的CC和GG。
图2
图2。FMM motif finder流程图。
该算法将(1)组正负(根据TF绑定)未对齐序列作为输入。然后(2)计算每个可能的K(K)-mer-its富集多维超几何第页-值(MHG第页-值),通过查找其在输入序列中的所有出现。这个K(K)-mer由MHG排名第页-值。(3) 然后使用FDR控制的阈值过滤非重要的K-mers。接下来(4)建立一个无向图。每个K(K)-mer是一个顶点,2K(K)-如果它们的汉明距离小于H(H) 距离或者如果它们可以在没有失配的情况下对齐,并且相对偏移高达M(M) 班次(此处蓝色线条边缘代表汉明距离1,绿色虚线边缘代表汉明距离2)。然后,算法(5)迭代选择最重要的K(K)-mer,并如文本中所述沿着边缘增长KMM。每次之后K(K)-mer正好与一个KMM集合相关联,(6)所有集合都根据其MHG进行排序第页-价值和最佳M(M)集合被选中。该过程每重复一次K(K) 最小值K(K)K(K) 最大值再次强调整体M(M)选择了最好的KMM。每个选定的KMM都被用于(7)以文中描述的方法生成FMM或PSSM基序。作为最后一步,删除了类似的图案。
图3
图3。评估我们对合成数据的方法。
显示了八个手动构建的模型的结果,我们从中提取了样本并构建了FMM和PSSM。自上而下给出的模型是三个合成模型。PSSM和FMM从MacIsaac等人的TF GCN4数据中获得。GCN4 MacIsaac等人。从MacIsaa等人的GCN4转录因子数据中学习到的PSSM,在每个位置上手动添加八个合成特征(称为GCN4 PSSM++)。PSSM和FMM从MacIsaac等人的TF SWI5数据中获得。对于每个模型,显示了其序列标志(左)、训练和测试对数似然(真实模型、学习的FMM和PSSM的每个实例的平均值)以及学习的FMM和PSSM模型与真实模型之间的KL距离(为清楚起见,排除了列列似然误差条)。序列标志中每个特征的高度与其期望值成线性关系。超过一个位置的特征具有灰色背景。
图4
图4。评估我们对人类真实TFBS的方法。
(A) 序列(绿点)和测试对数似然(蓝条),显示为每个实例的平均对数似然与PSSM相比的平均和标准偏差改进,用于NRSF、CTCF预测站点和CTCF预计保守站点的数据集。(B) 和(C)分别显示了CTCF预测保守位点的PSSM和FMM特征期望标志。(D) 和(E)显示了NRSF现场的相同情况。FMM特征期望标志((B)和(E))中的每个特征都由一个方框表示。水平位置和框中的字母定义了特征。例如,(C)中紫色虚线框中的特征表示特征“位置2处的T和位置7处的A”。特征的高度与其在模型定义的概率分布中的期望值呈线性关系。灰色背景表示双位置特征。
图5
图5。评估酵母数据的基序查找器。
(A) 图中所示为Harbison等人发现具有更好MHG的基序集的分数第页-在Harbison等人的一组相同大小的随机选择序列中发现的值比预期的要高(x个-轴)。我们选择了一个界限,定义为一个生物学上真实的基序,一个带有MHG的基序第页-值低于最佳图案MHG的16%第页-1000个随机选择集的值。81%的Harbison等人的作品都包含这样的主题。(B) 我们的基序查找器预测的KMM基序与使用中报告的保护基序和文献基序的两个软件所发布的预测组合之间的比较。
图6
图6。在人类和小鼠的真实TFBS富集序列数据集上评估我们的方法。
我们使用5倍交叉验证方案搜索每个数据集的从头开始图案。我们假设正集合中的每个序列都至少有一个TFBS。然后,我们计算了每个正序列的顶部模体的FMM和PSSM的最佳TFBS概率,并将其视为序列结合似然。我们在这里展示了FMM方法相对于PSSM在序列(绿点)和测试(蓝条)对数平均似然方面的改进。在数据集STAT1_IFNg中,两个不同的图案在不同的交叉验证运行中显示为最佳/次最佳,并分别用一个和两个星号标记。
图7
图7。FMM生物学发现。
(A) c-Myc FMM和PSSM。(B) c-Myc FMM和PSSM仅从PET3+簇序列中学习(一个更干净的集合)。(A)和(B)中的黑色方块突出了E-Box图案。(C) 用虚线标记的C-Myc FMM功能的统计信息。预期发生的情况符合(B)中的PSSM。这个第页-如方法部分(“减少特征空间”)所述,使用二项式检验计算值。(D) CTCF FMM和PSSM。虚线方框突出显示文本中引用的要素。(E) 位置15、16处CTCF FMM特征的统计数据(用虚线标记)。预期发生情况根据(D)中的PSSM。

类似文章

引用人

参考文献

    1. Gold L、Brown D、He Y、Shtatland T、Singer BS等。从寡核苷酸形状到基因组SELEX:新型生物调控环。美国国家科学院院刊1997;94:59–64.-项目管理咨询公司-公共医学
    1. Oliphant AR,Brandl CJ,Struhl K.通过从随机序列寡核苷酸中选择结合位点来定义DNA结合蛋白的序列特异性:酵母GCN4蛋白的分析。分子细胞生物学。1989;9:2944–2949.-项目管理咨询公司-公共医学
    1. Elnitski L,Jin VX,Farnham PJ,Jones SJ。哺乳动物转录因子结合位点定位:计算和实验技术调查。基因组研究2006;16:1455–1464.-公共医学
    1. Bulyk ML,Huang X,Church GM,Choo Y。利用DNA微阵列探索锌指的DNA结合特异性。美国国家科学院院刊2001;98:7158–7163.-项目管理咨询公司-公共医学
    1. Bulyk ML、Gentalen E、Lockhart DJ、Church GM。通过双链DNA阵列量化DNA-蛋白质相互作用。国家生物技术。1999;17:573–577.-公共医学

出版物类型