The p53MH algorithm and its application in detecting p53-responsive genes

J. Hoh; S. Jin; T. Parrado; J. Edington; A. J. Levine; J. Ott

doi:10.1073/pnas.132268899

美国国家科学院院刊。2002年6月25日；99(13): 8467–8472.

2002年6月19日在线发布。数字对象标识：10.1073/pnas.132268899

预防性维修识别码：项目经理124275

PMID：12077306

p53MH算法及其在检测p53应答基因中的应用

J.何,^*^†^‡ S.Jin公司,^§^† T.帕拉多,^* J.爱丁顿,^* A.J.莱文,^§和J.奥特^*

作者信息文章注释版权和许可信息 PMC免责声明

摘要

开发了一种计算机算法p53MH，该算法可以在全基因组范围内高效、通用地识别假定的p53转录因子DNA结合位点。根据el-Deiry的实验数据，利用人类和小鼠基因组的序列，在2583个人类基因和1713个小鼠同源基因的扫描中，确定了可能的p53 DNA结合元件等。[el-Deiry，W.S.，Kern，S.E.，Pietenpol，J.A.，Kinzler，K.W.&Vogelstein，B.（1992）自然遗传学。1、45–49]和Funk等。【Funk，W.D.、Pak，D.T.、Karas，R.H.、W.E.和Shay，J.W.（1992）分子细胞。生物。12, 2866–2871] (http://linkage.rockefeller.edu/p53). p53 DNA结合基序由10bp的回文组成，最常见的是由间隔区连接的第二个相关回文。p53MH通过从每个基因的5′端到3′端扫描，在每个端附加一个额外的10-kb核苷酸序列（文献中描述的大多数调控DNA元素都位于这些区域），在离散判别模型下计算每个位点的结合可能性，然后输出有序得分，相应的站点位置、序列和相关信息。大约300个得分大于理论临界值的基因被确定为潜在的p53靶点。在2个细胞系中对16个基因进行了半定量逆转录-PCR实验，这些基因之前不知道它们与p53的功能关系，并且发现在近端启动子或可能的远端增强子区域中得分较高。其中10个（～63%）基因对p53的存在作出反应。

p53蛋白在癌症监测中起着核心作用(1,2)并作为序列特异性转录因子发挥作用。尽管在确定受p53调控的众多下游效应基因方面取得了进展，但迄今为止，只有约20个基因被证实含有与p53蛋白结合的p53 DNA反应元件，并且明显受p53转录调控。基因附近或基因中存在p53一致性DNA结合序列并不一定意味着它受p53调控体内然而，这种序列，尤其是在基因的调控区域中发现时，可以指导对其与p53功能关系的实验测试。

四聚体p53蛋白与共有DNA序列5′-PuPuPuC（a/T）-3′的两个重复序列结合，其中（T/a）GPyPyPy是其倒置序列。该序列通常以两对重复，每一对排列为反向重复，→ ← … → ←, 其中“→←”是PuPuPuC（A/T）（T/A）GPyPyPy，“…”是间隔区(1,三). p53 DNA结合共识序列的退化性质可能对调控至关重要，因为它允许对细胞信号作出反应的时间和水平的多样性和灵活性。然而，这种变异性或退化性使结合位点的鉴定变得复杂。在这里介绍的计算方案中实现了三个属性，但在其他方法中缺少这三个属性（参见参考文献。4). 首先，尽管结合模式可能会偏离共识，但大量PuPuPuC（a/T）位点的重复出现在p53识别的簇中已被证明可以稳定结合并调节表达(5)例如，在MDM2中(6)和第21页(7)基因。其次，位于一对10-bp回文的两个成员之间的间隔区（即→←）由许多核苷酸组成，这些核苷酸可以从0到大约14 bp不等。第三，对于任意大小的给定基因，需要一个无偏见的标准来判断整体结合可能性。为了满足上述要求，算法中实现了三个功能：结合倾向图、加权分数和最可能结合位点的统计显著性。

这种计算机算法已被用于在全基因组范围内识别假定的结合元件。算法p53MH使用最佳评分系统来表示与共识的相似性百分比。它可以在短短几分钟内同时筛选数千个基因的退化一致序列。这样，基于可用的注释人类序列数据库，创建了一个类似于白页的目录（以下称为目录）。在目前阶段，该目录包含4000多个基因的结合信息，这些基因松散地分为14种不同的生物途径(http://linkage.rockefeller.edu/p53). 这些基因是通过圣克鲁斯生物技术公司的完整路径调查进行分类的；每个基因的序列数据都是从Celera数据库中获得的(网址：http://cds.celera.com/)大多数基因的每一端都包含额外的10kb序列。每个基因都经过p53MH筛选，以确定可能的p53结合元件。目录中列出了10个最高得分的位点和序列，其中间隔区允许在0到14 bp之间变化。目录发布在万维网上http://linkage.rockefeller.edu/p53.

为了测试该算法预测p53应答基因的效果，我们使用两种不同的培养细胞系对16个基因进行了半定量实时（RT）-PCR实验。之所以选择这些基因，是因为人类和小鼠基因组序列的直系同源序列在近端启动子或远端增强子区域中都有较高的分数，而且之前文献中没有报告它们是p53响应基因。

材料和方法

p53MH算法。

如上所述，p53 DNA结合位点往往或多或少忠实于一致序列。这种可变性或简并性可以用与四个碱基相对应的行和每列中的项表示已知结合位点中给定位置的相对基频的权重矩阵来表示(8). 在p53MH中，权重矩阵是由el-Deiry中20个克隆的组合数据导出的等。(三)和Funk的17个克隆等。(9)（表（表1）。1). 使用权重作为输入信息，可以计算任何给定站点的绑定概率或绑定分数。基于统计力学理论或人工神经网络的方法已被描述并应用于其他转录因子(10). 根据图案的图案，不同的评分系统提供不同程度的准确性。这里，使用了一种基于离散判别分析的方法，该方法概念简单，在p53病例中具有良好的特性。此外，以前的实验表明，某些碱基，例如位于位置8和18的A、T或C[X In（T/A）XPyPyPy]，与p53结合不兼容(三,11). 这些违规碱基被捕获在过滤矩阵中（表（表1），1)和含有冒犯碱基的序列被分配了最低分数。因此，该算法可以概括为三个基本元素：加权、评分和过滤。然后，我们使用实验已知的p53响应基因来测试算法的有效性（表（表3）三)并开发了几个微调方案来提高检测能力（参见结果和讨论). 注意，用于构建权重矩阵的克隆序列与组成测试数据集的已知p53应答基因的克隆序列不同。下面是对评分方法的描述。

表1

权重和过滤矩阵

	5′-R	R（右）	R（右）	C	W公司	W公司	G公司	Y（Y）	Y（Y）	Y（Y）	R（右）	R（右）	R（右）	C	W公司	W公司	G公司	Y（Y）	Y（Y）	Y-3′
重量
A类	14	11	26	0	28	2.5	0	0.5	0	三	6	2	11.5	0	27	4	0	0.5	1	2
C	三	1	1	36	1	0.5	0	24.5	33	23	2	0	0.5	36	2	0	0	9.5	24	15
G公司	16	24	10	0	0	0	37	0	0	0	23.5	34	25	0	2	1	37	0	0	三
T型	4	1	0	1	7	34	0	12	4	10	5.5	1	0	1	5	32	0	27	12	16
过滤器^*
A类	1	1	1	0	1	1	0	1	0	1	1	1	1	0	1	1	0	1	1	1
C	1	1	1	1	1	1	0	1	1	1	1	1	1	1	1	1	0	1	1	1
G公司	1	1	1	0	0	0	1	1	1	0	1	1	1	0	1	1	1	1	1	1
T型	1	1	1	1	1	1	0	1	1	1	1	1	0	1	1	1	0	1	1	1

在单独的窗口中打开

^*0=过滤；1=未过滤。

表3

已知p53诱导基因的p53MH输出示例

基因	长度	现场	分数	顺序
Snk公司	26283	7968	100	`AAACATGCCT公司。GGACTGCCC公司`
p48-ddb2	44746	10478	100	`GAACAAGCCC T GGGCATGTTT公司`
加德45	23161	16636	100	`AGGCATGTTT G GAGCTAGCTT公司`
蛇蛋白b5-maspin	48573	7263	100	`AGGCATGTTC TCCAG AAACTAGTT公司`
pten-10	123338	9522	100	`GAGCAAGCCC CAGGCAGCTACT GGGCATGCTC公司`
pigpc1-perp	35853	13319	95.95	`AGGCAAGCTC。CAGCTTTTC公司`
第21-cdkn1a页	28622	15111	95.83	`AGACTTGCCT TTGTTGACAT TAGCTTGCCC`
apaf1型	110193	9397	95.69	`AGACATGTCT GGAGACCCTAGA CGACAAGCC`
第53页aip1	27599	19189	94.86	`GAGCAAGCTG TAGATCCA AGGCTTGCTT公司`
自行车-G	26555	10309	93.62	`GCACAAGCCC。AGGCTAGTCC公司`
图1	40531	13335	93.6	`GCACAGCCT TTTAAGTCAT GAGCTAGTCC公司`
第53页2	54618	18129	93.16	`AACCTTGTTC ATACA AAACAAGTCT公司`
安全功能网络(14-3-3-σ)	21312	11242	93.12	`AAGCATGTCT GCTGGGTT GACCATGTT公司`
第53页第1页	35023	14871	92.79	`GAGCTTGTGT TTCATGGCTGAC阿加加特`
第53r2页	54618	16981	92.14	`TGGCATGTTT TACATACCTACAGT TAGCAAGTTC公司`
fas-tnfrsf6型	45151	10653	90.92	`GGACAGCCC。TGACAAGCA公司`
胰岛素样生长因子结合蛋白3	29032	13172	90.9	`AAACAAGCCA C CAACATGCTT公司`
唾液酸1	47108	18036	90.89	`TGGCTAGCTA TAGTC GAGCATGTTC公司`
蛇纹石1-对	31893	9774	90.36	`ACACATGCCT公司。CAGCAGTCC公司`
百万平方米	52293	10733	79.68	`GGTCAAGTTC。AGACAGTTC公司`

在单独的窗口中打开

第一列显示基因符号。长度=基因的总长度；site=由p53MH算法识别的假定结合位点的第一个碱基位置（其中大多数对应于已知的结合位点）、得分和识别位点的序列。翻译起始站点位于位置10001

让x个=（x₁…x个_L（左）)表示核苷酸序列的长度L（左）在元件10之后包括一定长度的间隔区域。对于给定的x个，目的是确定它是否是一个结合位点。离散判别分析理论表明，最优分配是基于概率比的，P（P）(x个^（b）)/P（P）(x个^（r）)，其中P（P）(x个^（b）)和P（P）(x个^（r）)分别代表与p53结合和不结合的序列的多项式分布(12). 这种将假定的结合位点作为二分法量的处理是近似的。实际上，结合强度可能是定量的。由于p53 DNA结合的实验观察结果很少，必须采取措施降低多项式的维数P（P）(x个). 一种可能性是用少量正交基函数表示多项式密度(13,14). 在实践中，独立性模型经常被使用，并且往往工作得很好；也就是说，P（P）(x个^（b）)/P（P）(x个^（r）)表示为∏_我(如果_我/克_我)，其中，为了简单起见，如果_我和克_我表示我th核苷酸x个(12). 估计如果_我和克_我原则上，分别从与p53结合和不结合的序列中获得。因为与基因的总序列相比，p53 DNA结合位点可能相对罕见，克_我可以简单地通过以下概率进行估计我th核苷酸偶然符合共识。例如，克_我估计依据为P（P）（A）+P（P）（G），用于P（P）（A）和P（P）（G）是所涉及序列中A和G核苷酸的各自出现频率。

这些考虑证明了目前对候选网站进行评分的做法是正确的，x个，如下所示。对于我第个基准位置x个，分数定义为

等式。1基于Stormo和Hartzell中给出的公式(15). 对的对数求和秒_我超过20个基地x个跳过间隔符，我们得到场地得分，S公司(x个;w个(我)) =w个(我) × Σ_我日志(秒_我)，其中w个(我)是垫片长度的重量我由其基因组频率决定（未发表的结果）。

方程中的两个参数ξ和η。1，对于获得最佳结果至关重要。施加平滑因子ξ，以便分数不会因边缘频率的不准确估计而受到太大的影响，如果_我由于实验证据有限。在目录中，ξ的值被选择为使最大和最小得分对称于零|S公司_最小值| =S公司_最大值该方程相当于对方程∑log进行数值求解{(如果_我/克_我+ ξ)[(1 −如果_我)/(1 −克_我)+ξ]}=0表示ξ，其中最大得分，S公司_最大值，是所有达成共识的网站的得分，以及最低得分，S公司_最小值，对于所有未达成共识的网站。在这里研究的基因中，ξ在0.25附近。核心因子η用于强调八个核苷酸（回文中的CWWG）的生物学重要性，这八个核苷酸与p53蛋白残基的相互作用最为密切(16). 在没有核心因子η的情况下，分数将每个位置视为p53结合的可能性相等。从晶体学结果可以清楚地看出，核心序列中的一个或两个突变阻止了p53结合，即使非核心序列符合共识。在目录中，核心区和非核心区的η分别设置为2和1。通过计算重量矩阵中核心和非核心核苷酸细胞之间的零频率，可以简单地确定比率2:1。

最终现场得分表示为最大可能得分的百分比，即。，S公司(x个;w个(我))/S公司_最大值，使其范围在0到100之间。

细胞培养、RNA提取和半定量RT-PCR。

小鼠F9细胞（ATCC编号CRL 1720）和Vm10细胞(17)在添加10%FCS、10单位/ml青霉素和10μg/ml链霉素的DMEM中的100 mm培养皿中生长。F9细胞在37°C下培养，Vm10细胞在39°C下培养。F9细胞中的p53被足叶乙甙激活。F9细胞生长到50%的汇合点，然后用足叶乙甙（最终浓度10μM）处理12小时。为了激活Vm10细胞中的p53，将细胞在39°C下生长到70%的汇合处，然后转移到32°C，再培养24小时。然后，根据供应商手册，对细胞进行裂解，并使用Trizol试剂（马里兰州Rockville，Life Technologies）提取总RNA。用分光光度法测定RNA浓度。

为了检测感兴趣基因的mRNA，使用供应商推荐的SuperScript一步法RT-PCR系统（Invitrogen）进行半定量RT-PCR。简单地说，设计了一对寡核苷酸来扩增每个感兴趣基因的～500-bp序列（表（表2）。2). 总RNA（1μg）和0.025μl的[α-³²P] 向每25μl RT-PCR反应混合物中添加dCTP（3000 Ci/mmol，Amersham Pharmacia Biotech）。反应混合物在程序如下的热循环器中培养：50°C培养30分钟，94°C培养2分钟；3段扩增周期：94°C 30秒，55°C 30秒钟，72°C 45秒，然后在72°C下最后延长5分钟。通过实验确定了线性cDNA扩增的扩增周期数。Mdm2基因和所有测试基因使用23个周期，Gapdh和Ran基因使用18个周期。

表2

半定量RT-PCR实验和结果，其中mdm2基因为阳性对照，mGAPDH和mRan为阴性对照

基因	左寡核苷酸序列	右寡核苷酸序列	p53反应性^*
			功能9		电压m10
			基础	折叠	基础	折叠
毫巴2	`tgaagttggaaattggaggc`	`gtagaagcttccatcaccg`	774.8	4.26年（+）	ND（无损检测）
mCdh13型	`cagtgtctgctgacagtga公司`	`atgggcaggttgtgc`	12978.1	0.84牛顿	231265	1.05牛顿
毫微克2	`cattctcttcccctcatca公司`	`cgatacaagctccgtccat公司`	19984.1	5.82 Y（+）	138612.5	0.84牛顿
mCradd公司	`加拿大`	`gccacaaattccaaccat公司`	30385.3	0.21 Y（−）	38326.7	1.05牛顿
mEgfr公司	`atgtcctcattgcctcaac`	`ggaacttttggcagacacaga公司`	9962.1	0.91牛顿	10740.4	5.58 Y（+）
mEts2（单位：平方米）	`cttccaaaagagcaacgac公司`	`gtcctgtgatggaacagt`	19678.5	0.67牛顿	91144.4	0.96牛顿
m组10	`闭路电视`	`cacgagaccttgttgcttga`	14599.5	3.98年（+）	4653.2	4.43年（+）
毫微米1	`gagttgaggagagcattga（嘎嘎嘎嘎）`	`gttatctgggctgccagaag`	4243.6	0.7牛顿	13820	0.84牛顿
每2米	`attagacggtgtcggaaga公司`	`atgctccaaaccacgtaagg公司`	7975	0.81亿	1963.4	4.66 Y（+）
拉布10	`ctgcttttcaagctgctcct`	`tttcggaggatgtctcagc`	21075.9	0.29 Y（−）	188298.2	0.32 Y（−）
拉布7	`tgaacccatcaaactggaca公司`	`caaggagggaggtaaag公司`	128765	0.48牛	537400.2	114万
mTyro3型	`aaggccccctagaccttat公司`	`tgaactgctgctctggaatg`	ND（无损检测）		26559.8	0.32年（−）
毫瓦2	`tagcacccgagtacac公司`	`gaaggacctggatgttca公司`	21075.9	0.3 Y（−）	188298.4	0.32 Y（−）
毫瓦3	`tgtggaggtgtcttct`	`agcggaaagcaaaattct`	16569	1.69牛顿	83899.2	0.82牛顿
mTead1公司	`ctcagattgcaaccaa`	`tgagggggtgatgtcttcctc`	23336.9	0.78牛顿	66787.8	0.78牛顿
兆瓦时	`ctcttaccgagccactg`	`ggctggttagcaatgagc`	2336.9	8.62年（+）	19939.6	0.52牛顿
平方米	`tgtgagctgaggagagatg`	`gcacatccaagctttct`	2688.1	29.68	436654.4	16.31
百万加仑/小时	`acccagagactgtggatgg公司`	`cttgctcagtgtccttgctg`	468614.5	0.6	73008.5	1.17
百万兰特	`aggaccatcaagttcaacg`	`ggcatccagctccattct`	193022.9	0.74	11437.3	1.31

在单独的窗口中打开

Y（+），感应；Y（−），抑制；N、无反应；ND，不可检测。

^*两个独立实验的代表性结果。

在RT-PCR扩增后，向5μl反应混合物中添加5μl负载缓冲液（100%甲酰胺/0.01%溴酚蓝和二甲苯腈FF）。样品在95°C下变性3分钟，装入6%变性聚丙烯酰胺凝胶，并通过电泳分离。然后将凝胶固定并干燥。进行放射自显影以使扩增产物可视化，并使用PhosphorImager（分子动力学）直接量化放射性带。

结果和讨论

与可用算法的比较。

尽管有许多计算机程序用于搜索转录因子结合位点，但当应用于p53时，结果令人失望。程序失败的原因是(我)虽然评分系统可能对其他转录因子起到很好的作用，但它很可能需要修改、完善，甚至交换为新的模型，以有效地处理高度退化的p53一致序列和可变长度间隔区。(ii（ii）)现有的计算机程序侧重于近端启动子，而对于许多基因来说，它们的p53结合位点位于内含子、3′非翻译区或其他远端增强子区。据我们所知马丁斯佩奇计算机程序(4)是唯一可以检测推定p53 DNA结合位点的公开算法，尽管对于长度有限的序列（建议<1000 bp）。基于来自Funk的17个相对均匀的克隆序列等。(9),马丁斯佩奇搜索基序5′-GGACATGCCCGGGCATGTCC-3′，并假设完全没有间隔区。也就是说，它丢失了所有在两个回文之间有间隔的结合位点。的优点马丁斯佩奇它可以搜索p53以外的转录因子结合位点，而p53MH则专注于p53。然而，鉴于p53MH的多功能性，它可以很容易地扩展以适应其他结合位点序列。p53MH的多功能性和强大功能可以在以下小节中看到。

权重和过滤矩阵中的不对称性。

由实验数据建立的权重矩阵和滤波矩阵(三,9)相对于两个回文中的任何一个都不是对称的“→ ← … → ←” 或在回文“→←”中。例如，在“→ ← … → ←,” 左回文（间隔区的5′）似乎比右回文更忠实于一致意见，在“→←”内，“←”比“→”更忠实。然而，这些趋势相当微弱，没有统计显著性，可能只是小样本的偶然结果。需要进一步调查以解决这个问题。

结合倾向图识别假定的结合簇。

正如引言中提到的，许多实验证实的p53 DNA结合位点倾向于聚集在一起。在这里，我们提出了一种移动平均法来可视化给定基因中的此类簇，这是由扫描统计方法驱动的(18). 首先，为序列中的每个位置计算绑定索引。这个绑定索引是平均得分（等式。1)例如，在100-bp长的“窗口”内。因此，如果一个基因中多个连续位置的结合指数较高，则表明p53结合的倾向高于单个位点的信号。当结合指数与核苷酸数相比较时，可以从具有高峰值的区域识别该簇。图中显示了MDM2基因的启动子区域，可以很方便地说明这种图，即结合倾向图。图2。2如图所示，从翻译起始位点的上游和下游3kb处，两个实验证明的p53结合位点位于最高峰的窗口中，而在该窗口内，单个位点的得分仅在70s的范围内（见表中的一个真实结合位点得分表3）。三).

在单独的窗口中打开

图2

翻译起始位点上游5 kb和下游5 kb的MDM2基因的结合倾向图（10001x个轴），窗口大小为100 bp。箭头指向实验确认的10733和10771处的p53结合位点。

基于位点的分数中的长度偏差，但基于基因的结合概率中没有。

对于一个给定的基因，最好建立一个总评分来预测其对p53的反应性。图。图11 一和b表明在已知p53诱导基因中，一个基因中5个最高位点得分的总和显著大于其他基因（其中约40个已从参考文献中确定）。19——21，以及其中的参考文献）。在该图中，使用了两种随机序列，一种来自6号染色体上的片段，另一种是通过计算机模拟获得的；他们的分数无法区分，并且比p53诱导基因的分数要小。当已知基因中的p53结合序列被纳入权重矩阵时，结果没有改变。因此，使用该评分系统预测p53反应性的能力对这40个基因是有效的。表表3三列出了其中一些基因的p53MH输出。

在单独的窗口中打开

图1

三个基因组的五个最高得分总和的频率分布一和b右线表示已知的p53诱导型基因。中间线表示从P（P）6号染色体的臂。左行表示长度为30 kb的计算机模拟随机序列。c（c）显示了从目录中任意选择的400个基因的得分与基因长度。(d日)图P（P）相同400个基因的值。（1−对_最小值)分布显示在e（电子）和如果，其中对_最小值是5个最高分数的连续总和的最小显著性水平。

图。图11c（c）检查≈400个从目录中任意选择的基因，并绘制出每个基因中五个最大得分与总长度的总和。很明显，较短的基因始终与较低的分数相关，这是一种长度偏大现象；也就是说，更长的基因有更多的机会随机获得更高的分数。虽然有很多方法可以最小化这种不良影响，但最直观的方法是确定分数的“零”概率；也就是说，给定相关序列不是结合位点的分数的概率。具体来说，我们计算了5个最高分数，并使用5000个自举样本获得显著性水平(P（P）值）用于有序分数的总和（即。，P（P）_三=三个最高分数之和的显著性水平）。然后我们取最小值P（P）值，P（P）_最小值，用于我从1到5作为基因特异性统计(22)，它自动校正长度偏差，适用于任何长度的基因（否则，在计算位点得分之前，可以在固定长度的窗口中检查序列）。这种方法转换了图。图11c（c）到图中。图11d日类似地，图。图11 一和b变成图。图11 e（电子）和如果比例为（1−P（P）_最小值)为三组绘制。它还捕获了6号染色体和随机序列之间碱基对组成的细微差异，如图所示。图11 e（电子）和如果但不在一和b然而，此方法的缺点是，由于需要引导样本，因此耗时。为此，我们实现了一种基于固定长度的方法，如下所述。

潜在的p53靶基因。

在目录中的4296个基因中，有25个基因在人类和小鼠中都含有完全匹配的一致序列（表（表4），4)虽然在这两个物种中并不是每个位点都是同源的。在这25个基因中，Bcl公司II已被证明是p53转录抑制的下游靶点(23)Pten是一种p53诱导型基因(24). p53作为激活物或阻遏物发挥作用的能力可能取决于结合序列，就像转录因子Pit1一样，Pit1可以通过其结合位点的双碱基对变化从激活物切换到阻遏体(25). 人们需要更多的实验证据来评估p53的这个问题。在本文中，对这25个基因中的一些基因进行了实验测试。

表4

人类和小鼠直系亲属中得分均为100的基因

基因	简要说明
Bcl2公司	B细胞CLL/淋巴瘤
克雷德^*	CASP2；死亡域
Egfr公司^*	禽红细胞白血病病毒癌基因同源物
Fbn1公司	纤维蛋白；马凡综合征
费图布	费图因
加布里2	GABA（A）受体
姆纳特1	CDK活化激酶组装因子MAT1
姆维1	鼠逆转录病毒整合位点1
尼奥1	新生蛋白，一种DCC相关蛋白
铂族	磷酸酶和张力蛋白
拉布10^*	RAS癌基因家族
拉布7	RAS癌基因家族
同步3	突触蛋白
Tlk2型	细胞周期调节激酶的Tousled基因编码
排名前1	拓扑异构酶1；DNA修复和转录
Tshb公司	促甲状腺激素
坦桑尼亚联合共和国^*	促甲状腺激素受体
Ucn公司	尿皮质激素；认知激发性
小精灵2^*	WNT1诱导信号通路蛋白2
Cacna1a公司	钙通道
Cryz公司	结晶蛋白，zeta（醌还原酶）
Lox11线	赖氨酰氧化酶样
血小板cd4	普列克斯特林同源性
拉格语	猕猴血型相关糖蛋白
伊whah	14-3-3 eta链基因

在单独的窗口中打开

已知Bc12下调(23)Pten被p53上调(24).

^*本文通过半定量PCR证实了p53调控的基因。

此外，根据人类基因组中的基频随机生成的长13 kb的10000个参考序列中的每一个序列中的3个最高分数的分布，得出了理论截止分数。注意，如前所述，施加固定长度是为了避免长度偏差。在随机序列中的30000分中，不到750分（<2.5%）超过93分，不到1500分（<5%）超过90分。我们以93为临界值，将目录中限制在13-kb区域（翻译起始点上游3kb和下游10kb）的304个基因分类为潜在的p53靶基因（参见http://linkage.rockefeller.edu/p53). 根据已知p53应答基因的得分，90分也是一个合理的临界值（见表表3）。三). 根据截止值（93或90），在已知p53结合位点的基因中，只有MDM2被遗漏。另一方面，如前一小节所述，p53MH通过结合倾向图（图。（图2）。2).

半定量RT-PCR。

用两种不同的细胞系检测了p53激活16个不同基因转录的能力。一种是小鼠畸胎瘤F9细胞系，它含有野生型但沉默的p53(26). 足叶乙甙治疗能迅速激活这些细胞中的p53(26). 另一个系统使用小鼠Vm10细胞系，该细胞系表达一种温度敏感性突变型p53，丙氨酸135变为缬氨酸(17). 将生长温度从39°C改变到32°C，将突变的p53构象改变为野生型构象，从而激活它。在这两个实验中，mdm2基因被选为阳性对照，而Gapdh和Ran基因被用作阴性对照。如表所示表2，2在F9细胞中检测到16个基因中的15个基因的mRNA。在这15个基因中，7个基因的转录本在p53激活后发生了3倍或更多的变化。四份成绩单上升，三份下降。同样，在Vm10细胞中检测到16个基因中的15个基因的mRNA。p53激活后，15个基因中有6个的转录物改变了三倍或更多。三份成绩单上升，三份下降。总之，共有10个mRNA可检测的基因的转录物因p53激活而发生改变。p53蛋白没有激活这两种细胞系中的同一组基因。F9和Vm10细胞系中只有三个基因（Grb10、Wisp2和Rab10）受到类似的调控。研究表明，细胞类型和“应激”诱导物的性质可以改变p53应答基因的类型，该基因受调控(20). 为了全面测试p53MH算法，需要对受各种压力信号刺激的各种细胞或组织类型中的p53响应基因进行更彻底的分析。

致谢

我们感谢蔡仁岳博士提出的许多宝贵建议和讨论。我们还感谢审查人员提出的建设性意见。这项工作得到了人类基因组研究所拨款K25HG00060-01A1和R01HG00008以及国家卫生研究院国家癌症研究所拨款P01CA87497的支持。

缩写

RT公司

实时

工具书类

1莱文·A·J。单元格。1997;88:323–331.[公共医学][谷歌学者]

2Tyner S D、Venkatachalam S、Choi J、Jones S、Ghebranious N、Igelmann H、Lu X、Soron G、Cooper B、Brayton C等人。自然（伦敦）2002;415:45–53.[公共医学][谷歌学者]

三。el-Deiry W S、Kern S E、Pietenpol J A、Kinzler K W、Vogelstein B。自然遗传学。1992;1:45–49.[公共医学][谷歌学者]

4Quandt K、Frech K、Karas H、Wingender E、Werner T。核酸研究。1995;23:4878–4884. [PMC免费文章][公共医学][谷歌学者]

5Ptashne M，Gann A。基因和信号。纽约州普莱恩维尤：冷泉港实验室出版社；2002[谷歌学者]

6Kaku S、Iwahashi Y、Kuraishi A、Albor A、Yamagishi T、Nakaike S、Kulesz-Martin M。核酸研究。2001;29:1989–1993. [PMC免费文章][公共医学][谷歌学者]

7el-Deiry W S、Tokino T、Waldman T、Oliner J D、Velculescu V E、Burrell M、Hill D E、Healy E、Rees J L、Hamilton S R等。癌症研究。1995;55:2910–2919.[公共医学][谷歌学者]

8Waterman M S.输入：DNA序列的数学方法。Waterman M S，编辑。佛罗里达州博卡拉顿：CRC出版社；1989年，第93–115页。[谷歌学者]

9Funk W D、Pak D T、Karas R H、Wright W E、Shay J W。分子细胞生物学。1992;12:2866–2871. [PMC免费文章][公共医学][谷歌学者]

10Stormo G D，Fields D S公司。生物化学科学趋势。1998;23:109–113.[公共医学][谷歌学者]

11卞杰、孙毅。美国国家科学院程序。1997;94：14753–14758。 [PMC免费文章][公共医学][谷歌学者]

12Dillon W R，Goldstein M。美国统计协会。1978;73:305–313. [谷歌学者]

13里普利·B·D。模式识别和神经网络。英国剑桥：剑桥大学出版社；1997[谷歌学者]

14Ott J，Kronmal R A。美国统计协会。1976;71:391–399. [谷歌学者]

15Stormo G D、Hartzell G W。美国国家科学院程序。1989;86:1183–1187. [PMC免费文章][公共医学][谷歌学者]

16Cho Y、Gorina S、Jeffrey P D、Paveletich N P。科学。1994;265:346–355.[公共医学][谷歌学者]

17Wu X，Levine A J。美国国家科学院程序。1994;91:3602–3606. [PMC免费文章][公共医学][谷歌学者]

18Hoh J，Ott J。美国国家科学院程序。2000;97：9615–9617。 [PMC免费文章][公共医学][谷歌学者]

19Jin S，Levine A J。细胞科学杂志。2001;114:4139–4140.[公共医学][谷歌学者]

20Zhao R、Gish K、Murphy M、Yin Y、Notterman D、Hoffman W H、Tom E、Mack D H、Levine A J。基因发育。2000;14:981–993. [PMC免费文章][公共医学][谷歌学者]

21Yu J、Zhang L、Hwang P M、Rago C、Kinzler K W、Vogelstein B。美国国家科学院程序。1999年；96:14517–14522. [PMC免费文章][公共医学][谷歌学者]

22Hoh J、Wille A、Ott J。基因组研究。2001;11:2115–2119. [PMC免费文章][公共医学][谷歌学者]

23Shen Y，Shenk T。美国国家科学院程序。1994;91:8940–8944. [PMC免费文章][公共医学][谷歌学者]

24Stambolic V、MacPherson D、Sas D、Lin Y、Snow B、Jang Y、Benchimol S、Mak T W。分子细胞。2001;8:317–325.[公共医学][谷歌学者]

25Scully K M、Jacobson E M、Jepsen K、Lunyak V、Viadiu H、Carriere C、Rose D W、Hooshmand F、Aggarwal A K、Rosenfeld M G。科学。2000;290:1127–1131.[公共医学][谷歌学者]

26Lutzker S G，Levine A J。自然医学。1996;2:804–810.[公共医学][谷歌学者]

文章来自美国国家科学院院刊由以下人员提供美国国家科学院