Human microRNAs target a functionally distinct population of genes with AT-rich 3′ UTRs

Harlan Robins; William H. Press

doi:10.1073/pnas.0507443102

美国国家科学院院刊。2005年10月25日；102(43): 15557–15562.

2005年10月17日在线发布。数字对象标识：10.1073/pnas.0507443102

预防性维修识别码：项目经理1257391

PMID：16230613

人类microRNAs靶向具有AT-rich 3′UTR的功能不同的基因群体

哈兰·罗宾斯^†和威廉H.出版社^‡^§

作者信息版权和许可信息 PMC免责声明

关联数据

补充资料: 支持信息

pnas_0507443102_index.html（1.4K）
GUID:C7DB2089-D4DA-4454-824B-7847DCBA31D6

pnas_0507443102_07443表4.xls（24K）
GUID:12A62521-D4BF-4398-9BE7-5F71738D7033

pnas_0507443102_1.pdf（125K）
指南：94C9AF77-22A6-4ED8-8CAE-483B7555C920

pnas_0507443102_07443表5.xls（264000）
GUID:0340FB71-1820-49B9-9FC8-C7A540054A21

pnas_0507443102_ utrtetra5.gif（384000）
GUID:349F47AE-1395-4CE1-A9D0-599A5CFBE3F5

摘要

在研究microRNA靶点时，我们发现人类基因根据其3′UTR中A+T碱基的比例分成两个大致相等的群体。使用基因本体数据库，我们发现两个基因群体之间存在显著的功能差异，富含AT的基因参与转录和翻译过程，富含GC的基因参与信号转导和翻译后蛋白修饰。更好地了解3′UTR中核苷酸的背景分布可能有助于改进对人类微小RNA靶向基因的预测。我们预测至少有1200个KnownGene转录物受microRNAs调控。这些microRNA靶标大多位于富含AT-的3′UTR人群中。然而，尽管对富含AT的靶点有这种偏好，但发现microRNA靶点优先是调控基因本身，包括转录因子和翻译后修饰物。这些结果表明，一些涉及mRNA的过程（其中microRNA调节可能只是一个过程）需要3′UTR的AT富集度才能发挥功能。本文描述了这3′UTR群体与大规模基因组等容线之间的关系，而不仅仅是一对一的关系。

关键词：基因本体、等容线、核苷酸含量

微RNA（miRNAs）是短（≈22 bp）的单链RNA分子，结合特定的mRNA及其靶点，并抑制其翻译(1，2). 此外，证据表明miRNAs下调了信息水平和蛋白质水平(三——5). mRNA分子上大多数已知和预测的靶点都在3′UTR内(6). 作为特定miRNA靶位点的必要条件，mRNA（通常为3′UTR）被认为需要六个连续的核苷酸，形成精确的Watson–Crick碱基对，以定位miRNA的2到7个位置，其中位置1是miRNA 3′端的第一个碱基(7，8). 应用实验和比较基因组学技术，一些小组利用这种六聚体结合条件预测，受miRNAs调控的人类基因数量比最初认为的要多得多，可能多达数千个(三，6，9——12). 然而，即使有这么多受调控的基因，六核苷酸结合也不能为miRNA提供足够的特异性，使其找到预期的靶点。在人类中，miRNA与靶位点的七个以上位置的部分结合似乎不太可能赋予额外的特异性(6，7)，尽管这种机制可以在秀丽隐杆线虫和黑腹果蝇(11).

我们表明，人类miRNAs优先靶向大量但不同的基因群体，这些基因的3′UTR具有高比例的a和T碱基，不仅在miRNA结合位点附近，而且在全球范围内。这些基因在密码子的第三个位置往往富含AT-，遗传密码中的冗余允许碱基的替代选择。由于几乎一半的人类基因都在这个富含AT-的人群中，因此立即隐含的特异性增益并不大。然而，我们的结果支持这样的推测，即miRNA结合的额外特异性取决于富含AT-靶mRNA的全局特性（不同于富含CG-的mRNA）不仅与靶六聚体相邻；例如，三维构象性质(13).

作为基因的AT丰富性不仅是一个伪影，而且可能是其功能的一个基本方面的额外证据，我们发现一些基因本体分类(14)关键词与AT-丰度高度相关；我们将展示作为miRNA靶标的基因和其他富含AT-的基因之间具有高度统计意义的其他关键词差异，这意味着miRNA靶子不仅是“典型的”富含AT-基因，而且是其功能独特的子集。

我们开发了刘易斯使用的方法的变体等。(6)和Krek类似等。(9)，但使用有向图背景模型预测miRNA靶基因。有关miRNA靶基因的预测概率列表以及最有可能调控该基因的miRNA集合，请参见表4，该表发布为支持信息在PNAS网站上。

3′UTR的组成

如果我们检查长度大于100个碱基的≈36000人KnownGene 3′UTR的核苷酸组成（因此其组成在统计上可以确定在合理的误差范围内），就会出现一个有趣的模式。如果我们让A、 C、G、和T型表示给定3′UTR中每个碱基的分数，通过绘图可以更好地看到模式A类+T型在一个轴上C类——G公司另一方面，如所示图1 顶部.（动画，发布为支持信息显示所有可能的轴。）人们可以看到两个种群，只是部分重叠，主要通过它们的平均值来区分A类+T型其次是分散在C类——G公司.中的省略号图1是两组分高斯混合模型的2-σ等值线，盲目地拟合到数据中（即，所有参数都不受我们的指导）。（请参阅A.W.Moore的教程，网址为www.autonlab.org/tutorials网站，也可参考。15有关拟合高斯混合模型的更多信息。）这样的模型很容易通过贝叶斯比值比方法为每个基因分配一个概率，即它在高抗药性人群中，而在低抗药性群体中。对于中所示的配合图1、和x个≡A类+T、年≡C类——G公司，生成的分配算法为

[1]

产生价值P（P）作为AT-rich人群的概率。在这里描述的工作中，我们推进了这种可能性（“软决策”），而不是进行硬赋值。从统计上看，该模型将≈47%的基因置于AT-rich人群中，平均值为A类+T型≈0.63；53%的人属于CG富裕人群，平均C类+G公司= 1 – (A类+T型)≈0.53。其他拟合参数如所示支持文本，发布为支持信息在PNAS网站上。

在单独的窗口中打开

图1。

人类3′UTR的组成A类+T型在水平轴上C类——G公司在垂直轴上。(顶部)所有人类基因都用红色绘制。红色椭圆是具有两个分量的最大似然高斯混合模型的2-σ轮廓。(中间)无脊椎动物，包括秀丽线虫和D.黑腹果蝇，在同一轴线上绘制时，不要显示超过一个总体。(底部)与相同顶部（浅红色），可能的miRNA靶基因现在标为绿色（Lewis等。“高信噪比”设置；裁判。6)蓝色（根据本文方法确定的可能目标）。miRNA靶点位于右侧（富含AT）组分，选择性约为3:1。

在分析中，我们使用了全套KnownGene转录本。其中一些转录物涉及同一基因的不同剪接形式。因为mRNA在信息水平上进行调节，所以这是合适的。然而，我们也验证了，如果使用RefSeq数据库中的独特基因，则可以获得非常相似的结果。

3′UTR在A类+T型对于非热血脊椎动物的生物体，形成一个独特的种群（例如。，秀丽线虫和D.黑腹果蝇如所示图1 中间). 二对一人口现象与等容线的存在有关(16——19)，我们将在下面讨论。

方法

基因本体（GO）数据库中字数的使用。我们描述了最近开发的一种方法，该方法使用GO数据库识别两个大基因群体之间具有统计意义的功能差异(14). 然后，我们将该方法应用于AT-versus CG-rich基因和与所有其他基因相比可能的miRNA靶点。

有人可能会认为，通过基因在GO类别中的分配差异来区分两个大的基因群体是很简单的。不幸的是，为此，“原始”GO数据非常嘈杂。由于等级GO类别是由一个庞大的个体研究者群体发明的，并由基因填充，因此它们是非常不均匀的，其广度和深度因个体贡献者的口味而异。此外，尚不清楚如何对发现的任何差异赋予定量统计显著性。

我们发现，为每个基因指定所有生物意义单词（和类单词短语）的未加权列表是有用的，这些单词出现在所有基因GO类别的描述性标题中，而不是其GO类别列表中。例如，我们发现，在一个基因的GO类别中注意“核酸”一词，比注意该词确切出现在哪个GO类别更有意义（或者至少不那么吵闹）。作为一组额外的关键字，我们还包括HUGO基因名称前缀（例如，“ZNF*”，表示锌指基因）。

如果δ(i、 j个)单词时值为1j个与基因有关我，否则为0，如果第页_我是基因的概率我属于感兴趣的群体，那么我们可以为该群体中的每个单词及其补语形成概率单词计数

[2]

类似的总和给出了这些计数和归一化分母的方差或预期误差：

[3]

[4]

从这些总和中我们可以形成一个t吨值（标准偏差中的偏差）和aP（P）值（双尾概率），表示单词与兴趣集相关（或负相关）的意义

[5]

[6]

下面给出了简单的证明支持文本.

必须满足两个标准，才能认为两个基因群体之间的差异通过该方法得到证实。首先，必须有一组至少包含几个单词的单词P（P）如上计算的值非常重要（例如<10^–4). 这是一个必要的Bonferroni约束，因为假设（单词）的数量很大。第二，只有稍微不那么客观，在生物学上有意义的高度重要的单词之间必须有主题连贯性；这是必要的，因为人们可以很容易地想象出差异，尽管在统计学上是显著的，但在生物学上却是无趣的。例如，仅仅根据非特定词语的使用特点（例如，“过程”、“活动”和“功能”）来区分单个研究小组输入数据库的大量基因并不奇怪。

有向图概率模型。利用功能性调节结合位点可能保守的假设，我们从人、小鼠、大鼠、狗和鸡的多重排列中观察了3′UTR中保守的六聚体(20)与刘易斯相似等。(6). 困难的部分是确定（非因果）保守六聚体的背景比率。使用对每个基因都相同的背景模型似乎是不明智的，至少因为我们已经确定了两个不同的基因群体。相反，为了捕捉任何给定六聚体出现的背景速率，我们使用了每个基因特有的有向图模型；这不仅可以解释可变A+T含量所暗示的偏差，还可以解释已知CpG在人类基因组中的低表达以及给定基因的任何其他数字特征。

理想情况下，只需对每个基因中的保守区域进行建模。不幸的是，每个基因的总保守长度不足以做到这一点。因此，我们假设（或近似）守恒概率和有向图概率是独立的，并且我们从每个基因的整个（人类）序列中构造出每个基因的有向图模型。

假设六聚体是ABC定义然后，根据有向图顺序，我们可以写出概率关系

[7]

因为等式。7涉及许多项的乘积，使用对数概率很方便，所以在缩写符号中我们有

[8]

个别条款第页(xy公司)或logprob(xy公司)通过计算次数进行估算n个有向图xy公司发生在N个机会。然而，使用像log这样的估计值不是一个好主意(n个/N个)对于对数概率，因为这是发散的n个=0，并且对于小的n个.

用少量计数估计对数概率。我们通过编写一个特定概率值概率的贝叶斯估计，称之为第页_秒，给定观测值n个和N个（注意，按照通常的统计惯例，以下方程式中省略了逗号。）我们包括了获得其他信息的可能性年与每个基因相关，例如，无论是在富含AT或CG的人群中。贝叶斯定理和初等操作给出

[9]

我们已经更换了第页(年|无)由第页(年)因为假设其他信息不直接依赖无使用二项式概率模型无和二项式共轭第页(第页_秒|年)，我们得到

[10]

在这里B类表示beta函数。在这种情况下年在{AT-rich、CG-rich}、，第页(年)由前面讨论的高斯混合模型给出。否则，可以通过假设单个总体来简化年=0并删除对的所有引用第页(年).

常量一_年和b条_年在之前参数化（共轭）第页_秒虽然我们最初预期使用良好的先验信息可能会产生有益的效果，但实际上，通过采取非信息性的先验，例如一_年=b条_年=1或任何小常数。

注意（做积分）我们有期望值

[11]

并且对于需要对数概率的情况，

[12]

哪里H（H）(n个)是谐波和。

[13]

这里，第二种形式在以下情况下有效n个不是整数，γ是Euler–Mascheroni常数，ψ₀是digamma函数。调和和起到了对数的作用，但现在已针对小计数的可能性进行了适当修正。因此，等式。12渐近≈对数(n个/N个)正如我们所料，但它仍然是常规的n个和/或N个归零。我们建议使用等式。11和12（视情况而定）。

识别miRNA靶基因。有向图模型和观察到的保守位点数量为每个基因提供了保守miRNA结合六聚体的预期数量，该六聚体应偶然出现并进行了误差估计（如支持文本). 我们可以将其与实际观察到的数字进行比较，从而确定任何过量都是因果关系的概率，我们将其视为该基因是实际miRNA靶点的概率。我们的方法在概念上与Lewis没有不同等。(6)详见支持文本然而，这里有趣的是我们最近开发的一种方法，用于获得目标基因总数的无模型边界。

考虑两个直方图，“预测”和“观察”，每个直方图给出包含我保守的miRNA结合位点。每个直方图都有相同的基因总数。其想法是，“观察到的”是通过将一些基因推到直方图的右侧，即通过将一些因果保守的结合位点添加到该基因中的偶然结合位点，从“预测”中获得的。请注意，我们没有使用对应的基因对基因，因为它非常嘈杂，而只使用结果直方图，因为基因的数量很大，所以具有良好的信噪比。

我们能说出有多少基因被向右推，而不知道每个基因被推了多远的分布吗？对。事实上，我们可以得到上下界。

让箱子里的数字我是米_我用于“预测”和n个_我对于“观察到的”，其中我= 0, 1, 2,... 因为直方图具有相同的面积（基因数量），正的双向差异之和必须等于负的双向差异的总和。那就是

[14]

移动最少数量基因的方法是严格地从带有米_我>n个_我并将其严格移至垃圾箱n个_我>米_我如果一个人从右边开始做这件事，那么他总是可以通过正向移动基因来实现这一点。因此，目标基因数量的下限是

[15]

起初，人们可能会认为上限只是“观察到的”中额外计数的数量，即每个基因有一个新计数，从而最大限度地将它们分散开来。这会给

[16]

问题是，人们不可能总是通过严格向右移动基因来进行这种构建。实际界限通常较低，因此更有意义。

这一界限是通过从右侧工作并建立所需的n个_我分布，从最近的基因库中提取基因米_我剩下的钱可以捐献了。这样，人们就永远不会“浪费”一个可能的基因移动，因为留下了一个本来可以移动的基因。（这有点像中国的跳棋，但人们想避免跳弹子。）结果的明确公式是

[17]

事实上，很容易证明公式。16如果min中的第一个参数从未使用过，也就是说，如果一个人在每个阶段都有足够的基因可以移动，那么就可以获得。

为了更好地理解等式。17比等式。16：对于本研究中的典型直方图，公式。17产生3650（基因）的上限，而等式。16将产生一个限制更少的8400的界限。等式。15给出了1260的下限。（英寸结果，我们给出的值包括统计误差的附加容差，如支持文本.)

结果

GO数据库字数。 表1列出了15个与AT-rich 3′UTR基因群正相关的前15个单词（或类单词短语），而表2是与CG-rich 3′UTR人群正相关的相应列表（即与AT-rich人群负相关）。如所列t吨和P（P）值，所有关联都非常显著。然而，请注意n个_j个+和n个_j–（概率词计数），两个群体的词频差异最多≈25%。几乎所有具有生物学意义的单词都或多或少地出现在这两种人群中。然而，拥有大量的基因使我们能够从这些微小的差异中提取具有高度重要性的信号。

表1。

与富含AT-rich 3′UTR基因最相关的GO词

单词或短语	t吨价值	P（P）价值	n个_j个+	n个_j-
核酸	8.75	0	2,297	1,789
核	7.11	0	1,722	1,365
过渡金属	6.80	0	1,095	824
锌	6.65	0	998	746
绑定	5.99	0	2,398	2,042
ZNF公司*	5.87	0	119	49
核糖核酸	5.53	0	613	448
欧内尔	5.30	0	2,489	2,169
蜂窝组件	4.63	0.000004	3,244	2,927
结合	4.45	0.000009	4,405	4,054
信使核糖核酸	4.25	0.000022	102	53
金属	4.11	0.000039	1,631	1,429
循环	4.07	0.000046	394	296
DNA	3.99	0.000067	1324年	1149年
核酸酶	3.71	0.000205	1,468	1,297

在单独的窗口中打开

表2。

与CG-rich 3′UTR基因最相关的GO词

单词或短语	t吨价值	P（P）价值	n个_j个+	n个_j个-
受体	-5.43	0	852	1,085
信号转导	-5.16	0	968	1,204
信号级联	-5.13	0	349	494
传感器	-4.88	0.000001	880	1,093
通信	-4.80	0.000002	1,172	1,413
信号	-4.56	0.000005	902	1102个
跨膜	-4.37	0.000012	381	506
长丝	-4.31	0.000016	86	150
单元格	-3.83	0.000129	1,840	2,081
频道	-3.77美元	0.000159	151	222
免疫	-3.62	0.000291	217	296
孔隙	-3.39	0.000708	162	227
防守	-3.30	0.000961	237	311
结构	-3.22	0.001281	241	314
开发	-3.21	0.001300	518	625

在单独的窗口中打开

令人惊讶的是，这两个列表中的每一个都证明了明确的主题一致性，而且这两个清单在主题上有很大的不同。富含AT-rich 3′UTR的基因优先与转录和翻译事件相关，尤其是核酸和核酸结合过程（例如锌指基序）。这些功能是进化的老功能。相比之下，高GC数量与感知和响应外部环境的功能相关。这些包括信号转导途径和膜转运。高GC群体的一个统一主题是其功能倾向于翻译后蛋白质修饰和信号传递相互作用，而不是转录调控。

虽然证据只是间接的，但富含AT-rich 3′UTR与RNA和mRNA加工相关基因的强关联支持与miRNA靶特异性相同的推测。也就是说，3′UTR中AT-丰度的某些方面对于至少一些涉及mRNA的过程是必要的，其中miRNAs的调节可能只是其中之一。

miRNA靶基因。用方程式的方法15和17在≈36000个已知基因中，我们发现1200个miRNA靶标的稳定下限和≈5000的上限。然而，这种方法不能确定哪些特定基因可能是靶基因。为了实现这一点，也为了获得最可能的目标总数（在两个边界之间），我们使用泊松-奇数比方法，如支持文本然而，这一最可能的值取决于模型，而且确定得不太准确。我们得到≈1400±150，但我们认为该值可能会受到不可控的系统误差的影响。刘易斯等。(6)已经确定了一组“高信噪比”可能的miRNA靶基因。尽管有显著的重叠，但我们的一组最可能的靶基因在细节上与这组不同。我们相信，我们使用数字概率模型，针对每一个被检测的基因，应该能给出更好的预测。然而，对这一主张的最终裁决必须等待实验证据。（关于我们的基因预测，请参见表5，该表发布为支持信息在PNAS网站上。）

图1 底部与相同图1 顶部，和刘易斯一起等。(6)可能的目标现在用绿色绘制。与AT丰富人群的联系，在这两方面A类+T型平均值和C类——G公司离散性，立即明显，且易于统计证实(P（P）< 10^–10). 我们预测的概率大于50%的miRNA靶基因在图1利用这些概率，我们可以证实约75%的miRNA靶基因位于富含AT的人群中，选择性约为3:1。然而，随着miRNA靶向概率达到1，在CG-rich人群中没有减少靶向的趋势，这表明CG-rich-miRNA靶中≈25%的少数靶向实际上是真实的，尽管是非典型的。

我们还发现，富含AT-rich 3′UTR的基因群体与通过Lim基因芯片分析确定的基因之间存在微弱但具有统计学意义的关联等。(三)作为两种特定miRNA的靶点，miR-1(n个= 82,P（P）<0.001）和miR-124(n个= 152,P（P）<0.01).

我们可以对（概率已知的）miRNA目标的总体进行与之前相同的GO关键字分析。知道miRNA靶点强烈优先位于富含AT的人群中，我们可能期望这样的分析能够产生一个类似于表1。实际结果如所示表3，出乎意料而且有趣得多。比较这两个表，令人惊讶的是，在miRNA优先词列表中完全没有将富含AT-的基因与核酸过程相关联的多个词。相反，这份清单主要是“监管”一词及其密切相关的概念。这一发现提供了统计上强有力的证据，证明miRNA靶点本身是优先的（尽管并非完全是）调控者。

表3。

与可能的miRNA靶基因最相关的GO单词

单词或短语	t吨价值	P（P）价值	n个_j个+	n个_j个-
转录调节器	5.86	0	134	1,114
转录因子	5.86	0	129	1,068
法规	5.56	0	315	3,215
转录调控	5.36	0	205	1,970
开发	4.69	0.000003	140	1,326
蛋白质修饰	4.65	0.000003	192	1,897
丝氨酸/苏氨酸激酶	4.42	0.000010	68	521
核	4.42	0.000010	319	3,477
磷酸化	4.30	0.000017	90	766
信号转导	4.09	0.000043	231	2,449
发起人	4.07	0.000048	46	347
磷酸盐	4.04	0.000052	133	1,286
信号级联	4.02	0.000058	99	908
形态发生学	3.96	0.000075	66	567
激酶	3.88	0.000106	133	1,311
磷酸转移酶	3.88	0.000106	105	977
DNA	3.82	0.000132	251	2,752
单元格	3.71	0.000155	30	205
细胞内	3.72	0.000202	557	6,573
神经发生	3.71	0.000205	30	205

在单独的窗口中打开

从表中的结果来看，什么也令人惊讶表11和和2，2miRNA靶向偏好包括转录因子和翻译后调节因子，后者以“蛋白质修饰”、“磷酸化”、“激酶”、“信号级联”等词语证明。调控的主要主题也见于一组单词中，包括和“发展”相关的单词，包括“形态发生”和“神经发生”

换言之，在miRNAs优先靶向的富含AT-rich 3′UTRs的基因群体中，miRNA倾向于调节其他调节基因，即使调节过程通常是翻译后的，且与富含AT-rich的群体不一样。特别是，“信号级联”和“信号转导”等关键词与miRNA靶点强正相关，尽管它们通常与富含AT-的基因强负相关。

因为miRNA靶点中有一小部分（≈25%）是富含GC而不是富含AT的3′UTR的基因，人们可能想知道那些与翻译后过程相关的miRNA靶点是否与该部分相关。答案是否定的：富含AT（大多数）的miRNA靶点与富含CG（少数）的miRNA靶点的关键词分析没有显示出显著差异。（例如，“蛋白质修饰”恰好是与富含AT-的miRNA靶点相关联的最前面的单词，而与富含CG-的miRNA靶点相关的五个最前面的词中有三个是指转录。）

讨论

所谓等容线(16——19，21)是CG富集的长的、超大基数区域，存在于包括人类在内的温血脊椎动物的基因组中，在低等生物中不存在。等位基因不分青红皂白地跨越内含子、外显子和基因间区域，这与此处讨论的单个3′UTR的相对较小（≈1000碱基）尺度不同。虽然我们没有详细讨论这些非常不同的尺度现象之间的关系，但我们需要在这里指出一个明显的问题，即我们的两个基因群体（仅以其3′UTR为特征）是否位于基因组中的CG-rich等容线，而不是互补的AT-rich等容线。换句话说，我们只是重新发现了一种以前已知的现象吗？

有趣的是，答案既有肯定也有否定。分析表明，富AT-等容线具有高度的选择性，只包含富AT-3′UTR的基因。然而，CG-rich等容线包含CG-和AT-rich 3′UTR基因的明显随机混合物。尽管这一结果本身并没有为等容线的起源（进化上最近的）提供新的线索，但它与我们的工作的相关性是，它确实支持了一种观点，即富含AT-rich 3′UTR对于某些功能不同的基因子集是必要的。这些基因自然会抵制形成CG-isochores的进化趋势（无论它可能是什么；参考文献。21)导致CG-rich等容线中的基因混合。

鉴于观察到在AT-和CG-丰富等容线中都存在具有AT-rich 3′UTR的基因，很自然地会问一组或另一组是否主要负责在表1答案是，几乎所有的功能信号都来自CG-rich等容线中的AT-rich 3′UTR基因。如果3′UTR的AT丰度对某些基因确实是功能上必需的，则应在CG丰度等容线中寻找最可能的实验验证候选。

更具推测性的是，证据似乎表明，就CG丰富性的进化压力而言，AT等位线“从未受到挑战”，而不是“受到挑战和抵制”。也就是说，AT等位线似乎包括具有功能的富含AT基因的群体，如果它们处于CG等位线中，可以毫不费力地成为CG富豪(表2). 相反，CG等容线包括功能不同的富含AT的基因群体(表1)他们似乎强烈抵制这种转变。

补充材料

支持信息：

单击此处查看。

致谢

我们感谢阿诺德·莱文（Arnold Levine）、杰拉尔德·乔伊斯（Gerald Joyce）、科特·卡伦（Curt Callan）、理查德·帕吉特（Richard Padgett）、大卫·豪斯勒（David Haussler）和夏加·巴拉克（Hagar Barak）阅读了各种草稿并提出了许多有用的建议。约翰·克恩提供了重要的统计见解。这项工作得到了谢尔比·怀特和莱昂·利维倡议基金的部分支持。

注意事项

作者贡献：H.R.和W.H.P.设计了研究，进行了研究，提供了新的试剂/分析工具，分析了数据，并撰写了论文。

利益冲突声明：未声明冲突。

缩写：miRNA，microRNA；GO，基因本体论。

工具书类

1Bartel，D.P.（2004）单元格 116，281–297. [公共医学][谷歌学者]

2Ambros，V.（2004）自然 431，350–355. [公共医学][谷歌学者]

三。Lim，L.P.，Lau，N.C.，Garrett-Engele，P.，Grimson，A.，Schelter，J.M.，Castle，J.，Bartel，D.P.，Linsley，P.S.&Johnson，J.M（2005）自然 433，769–773页。[公共医学][谷歌学者]

4Liu，J.、Valencia-Sanchez，M.A.、Hannon，G.J.和Parker，R.（2005）自然细胞生物学。 7，719–723.[PMC免费文章][公共医学][谷歌学者]

5Sen，G.L.和Blau，H.M.（2005）自然细胞生物学。 7，633–636. [公共医学][谷歌学者]

6Lewis，B.P.、Burge，C.B.和Bartel，D.P.（2005）单元格 120，15–20. [公共医学][谷歌学者]

7Doench，J.G.和Sharp，P.A.（2004年）基因发育。 18，504–511之间。[PMC免费文章][公共医学][谷歌学者]

8Lewis，B.P.、Shih，I.H.、Jones-Rhoades，M.W.、Bartel，D.P.和Burge，C.B.（2003）单元格 115，787–798. [公共医学][谷歌学者]

9Krek，A.，Grun，D.，Poy，M.N.，Wolf，R.，Rosenberg，L.，Epstein，E.J.，MacMenamin，P.，da Piedade，I.，Gunsalus，K.C.，Stoffel，M.&Rajewsky，N.（2005）自然遗传学。 37，495–500. [公共医学][谷歌学者]

10John，B.，Enright，A.J.，Aravin，A.，Tuschl，T.，Sander，C.&Marks，D.S.（2004）《公共科学图书馆·生物》。 2，1862–1879.[PMC免费文章][公共医学][谷歌学者]

11Brennecke，J.、Stark，A.、Russell，R.B.和Cohen，S.M.（2005）公共科学图书馆生物。三，404–418.[PMC免费文章][公共医学][谷歌学者]

12Grun，D.、Wang，Y.、Langenberger，D.、Gunsalus，K.C.和Rajewsky，N.（2005）公共科学图书馆Comp。生物。 1，51–66.[PMC免费文章][公共医学][谷歌学者]

13Robins，H.，Li，Y.和Padgett，R.W.（2005）程序。国家。阿卡德。科学。美国 102，4006–4009.[PMC免费文章][公共医学][谷歌学者]

14Harris，M.A.、Clark，J.、Irel，A.、Lomax，J、Ashburner，M.、Foulger，R.、Eilbeck，K.、Lewis，S.、Marshall，B.、Mungall，C.、。，等。(2004)核酸研究。 32，D258–D261。[PMC免费文章][公共医学][谷歌学者]

15McLachlan，G.和Peel，D.（2000）有限混合模型（威利，纽约）。

16Bernardi，G.，Olofson，B.，Filipski，J.，Zerial，M.，Salinas，J.、Cuny，G.、Meunier-Rotival，M.和Rodier，F.（1985）科学 228，953–958. [公共医学][谷歌学者]

17Bernardi，G.（2000年）基因 241，3–17. [公共医学][谷歌学者]

18Cohen，N.、Dagan，T.、Stone，L.和Graur，D.（2005）分子生物学。进化。 22，1260–1272. [公共医学][谷歌学者]

19Vinogradov，A.E.（2003）核酸研究。 31，5212–5220.[PMC免费文章][公共医学][谷歌学者]

20Karolchik，D.、Baertsch，R.、Diekhans，M.、Furey，T.S.、Hinrichs，A.、Lu，Y.T.、Roskin，K.M.、Schwartz，M.，Sugnet，C.W.、Thomas，D.J.、。，等。(2003)核酸研究。 31，51–54之间。[PMC免费文章][公共医学][谷歌学者]

21艾尔·沃克（Eyre-Walker，A.）和赫斯特（Hurst，L.D.）（2001）Nat.Rev.基因。 2，549–555. [公共医学][谷歌学者]

文章来自美国国家科学院院刊由以下人员提供美国国家科学院