microRNA Target Predictions across Seven Drosophila Species and Comparison to Mammalian Targets

Dominic Grün; Yi-Lu Wang; David Langenberger; Kristin C Gunsalus; Nikolaus Rajewsky

doi:10.1371/journal.pcbi.0010013

公共科学图书馆计算生物学。2005年6月；1（1）：e13。

2005年6月24日在线发布。数字对象标识：10.1371/日记.pcbi.0010013

预防性维修识别码：项目经理1183519

采购管理信息：16103902

七种微RNA靶点预测果蝇属物种及其与哺乳动物目标的比较

多米尼克·格伦, 王一璐, 大卫·兰根伯格, 克里斯汀·冈萨卢斯,和尼古拉·拉杰夫斯基^*

迈克尔·艾森，编辑器

作者信息文章注释版权和许可信息 PMC免责声明

关联数据

补充资料: 协议S1：预测的详细讨论miR-210型目标（170 KB DOC）。
电话簿.0010013.sd001.doc（17万）
GUID:B099A411-3792-4924-8AF8-5C9597A251FD
表S1：苍蝇和哺乳动物之间的同源基因，以同源microRNAs（71 KB XLS）为靶点。
pcbi.0010013.st001.xls（72K）
GUID:F91925E5-9837-4BB-BEE2-67797E9C6E6C
表S2：成熟的microRNA保存在我们数据集中的所有苍蝇中（18 KB XLS）。
pcbi.0010013.st002.xls（1.9万）
GUID:7234A0B3-EF5A-41A0-99B9-4ECB26F31D2B
表S3：成熟的microRNA保存在黑腹食肉动物和暗箱组（20 KB XLS）。
pcbi.0010013.st003.xls（21K）
GUID:BE4B1AD4-E8BB-4FE8-B224-7CD690BC30BA
表S4：用于计算信噪比的一组独特、保守的成熟microRNA（18 KB XLS）。
pcbi.0010013.st004.xls（18千）
GUID:D0B06EF4-2144-4FFF-AD29-D0B5DAB38061

摘要

microRNA是一种小的非编码基因，通过与靶基因mRNA中的部分互补位点结合来调节基因的蛋白质生产。在这里，使用我们的算法PicTar，我们利用跨物种比较来预测平均每个microRNA 54个靶基因黑腹果蝇对目标基因功能注释的分析进一步表明了许多microRNA的特定生物学功能。我们还预测了聚集的微RNA的组合靶点，发现一些聚集的微RNAs可能协调调节靶基因。此外，我们还比较了昆虫和脊椎动物之间的microRNA调节。我们发现，在苍蝇和哺乳动物之间，microRNAs广泛的基因调控程度是可以比较的，但某些microRNA可能在基因调控的枝特异性模式中发挥作用。其中一个microRNA（miR-210）预计有助于调节苍蝇卵子发生。我们还列出了苍蝇和哺乳动物之间似乎保守的特定调控关系。我们的发现提供了最广泛的microRNA靶预测果蝇属迄今为止，提出了大多数microRNA的特定功能作用，表明了集群microRNA执行的协调基因调控的存在，并阐明了microRNA功能在大进化距离上的进化。所有预测都可以在我们的可搜索网站上免费访问http://pictar.bio.nyu.edu.

简介

微RNA基因是最近发现的一大类非编码小基因。这些基因已被证明通过与靶mRNA中的部分互补位点结合来调节靶基因的表达。因此，为了理解microRNA的功能，确定其靶点非常重要。在这里，作者使用他们的生物信息学方法PicTar和几个新测序的苍蝇物种的跨物种比较来预测全基因组范围内的microRNA靶点果蝇属他们发现已知的苍蝇微小RNA控制着至少15%的D.黑腹果蝇他们还表明，microRNA的基因组簇可能协调调节靶基因。对目标基因功能注释的分析进一步表明许多microRNA具有特定的生物学功能。所有预测均可在http://pictar.bio.nyu.edu最后，Grün等人比较了小RNA在苍蝇和哺乳动物中的功能。他们发现：（a）两个分支之间的microRNA基因调控的总体程度是可比较的，（b）苍蝇中保守microRNA的靶点数量与哺乳动物中的靶点数目相关，（c）一些保守microRNAs可能在分支特异的基因调控模式中发挥作用，以及（d）一些特定的microRNA-靶调控关系可能在两个分支之间保守。

介绍

最近，人们发现动物的基因组中含有数百个microRNA基因。这些小的非编码基因通常由RNA聚合酶II转录，加工成发夹，然后输出到细胞质中，在细胞质中被RNAi途径的中心酶Dicer裂解，形成单链成熟microRNA[1,2]. 在动物中，成熟的微小RNA被认为与靶基因的信使核糖核酸中的部分互补结合位点结合，并通过未知的机制调节其转录后表达。在所有已知的情况下，微小RNA通过抑制翻译而不影响靶标的mRNA浓度，或潜在地通过直接诱导靶标mRNA浓度的降低来抑制蛋白质编码靶基因的表达[三]. 因此，为了了解microRNA的生物学功能，确定其靶点非常重要。由于用于识别microRNA靶点的高通量实验方法尚未发表，因此基于其与microRNA的部分互补性来识别靶点的计算方法变得越来越重要[4–13]. 在苍蝇中，这些方法的灵敏度足以预测噪声以上每个microRNA约8个靶点，尽管实际靶点数量估计要高得多[14]. 跨谱比较能够识别进化上保守的、因而可能具有功能的靶点，已被证明非常有助于提高微RNA靶点检测的灵敏度。最近，基于八种脊椎动物的跨物种比较的三项独立研究得出结论，在脊椎动物中，microRNAs被预测至少调节所有基因的20%-30%[8,13,15]. 这些发现与实验结果一致[三].

人们还普遍认为，与转录因子类似，microRNA可以以浓度依赖的方式结合到同一mRNA，从而联合（或协同）发挥作用。基因表达的组织特异性可以用“microRNA代码”部分解释[16]组织特异性表达反式-作用微RNA。这个想法得到了实验的支持[17]以及使用计算方法搜索同一靶mRNA中不同microRNA靶位点的结果[5,6,13]. 特别是，一种哺乳动物基因被预测出来，并且实验表明它受到几种共表达的microRNA的协同调控[13].

我们使用了我们的microRNA-目标查找算法PicTar[13]，以及最近测序的7个物种的跨物种比较果蝇属预测和分析苍蝇中的microRNA靶点。目标位置识别的基本模型以及这些结果与我们之前预测的比较[9]显示在讨论。自最近的实验以来，我们还计算了聚集微RNA共同靶点的预测[18,19]他们认为，分布在约50 kbp基因组DNA簇中的microRNA基因倾向于共同表达。为了阐明microRNA的特定功能，我们使用基因本体（GO）术语分析了预测目标集的功能注释[20]. 然而，为了更全面地了解microRNA的功能，我们随后询问了microRNA在苍蝇中的靶向程度是否与脊椎动物的靶向相似，microRNA–mRNA的某些调控关系是否在两个分支之间保持不变，以及单个microRNA是否可能在分支特异性基因调控中发挥作用。

结果

七种蝇类的全基因组交叉种比较允许高特异性和高敏感性microRNA靶点预测

已经广泛证明，通过搜索进化上保守的目标位点，并因此可能具有功能性，可以显著提高microRNA靶位点计算识别的成功率。因此，我们开始利用最近对一些苍蝇物种的全基因组测序(图1). 其中八个物种的基因组序列，包括黑腹角雉、黑腹角鲨、黑尾角鲨，和男性化组，已组装（D.melanogaster、D.simulans、D.yakuba、D.erecta、D.ananassae、D.pseudomburga、D.virilis、，和D。 莫哈文斯）。我们丢弃了D.模拟人装配，因为它被证明有很大的间隙。这些物种的估计分化时间从几百万年到大约4000万年不等(图1).

保存图片、插图等的外部文件。对象名称为pcbi.0010013.g001.jpg

在单独的窗口中打开

图1

系统发育树（共12棵）果蝇属物种

我们的数据集包括7个物种的3′UTR：D.melanogaster、D.yakuba、D.erecta、D.ananassae、D.pseudombscria、D.virilis、，和D。 莫贾文斯病。在第1组和第2组中有以红色下划线的物种。D.直立人（红色虚线）仅出现在集合2中。资料来源：http://species.flybase.net/.

为了鉴定3′UTR序列中进化保守的microRNA靶位点，鉴定同源mRNA至关重要。我们对八个物种的两组独立产生的全基因组比对进行了实验（参见材料和方法). 第一组对齐（称为组1），不包含D.直立人，由UCSC基因组数据库生成(http://genome.ucsc.edu/)并基于随后进行乘法对齐的成对对齐。第二组（称为第2组）来自真正的全基因组多重比对（C.Dewey，MERCATOR，http://hanuman.math.berkeley.edu/~cdewey/墨卡托/) [21]. 对于这两个集合，我们提取了D.黑腹果蝇3′UTR使用D。 黑腹食肉动物FlyBase对18892个基因转录本进行注释，并获得13465个转录本（集合1）和13030个转录本的所有八个物种的3′UTR比对（集合2）(表1). 我们还通过仅保留同一基因所有转录变体中最长的3′UTR来定义比对集，从而导致每组约9800次比对（称为唯一比对）。因此，两组之间的基因覆盖率大致相当。此外，我们使用集合1的UCSC重复遮罩和串联重复移除器屏蔽了唯一路线中的重复[22]继Rajewsky等人[23]对于第2组。各种比对集的核苷酸空间列于表2对于重复标记的独特排列，每组每种总容量为2.2–4.1 Mb。因此，屏蔽重复删除了大量序列（每个物种高达22%）。

表1

3′UTR多重定线统计

保存图片、插图等的外部文件。对象名称为pcbi.0010013.t002.jpg

在单独的窗口中打开

所有物种直至指定物种的UTR序列比对总数，参考顺序D.melanogaster、D.yakuba、D.erecta、D.ananassae、D.pseudombscria、D.virilis、D.mojavensis.

表2

对齐的3′UTR核苷酸数量

保存图片、插图等的外部文件。对象名称为pcbi.0010013.t001.jpg

在单独的窗口中打开

集合1和集合2的多重比对中每个物种的核苷酸总数（对于所有基因和具有屏蔽和未屏蔽重复的唯一基因）。

为了识别保守的微小RNA靶点，我们使用了PicTar算法[13]. PicTar的关键组成部分是“细胞核”（或“种子”）的概念，定义为七个碱基的延伸（从微小RNA 5′端的第一个或第二个位置开始），与靶位点连续进行完美的Watson–Crick碱基配对。最近的计算和实验研究[14]证明这种细胞核的存在对于所有microRNA靶位点中的很大一部分是必要的果蝇属对于其余的位点，细胞核是不完美的，并且包含不匹配、凸起或G:U碱基对。实验结果表明，核不完全的位点似乎只有在通过microRNA的3′端与靶位点的额外结合进行补偿时才有功能[14,17]. PicTar的输入由直系的、对齐的3′UTR序列和一个或多个microRNA的搜索集组成。PicTar首先确定候选的3′UTR比对，其中包含最少数量的保守完美核，称为锚定位点。锚固点的最小数量和保护程度由用户定义。每个候选UTR分别搜索具有完美核和不完美核的位点。随后，不完美的位置需要通过自由能过滤器。目前设置为最大三分之二的完全碱基配对的microRNA–mRNA双链的自由能，从而去除了核不完美的绝大多数位点。具有完美细胞核的部位可能会选择性地接受更温和的自由能过滤步骤（取决于设置）。最后，PicTar计算分数（请参见材料和方法)反映基于隐马尔可夫模型的搜索集成员将给定UTR作为目标的可能性。

评估microRNA靶向的范围果蝇，我们使用PicTar计算具有完美核（锚）的保守假定靶点。用于这些搜索的microRNA由所有当前已知的microRNAs组成，这些microRNA似乎在所有考虑中的物种中都是保守的（参见材料和方法). 为了避免多次计算靶位点，我们用每个家族中的一个成员代表了所有共享相同核的microRNA“家族”。最后一组包含46个microRNAs，其独特的细胞核在所有苍蝇中都是保守的。与我们之前的研究一样[13]，我们招募随机microRNA序列的队列来估计假阳性的数量（参见材料和方法). 具体来说，我们计算了集合1和集合2的所有锚定位点（单个保守核），包括真实microRNAs的屏蔽和无屏蔽重复，以及每种情况下的五组随机队列(图2). 特异性的一个度量是信噪比，它被定义为真实微RNA与随机微RNA的锚定位点数量之比。在每种情况下，我们平均了五个队列的结果，并计算了信噪比的平均值和标准偏差。我们计算了特异性和敏感性，需要在有自由能过滤和无自由能过滤的情况下对锚定点进行不同程度的进化保护(图2). 总的来说，我们观察到使用自由能滤波器或掩蔽重复序列往往会增强特异性，但灵敏度会有适度的损失。我们在集2中获得了较高的信噪比，但在集1中获得了更高的灵敏度。我们还发现，要求不同程度的锚定点进化保护强烈影响敏感性和特异性。更准确地说，搜索所有苍蝇之间保守的锚定位点（在各种参数设置下）得到的信噪比为2.8-3.6（集合1）和3.3-4.0（集合2）。平均而言，噪声以上每一microRNA的敏感性为25-33（组1）和15-29（组2）个锚定位点。保存在黑腹食肉动物和蒙昧各组的信噪比为2.1–2.4（组1）和2.3–2.7（组2(图2).

保存图片、插图等的外部文件。对象名称为pcbi.0010013.g002.jpg

在单独的窗口中打开

图2

PicTar单靶点预测的信噪比

对于第1组和第2组，46个在所有果蝇中保守的独特microRNA的预测锚定位点数量，以及相应的随机microRNA（五个队列的平均值）和各自的信噪比（在条形图上显示）显示了使用和不使用具有掩蔽和未掩蔽重复的UTR的锚定位点的自由能滤波。

（A）锚定位点保守的集合1的预测黑腹食肉动物和蒙昧组。

（B）在所有苍蝇中，锚定位点保守的第1组预测。

（C）第2组的预测，锚点保存在黑腹食肉动物和蒙昧组。

（D）所有苍蝇中锚定位点保守的第2组预测。

根据这些结果，我们定义了三种设置，称为S1、S2和S3（参见材料和方法)这使我们能够调整敏感性和特异性之间的权衡，并分别生成高灵敏度、高特异性和中等特异性/敏感性的预测。对于每种设置S1–S3，我们记录了作为PicTar评分截止值函数的特异性和目标转录物的数量，即放弃分数低于给定阈值的所有预测(图3). 我们发现高得分转录本往往具有显著提高的特异性。例如，当使用设置S3时，信噪比可以提高1.7倍，同时每个microRNA保留相当数量的预测转录物。特异性和PicTar评分之间的正相关与我们的观察结果一致，即一些非锚定位点对评分有贡献。这些地点似乎是“分散的”，即仅存在于某些物种中，或并非在路线中相同位置的所有物种中都存在。我们尝试放宽锚定点的定义，以包括在考虑中的所有物种中发现完美核的情况，但不一定是在路线的重叠位置。在所有设置S1–S3中，信噪比都降低了（例如S3从3.3降低到2.6），灵敏度没有显著提高。因此，我们得出的结论是，许多分散的站点可以发挥作用，但只有当它们与锚站点一起出现时才应该进行评分，如PicTar算法中所实现的那样。

保存图片、插图等的外部文件。对象名称为pcbi.0010013.g003.jpg

在单独的窗口中打开

图3

作为PicTar评分函数的敏感性和特异性

所示为三种不同PicTar设置（S1–S3；参见材料和方法)：（A）高灵敏度设置（S1），（B）高特异性设置（S2），和（C）中等灵敏度/中等特异性设置。信噪比还取决于分数截止值，并在曲线上方显示特定截止值。所有设置的所有预测都可以在PicTar Web服务器上访问（不通过分数截止值进行过滤）。

脊椎动物microRNA靶向性研究进展[6,8,13,15]和苍蝇[5,14]表明这两个分支中的所有蛋白编码基因中有相当一部分（10%-30%）受microRNA调节。使用设置S3（或S2），我们发现15%（13%）的注释大约10000个唯一黑腹食肉动物3′UTR转录物（对应约10000个基因）至少有一个锚定位点，在所有七种蝇类中以约三（4）个信噪比保守。因此，在设置S3或S2的情况下，在所有苍蝇中，大约10%的转录物被高于噪声的微小RNA靶向。为了估计有多少基因可以被一个以上的microRNA调控，我们统计了至少有两个锚定位点的所有转录本。应用高特异性设置S2，我们发现搜索多靶向转录物进一步显著提高了特异性(图4). 例如，我们发现，与随机microRNA相比，具有至少两个锚定位点的真实microRNA靶向转录物的数量是随机microRNAs的7倍。通过设置S2和S3，我们预测30%的目标转录物有多个锚定位点。最后，对于我们的高灵敏度设置S1，我们发现27%的转录本至少有一个锚定位点，单位点信噪比约为2.2。其中，40%至少有两个锚点。

保存图片、插图等的外部文件。对象名称为pcbi.0010013.g004.jpg

在单独的窗口中打开

图4

多靶点基因PicTar预测的特异性

46个独特、保守的microRNA和随机microRNA的最小锚定位点数量与独特基因数量的关系（五个队列的平均值）。这些数字的比率反映了特异性，显示在每个条形图的上方。

总之，根据我们的高灵敏度设置，我们预测至少有15%的D。 黑腹食肉动物具有目前注释的3′UTR序列的基因由至少一种已知的微小RNA调节，并且其中至少五分之一果蝇属microRNA靶点可能受到来自不同microRNA家族的两个或多个microRNA的协调控制（高于噪音）。我们在我们的可搜索网站上为所有保守的microRNA、所有FlyBase转录本和设置S1–S3提供排名PicTar目标预测(http://pictar.bio.nyu.edu). 这些结果链接到其他各种公共数据库，可以查询感兴趣的基因或感兴趣的微RNA。

实验验证的microRNA靶点的回收果蝇属

我们之前已经证明PicTar具有经验证的极好的回收率秀丽隐杆线虫microRNA靶点[13]. 分析实验验证目标的回收果蝇，我们从文献中收集了19个microRNA靶向调控关系[4,12,24]. 设置S1–S3与PicTar预测的重叠总结如下表3.凋亡基因隐藏/起皱被microRNA靶向矮脚鸡[24]. 对于所有设置S1–S3，隐藏得分最高矮脚鸡target（PicTar得分为17.3），在所有苍蝇中有五个锚定位点。尤其是，隐藏目标为矮脚鸡在我们所有的目标预测中，PicTar得分排名第二。唯一得分较高的基因（40.5）是nerfin-1，其中包含两个锚点miR-286型（或同等miR-279型)在所有苍蝇和相同microRNA的许多额外位点中都保存（参见讨论).

表3

已发布的恢复果蝇属实验支持下的microRNA靶

保存图片、插图等的外部文件。对象名称为pcbi.0010013.t003.jpg

在单独的窗口中打开

实验分析的microRNA靶位点列在第二栏中，包括19个microRNA–具有不同实验支持度的基因调控关系和9个没有显示调控活性的位点。S1–S3标记的列是指在相应PicTar设置下的站点恢复。

这个缺口信号基因多毛的是最近预测的[4,9]并确认为目标miR-7型具有单个绑定站点[4]. PicTar发现了一个miR-7型在所有的苍蝇中都保存了锚定位点黑腹食肉动物和蒙昧组，而站点位于D.雄性似乎略微向上游移动。因此，可以通过设置S1而不是设置S2和S3来恢复此目标。有实验证据表明miR-7型也是目标HLHm3型和E（spl）m4，两个基因位于E（标准普尔）复杂[4]. 对于HLHm3，PicTar预测了一个miR-7型目标位置在所有苍蝇中保存（所有设置）。基因E（斑点）m4没有带注释的3′UTR，但在将可能的3′UTR序列添加到我们的数据集后恢复了[4]. 另一个基因E（标准普尔）复杂，HLHm5，是排名最高的目标基因miR-7型搜索所有苍蝇中保守的目标时（设置S2；设置S3排名2）。降低保守性水平的目标预测（设置S1）也会产生HLHm5型排名第一miR-7基因目标。这个槽口基因有胡子的作为的目标恢复miR-4型（或miR-79，等效）。设置S1后，我们在其3′UTR中发现了三个保守位点。这些所谓的有胡子的盒子已经被证明可以通过一个有胡子的体内3′UTR[25]. 该基因得分再次非常高（15.6分），排名第二miR-4型目标预测（设置S1）。该目标不能用其他设置恢复，因为该基因的比对不包含莫哈文氏双球菌和D.男性。同样的microRNA被认为可以抑制风笛[14]，排名第二miR-4型目标预测（S3）。

促凋亡基因收割者，冷酷，和镰刀是经验证的miR-2型家庭[4]. 对于镰刀我们在所有苍蝇中发现了一个保守位点miR-2、miR-13、，和miR-6，它们共享同一个核。对于收割台，我们在黑腹食肉动物和暗箱设置为S1的组，而其他设置由于该基因在莫哈文斯博士。 严峻的是PicTar没有发现的唯一目标，因为它只有一个6分子的核miR-2型.

最近一种预测microRNA靶点的算法不依赖进化信息，而是结合了3′UTR二级结构来计算假定的microRNA目标[12]. 细胞系中的荧光素酶报告子结构可以支持一些高分预测。我们从这个列表中找到了四个目标（miR-7/HLHm5、miR-279/SP555、miR-124/Gli、，和miR-310/imd）但未能定位其他六个靶点的保守核（见表3). 令人惊讶的是，在9个经过实验分析但没有显示任何抑制活性的计算预测靶点中（可能为假阳性）[12]，我们只预测了一种微RNA-靶调控关系（miR-286/boss）。

总之，PicTar通过体内实验证据回收了所有已知靶点的8/9（89%），通过设置S1的其他实验支持回收了4/10（40%）的靶点，即只需要在黑腹食肉动物和蒙昧组。当需要在所有苍蝇物种之间进行保护时，只有三个具有实验支持的目标丢失，因此在设置S2和S3时无法恢复。

一些簇状microRNA可能协同调节基因表达

表达分析表明，位于彼此相距50 kb以内的同一基因组区域的microRNA基因通常是共表达的[18,19]这表明它们可能协同调节共同的靶基因。在D.黑腹果蝇，我们在50-kb区域内确定了七个簇，其中包含来自不同家族的至少两个保守microRNA的前体。为了确定苍蝇中聚集的microRNA的共同靶点，我们使用PicTar预测这些microRNA簇中每一个的坐标靶点（可在PicTar服务器上获得）。表4概述了所有集群及其在中的位置果蝇属基因组、目标转录物的丰度，以及当给定簇的所有microRNA基因位于另一个基因的内含子时，该基因的标识符。为了评估聚集的miRNAs靶向同一基因的频率是否高于预期，我们考虑了所有48个独特的保守microRNAs的1128对组合。虽然来自同一簇的微小RNA对仅占这些对的2.1%，但132个基因对于这些簇对中的每个微小RNA含有至少一个锚定位点（使用设置S1），或者1104个基因中的12%对于这48个微小RNA的任何组合含有至少两个不同的锚定位点。因此，来自集群的一些微RNA对可能协调调节的基因比例（12%）明显高于预期（2.1%）。此外，在48个保守的microRNA中，成对聚集的microRNAs预测的目标基因数量是随机抽取的24对microRNAs中预期数量的两倍，这一数字在三个标准偏差下显著（参见材料和方法). 这些发现支持了由聚集的微小RNA执行协调控制的假设。

表4

microRNA簇及其预测靶基因数

保存图片、插图等的外部文件。对象名称为pcbi.0010013.t004.jpg

在单独的窗口中打开

一群独特的microRNA，在所有苍蝇中都是保守的，具有前体序列，来源于小于50kB的基因组区域。对于给定簇的不同microRNA，显示了具有至少两个锚定位点的独特基因的数量。计算集合1和集合2的预测，以及黑腹食肉动物和暗箱在所有七种苍蝇中。如果聚集的microRNA前体位于带注释的FlyBase基因的内含子中，则也会显示标识符。

预测microRNA靶点的生物学和分子分类

深入了解果蝇属microRNA，我们使用了GeneMerge[26]分析特定GO术语的过度表示[20]在预测特定microRNA靶向的基因与背景基因集的功能注释中（参见材料和方法). 为了避免潜在的虚假统计意义，我们选择了不使用所有基因作为背景，而是构建了一个背景集，包含真实和随机microRNA的所有预测目标。从“生物过程”本体中，共识别出112个显著过度表示的GO术语；保守microRNA单独靶向70%的基因集，以及包含至少一个过度代表GO项的microRNA簇的两组组合靶向预测(图5A） ●●●●。对于“分子功能”本体，在36%的所有单个microRNA靶基因集和一组microRNA簇靶基因中，共获得了25个明显过度代表的GO类别(图5B） ●●●●。与之前的估计一致[1,2]我们的数据表明，microRNAs在许多不同的生物过程中调节多种基因。全球突出的GO术语包括形态发生、器官发生、发育（包括胚胎发育、前/后和背/腹轴规范）、神经发生、信号转导（包括Notch、Torso、Sevenless和Frizzled信号）和转录调控。在最近的一项研究中，我们与另一个针对苍蝇microRNA靶点的GO分析的总体重叠是微不足道的，这很可能是因为识别过度代表的GO项的方法不同，而且PicTar和已发表的miRanda算法对靶点预测的性质也不同[5].

保存图片、插图等的外部文件。对象名称为pcbi.0010013.g005.jpg

在单独的窗口中打开

图5

所有单个microRNA和共表达microRNA簇预测靶基因中的重要GO项

显著丰富了GO术语，用于（A）“生物过程”和（B）“分子功能”本体论。所示为GO条款第页-值小于0.1，针对多次测试进行了修正。对GO术语和microRNA分别进行分级聚类（参见材料和方法).

我们的数据与最近一项使用GO功能分析预测microRNA靶基因的研究结果一致，并得到了扩展[4]，其中miR-7型被预测在Notch信号和miR-277缬氨酸、亮氨酸和异亮氨酸降解。对于miR-277，我们恢复了所有9个预测目标，并在第页< 10⁻⁷.目标miR-7型PicTar预测包括许多Notch通路基因以及Notch信号的靶点，包括E（spl）m5、Tom、Bob、E（spl）mγ、Bearded、E（spl）m3、，和E（spl）m4，其中大多数得分很高（使用设置S1）。此外，Notch信号的许多靶点也被预测为Bearded-box microRNA的靶点miR-4基因和miR-79（E（spl）m5，有胡子，E（spl）mγ，和汤姆）和K-box microRNAmiR-2型和miR-11型 （E（spl）m5，E（spl）m2，E（spl）mδ，和E（spl）m3），与以前的观察结果一致[27]. 如果在当前的FlyBase版本中对其他已知的Notch目标的3′UTR进行了注释（数据未显示），那么这些目标就会包含在PicTar的目标列表中。我们注意到，如果将严格的自由能过滤应用于预测的具有完美核的microRNA靶双工体，PicTar预测的大多数Notch靶点都不会被预测。

苍蝇和脊椎动物microRNA靶点的比较

此前，我们应用PicTar对8种脊椎动物（人类、黑猩猩、小鼠、大鼠、狗、鸡、河豚和斑马鱼）的3′UTR序列进行了穷尽搜索，以寻找microRNA靶位点[13]. 为了比较microRNA在苍蝇和脊椎动物中的靶向程度，我们首先使用UCSC数据库中的数据集，比较了两个分支之间的长度、重复内容和3′UTR的保守性。我们重点比较了D.黑腹果蝇根据注释的转录本从这些物种中提取3′UTR。我们发现，3′UTR的长度分布及其内重复序列的分布在所有哺乳动物之间和所有苍蝇之间都非常相似，因此人类和苍蝇之间的比较D.黑腹果蝇UTR应揭示两个分支之间的本质差异。我们发现哺乳动物的3′UTR长度分布比苍蝇广得多，人类平均每3′UTR900个核苷酸D.黑腹果蝇(图6)，与之前的结果一致[28]. 通过检测重复序列的贡献，我们发现重复序列占人类3′UTR序列的11%，而在D.黑腹果蝇(表5). 有趣的是，对于短重复序列（最多约50个核苷酸）D.黑腹果蝇和人类相似(图7). 对于较长的元素，苍蝇体内的分布继续以相同的斜率呈指数衰减，而人类的分布显示出宽尾，另一个显著的峰值集中在大约300个核苷酸附近。为了分析3′UTR的保守性，我们统计了在每个3′UTR-多重比对中表现出完全保守性的所有7个单体，并将这些计数除以3′UTR.序列的长度。我们发现，在脊椎动物排列（包括人类、黑猩猩、小鼠、大鼠、狗和鸡）和涵盖我们数据集中所有苍蝇物种的排列（分别为0.02和0.03）之间，核苷酸存在于保守7聚体中的概率是可比的。同样，3′UTR的保守性在哺乳动物和苍蝇中具有可比性黑腹食肉动物和蒙昧组（分别为0.06和0.08）。在脊椎动物和苍蝇中，重复序列对保守的7个单体的贡献有很大不同(表6). 在脊椎动物和苍蝇中，掩蔽重复使保守7个碱基的数量分别减少约1%和10%。因此，3′UTR中的重复序列在果蝇中的保守性似乎比在脊椎动物中好得多，因此可能对果蝇具有功能重要性。

表5

人和人的3′UTR中的重复元素黑腹果蝇

保存图片、插图等的外部文件。对象名称为pcbi.0010013.t005.jpg

在单独的窗口中打开

人和人3′UTR中重复序列的分数D.黑腹角雉。

表6

脊椎动物和苍蝇3′UTR中7个单体的保守性

保存图片、插图等的外部文件。对象名称为pcbi.0010013.t006.jpg

在单独的窗口中打开

所有苍蝇中7个单体中核苷酸的比例（参考顺序D.melanogaster、D.yakuba、D.erecta、D.ananassae、D.pseudombscria、D.virilis、D.mojavensis)在脊椎动物中，包含或不包含重复元素。的比较表4和和55证明在脊椎动物（苍蝇）中，重复元件与保守的7个单体相比共享更少（更多）的核苷酸。

保存图片、插图等的外部文件。对象名称为pcbi.0010013.g006.jpg

在单独的窗口中打开

图6

3′UTR在人和人中的长度分布D.黑腹果蝇

集合1和集合2的数据采用对数刻度。人体内的分布随长度增加呈指数衰减，比人体内慢得多D.黑腹果蝇人和人的平均3′UTR长度D.黑腹果蝇分别约为900和400个核苷酸。

保存图片、插图等的外部文件。对象名称为pcbi.0010013.g007.jpg

在单独的窗口中打开

图7

人和人3′UTR中重复元件的长度分布D.黑腹果蝇

集合1的数据采用对数刻度。在11个核苷酸的长度上，两种物种的分布均达到峰值，而在D.黑腹果蝇直到大约50个核苷酸的长度，两种分布都非常相似，而对于较长的元素，人类的分布不再呈指数衰减，而是具有在大约300个核苷酸的长度处具有另一个显著峰值的宽尾。

哺乳动物和苍蝇之间的microRNA调节程度总体上大致相当，有几个有趣的分支特异性差异。在脊椎动物中，我们和其他动物[6,8]发现大约30%的基因可能受微RNA调控。这是我们在苍蝇中发现的数字的两倍（15%），但这可以解释为苍蝇中已知的microRNA数量较少以及其他原因（参见讨论). 更有趣的是，我们检查了单个microRNA是否针对哺乳动物和苍蝇中相似或显著不同数量的基因，因为这些差异可能表明microRNA功能的枝特异性变化。为了在分析中保持目标预测的合理敏感性，我们使用人类、黑猩猩、小鼠、大鼠和狗对哺乳动物和黑腹食肉动物和蒙昧苍蝇预测小组。我们在哺乳动物和苍蝇中定义了一组48个同源微RNA（参见材料和方法)并计算了两个分支中microRNA靶的平均数量。然后，我们分别计算了每个微小RNA的预测靶点与每个分支的平均值的比率(表7). 这些比率的散点图(图8)证明了哺乳动物和苍蝇中同源microRNA的靶基因数量之间的相关性。然而，某些microRNAs在两人中的靶基因数量似乎明显较高（miR-10，miR-133，miR-125，let-7，和miR-285）或苍蝇（miR-184和miR-210）。例如，对于let-7我们在哺乳动物中发现了1.64个平均预期的靶基因，但仅为苍蝇平均预期数量的50%左右。从这个分析中不可能确定microRNA是在一个分支中获得了更多的靶点，还是在另一个分支失去了靶点，但令人惊讶的是，这两个人类同源的蝇microRNAmiR-184型和miR-210型在许多人类组织中以低丰度表达，而miR-10、miR-133、miR-125、let-7，和miR-285型在更高的层次上进行整体表达[19]. 我们强调miR-10型和miR-133型在人类中具有平均或低于平均数量的预测目标。我们的数据表明，上述七种微RNA可能在基因调控的枝特异性模式中发挥作用。

表7

哺乳动物和苍蝇之间的同源microRNA黑腹食肉动物和蒙昧靶基因群及其各自的数目

保存图片、插图等的外部文件。对象名称为pcbi.0010013.t007.jpg

在单独的窗口中打开

特定微小RNA的靶基因数量与所有微小RNA的平均靶基因数量的比率指示了苍蝇和脊椎动物（称为相对丰度）。苍蝇和哺乳动物之间的相对丰度比绘制为图8.

^一在黑腹食肉动物和蒙昧，单位为每个microRNA的靶基因平均数。

^b条在哺乳动物中，以每个microRNA的靶基因平均数量为单位。

保存图片、插图等的外部文件。对象名称为pcbi.0010013.g008.jpg

在单独的窗口中打开

图8

哺乳动物和苍蝇同源microRNA的预测靶基因数量

哺乳动物和苍蝇中同源microRNA靶基因相对数量的散点图。在哺乳动物中绘制了一个microRNA的预测靶基因数量与每个microRNA假定靶基因平均数量的比率(年-轴）与苍蝇(x个-轴）。苍蝇保护包括黑腹食肉动物和暗箱组。圈出异常值（预测目标基因的相对数量比大于3.0或小于0.33）。microRNA标识符是指注释在D.黑腹果蝇.

最后，我们计算了苍蝇和哺乳动物之间哪些调节性microRNA–mRNA关系似乎是保守的（参见材料和方法). 来自所有8136个同源人类-D类.黑腹食肉动物在我们的数据集中，50个独特的基因对被同源microRNA（列于表S1). 这50对由大约60个microRNA-mRNA调控关系组成。尽管这些数字很小，但严格的排列测试表明结果略微显著（1.7个标准偏差）（参见材料和方法). 也许并不奇怪，50人中几乎有一半D.黑腹果蝇基因属于GO类别“发育”，“组织发生”被分配给这24个基因中的13个。两个结果都很显著（参见材料和方法).

讨论

转录后基因调控的范围果蝇属由microRNA介导

几种植物的基因组测序果蝇属物种被证明是分析苍蝇microRNA靶点的宝贵资源。与最近的方法相比，跨谱比较使我们能够显著提高微RNA靶预测的敏感性和特异性。例如，以前的研究预测每个microRNA平均有8个靶基因（参见[14]以及其中的参考文献），而我们的数据允许我们（高灵敏度设置S1）预测噪声以上的每个microRNA 54个靶基因D.黑腹果蝇我们仍然预测，在S2和S3设置下，每个microRNA平均仍有23个和30个以上的靶基因，且信噪比显著提高。

根据我们的目标预测，我们发现目前已知的microRNAs有望调节大部分D.黑腹果蝇基因（15%）。这个数字几乎可以肯定是低估了，因为（a）3′UTRs的注释不完整，（b）几个蝇类的基因组序列仍然存在很大的缺口，以及（c）预计蝇类中还有更多的microRNAs有待发现。事实上，使用一种类似于最近哺乳动物比较研究的方法[15]，我们分析了所有七个物种的苍蝇3′UTR，发现了大量尚未发现的苍蝇微小RNA基因存在的有力证据（N.Rajewsky，未发表的数据）。

我们预测的每个microRNA的靶点数量与Brennecke等人最近对microRNA靶点真实数量的估计一致[14]. 在该研究中，作者分析了保守的8聚体核和保守的7聚体核的统计意义，并得出结论，绝大多数可计算检测的靶点至少有一个保守的7聚体核。我们的方法与此方法类似，但在我们的保护分析中包含的物种数量较多时有所不同。对于这两种方法来说，要求相似的序列保守性，每一个microRNA的目标基因数量大致相当。在我们数据集中的许多情况下，集合中的间隙会人为地减少预测目标的数量。另一方面，使用所有七个果蝇属物种使我们的信噪比几乎翻了一番。未来，将进一步完成果蝇属基因组几乎肯定会增加PicTar预测的数量。

与之前算法的比较

此前，我们发表了一种微小RNA靶点识别算法，并用它来预测一组中央发育基因中的微小RNA靶点，这些基因参与了果蝇属[9]. 在我们的靶位点识别模型中，我们引入了细胞核的概念，即微小RNA和靶位点之间的一段完美的Watson–Crick碱基配对，并表明细胞核（a）通常有6-8个碱基长，（b）是靶识别特异性的中心组分，以及（c）可以作为核化位点，使microRNA-mRNA双链的细胞核区域快速收缩[9]. 该目标位置识别模型明确地解释了结合动力学和热力学成分的目标位置识别的物理基础。最近的一篇实验论文支持这一观点[29]. 我们还观察到，细胞核在microRNA中的位置通常是保守的，并且位于5′端，这表明顺式-调控基序可用于协调微RNA在不同基因间的作用。我们将之前预测的microRNA–mRNA调控关系与当前PicTar预测进行了比较。我们发现，在两个数据集中都存在基因的所有案例中，PicTar准确地恢复了之前30个预测位点中的11个。PicTar无法恢复许多预测，因为我们之前的算法没有将细胞核限制在microRNA的5′端。

未来PicTar改进

所有单个microRNA靶点预测中得分最高的基因是nerfin-1，有两个锚点miR-286型在所有苍蝇和所有苍蝇中存在的许多额外的非对齐位点中保存。路线中的错误或含糊不清常常可以解释这些“分散”站点的存在。此外，补偿性突变可能导致3′UTR中的非对齐但功能保守的靶点。目前，PicTar对这些分散的位点进行评分的方式与对保守位点进行评分相同，只要它们都出现在同一UTR中。该算法的未来改进应该探索（a）3′UTR序列和microRNA靶位点进化的显式进化模型，（b）改进核不完美位点的概率评分[14]，（c）二级结构信息的合并[12]、（d）纳入mRNA表达水平（例如，来自微阵列实验）和（e）microRNA表达水平。

我们的数据表明，一些聚集的microRNAs可能协调调节靶基因。此外，已经证明聚集的microRNAs可能是共表达的。使用多个共同表达的microRNA协同调节靶基因可能是提高靶基因调控特异性的有效方法，也可能增强靶基因表达水平对单个microRNA浓度波动的鲁棒性。我们注意到，我们的数据仅表明聚集的微RNA比非聚集的微RNAs更有可能通过与3′UTR的配位结合来协调调节靶基因。许多位于集群中的microRNA似乎也以相同集群中microRNA没有额外结合位点的基因为靶点。相反，来自不同簇的微小RNA似乎有许多可能性协同结合相同的靶基因。

microRNA功能在大进化距离上的进化

微RNA为研究反式-调控基因及其进化顺式-使用计算方法调节靶点。在这项研究中，我们只通过比较一个分支中每个microRNA的靶基因估计数与另一个分支的同源microRNA靶基因预测数来触及这个问题，根据我们对同源性的定义，这两个分支可能与相同的microRNA结合顺式-监管场所。我们警告说，我们对同源性的定义也指可能在一个或两个分支中独立进化的微小RNA。然而，我们的比较在苍蝇和脊椎动物中每个microRNA的靶基因数量之间产生了非平凡的相关性，表明每个microRNA的microRNA靶相对数量在很大的进化距离上趋于保守。相比之下，两个分支之间似乎只有相对少量的特异性microRNA-mRNA调控关系。这种情况暗示了由微RNA介导的基因调控的全球“网络”特征的保护，同时也暗示了微RNA在生物体进化过程中广泛重组转录后基因调控。

令人惊讶的是，一些微小RNA（包括第7列)脊椎动物中可能有大量的靶基因，但苍蝇中的靶基因相对数量似乎大大减少，反之亦然。我们挑选出三个microRNA（miR-184，miR-304，和miR-210）与脊椎动物相比，苍蝇体内目标的相对数量大大增加。我们对microRNA靶点的GO术语分析显示其中一个（miR-210）有70多个预测的靶基因，作为一个群体，这些靶基因显著丰富(第页修正多重测试后<0.03），用于带有GO注释“雌性配子世代”的11个基因（参见图5A） ●●●●。这11人预测miR-210型目标是切割、鸡蛋头、无生殖细胞、角鲨、菱形、par-1、Ras癌基因85D、菱形-4、RNA结合蛋白9、烧焦、，和回转。大多数这些基因在进化上是保守的，在果蝇属卵子发生，无论是在卵母细胞的发育和模式化过程中，还是在围绕着正在发育的卵室的体细胞卵泡细胞的分化过程中，11个中的7个与涉及受体酪氨酸激酶、Notch、无翅或刺猬的发育关键信号通路有关（参见协议S1). 发展成熟果蝇属卵母细胞包含一系列精心安排的事件，这些事件必须及时准确地安排好。上述列表中数量惊人的基因在卵子发生期间必须在特定时间窗口内发生的重要事件中发挥作用，其中许多涉及生殖系和体细胞之间的信号传递。因此，miRNA调控的一个重要新兴主题可能围绕着发育过程中精确控制时空限制事件的广泛需求。此外，卵子发生果蝇属发生于脊椎动物的发育过程与脊椎动物完全不同。因此，令人感兴趣的是，单个microRNA有可能进化为包含对这种发育分化过程很重要的广泛靶基因。然而，这些潜在靶点中的许多并不局限于卵子生成，还可以在其他时间和地点发挥作用，包括眼睛、神经系统和上皮细胞，以及许多其他预测的靶点miR-210型靶点也在这些组织中起作用（例如。，箭头、杂音、三重奏、Sema-1b、makorin、梵高、Syntaxin 17、G-oα47A、RhoGAP92B、cul-2、Apc、，和Scm公司). 因此，这种微RNA可能在发育网络中发挥更复杂的多效性作用。我们得出结论，一些microRNAs可能是介导基因表达中分支特异性差异的候选基因，并可能在塑造生命多样性方面发挥重要作用。

材料和方法

3′UTR定线。

我们对苍蝇使用了两组3′UTR比对。集合1是根据路线创建的，从UCSC基因组浏览器数据库中检索到http://www.genome.ucsc.edu[30]通过组装六种苍蝇的排列连体。以下程序集用于构造多z路线[31]以下为：D.黑腹果蝇2004年4月（dm2），D.亚库巴2004年4月（droYak1），D.阿纳萨斯2004年7月（droAna1），D.假遮蔽2003年8月（dp2），D.雄性2004年7月（droVir1），莫哈文氏双球菌2004年8月（droMoj1），冈比亚按蚊2003年2月（anoGam1），以及蜜蜂2004年7月（apiMel1）。所有苍蝇核苷酸的详细数量和对齐序列如所示表1和和2。2第2组的3′UTR比对是从加州大学伯克利分校Pachter小组生成的全基因组多重比对中提取的(http://hanuman.math.berkeley.edu/genomes/drosophila.html) [21]使用以下程序集：D.黑腹果蝇2004年4月（dm2），D.阿纳萨斯2004年7月（droAna1），D.亚库巴2004年4月（droYak1），直立D2004年10月，D.假遮蔽2003年8月（dp1），D.男性化2004年7月（droVir1），莫哈文氏双球菌2004年12月。对于这两个数据集，我们使用FlyBase 4.1版提取3′UTRD.黑腹角雉。

microRNA序列。

我们下载了所有黑腹果蝇来自Rfam微小RNA注册中心的微小RNA前体和成熟微小RNA[32]（5.0版，http://www.sanger.ac.uk/Software/Rfam/mirna/index.shtml). 对于每个microRNA，我们使用从UCSC基因组数据库检索到的多重比对检查所有苍蝇物种中前体序列的保守性。我们要求成熟microRNA的第一个8聚体完全保守，但对前体序列应用了一个不太严格的保守约束，即75%的百分比一致性。从79成熟D.黑腹果蝇microRNA，我们发现69个在所有苍蝇中保守，73个在黑腹食肉动物和蒙昧组。统计数据是由46个具有唯一核的microRNA子集生成的，即每个核仅对该列表中的一个microRNA具有特异性。这些microRNA的列表如下所示表S2–S4系列.

随机microRNA。

随机microRNA[13]通过提取8个具有相同全基因组丰度（±15%）的单体产生D.黑腹果蝇第一和第二个7mer核的3′UTR与相应的真microRNA的相应7mer进行比较。真microRNA3′末端附着在这个8mer上。我们为第1组和第2组各制作了五组独特的随机microRNAs，在这两种情况下都有屏蔽和无屏蔽重复。

PicTar预测的不同设置。

根据两个不同的定线集比较锚地预测（参见图2)，我们发现使用对齐集1产生了整体更高的灵敏度，而基于集2的目标预测具有更高的特异性。敏感性和特异性的一个主要决定因素是锚地保护的要求水平。根据这些发现，我们定义了三种PicTar设置（称为S1、S2和S3），以涵盖观察到的敏感性和特异性范围。掩蔽重复和应用锚点的自由能过滤有助于微调每种设置的敏感性和特异性之间的平衡。高灵敏度设置（S1）将重复标记的UCSC定线（设置1）作为输入序列，只需要在黑腹食肉动物和蒙昧组，并且不应用完美核的自由能过滤。设置S2，提供高特异性预测，使用集2与无遮罩重复序列的比对作为输入序列，并要求所有苍蝇的锚定保持和完美核的自由能过滤。中等敏感性/中等特异性设置S3等于设置S1，但在所有苍蝇中使用锚定保护。

系统发育PicTar评分。

给定所有苍蝇的3′UTR对齐，PicTar分别计算每个物种UTR的似然分数。整个比对的最终得分是单个物种得分的加权平均值，权重反映了物种的系统发育分组。更准确地说，在黑腹食肉动物对亚组进行平均，并将所得分数与D.阿纳萨斯和D.假盲，为黑腹食肉动物和暗箱组。的分数莫哈文氏双球菌和D.男性化，其进化距离与黑腹食肉动物组，取平均值。这个外组分数和黑腹食肉动物和蒙昧对各组进行平均，以获得所有苍蝇的最终PicTar得分。

脊椎动物和苍蝇之间的同源microRNA。

根据最近的一项研究，给定microRNA的细胞核可能足以抑制基因[14]. 因此，我们对同源性应用了一个宽松的定义。当microRNA的第一个或第二个7mer果蝇属也作为人类microRNA中的一个核存在，这两个microRNA被认为是同源的。比较所有保存在黑腹食肉动物和蒙昧在哺乳动物中保存了所有microRNA的组中，我们获得了哺乳动物和苍蝇之间的48对同源microRNA。

随机microRNA对的目标数。

为了评估从聚集的microRNA基因中提取的24对microRNA的靶向意义，我们使用了从所有可能的1128对不同的microRNAs中随机抽取的1000组24对microrRNAs（使用保存在黑腹食肉动物和蒙昧组）。用于保护黑腹食肉动物和蒙昧组中，24对随机配对中平均有18对（±2）至少有一个靶基因，而共表达配对中有22对。我们平均每个随机集获得70（±21）个唯一的靶基因，相比之下，聚类对的132个唯一靶基因具有较高的Z轴-价值(Z轴= 3). 当需要在所有苍蝇之间进行保护时，结果更为显著：24个成簇对中的19个针对50个独特基因，而24个随机抽取的双子对中的平均11个（±2）预测针对大约23个（±8）独特基因(Z轴=3.5）。

脊椎动物和苍蝇中的同源基因。

之间的同源基因D.黑腹果蝇和人类是从同源基因中提取的[33] (ftp://ftp.ncbi.nih.gov/pub/HomoloGene/current/)附2005年3月14日的注释。这份清单包含19685个人类基因和7983个苍蝇基因。只保留一对同源基因，我们可以为其指定FlyBase CG编号和RefSeq基因标识符[34]，我们的简化列表包含4623对同源基因。我们提取了一份额外的同源人类名单——黑腹果蝇Ensembl基因组浏览器的转录本(http://www.ensembl.org（英语）/). 合并两个列表后，我们得到了包含8136对同源转录物的最终列表。

同源关系的洗牌测试。

为了评估脊椎动物和苍蝇之间同源靶基因和microRNAs的保守microRNA-靶关系数量的重要性，我们按照以下方式改变了脊椎动物和果蝇的同源关系：所有非同源基因和microrAs都从我们的microRNA-靶基因分配表中删除。一个给定家族的所有microRNAs在5′端具有相等的7个单体，均由该家族的一个特定成员代表。同样，我们丢弃了多个转录变体，只保留每个基因的最长变体。我们构建了一个列表，将每个microRNA分配给其所有靶基因。通过排列此列表中的microRNA条目来执行洗牌，从而为每个microRNA分配一组新的目标基因。我们计算了这些排列的microRNA-目标分配的同源关系数量，并将结果平均化1000次。当仅使用唯一的基因和微RNA列表时，我们获得了洗牌列表的平均45（±9）个同源关系，而我们计算了60个真正的同源关系。所述的洗牌策略模拟了非连续microRNA-靶关系的情况，但使靶向特定基因的microRNAs数量保持不变。

GO术语分析。

为了评估所有单个microRNA的PicTar靶点预测，我们搜索了明显过度表达的GO项[20]使用GeneMerge软件分别为每个microRNA的所有靶基因[26]. GeneMerge计算一组基因与背景基因集相比出现特定GO项的重要性。为了尽可能使用广泛的背景基因集来捕获microRNA靶向基因的特征，我们将所有microRNA（设置S1）预测靶向的所有基因或五组随机microRNA命中的基因汇总在一起。最后，第页-根据GeneMerge提供的多重测试结果，对数值进行了保守修正，并记录在0.1的截止值以下。我们分别对“生物过程”本体中的所有GO术语、每个基因最具体的“生物过程“GO术语以及“分子功能”本体中所有GO词汇进行了分析。这三类GO术语由GeneMerge提供第页-两次出现的GO术语的值。为了可视化结果，我们使用了基于负对数线性相关系数的双向层次聚类第页-价值[35]. 要计算第页-（a）保守基因GO项的过度表达值D.黑腹果蝇我们使用了一个背景基因集，该背景基因集是通过将上述背景基因集与所有的黑腹果蝇与人类同源的基因。

支持信息

协议S1

预测的详细讨论miR-210型目标：

（170 KB文档）。

单击此处查看其他数据文件。^{（170K，文档）}

表S1

用同源microRNAs靶向苍蝇和哺乳动物之间的同源基因：

（71 KB XLS）。

单击此处查看其他数据文件。^{（72K，xls）}

表S2

我们数据集中所有苍蝇中保存的成熟微小RNA：

（18 KB XLS）。

单击此处查看其他数据文件。^{（19K，xls）}

表S3

成熟的microRNA保存在黑腹食肉动物和蒙昧组：

（20 KB XLS）。

单击此处查看其他数据文件。^{（21K，xls）}

表S4

用于计算信噪比的一组独特、保守的成熟microRNA：

（18 KB XLS）。

单击此处查看其他数据文件。^{（18K，xls）}

致谢

我们承认Agencourt生物科学公司(http://www.agencourt.com/)对于ananassae果蝇、erecta果蝇、mojavensis果蝇、virilis果蝇序列数据，WUSTL医学院基因组测序中心(http://genome.wustl.edu/)对于果蝇序列数据和贝勒医学院人类基因组测序中心(http://www.hgsc.bcm.tmc.edu/)对于拟暗果蝇序列数据。我们感谢科林·杜威、尼古拉·布雷和利奥·帕切特为我们提供了七条路线的多重路线。我们感谢Jim Kent和Angie Hinrichs对UCSC基因组浏览器数据库的帮助。我们还感谢Thadeous Kacmarczyk对我们计算机的出色管理，感谢Nicholas Socci在绘制聚类结果方面的帮助。我们感谢S.Cohen的讨论。DG承认德国学术交流服务（DAAD）。这项研究得到了霍华德·休斯医学研究所通过纽约大学本科生生物科学教育项目的部分资助。

缩写

去

基因本体论

脚注

相互竞争的利益。提交人声明不存在相互竞争的利益。

作者贡献。DG和NR构思并设计了实验。DG和NR进行了实验。DG、DL和NR对数据进行了分析。KCG分析和讨论miR-210型目标。YLW和NR提供的试剂/材料/分析工具。DG、KCG和NR撰写了论文。

工具书类

Ambros V.动物microRNA的功能。自然。2004;431:350–355.[公共医学][谷歌学者]
巴特尔DP。微小核糖核酸：基因组学、生物发生、机制和功能。单元格。2004;116:281–297.[公共医学][谷歌学者]
Lim LP、Lau NC、Garrett-Engele P、Grimson A、Schelter JM。微阵列分析表明，一些微RNA下调了大量靶mRNA。自然。2005;433:769–773.[公共医学][谷歌学者]
Stark A、Brennecke J、Russell RB、Cohen SM。鉴定果蝇属microRNA靶点。《公共科学图书馆·生物》。2003;1：e13.doi:10.1371/journal.pbio.0000060。DOI（操作界面）：[PMC免费文章][公共医学][交叉参考][谷歌学者]
Enright AJ、John B、Gaul U、Tuschl T、Sander C等果蝇属.基因组生物学。2003;5：R1。 [PMC免费文章][公共医学][谷歌学者]
John B、Enright AJ、Aravin A、Tuschl T、Sander C等。人类微RNA靶点。《公共科学图书馆·生物》。2004;2：e363.doi:10.1371/journal.pbio.0020363。DOI（操作界面）：[PMC免费文章][公共医学][交叉参考][谷歌学者]
Lewis BP、Shih IH、Jones-Rhoades MW、Bartel DP、Burge CB。哺乳动物microRNA靶点的预测。单元格。2003;115:787–798.[公共医学][谷歌学者]
Lewis BP、Burge CB、Bartel DP。保守的种子配对，通常两侧有腺苷，表明数千人类基因是microRNA的靶标。单元格。2005;120:15–20.[公共医学][谷歌学者]
Rajewsky N，Socci ND。微RNA靶点的计算机识别。开发生物。2004;267:529–535.[公共医学][谷歌学者]
Rehmsmeier M，Steffen P，Hochsmann M，Giegerich R.快速有效预测microRNA/靶标双链。RNA。2004;10:1507–1517. [PMC免费文章][公共医学][谷歌学者]
Kiriakidou M、Nelson PT、Kouranov A、Fitziev P、Bouyioukos C等。联合计算-实验方法预测人类microRNA靶点。基因发育。2004;18:1165–1178. [PMC免费文章][公共医学][谷歌学者]
Robins H，Li Y，Padgett RW。结合结构预测微RNA靶点。美国国家科学院程序。2005;102:4006–4009. [PMC免费文章][公共医学][谷歌学者]
Krek A、Grün D、Poy MN、Wolf R、Rosenberg L等。组合微小RNA靶点预测。自然遗传学。2005;37:495–500.[公共医学][谷歌学者]
Brennecke J、Stark A、Russell RB、Cohen SM。微RNA目标识别原理。《公共科学图书馆·生物》。2005;三：e85.doi:10.1371/journal.pbio.0030085。DOI（操作界面）：[PMC免费文章][公共医学][交叉参考][谷歌学者]
Xie X，Kulbokas EJ，Golub TR，Mootha V，Lindblad-Toh K，等。通过比较几种哺乳动物，系统发现人类启动子和3′UTR中的调控基序。自然。2005;434:338–345. [PMC免费文章][公共医学][谷歌学者]
Hobert O.转录因子和microRNA作用的共同逻辑。生物化学科学趋势。2004;29:462–468.[公共医学][谷歌学者]
Doench JG，Sharp PA。翻译抑制中微RNA靶点选择的特异性。基因发育。2004;18:504–511. [PMC免费文章][公共医学][谷歌学者]
Sempere LF、Sokol NS、Dubrovsky EB、Berger EM、Ambros V.微RNA表达的时间调控果蝇属 黑腹食肉动物由激素信号和广泛的复合物基因活性介导。开发生物。2003;259：9-18。[公共医学][谷歌学者]
Baskerville S，Bartel DP。microRNAs的微阵列分析显示，microRNA与邻近的microRNA和宿主基因经常共存。RNA。2005;11:241–247. [PMC免费文章][公共医学][谷歌学者]
基因本体联盟。基因本体论：生物学统一的工具。自然遗传学。2000;25:25–29. [PMC免费文章][公共医学][谷歌学者]
Bray N，Pachter L.MAVID：多序列的受限祖先比对。基因组研究。2004;14:693–699. [PMC免费文章][公共医学][谷歌学者]
Benson G.Tandem repeats finder：一个分析DNA序列的程序。核酸研究。1999;27:573–580. [PMC免费文章][公共医学][谷歌学者]
Rajewsky N，Vergassola M，Gaul U，Siggia ED.基因组的计算检测顺式-早期应用于身体模式的调节模块果蝇属胚胎。BMC生物信息学。2002;三:30. [PMC免费文章][公共医学][谷歌学者]
Brennecke J、Hipfner DR、Stark A、Russell RB、Cohen SM。矮脚鸡编码一种发育调节的microRNA，控制细胞增殖并调节隐藏在果蝇属.单元格。2003;113:25–36.[公共医学][谷歌学者]
Lai EC，Posakony JW。这个有胡子的box是一个新的3′UTR序列基序，它介导了有胡子的和劈裂增强器复杂的基因表达。发展。1997;124:4847–4856.[公共医学][谷歌学者]
卡斯蒂洛·戴维斯CI，哈特尔DL。GeneMerge-Post-genology分析、数据挖掘和假设测试。生物信息学。2003;19:891–892.[公共医学][谷歌学者]
Lai EC。微RNA是对3′UTR序列基序的补充，该序列基序介导负转录后调控。自然遗传学。2003;30:363–364.[公共医学][谷歌学者]
Mignone F，Gissi C，Liuni S，Pesole G.mRNA的未翻译区域。基因组生物学。2002;三：REVIEWS0004。 [PMC免费文章][公共医学][谷歌学者]
马JB，袁YR，梅斯特G，裴Y，Tuschl T，等.导向RNA 5′端特异性识别的结构基础A.富列杜斯琵琶蛋白。自然。2005;434:666–670. [PMC免费文章][公共医学][谷歌学者]
Karolchik D、Baertsch R、Diekhans M、Furey TS、Hinrichs等。UCSC基因组浏览器数据库。核酸研究。2003;31：51–54。 [PMC免费文章][公共医学][谷歌学者]
Blanchette M，Kent WJ，Riemer C，Elnitski L，Smit AFA等。用螺纹块集比对器比对多个基因组序列。基因组研究。2004;14:708–715. [PMC免费文章][公共医学][谷歌学者]
Griffiths-Jones S.微RNA注册。核酸研究。2004;32：D109–D111。 [PMC免费文章][公共医学][谷歌学者]
Wheeler DL、Barret T、Benson DA、Bryant SH、Canese K等。国家生物技术信息中心数据库资源。核酸研究。2005;33：D39–D45。 [PMC免费文章][公共医学][谷歌学者]
Pruitt KD、Tatusova T、Maglott DR.NCBI参考序列（RefSeq）：基因组、转录物和蛋白质的精选非冗余序列数据库。核酸研究。2005).;33：D501–D504。 [PMC免费文章][公共医学][谷歌学者]
Herrero J、Al-Shahrour F、Díaz-Uriarte R、Mateosá、Vaquerizas JM等。GEPAS，微阵列基因表达数据分析的网络资源。核酸研究。(2003;31:3461–3467. [PMC免费文章][公共医学][谷歌学者]

文章来自PLOS计算生物学由以下人员提供多环芳烃