跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
干细胞。作者手稿;PMC 2010年3月30日提供。
以最终编辑形式发布为:
2008年6月26日在线发布。 doi(操作界面):10.1634/段.2008-0356
预防性维修识别码:项目经理2847579
美国国立卫生研究院:NIHMS66861
PMID:18583537

通过小RNA文库的深度测序在人类胚胎干细胞中发现和分析微小RNA

关联数据

补充资料

摘要

我们使用大规模平行焦磷酸测序来发现和表征人类胚胎干细胞(hESC)中表达的microRNAs(miRNAs)。对来自未分化人胚胎干细胞和同基因分化培养物的小RNA cDNA文库进行测序,共获得425505个高质量的序列读取。自定义数据分析流水线描绘了191个先前注释的miRNA、13个新的miRNA和56个候选miRNA的表达谱。对Dicer-knowdown hESC中新miRNAs子集的进一步表征证明了Dicer-dependent表达,进一步验证了我们的结果。一组14个miRNAs(9个已知,5个新)在未分化的人胚胎干细胞中表达,然后随着分化强烈下调。对这些miRNA的预测靶点进行功能注释分析,并使用非hESC表达的miRNAs与零模型进行比较,以确定统计丰富的功能类别,包括染色质重塑和谱系特异性分化注释。最后,将我们的数据与OCT4、SOX2和NANOG结合位点的全基因组染色质免疫沉淀数据相结合,表明这些转录因子参与了9种新的/候选miRNAs的调控。将我们的结果与最近对小鼠ESC和人类ESC进行的深度测序研究的结果进行比较,结果表明,此处发现的大多数新的/候选的miRNAs在其他研究中未被识别。数据表明,人胚胎干细胞表达的miRNAs补体比以前认识到的要多,并为进一步研究人胚胎干系统生理学的miRNA调控提供了资源。

关键词:微RNA、胚胎干细胞、深测序、焦测序

介绍

人类胚胎干细胞系的建立为发展基于细胞的疗法以恢复和维持人类健康提供了令人兴奋的新机会1). 然而,要充分实现人胚胎干细胞的治疗潜力,就需要了解控制诸如自我更新和分化等特性的分子调控网络。微RNA是小的(通常长度约为22个nts)非编码RNA,通过直接的碱基对相互作用对特定信使RNA(mRNA)靶点进行转录后调节,在分子调控网络中发挥关键作用2miRNAs正常成熟所必需的分子机制的基因失活已被证明会导致异常的干细胞自我更新和/或分化秀丽隐杆线虫,黑腹果蝇,以及小家鼠 ——6表明miRNAs的转录后调节在调节干细胞活动的网络中起着重要作用。

少数研究试图通过使用基于杂交的方法来评估已知miRNAs的一个子集,来表征miRNA在小鼠或人类胚胎干细胞中的表达7——11,通过对小RNA cDNA文库中的克隆进行测序12,13以及最近通过小鼠ESC(mESC)的高通量测序14或hESC15在这里描述的研究中,我们使用了大规模平行焦磷酸测序16小RNA cDNA文库,以表征在未分化人类胚胎干细胞以及在同基因自发分化细胞群中表达的已知和新miRNA的集合。我们对最可能与人胚胎干细胞多能性相关的已知和新的miRNA子集进行了功能本体分析,并将我们的结果与OCT4、SOX2和NANOG启动子占用率的全基因组数据相结合,以确定可能受这些转录因子调控的新的miRNAs。在我们的研究中发现的大多数新的hESC表达的miRNA在最近的mESC和hESC miRNA测序研究中没有被发现,这表明我们的数据补充了早期的研究,并且hESC中表达的miRNAs的全部储备量比以前估计的要大。我们设想,我们的报告将成为未来研究的资源,旨在了解并最终调节人类胚胎干细胞调节网络。

材料和方法总结

H1人胚胎干细胞在无饲料条件下培养,并使用短发夹表达慢病毒产生Dicer-knowdown人胚干细胞。使用mirVana™miRNA分离试剂盒(Ambion)提取RNA,并使用从Applied Biosystems购买的TaqMan miRNA分析进行定量逆转录PCR(qRT-PCR)。如前所述,从100µg总RNA中产生小RNA文库(17,http://web.wi.mit.edu/bartel/pub/protocols/miRNACloningUpdate0705.pdf). 454生命科学公司(454 Life Sciences,Inc.)进行了大规模并行焦磷酸测序。基于已知转录RNA或新miRNAs的身份,使用自定义生物信息学管道对序列进行处理和注释,详见补充方法。通过查询TargetScan数据库获得已知miRNA的目标,通过查询Target Scan Custom获得新miRNAs的目标18,19。使用基因本体对预测的miRNA靶点进行功能注释分析,详见补充方法.

有关材料和方法的更多详细信息,请参见补充方法.

结果

小RNA cDNA文库测序综述

我们选择将典型H1细胞系描述为具有代表性的、经过充分研究的人类胚胎干细胞系。从未分化的H1人类胚胎干细胞(命名为Undiff-hESC)中分离出小RNA,这些细胞在无饲养条件下培养,以避免受到饲养细胞中潜在的小鼠miRNA的污染。我们推断,具有ESC特异性功能的miRNAs可能会表现出表达变化,同时失去多能性和分化承诺。因此,为了进行比较,我们还鉴定了在缺乏碱性成纤维细胞生长因子(bFGF)和条件培养基的情况下,通过培养10–14天激发分化的H1细胞(命名为Diff-hESC)的等基因自发分化群体中表达的miRNAs(更多详细信息见补充方法). 使用qRT-PCR分析Undiff-hESC和Diff-hESCRNA样本中的多能性和分化标记的表达,证明(i)Undiff-hESC中的多能性标记的表达和(ii)与内皮层相对应的标记的缺失和诱导,Diff-hESC细胞群体中的中胚层和外胚层谱系(补充图1).

通过将5'和3'连接子连接到18-24nt大小的分馏RNA上,然后进行反转录和PCR扩增,生成小RNA cDNA文库(图1A). 使用454生命科学平台进行大规模并行焦磷酸测序,生成281543和143962个高质量序列读取,分别对应于18227和16096个非冗余序列,这些序列分别来自Undiff-hESC和Diff-hESC.培养物。为了分析序列数据,我们构建了一个自定义的计算管道。管道的初始操作包括识别与先前注释的RNA数据库(例如已知的miRNAs、其他非编码RNA、信使RNA)和重复序列元素的序列匹配(图1B; 有关更多详细信息,请参阅补充方法). 在接下来的部分中,我们将详细讨论与已知miRNA的序列匹配以及新miRNA的识别。

保存图片、插图等的外部文件。对象名为nihms66861f1.jpg
小RNA文库生成和数据分析管道

(A) 显示了小RNA文库的生成和测序方案。从未分化的H1-hESC和等基因自发分化培养物中分离出小RNA。在3’和5’连接子连接后,进行RT-PCR以生成两个独立的小RNA cDNA文库,然后将其用作大规模平行焦磷酸测序(454测序)的模板。(B) 流程图描述了数据分析管道。“Seqs”表示折叠相同序列的多次读取后导出的非冗余序列。中间列两侧的列表示在数据分析的每个步骤中剩余的序列和读数的数量。在管道的末尾,Undiff-hESC数据集中的189个序列和Diff-hESC数据集的121个序列符合我们对标准发夹衍生序列的标准。基因座数量较高,因为一些典型序列映射到基因组中的多个基因座。1数据分析的第一步是删除与凝胶电泳前加入总RNA的18 nt和24 nt RNA标记相对应的序列。2中间框中列出了Undiff-hESC和Diff-hESC数据集的总读取百分比,这些数据集被分类为指定类别并在每个步骤中过滤掉。

MicroRNA分析:先前注释的MicroRNA

与miRBase中已知的miRNAs相匹配(9.0版)20,21代表了62.6%的Undiff-hESC读取和64.4%的Diff-hESC读取。共鉴定出191个已知的miRNAs(补充表1),Diff-hESC中表达的miRNA总数大于Undiff-hESC中表达的miRNA总数(图2).

保存图片、插图等的外部文件。对象名为nihms66861f2.jpg
人类胚胎干细胞测序数据集中检测到的已知miRNA的全局视图

Undiff-hESC或Diff-hESC中给定miRNA的总读取百分比反映了其在每个细胞群中的相对丰度。在Diff-hESC中,100个最丰富的miRNA按照丰度递减的顺序排列(因为低丰度的miRNA在相同比例的图表上不可见)。Undiff-hESC中高丰度的miRNAs通过名称识别。本研究中确定的所有已知miRNAs及其在每个数据集中的相对丰度的完整列表可在补充表1.

单个miRNA的克隆频率,以从给定样本中获得的总读取数的百分比表示,可用于比较样本间miRNA的相对表达22——24,请记住,复制测序数据集不适用于每个样本,这一事实存在局限性。使用该方法评估了Undiff-hESC和Diff-hESCs培养物之间miRNAs的差异表达,如下所示图3我们特别感兴趣的是在Undiff-hESC中表达并随着分化而表达减少的miRNAs,因为这些miRNA可能参与ESC特异性功能。Undiff-hESC中10个最过表达的miRNAs是hsa-miR-302b、-miR-302c、-miR302d、-miR 92b、-mi R-20b、-mi-R 519d、-mi R 302a、-mi R324-3p、-mi R187和-mi R-18b(图3A; 本文中的所有miRNA名称都指智人miRNAs,除非另有规定;为了简单起见,我们在下文中省略了hsa-前缀)。所有这些miRNAs都有≥2.5倍的过表达和Fisher精确检测P(P)-值<0.05。Fisher精确检验已被证明有助于评估我们研究中获得的数字基因表达数据的统计显著性25此外,一些miRNAs在Undiff-hESC中过表达,但由于Diff-hESC中没有相应的读取,因此无法为其分配折叠过表达值。8个这样的miRNAs由Undiff-hESC中的三个或多个读码表示:miR-518b、miR-520g、miR-524*、miR-363*、miR154、miR-184、miR518c和miR-512-3p(图3B).

保存图片、插图等的外部文件。对象名为nihms66861f3.jpg
已知miRNAs在Undiff-hESC和Diff-hESC之间的差异表达

(A) 显示了在Undiff-hESC和Diff-hESC数据集中检测到的所有已知miRNAs的表达比率(Undiff/hESC中总读取数的百分比除以Diff-hESC中总读取量的百分比)。插图中显示了与光谱两端10个差异最大的miRNAs相关的具体数据。(B) 图中显示了在Undiff-hESC或Diff-hESC中单独检测到的miRNA的绝对读取数。

作为Undiff-hESC过度表达的独立确认,我们试图使用商用TaqMan®qRT-PCR测定,以测量来自Undiff-hESC和来自Diff-hESC的RNA中上述18种miRNA的表达。18个miRNAs中的14个可进行有效的qRT-PCR检测,其中13个miRNAs的过度表达被证实为≥2.5倍(图4A).

保存图片、插图等的外部文件。对象名为nihms66861f4.jpg
通过深度测序发现在H1 Undiff-hESC中相对于H1 Diff-hESC过度表达的选定miRNA的qRT-PCR(TaqMan)分析

y轴上的值(相对定量)表示通过qRT-PCR测量的Undiff-hESC中给定miRNA相对于Diff-hESC的相对表达。(A) 14例患者中13例H1-hESC的qRT-PCR结果与深度测序结果一致。未确认H1 Undiff-hESC中过度表达的一个miRNA用星号表示。(B) H1 Undiff-hESC中证实过表达的13个miRNAs在BG01 hESC中表现出相同的过表达模式。

为了确定这些观察结果是否超出H1细胞系,我们使用qRT-PCR检测了这13个miRNAs在对应于BG01 hESC细胞系的Undiff-hESC和Diff-hESC培养物中的表达。我们选择BG01细胞系是因为它是在与H1细胞系不同的机构中获得的,并且具有将其与H1株区分开来的表型特征26相对于BG01 Diff-hESC培养物,所有13种miRNA在BG01 Undiff-hESC中均显著过表达(≥2.5倍)。此外,在miRNAs集合中观察到的折叠过表达值模式与H1-hESC中观察到相似(图4B).

作为对我们基于深度序列的miRNA差异表达结果的进一步验证,我们使用qRT-PCR分析了在H1 Diff-hESC中相对于H1 Undiff-hESC过度表达的五种代表性miRNAs的表达:miR-23a、miR-27b、miR-125a、miR152和miR-324-5p(补充表1). 对于所有五种miRNAs,qRT-PCR结果证实Diff-hESC相对于Undiff-hESC表达模式的过度表达至少为5倍(数据未显示)。

虽然这里描述的测序方法表征了人胚胎干细胞中表达的多种miRNA,但我们也注意到一个例子,即未检测到预期表达的miRNA。MicroRNA miR-367与miR-302a-d由相同的一级转录物生成,但在我们的数据集中却明显缺失。然而,使用TaqMan qRT-PCR,我们发现来自Undiff-hESC的RNA中miR-367的强表达(数据未显示)。Landgraf等人在高通量miRNA测序研究中也观察到了这种现象(即测序数据中缺少某些丰富的miRNA),他们将其归因于序列特异性miRNA二级结构对连接子连接效率的影响23.

分析测序数据以鉴定新发夹衍生的小RNA

在分析了已知miRNA的补体后,我们确定了代表已知miRNA新星型的序列(图1B). MicroRNAs由约80 nt干环前体RNA转录物生成,这些转录物由Dicer处理后生成约22 nt成熟双链RNA。成熟双链的一条优先加载到miRNA-诱导的沉默复合物中,而另一条被指定为miRNA“星型”的链被认为是降解的27我们总共发现了52种新的已知miRNA星形形式(补充表2补充方法). 正如所料,大多数新星型的相对丰度低于其对应的miRNA。

数据分析管道(图1B)确定与其他类别已知非编码RNA的匹配(补充表3)、RefSeq数据库中带注释的蛋白编码信使RNA(每个数据集中的读取数少于1%)和重复序列(即与Repbase或基因组中20个或更多位点的任何序列匹配)。应用这些过滤器后剩余的序列与人类基因组序列对齐(NCBI构建36.1)28序列需要与人类基因组序列完美匹配,以便进一步进行额外分析。唯一的例外是,在额外分析之前,在3'末端存在额外1–3个非模板化核苷酸的序列对非模板化碱基进行了修剪。其他研究人员观察到这种在3'末端向miRNAs非模板添加核苷酸的现象29,30并在分析中采用了类似的方法29作为额外的筛选步骤,从进一步分析中删除与UCSC基因组浏览器中RepeatMasker轨迹相交的序列以及20–24核苷酸长度范围以外的序列。

到目前为止所描述的数据处理步骤产生了3115个和1994个独特序列,分别对应于Undiff-hESC和Diff-hESC数据集中的新小RNA。这些独特的序列对应于可能产生这些小RNA的5595和3921个基因组基因座。

定义miRNA的一个基本标准是它们的生物起源于预测的折回发夹前体转录本,该转录本包含发夹一臂内的成熟miRNA序列31因此,数据分析管道接下来筛选与独特序列相对应的基因组位点,以预测发夹二级结构的存在。我们使用了几个标准将序列指定为“折叠成发夹”,包括自由能最小化、形状概率(由RNAshapes程序确定32)和Randfold-computed33 P(P)-预测的二级结构值。我们还要求发夹的配对特征是,新序列完全包含在假定发夹前体序列的一个臂内,并且碱基配对的程度与miRBase中已知miRNAs对应的前体中观察到的碱基配对程度一致(发夹折叠标准的详细描述见补充方法). 定义新发夹的阈值足够严格,以至于miRBase 9.0版本中只有86%的已知miRNAs符合发夹折叠标准。通过此分析,来自Undiff-hESC和Diff-hESC数据集的新小RNA分别有531和364个,被发现可能来源于前体发夹结构。

然后根据染色体坐标将这些序列分为共享5'端的组。从每一组中,我们选择了一个代表该基因组位点产生的序列组的“典型”序列。根据常见的5'末端、丰度和序列长度选择标准序列(参见补充方法详细信息)。这个过程进一步将我们的序列细化为285个独特序列(可能来自315个基因组位点)的组合列表,我们将其命名为“新发夹衍生小RNA”

识别新的和候选的miRNA

为了找到新的miRNA,我们使用与最近的miRNA发现研究中使用的标准类似的标准筛选了一组新的发夹衍生的小RNA30,34:(1)发夹的配对特征(如前一节所筛选的,这是一个绝对要求),(2)需要存在共享相同5'末端的多个读数,(3)进化守恒,正如另一物种中具有相同种子区域的明显保守发夹所反映的那样(非初级保护的权重更大),(4)缺少指示非miRNA生物发生的注释(如管道早期步骤中筛选出的,这是一个绝对要求),(5)与已知动物miRNA共享种子区域和(6)出现相应的miRNA星型读数。如Ruby等人的分析所示。30,34,我们认为miRNA和相应的miRNA星型的发现是发夹状前体生物发生的有力证据。

我们的13个序列充分符合这些标准,被指定为新的miRNA(表1). 其中六个序列符合上述五个标准,六个序列满足四个标准。一个序列(U755.1-4/D10092.1号)仅满足三个标准,但根据具有一致5'端(19个读取)的读取数量以及Undiff-hESC和Diff-hESC(表1补充表4; 如下一节所述,该序列随后也通过实验验证,显示出Dicer-dependent表达)。值得注意的是,其中三个新的miRNAs的种子区域与之前注释过的动物miRNAs共享(表1; 有关更多详细信息,请参阅补充表4). 此外,将新的miRNA序列映射到参考人类基因组序列显示,13个新的miRNAs中有11个存在于其他基因的内含子中(并与各自的宿主基因编码在同一条链上),与许多以前注释过的miRNA很相似(表1;补充表4). 与新的miRNA相对应的miRNA星型序列见补充表4以及预测的前体结构补充图2.

读入与共享种子区域同源发夹
序列ID长度协调搁浅顺序读取星形动物miRNA?灵长类动物其他脊椎动物性格内向?

U336.1-3/D2756.1-4号21电话:11:613392257-61339277CGGCGGGACGGGCGAUGGUGGUC(CGGCGGCGACG)64X(X)X(X)X(X)
U739.1-6型22chr19:1767168-1767189CGCAGGGCCGGGGCUCACCG262X(X)
D622-1-2型22chr17:19188419-19188440UUUCCGGCUCGCGUGGUGUGU195X(X)X(X)X(X)
U755.1-4型/D10092.1号21图16:84332776-84332796CCAGUCCUGCCU公司19X(X)
U1123.1型/D10070.1号23电话:113904011-113904033+UGAGUACCGCCAUGUCUGUGGG公司121X(X)X(X)X(X)
U1046.1-3/D12862.122电话19:58867044-58867065+UCAAAACUGAGGGGCAUUUUCU大学12X(X)
U3863.1-2号机组22chrX:1137792320-113792341+UACCCAGAGCAUGCAGUGUGAA公司4X(X)X(X)X(X)
D10711.1号/U3615.1型22电话:12:55874603-55874624+CCUCACACCUGCCCCCCCCCUCGCCCCCC4X(X)X(X)
U2732.1号机组22电话:166842842-166842863UCUGCCCCUCCGCUGCCA大学X(X)X(X)X(X)
U10426型.1-221铬22:18616668-18616688ugcaggaccagaugagccuX(X)X(X)X(X)
U2971.1号机组22电话:62043308-62043329CCCUGUGCCCGGCCCCACUCUG公司1X(X)X(X)
1D15980.1号/U18158.1型20电话:10:21825511-21825530CCCCAGGGCGACGCGGCGGG2X(X)X(X)
1该序列被选为5'-3'对中的优势序列,因为它在其他脊椎动物中有多个同源发夹,因此是一个保守的种子区,而它的恒星形状(虽然比1读的更丰富)没有。

其余序列包括268个RNA(对应于291个基因组位点),这些RNA(i)长度为20–24 nt,(ii)符合折叠标准,(iii)缺少指示非miRNA生物发生的注释,但不满足足够的附加标准,无法自信地注释为新的miRNA。我们试图从这个列表中选择最有希望的序列,将其指定为“候选miRNAs”,未来可能会确认为真诚地miRNAs作为额外证据积累。

我们要求候选miRNA至少有三个读数,或者有两个读数,以及至少一个其他脊椎动物物种中同源保守发夹或与已知动物miRNA共享种子区的额外支持证据。此外,候选miRNA列表中包括了少数仅由单体读取表示的序列,因为有大量证据支持它们被注释为miRNA候选序列:给定的单体序列要么具有多个非初级脊椎动物中保守的同源发夹有一个灵长类同源发夹;它有一个单一的非初级同源发夹,一个灵长类同源发夹,它与已知的动物miRNA有一个共享的种子序列。综上所述,这使我们能够提炼出56个候选miRNA的最终列表(来源于68个潜在的基因组位点)(参见补充表4).

值得注意的是,尽管我们的所有分析最初都是使用miRBase 9.0版本进行的,但随着miRBase10.0版本的可用性,我们将所有发夹衍生的小RNA序列都比较为10.0版本,并重新分类那些与新沉积的已知miRNA序列相对应的序列。这只影响了发夹衍生的13种小RNA,它们列在补充表1miRBase 11.0版的最新可用性将已知的三种新的和两种候选的miRNAs重新分类。这些miRNA以蓝色或橙色突出显示,并在补充表4.

新型miRNAs的实验验证

为了进一步支持本研究中发现的新miRNA是真诚地miRNAs,我们试图使用Custom TaqMan®Small RNA Assays检测新miRNA在用针对Dicer的shRNA转导的人胚胎干细胞中的表达,或用载体控制慢病毒转导的shRNA。Dicer mRNA的qRT-PCR证实相对于载体对照转导的细胞有显著的敲除作用(降低84%)(图5A). 我们能够获得三种新miRNA的稳健Taqman qRT-PCR分析。与载体控制相比,这三种miRNAs在Dicer敲除的人胚胎干细胞中的表达均显著降低(图5B). 预期不会被Dicer处理的SnoRNAs作为阴性对照,也不会被Dice敲除而减少表达,而三个已知的miRNAs(作为阳性对照)在Dicer敲除hESC中的表达如预期一样减少(图5B). 这些结果有力地证明了这些新的miRNAs是Dicer-dependent成熟的产物,并表明其他新的miRNA也可能如此。

保存图片、插图等的外部文件。对象名为nihms66861f5.jpg
新miRNAs的分离性表达

(A) 显示了载体控制hESC与Dicer敲除hESC中Dicer mRNA表达(通过qRT-PCR测量)。采用相对量化方法(RQ),将载体控制hESC中Dicer的表达任意设置为100。如图所示,与载体控制的hESC相比,Dicer敲除hESC的Dicer转录水平降低了84%。(B) Custom TaqMan®Small RNA Assays用于测量Dicer敲低和载体对照H1-hESC中指示的三种新miRNA的表达。作为阴性对照,使用类似设计的TaqMan qRT-PCR分析测定了三个snoRNAs(预计不会进行Dicer处理)。将Dicer敲除细胞中每个小RNA(snoRNA或miRNA)的表达程度与载体控制细胞中的小RNA进行比较,并表示为相对于载体控制的折叠变化。所有三种新的miRNAs在Dicer-knowdown细胞中的表达均显著减少,而snoRNAs没有显示出这种减少,事实上在Dicer knowdow条件下表现出适度的表达增加。三种已知的miRNAs作为阳性对照,显示Dicer敲除的人胚胎干细胞相对于载体对照人胚胎干公司的表达预期下降。

多潜能相关转录因子OCT4、SOX2和NANOG对新型和候选miRNAs的潜在调控

鉴于多潜能相关转录因子OCT4、SOX2和NANOG对人胚胎干细胞基因表达的深刻影响35,我们假设本研究中发现的一些新的和候选的miRNAs可能受这些转录因子调控。为了进一步研究这个假设,我们参考了已发表的染色质免疫沉淀微阵列(ChIP-ChIP)实验的结果,这些实验已经确定了人类胚胎干细胞中这些因子的全基因组结合位点36Boyer等人分别对这三种转录因子进行染色质免疫沉淀,然后在含有60个DNA寡核苷酸探针的微阵列上分析结合DNA,该探针覆盖相对于17917个注释人类基因转录起始位点的−8 kb至+2 kb区域。

为了确定ChIP-ChIP实验中确定的OCT4、SOX2或NANOG结合位点是否对应于我们研究中发现的miRNAs的基因组调控区域,我们首先试图定义与我们的新的和候选miRNAss相对应的转录起始位点(TSS)。对于插入到注释良好的RefSeq基因的序列(由同一条链编码),假设与宿主基因共转录,并且TSS被视为宿主基因的注释TSS。对于剩下的序列,我们使用了AceView基因模型(严重依赖EST数据)和来自UCSC基因组浏览器轨迹的Eponine TSS预测(只要可用)来定义TSS。我们能够鉴定(i)本研究中发现的13种新miRNA中的10种和56种候选miRNA中的36种的基于RefSeq的TSS,以及(ii)剩余3种新miRNA中的0种和剩余21种候选miRNA中的2种的基于Aceview和/或Eponine的TSS。然后,我们将这些TSS与Boyer等人的ChIP-ChIP数据定义的全基因组OCT4、SOX2和NANOG结合位点相交,要求ChIP-defined结合位点位于我们新的和候选miRNAs TSS的-8 kb到+2 kb之间。我们发现,在10个可定义TSS的新miRNA中,有2个和38个可定义TS的候选miRNA中有6个在其基因组位点上有OCT4、SOX2和/或NANOG结合的证据。数据在中进行了注释补充表4并在中进行了详细描述补充表5总的来说,TSS可定义的48个新的和候选的miRNAs中有8个与这些多潜能相关转录因子的占据和潜在调控有关。

基于EST的新的和候选的miRNA在人胚胎干细胞及相关多能干细胞中表达的独立证据

许多已知的miRNA编码在其他基因的内含子中,并与其宿主基因共同转录。在这些情况下,可以使用宿主基因的表达作为替代物来推断内含子miRNA的表达。我们使用这种方法来获得新的和候选的miRNA在人胚胎干细胞或胚胎癌/畸胎瘤细胞系中转录的独立证据,首先确定那些与EST定义的宿主转录物内含子的miRNAs,然后询问是否有任何宿主转录物EST来自人类胚胎干细胞或人类胚胎癌/畸胎瘤细胞系。该方法为13种新miRNA中的7种以及与本研究中确定的候选miRNA相对应的68个位点中的21个候选miRNA位点在hESC或胚胎癌/畸胎瘤细胞系中的转录提供了独立的验证。这些结果在中进行了注释补充表4.

与小鼠ESC深度测序结果的比较

Calabrese等人最近通过深度测序对小鼠ESC(mESC)中的miRNAs进行了表征,确定了46个新的和52个候选的miRNA,其中许多与基因组重复相关14考虑到非重复相关miRNA,他们的研究报告了22个新的和21个候选的miRNA。我们将人类胚胎干细胞中发现的新的和候选的miRNA列表与小鼠胚胎干细胞研究中获得的相应列表进行了比较,我们没有发现任何共同的序列。考虑到miRNAs在整个序列中的保守性较差,我们接下来将人类胚胎干细胞数据中识别的新的和候选的miRNA的种子区域与mESC中识别的新型和候选miRNA进行比较。在那里,我们发现一个候选种子区域匹配(D12354.1标准)和mESC新型miRNAs之一(mmu-miR-466j)。值得注意的是,即使考虑已知的miRNA,mESC和hESC中的miRNA表达也存在显著差异。

新的和候选的miRNA数据与最近的hESC小RNA测序研究结果的比较

当当前手稿正在准备时,Morin等人。15报道了从未分化的人胚胎干细胞和由其衍生的类胚体的RNA中发现83个新的miRNAs(对应于104个基因组位点)。我们将我们的新的和候选的miRNA与Morin等人发现的miRNA进行了比较,发现重叠最小。Morin等人报告的83种新的miRNAs中,只有22种出现在我们的原始测序数据中。在这22个序列中,只有3个符合我们的新的或候选的miRNAs注释标准(在补充表4). 其他19个被我们的分类方案排除在外,原因包括重复相关,或匹配其他先前注释的特征,如tRNAs或RefSeq基因。相反,Morin等人在我们的13个新发现中仅发现了3个,在56个候选miRNAs中仅发现1个。对不同结果的一种解释是,我们研究了人胚胎干细胞的自发分化培养物,并与他们对类甜味体的研究进行了比较;然而,当只比较Undiff-hESC培养物的结果(代表更相似的细胞群体)时,重叠仍然很小。替代性解释包括:(i)所用文库构建和测序平台的技术差异,以及(ii)人类胚胎干细胞中新的miRNAs/小RNA的多样性大于预期,因此我们的研究和Morin等人的研究都没有达到饱和。

未分化hESC相关miRNAs及其预测靶点

在Undiff-hESC中表达但随着分化诱导而表达减少的MiRNAs特别令人感兴趣,因为它们可能参与与多潜能状态相关的功能。我们通过选择在Undiff hESC中表现出4倍或更高过表达的所有miRNA(在Undiff hESC和Diff-hESC中都鉴定出miRNA的情况下),定义了一组属于这一类别的已知和新的miRNA,或者由Undiff-hESC细胞中至少10个读数表示(在Diff-hESCs群体中根本没有检测到miRNA的情况下)。这组“Undiff-hESC-associated miRNAs”包括14个miRNA,其中5个是新的,9个是以前注释过的(图6).

保存图片、插图等的外部文件。对象名为nihms66861f6.jpg
未分化的ESC相关miRNAs

图中显示了一组五个新的(A)和九个已知的(B)miRNA,它们在Undiff-hESC中至少有4倍的过表达,或者在Undiff-hESC上至少有10个读取(在Diff-hESCs中未检测到miRNA的情况下)。P(P)-这些值是通过费希尔精确检验计算出来的。对于每一种新的miRNA,都显示了由RNA形状产生的假定发夹二级结构。发夹中的红色字母表示本研究中获得的成熟miRNA序列。本研究中发现的所有13种新型miRNAs的推测二级结构如下所示补充表4.

我们进行了功能注释分析,以深入了解这些miRNAs可能调控的过程。我们首先分别使用TargetScan和TargetScan-Custom获得该组已知和新miRNAs的计算预测靶点。TargetScan算法使用miRNAs与其潜在靶点之间的种子区域匹配,以及这些匹配的系统发育保守性来识别miRNA的预测靶点。因此,具有相同种子区域(例如miR-20b和miR-519d)的MiRNAs被视为一个,因为它们具有相同的TargetScan目标预测。

我们使用了基因本体论37为了获得每个Undiff-hESC miRNA的预测miRNA靶点的功能描述,我们基于微阵列分析对12821个发现在Undiff-hESC中表达的基因(“Undiff/hESC表达的基因”)进行分析,微阵列分析的细节在实验程序和补充方法). 基因本体(GO)项目使用受控词汇来描述各种生物体中的基因产物。在将每个miRNA的预测靶点与12821个hESC表达基因组交叉后,我们最初确定了显著丰富的GO生物过程(BP)类别(数据未显示)。

尽管其中许多类别包括与ESC和早期发育相关的生物功能,但miRNAs通常可能以参与早期发育过程的基因为靶点。因此,为了确定对Undiff-hESC相关miRNAs更具特异性的富集类别,我们采取了不同的方法,通过分析295个已知miRNA(代表266个独特的种子区域)的GO功能注释,比较产生的空分布检测到在我们的测序数据集中以Undiff-hESC表示。然后,我们将与每个Undiff-hESC相关miRNA靶点相关的过度代表GO类别与该空分布的统计显著性进行了比较。从这个比较中,我们只选择了那些对给定Undiff-hESC相关miRNA的靶点返回NullP值<0.01(参见补充方法有关NullP值计算的详细信息)。该分析的完整结果见补充表6,其中特别感兴趣的类别以黄色突出显示。特别令人感兴趣的是,髓系/红系分化和染色质重塑基因在新的miRNA U739.1-6的预测靶点中的过度表达,以及BMP信号通路和细胞分化类别在miRNA U755.1-4预测靶点的过度表达/D10092.1号.

为了方便访问本研究中报告的所有新miRNAs的预测靶点,我们使用TargetScan Custom算法预测所有新miRNA和此处报告的候选miRNA的靶点。有关这些预测目标的完整列表,请参阅补充表7和8.

讨论

本文报道的工作是基于以下假设:人类胚胎干细胞中表达的miRNAs的整个基因库尚未被阐明,以及遗传证据表明miRNA在胚胎干细胞功能中起着关键作用。大规模并行测序方法使我们能够全面(即不仅识别已知的而且识别新的miRNA),并且数据的“数字”性质允许对许多miRNA的相对表达水平进行半定量估计。使用深度测序方法,我们鉴定了13种新的和56种候选miRNA,以及191种先前注释的miRNA。我们认为这里发现的一些新的miRNA可能是人胚胎干细胞特异性的,因为最近对不同分化组织中miRNA表达的高通量序列研究尚未发现23,24,38.

虽然总的趋势是,在失去多能性和分化后,细胞群中大多数miRNA的表达增加,但五种新的和九种已知的miRNA(被指定为Undiff-hESC相关)的子集清楚地显示了相反的表达模式,可能代表hESC培养物中多能性的miRNA特征。这组miRNAs也代表了未来功能研究的关键集合,因为它们可能调节多能性或其他hESC特异性功能。尽管最终需要进行基因扰动实验来揭示这些miRNAs的功能,但可以测试的潜在扰动和特定表型的数量是巨大的,特别是当考虑多个miRNAs。我们对预测靶点的基因本体分析结果可能有助于这方面的研究,因为我们建议了特定Undiff-hESC相关miRNAs的功能假设,以指导进一步的研究。

特别值得注意的是,在最近的mESC和hESC的小RNA测序数据集中没有发现这里发现的新的和候选的miRNA。与mESC的差异可以通过已知的hESC和mESC之间的表型差异来解释,至少可以部分解释35,即使在表达已知hESC和mESC之间的miRNA(例如miR-302家族miRNA的表达)14.这里发现的新miRNA与最近公布的人类胚胎干细胞数据集中的新miRNAs没有重叠15然而,这表明即使在大规模平行测序研究中获得了序列,我们也不能排除hESC中表达的miRNAs的整个空间仍未完全阐明的可能性。也就是说,值得注意的是,所有测序研究中的许多新的miRNAs都是低水平表达的,其功能作用尚未明确。需要进一步研究,以了解本研究和其他研究中发现的新的hESC表达的miRNAs补体的生物学意义。

补充材料

补充表格4

单击此处查看。(414K,xls)

补充

单击此处查看。(11M,pdf)

致谢

我们感谢哈兰·罗宾斯(Harlan Robins)、斯蒂芬·塔普斯科特(Stephen Tapscott)、贝弗利·托洛克·斯托布(Beverly Torok-Storb)和约翰·拜恩(John Byon)对手稿的批判性审查。我们还要感谢匿名审稿人的宝贵意见和建议。我们感谢Iain Russell、David Petrillo和Matthew Rockwell为访问Custom TaqMan®Small RNA分析提供便利,并感谢Fred Hutchinson癌症研究中心基因组学和科学成像共享资源的帮助。

对研究经费支持的确认以下为:

这项工作得到了肿瘤学培训拨款5 T32 CA009515-21/22和儿科和医学肿瘤学职业发展奖NCI/5 K12 CA076930给M.Bar,染色体代谢培训拨款5 T22 CA09657-16给S.Wyman,癌症研究跨学科培训拨款CA80416给K.Garg,NIEHS P30ES07033给W.L.Ruzzo,P41 HG004059-01授予R.Gentleman,NIGMS/P20 GM069983-01和NIGMS/P01 GM081619-01授予C.Ware,Tietze奖和NIH和MOD授予H.Ruohola-Baker的奖金,以及NIH/NCI癌症中心支持拨款5 P30 CA015704和FHCRC新发展基金授予M.Tewari的试点奖。我们感谢罗氏诊断公司对测序的财政支持。

脚注

作者贡献以下为:

Merav Bar:概念和设计、数据收集和/或汇编、数据分析和解释、手稿写作

Stacia K.Wyman:概念和设计、数据收集和/或汇编、数据分析和解释、手稿写作

布莱恩·弗里茨:数据收集和/或汇编、数据分析和解释、手稿写作

Junlin Qi:提供研究材料或患者,收集和/或汇编数据

Kavita S.Garg:数据收集和/或汇编、数据分析和解释

Rachael K.Parkin:数据收集和/或汇编

Evan M.Kroh:数据收集和/或汇编

Ausra Bendoraite:数据收集和/或汇编

Patrick S.Mitchell:数据收集和/或汇编

Angelique Nelson:提供研究材料或患者

沃尔特·卢佐:概念与设计

Carol Ware:概念和设计,提供研究材料或患者

Jerald Radich:财务支持、数据分析和解释

罗伯特·盖特曼:概念与设计、数据分析与解释

Hannele Ruohola-Baker:提供研究材料或患者

Muneesh Tewari:概念和设计、财务支持、数据分析和解释、手稿撰写。

工具书类

1Mimeault M,Hauke R,Batra SK。干细胞:治疗学的一场革命。干细胞生物学及其在再生医学和癌症治疗中的治疗应用的最新进展。临床药理学。2007年9月;82(3):252–264.[公共医学][谷歌学者]
2He L、Hannon GJ。MicroRNAs:在基因调控中起重要作用的小RNA。Nat Rev基因。2004年7月;5(7):522–531.[公共医学][谷歌学者]
三。Reinhart BJ、Slack FJ、Basson M等。21核苷酸let-7 RNA调节秀丽隐杆线虫的发育时间。自然。2000年2月24日;403(6772):901–906.[公共医学][谷歌学者]
4Hatfield SD、Shcherbata HR、Fischer KA、Nakahara K、Carthew RW、Ruohola-Baker H。干细胞分裂受microRNA途径调节。自然。2005年6月16日;435(7044):974–978.[公共医学][谷歌学者]
5Murchison EP、Partridge JF、Tam OH、Cheloufi S、Hannon GJ。Dicer-deficient小鼠胚胎干细胞的特性。美国国家科学院院刊。2005年8月23日;102(34):12135–12140. [PMC免费文章][公共医学][谷歌学者]
6Wang Y、Medvid R、Melton C、Jaenisch R、Blelloch R.DGCR8对微RNA生物生成和沉默胚胎干细胞自我更新至关重要。自然遗传学。2007年3月;39(3):380–385. [PMC免费文章][公共医学][谷歌学者]
7Strauss WM,Chen C,Lee CT,Ridzon D.微RNA基因表达的非限制性发育调控。哺乳动物基因组。2006年8月;17(8):833–840.[公共医学][谷歌学者]
8Chen C、Ridzon D、Lee CT、Blake J、Sun Y、Strauss WM。利用分化相关的微小RNA及其潜在靶点确定胚胎干细胞的身份。哺乳动物基因组。2007年5月;18(5):316–327.[公共医学][谷歌学者]
9Josephson R,Ording CJ,Liu Y,等。胚胎癌2102Ep的鉴定作为人类胚胎干细胞研究的参考。干细胞。2007年2月;25(2):437–446.[公共医学][谷歌学者]
10Lakshmipathy U、Love B、Goff LA等。未分化和分化人类胚胎干细胞的微RNA表达模式。干细胞开发。2007年12月;16(6):1003–1016. [PMC免费文章][公共医学][谷歌学者]
11Wu H,Xu J,Pang ZP,等。综合基因组和功能分析揭示了人类胚胎干细胞系中的神经元亚型分化倾向。美国国家科学院院刊。2007年8月21日;104(34):13821–13826. [PMC免费文章][公共医学][谷歌学者]
12Houbaviy HB、Murray MF、Sharp PA。胚胎干细胞特异性微RNA。开发单元。2003年8月;5(2) :351–358。[公共医学][谷歌学者]
13Suh MR、Lee Y、Kim JY等。人类胚胎干细胞表达一组独特的微RNA。开发生物。2004年6月15日;270(2):488–498.[公共医学][谷歌学者]
14卡拉布雷斯·JM、塞拉·AC、Yeo GW、夏普·PA。RNA序列分析确定了Dicer在小鼠胚胎干细胞中的作用。美国国家科学院院刊。2007年11月13日;104(46):18097–18102. [PMC免费文章][公共医学][谷歌学者]
15Morin RD、O'Connor MD、Griffith M等。大规模平行测序在人类胚胎干细胞微RNA分析和发现中的应用。基因组研究。2008年2月19日; [PMC免费文章][公共医学][谷歌学者]
16Margulies M,Egholm M,Altman WE,et al.微加工高密度微晶反应器中的基因组测序。自然。2005年9月15日;437(7057):376–380. [PMC免费文章][公共医学][谷歌学者]
17Lau NC、Lim LP、Weinstein EG、Bartel DP。秀丽隐杆线虫中丰富的一类可能具有调节作用的微小RNA。科学。2001年10月26日;294(5543):858–862.[公共医学][谷歌学者]
18Lewis BP、Burge CB、Bartel DP。保存的种子配对,通常两侧是腺苷,表明成千上万的人类基因是微小RNA的靶点。单元格。2005年1月14日;120(1):15–20.[公共医学][谷歌学者]
19Grimson A、Farh KK、Johnston WK、Garrett-Engele P、Lim LP、Bartel DP。哺乳动物中微RNA靶向特异性:种子配对以外的决定因素。分子细胞。2007年7月6日;27(1):91–105. [PMC免费文章][公共医学][谷歌学者]
20Griffiths-Jones S、Grocock RJ、van Dongen S、Bateman A、Enright AJ。miRBase:microRNA序列、靶点和基因命名。核酸研究。2006年1月1日;34(数据库问题):D140–D144。 [PMC免费文章][公共医学][谷歌学者]
21Griffiths-Jones S.微小核糖核酸注册处。核酸研究。2004年1月1日;32(数据库问题):D109–D111。 [PMC免费文章][公共医学][谷歌学者]
22Aravin A,Tuschl T.参与RNA沉默的小RNA的鉴定和表征。FEBS通讯。2005年10月31日;579(26):5830–5840.[公共医学][谷歌学者]
23Landgraf P、Rusu M、Sheridan R等。基于小RNA文库测序的哺乳动物microRNA表达图谱。单元格。2007年6月29日;129(7):1401–1414. [PMC免费文章][公共医学][谷歌学者]
24Cummins JM、He Y、Leary RJ等,《结肠直肠微RNA组》。美国国家科学院院刊。2006年3月7日;103(10):3687–3692. [PMC免费文章][公共医学][谷歌学者]
25Audic S,Claverie JM。数字基因表达谱的意义。基因组研究。1997年10月;7(10):986–995.[公共医学][谷歌学者]
26Ware CB,Nelson AM,Blau CA。美国国立卫生研究院批准的人类ESC系的比较。干细胞。2006年12月;24(12):2677–2684.[公共医学][谷歌学者]
27Schwarz DS、Hutvagner G、Du T、Xu Z、Aronin N、Zamore PD。RNAi酶复合物组装中的不对称性。单元格。2003年10月17日;115(2):199–208.[公共医学][谷歌学者]
28Lander ES、Linton LM、Birren B等。人类基因组的初步测序和分析。自然。2001年2月15日;409(6822):860–921.[公共医学][谷歌学者]
29Berezikov E,Cuppen E,Plasterk RH.微RNA发现方法。自然遗传学。2006年6月;38供应:S2–S7。[公共医学][谷歌学者]
30Ruby JG、Jan C、Player C等。大规模测序揭示了秀丽线虫中的21U-RNAs和额外的microRNAs以及内源性siRNAs。单元格。2006年12月15日;127(6):1193–1207.[公共医学][谷歌学者]
31Ambros V、Bartel B和Bartel DP等。微RNA注释的统一系统。Rna。2003年3月;9(3):277–279. [PMC免费文章][公共医学][谷歌学者]
32Steffen P、Voss B、Rehmsmeier M、Reeder J、Giegerich R.RNAshapes:基于抽象形状的综合RNA分析包。生物信息学。2006年2月15日;22(4):500–503.[公共医学][谷歌学者]
33Bonnet E,Wuts J,Rouze P,Van de Peer Y。微RNA前体与其他非编码RNA不同,其折叠自由能低于随机序列的证据。生物信息学。2004年11月22日;20(17):2911–2917.[公共医学][谷歌学者]
34Ruby JG、Stark A、Johnston WK、Kellis M、Bartel DP、Lai EC。果蝇microRNA的进化、生物发生、表达和靶向预测。基因组研究。2007年12月;17(12) :1850年至1864年。 [PMC免费文章][公共医学][谷歌学者]
35Boiani M,Scholer HR。胚胎衍生多能干细胞的调控网络。Nat Rev Mol细胞生物学。2005年11月;6(11):872–884.[公共医学][谷歌学者]
36Boyer LA、Lee TI、Cole MF等。人类胚胎干细胞的核心转录调控电路。单元格。2005年9月23日;122(6):947–956. [PMC免费文章][公共医学][谷歌学者]
37Ashburner M、Ball CA、Blake JA等,《基因本体联盟》。基因本体:生物学统一的工具。自然遗传学。2000年5月;25(1):25–29. [PMC免费文章][公共医学][谷歌学者]
38Berezikov E、Thuemmler F、van Laake LW等。人类和黑猩猩大脑中微RNA的多样性。自然遗传学。2006年12月;38(12):1375–1377.[公共医学][谷歌学者]