干细胞。作者手稿;PMC 2010年3月30日提供。
以最终编辑形式发布为:
预防性维修识别码:项目经理2847579
尼姆斯:NIHMS66861
通过小RNA文库的深度测序在人类胚胎干细胞中发现和分析小RNA
,1,* ,2的情况下,* ,2 ,三,4 ,2的情况下,6 ,2 ,2 ,2 ,2 ,4,5 ,6,7 ,4,5 ,1 ,8 ,三,4和1,2
Merav酒吧
1美国华盛顿州西雅图弗雷德·哈钦森癌症研究中心(FHCRC)临床研究部,邮编98109
斯塔西娅·怀曼
2美国华盛顿州西雅图弗雷德·哈钦森癌症研究中心(FHCRC)人类生物学部,邮编98109
布莱恩·弗里茨
2美国华盛顿州西雅图弗雷德·哈钦森癌症研究中心(FHCRC)人类生物学部,邮编98109
齐俊林
三美国华盛顿大学生物化学系,西雅图,WA 98195
4华盛顿大学干细胞与再生医学研究所,西雅图,WA 98195,美国
卡维塔·S·加格
2美国华盛顿州西雅图弗雷德·哈钦森癌症研究中心(FHCRC)人类生物学部,邮编98109
6美国华盛顿州西雅图华盛顿大学计算机科学与工程系,邮编:98195-2350
瑞切尔·帕金
2美国华盛顿州西雅图弗雷德·哈钦森癌症研究中心(FHCRC)人类生物学部,邮编98109
埃文·克鲁
2美国华盛顿州西雅图弗雷德·哈钦森癌症研究中心(FHCRC)人类生物学部,邮编98109
Ausra Bendoraite公司
2美国华盛顿州西雅图弗雷德·哈钦森癌症研究中心人类生物学部98109
帕特里克·S·米切尔
2美国华盛顿州西雅图弗雷德·哈钦森癌症研究中心(FHCRC)人类生物学部,邮编98109
安吉丽克·纳尔逊
4华盛顿大学干细胞与再生医学研究所,西雅图,WA 98195,美国
5美国华盛顿大学比较医学系,西雅图,WA 98195
沃尔特·卢佐
6美国华盛顿州西雅图华盛顿大学计算机科学与工程系,邮编:98195-2350
7美国华盛顿西雅图华盛顿大学基因组科学系,邮编:98195-5065
卡罗尔·威尔
4华盛顿大学干细胞与再生医学研究所,西雅图,WA 98195,美国
5美国华盛顿大学比较医学系,西雅图,WA 98195
杰拉德·P·拉迪奇
1美国华盛顿州西雅图弗雷德·哈钦森癌症研究中心(FHCRC)临床研究部,邮编98109
罗伯特绅士
8美国华盛顿州西雅图弗雷德·哈钦森癌症研究中心(FHCRC)公共卫生科学部,邮编98109
汉内尔·鲁霍拉·巴克
三美国华盛顿大学生物化学系,西雅图,WA 98195
4华盛顿大学干细胞与再生医学研究所,西雅图,WA 98195,美国
穆尼什·特瓦里
1美国华盛顿州西雅图弗雷德·哈钦森癌症研究中心(FHCRC)临床研究部,邮编98109
2美国华盛顿州西雅图弗雷德·哈钦森癌症研究中心(FHCRC)人类生物学部,邮编98109
1美国华盛顿州西雅图弗雷德·哈钦森癌症研究中心(FHCRC)临床研究部,邮编98109
2美国华盛顿州西雅图弗雷德·哈钦森癌症研究中心(FHCRC)人类生物学部,邮编98109
三美国华盛顿大学生物化学系,西雅图,WA 98195
4华盛顿大学干细胞与再生医学研究所,西雅图,WA 98195,美国
5美国华盛顿大学比较医学系,西雅图,WA 98195
6美国华盛顿州西雅图华盛顿大学计算机科学与工程系,邮编:98195-2350
7美国华盛顿西雅图华盛顿大学基因组科学系,邮编:98195-5065
8美国华盛顿州西雅图弗雷德·哈钦森癌症研究中心公共卫生科学部98109
通讯作者地址:Muneesh Tewari,Fred Hutchinson Cancer Research Center,1100 Fairview Avenue North,Mailstop D4-100,Seattle,WA 98109,电话:(206)667-5165,传真:(206)667-4723,伊拉韦特姆gro.crchf *这些作者贡献均等。
介绍
人类胚胎干细胞系的建立为发展基于细胞的疗法以恢复和维持人类健康提供了令人兴奋的新机会1). 然而,要充分实现人胚胎干细胞的治疗潜力,就需要了解控制诸如自我更新和分化等特性的分子调控网络。微RNA是小的(通常长度约为22个nts)非编码RNA,通过直接的碱基对相互作用对特定信使RNA(mRNA)靶点进行转录后调节,在分子调控网络中发挥关键作用2miRNAs正常成熟所必需的分子机制的基因失活已被证明会导致异常的干细胞自我更新和/或分化秀丽隐杆线虫,黑腹果蝇、和小家鼠 三–6表明miRNAs的转录后调节在调节干细胞活动的网络中起着重要作用。
少数研究试图通过使用基于杂交的方法来评估已知miRNAs的一个子集,来表征miRNA在小鼠或人类胚胎干细胞中的表达7–11,通过对小RNA cDNA文库中的克隆进行测序12,13最近,通过小鼠ESC(mESC)的高通量测序14或hESC15在这里描述的研究中,我们使用了大规模平行焦磷酸测序16小RNA cDNA文库,以表征在未分化人类胚胎干细胞以及在同基因自发分化细胞群中表达的已知和新miRNA的集合。我们对最可能与人胚胎干细胞多能性相关的已知和新的miRNA子集进行了功能本体分析,并将我们的结果与OCT4、SOX2和NANOG启动子占用率的全基因组数据相结合,以确定可能受这些转录因子调控的新的miRNAs。在我们的研究中发现的大多数新的hESC表达的miRNA在最近的mESC和hESC miRNA测序研究中没有被识别出来,这表明我们的数据补充了早期的研究,并且hESC中表达的miRNAs的全部储备量比以前估计的要大。我们设想,我们的报告将成为未来研究的资源,旨在了解并最终调节人类胚胎干细胞调节网络。
结果
小RNA cDNA文库测序综述
我们选择将典型H1细胞系描述为具有代表性的、经过充分研究的人类胚胎干细胞系。从未分化的H1人类胚胎干细胞(命名为Undiff-hESC)中分离出小RNA,这些细胞在无饲养条件下培养,以避免受到饲养细胞中潜在的小鼠miRNA的污染。我们推断,具有ESC特异性功能的miRNAs可能会表现出表达变化,同时失去多能性和分化承诺。因此,为了进行比较,我们还鉴定了在缺乏碱性成纤维细胞生长因子(bFGF)和条件培养基的情况下,通过培养10–14天触发分化的H1细胞(命名为Diff-hESC)的等基因自发分化群体中表达的miRNAs(更多详细信息见补充方法). 使用qRT-PCR分析Undiff-hESC和Diff-hESCRNA样本中的多能性和分化标记的表达,证明(i)Undiff-hESC中的多能性标记的表达和(ii)与内皮层相对应的标记的缺失和诱导,Diff-hESC细胞群中的中胚层和外胚层谱系(补充图1).
通过将5'和3'连接体连接到18-24nt大小的分级RNA上,然后进行逆转录和PCR扩增,产生小RNA cDNA文库(). 使用454生命科学平台进行大规模并行焦磷酸测序,生成281543和143962个高质量序列读取,分别对应于18227和16096个非冗余序列,这些序列分别来自Undiff-hESC和Diff-hESC.培养物。为了分析序列数据,我们构建了一个自定义的计算管道。管道的初始操作包括识别与先前注释的RNA数据库(例如已知的miRNAs、其他非编码RNA、信使RNA)和重复序列元素的序列匹配(; 有关更多详细信息,请参阅补充方法). 在接下来的部分中,我们将详细讨论与已知miRNA的序列匹配以及新miRNA的识别。
小RNA文库生成和数据分析管道(A) 显示了小RNA文库的生成和测序方案。从未分化的H1-hESC和等基因自发分化培养物中分离出小RNA。在3’和5’连接子连接后,进行RT-PCR以生成两个独立的小RNA cDNA文库,然后将其用作大规模平行焦磷酸测序(454测序)的模板。(B) 流程图描述了数据分析管道。“Seqs”表示折叠相同序列的多次读取后导出的非冗余序列。中间列两侧的列表示数据分析的每个步骤中剩余的序列数和读取数。在管道的末尾,Undiff-hESC数据集中的189个序列和Diff-hESC数据集的121个序列符合我们对标准发夹衍生序列的标准。基因座数量较高,因为一些典型序列映射到基因组中的多个基因座。1数据分析的第一步是删除与凝胶电泳前加入总RNA的18 nt和24 nt RNA标记相对应的序列。2中间框中列出了Undiff-hESC和Diff-hESC数据集的总读取百分比,这些数据集被分类为指定类别并在每个步骤中过滤掉。
MicroRNA分析:先前注释的MicroRNA
与miRBase中已知的miRNAs相匹配(9.0版)20,21代表了62.6%的Undiff-hESC读取和64.4%的Diff-hESC读取。共鉴定出191个已知的miRNAs(补充表1),Diff-hESC中表达的miRNAs总数大于Undiff-hESC().
hESC测序数据集中检测到的已知miRNA的全局视图Undiff-hESC或Diff-hESC中给定miRNA的总读取百分比反映了其在每个细胞群中的相对丰度。在Diff-hESC中,100个最丰富的miRNA按照丰度递减的顺序排列(因为低丰度的miRNA在相同比例的图表上不可见)。Undiff-hESC中高丰度的miRNAs通过名称识别。本研究中确定的所有已知miRNA及其在每个数据集中的相对丰度的完整列表可在补充表1.
单个miRNA的克隆频率,以从给定样本中获得的总读取数的百分比表示,可用于比较样本间miRNA的相对表达22–24,请记住,复制测序数据集不适用于每个样本,这一事实存在局限性。使用该方法评估了Undiff-hESC和Diff-hESCs培养物之间miRNAs的差异表达,如下所示我们特别感兴趣的是在Undiff-hESC中表达并随着分化而表达减少的miRNAs,因为这些miRNA可能参与ESC特异性功能。Undiff-hESC中10个最过表达的miRNAs是hsa-miR-302b、-miR-302c、-miR302d、-miR 92b、-mi R-20b、-mi-R 519d、-mi R 302a、-mi R324-3p、-mi R187和-mi R-18b(; 本文中的所有miRNA名称均指智人miRNAs,除非另有规定;为了简洁起见,我们在下文中省略了hsa前缀)。所有这些miRNAs都有≥2.5倍的过表达和Fisher精确检测P(P)-值<0.05。Fisher精确检验已被证明有助于评估我们研究中获得的数字基因表达数据的统计显著性25此外,一些miRNAs在Undiff-hESC中过表达,但由于Diff-hESC中没有相应的读取,因此无法为其分配折叠过表达值。8个这样的miRNAs由Undiff-hESC中的三个或多个读码表示:miR-518b、miR-520g、miR-524*、miR-363*、miR154、miR-184、miR518c和miR-512-3p().
已知miRNAs在Undiff-hESC和Diff-hESC之间的差异表达(A) 显示了在Undiff-hESC和Diff-hESC数据集中检测到的所有已知miRNAs的表达比率(Undiff/hESC中总读取数的百分比除以Diff-hESC中总读取量的百分比)。插图中显示了与光谱两端10个差异最大的miRNAs相关的具体数据。(B) 图中显示了在Undiff-hESC或Diff-hESC中单独检测到的miRNA的绝对读取数。
作为Undiff-hESC过度表达的独立确认,我们试图使用商用TaqMan®qRT-PCR检测上述18个miRNAs在Undiff-hESC和Diff-hESC RNA中的表达。18个miRNAs中的14个可进行有效的qRT-PCR检测,其中13个miRNAs的过度表达被证实为≥2.5倍().
通过深度测序发现在H1 Undiff-hESC中相对于H1 Diff-hESC过度表达的选定miRNA的qRT-PCR(TaqMan)分析y轴上的值(相对定量)表示通过qRT-PCR测量的Undiff-hESC中给定miRNA相对于Diff-hESC的相对表达。(A) 14例患者中13例H1-hESC的qRT-PCR结果与深度测序结果一致。未确认H1 Undiff-hESC中过度表达的一个miRNA用星号表示。(B) H1 Undiff-hESC中证实过表达的13个miRNAs在BG01 hESC中表现出相同的过表达模式。
为了确定这些观察结果是否超出H1细胞系,我们使用qRT-PCR检测了这13个miRNAs在对应于BG01 hESC细胞系的Undiff-hESC和Diff-hESC培养物中的表达。我们选择BG01细胞系是因为它是在与H1细胞系不同的机构中获得的,并且具有将其与H1株区分开来的表型特征26与BG01 Diff-hESC培养物相比,在BG01 Undiff-hESCs中检测到的所有13个miRNAs均显著过表达(≥2.5倍)。此外,在miRNAs集合中观察到的折叠过表达值模式与H1-hESC中观察到相似().
作为对我们基于深度序列的miRNA差异表达结果的进一步验证,我们使用qRT-PCR分析了在H1 Diff-hESC中相对于H1 Undiff-hESC过度表达的五种代表性miRNAs的表达:miR-23a、miR-27b、miR-125a、miR152和miR-324-5p(补充表1). 对于所有五种miRNA,qRT-PCR结果证实,相对于Undiff-hESC的表达模式,Diff-hESC的过度表达至少是Undiff-hESC的5倍(数据未显示)。
虽然这里描述的测序方法表征了人胚胎干细胞中表达的多种miRNA,但我们也注意到一个例子,即未检测到预期表达的miRNA。MicroRNA miR-367与miR-302a-d由相同的一级转录物生成,但在我们的数据集中却明显缺失。然而,使用TaqMan qRT-PCR,我们发现来自Undiff-hESC的RNA中miR-367的强表达(数据未显示)。Landgraf等人在他们的高通量miRNA测序研究中也观察到了这种现象(即测序数据中缺乏某些丰富的miRNA),他们将其归因于序列特异性miRNA二级结构对接头连接效率的影响23.
分析测序数据以鉴定新发夹衍生的小RNA
在分析了已知miRNA的补体后,我们确定了代表已知miRNA新星型的序列(). MicroRNAs由约80 nt干环前体RNA转录物生成,这些转录物由Dicer处理后生成约22 nt成熟双链RNA。成熟双链的一条优先加载到miRNA-诱导的沉默复合物中,而另一条被称为miRNA“星型”的链被认为是降解的27.我们共发现52种已知miRNAs的新星型(补充表2和补充方法). 正如所料,大多数新星型的相对丰度低于其对应的miRNA。
数据分析管道()与其他种类的已知非编码RNA的鉴定匹配(补充表3)、RefSeq数据库中带注释的蛋白编码信使RNA(每个数据集中的读取数少于1%)和重复序列(即与Repbase或基因组中20个或更多位点的任何序列匹配)。应用这些过滤器后剩余的序列与人类基因组序列对齐(NCBI构建36.1)28序列需要与人类基因组序列完美匹配,以便进一步进行额外分析。唯一的例外是,在额外分析之前,在3'末端存在额外1–3个非模板化核苷酸的序列对非模板化碱基进行了修剪。其他研究人员观察到这种在3'末端向miRNAs非模板添加核苷酸的现象29,30并在分析中采用了类似的方法29作为额外的筛选步骤,从进一步分析中删除与UCSC基因组浏览器中RepeatMasker轨迹相交的序列以及20–24核苷酸长度范围以外的序列。
到目前为止所描述的数据处理步骤产生了3115个和1994个独特序列,分别对应于Undiff-hESC和Diff-hESC数据集中的新小RNA。这些独特的序列对应于5595和3921个基因组位点,这些位点可能产生这些小RNA。
定义miRNA的一个基本标准是它们的生物起源于预测的折回发夹前体转录本,该转录本包含发夹一臂内的成熟miRNA序列31因此,数据分析管道接下来筛选与独特序列相对应的基因组位点,以预测发夹二级结构的存在。我们使用了几个标准将序列指定为“折叠成发夹”,包括自由能最小化、形状概率(由RNAshapes程序确定32)和Randfold-computed33 P(P)-预测的二级结构值。我们还要求发夹的配对特征是,新序列完全包含在假定发夹前体序列的一个臂内,并且碱基配对的程度与miRBase中已知miRNAs对应的前体中观察到的碱基配对程度一致(发夹折叠标准的详细描述见补充方法). 定义新发夹的阈值足够严格,以至于miRBase 9.0版本中只有86%的已知miRNAs符合发夹折叠标准。通过此分析,来自Undiff-hESC和Diff-hESC数据集的新小RNA分别有531和364个,被发现可能来自前体发夹结构。
然后根据染色体坐标将这些序列分为共享5'端的组。从每一组中,我们选择了一个代表该基因组位点产生的序列组的“典型”序列。根据常见的5'末端、丰度和序列长度选择标准序列(参见补充方法详细信息)。这一过程将我们的序列进一步细化为285个独特序列(可能来源于315个基因组基因座)的组合列表,我们将其指定为“新的发夹衍生小RNA”
识别新的和候选的miRNA
为了找到新的miRNA,我们使用与最近的miRNA发现研究中使用的标准类似的标准筛选了一组新的发夹衍生的小RNA30,34:(1)发夹的配对特征(如前一节所筛选的,这是一个绝对要求),(2)需要存在共享相同5'末端的多个读数,(3)进化守恒,正如在另一个物种中具有相同种子区的明显保守的发夹所反映的那样(非灵长类动物保护的权重更大),(4)没有表明非miRNA生物发生的注释(这是一个绝对要求,在管道的早期步骤中筛选出),(5)与已知动物miRNA共享种子区,以及(6)出现相应的miRNA星型读数。如Ruby等人的分析所示。30,34,我们认为miRNA和相应的miRNA星型的发现是发夹状前体生物发生的有力证据。
我们的13个序列足以满足这些标准,被指定为新的miRNAs(). 其中六个序列符合上述五个标准,六个序列满足四个标准。一个序列(U755.1-4/{“类型”:“entrez-notide”,“属性”:{“文本”:“D10092.1”,“term_id”:“219518”}}D10092.1号)仅满足三个标准,但根据具有一致5'端(19个读取)的读取数量以及Undiff-hESC和Diff-hESC(和补充表4; 如下一节所述,该序列随后也通过实验验证,显示出Dicer-dependent表达)。值得注意的是,其中三个新的miRNAs的种子区域与之前注释过的动物miRNAs共享(; 有关更多详细信息,请参阅补充表4). 此外,将新的miRNA序列映射到参考人类基因组序列显示,13个新的miRNAs中有11个存在于其他基因的内含子中(并与各自的宿主基因编码在同一条链上),与许多以前注释过的miRNA很相似(;补充表4). 与新的miRNA相对应的miRNA星型序列见补充表4以及预测的前体结构补充图2.
其余序列包括268个RNA(对应于291个基因组基因座),(i)长度为20-24nt,(ii)符合折叠标准,(iii)没有注释表明非miRNA生物发生,但不符合足够的额外标准,无法被自信地注释为新的miRNA。我们试图从这个列表中选择最有希望的序列,将其指定为“候选miRNAs”,未来可能会确认为真诚地miRNAs作为额外证据积累。
我们要求候选的miRNA至少有三次读取,或者有两次读取,以及至少一个其他脊椎动物物种中同源保守发夹或与已知动物miRNA共享的种子区域的额外支持证据。此外,候选miRNA列表中包括了少数仅由单体读取表示的序列,因为有大量证据支持它们被注释为miRNA候选序列:给定的单体序列要么具有多个非初级脊椎动物中保守的同源发夹和有一个灵长类同源发夹;或它有一个单一的非初级同源发夹,一个灵长类同源发夹,和它与已知的动物miRNA有一个共享的种子序列。综上所述,这使我们能够提炼出56个候选miRNA的最终列表(来源于68个潜在的基因组位点)(参见补充表4).
值得注意的是,尽管我们最初所有的分析都是使用miRBase release 9.0进行的,但随着miRBase release 10.0的可用性,我们将所有发夹衍生的小RNA序列与release 10.0进行了比较,并重新分类了与新沉积的已知miRNA序列相对应的序列。这只影响了发夹衍生的13种小RNA,它们列在补充表1miRBase 11.0版的最新可用性将已知的三种新的和两种候选的miRNAs重新分类。这些miRNA以蓝色或橙色突出显示,并在补充表4.
新型miRNAs的实验验证
为了进一步支持本研究中发现的新miRNA是真诚地miRNAs,我们试图使用Custom TaqMan®Small RNA Assays检测新miRNA在用针对Dicer的shRNA转导的人胚胎干细胞中的表达,或用载体控制慢病毒转导的shRNA。Dicer mRNA的qRT-PCR证实了与载体控制转导细胞相比的显著敲除(减少84%)(). 我们能够获得三种新miRNA的稳健Taqman qRT-PCR分析。与载体控制相比,这三种miRNAs在Dicer敲除的人胚胎干细胞中的表达均显著降低(). 预期不会被Dicer处理的SnoRNAs作为阴性对照,也不会被Dice敲除而减少表达,而三个已知的miRNAs(作为阳性对照)在Dicer敲除hESC中的表达如预期一样减少(). 这些结果有力地证明了这些新的miRNAs是Dicer-dependent成熟的产物,并表明其他新的miRNA也可能如此。
新miRNAs的分离性表达(A) 显示了载体控制hESC与Dicer敲除hESC中Dicer mRNA表达(通过qRT-PCR测量)。采用相对量化方法(RQ),将载体控制hESC中Dicer的表达任意设置为100。如图所示,与载体控制的hESC相比,Dicer敲除hESC的Dicer转录水平降低了84%。(B) Custom TaqMan®Small RNA Assays用于测量Dicer-knowdown和载体控制H1-hESC中所示的三种新型miRNA的表达。作为阴性对照,使用类似设计的TaqMan qRT-PCR分析测定了三个snoRNAs(预计不会进行Dicer处理)。将Dicer敲除细胞中每个小RNA(snoRNA或miRNA)的表达程度与载体控制细胞中的小RNA进行比较,并表示为相对于载体控制的折叠变化。所有三种新的miRNAs在Dicer-knowdown细胞中的表达均显著减少,而snoRNAs没有显示出这种减少,事实上在Dicer knowdow条件下表现出适度的表达增加。三种已知的miRNAs作为阳性对照,显示Dicer敲除的人胚胎干细胞相对于载体对照人胚胎干公司的表达预期下降。
多潜能相关转录因子OCT4、SOX2和NANOG对新型和候选miRNAs的潜在调控
鉴于多潜能相关转录因子OCT4、SOX2和NANOG对人胚胎干细胞基因表达的深刻影响35,我们假设本研究中发现的一些新的和候选的miRNA可能受到这些转录因子的调节。为了进一步研究这个假设,我们参考了已发表的染色质免疫沉淀微阵列(ChIP-ChIP)实验的结果,这些实验已经确定了人类胚胎干细胞中这些因子的全基因组结合位点36Boyer等人分别对这三种转录因子进行染色质免疫沉淀,然后在含有60个DNA寡核苷酸探针的微阵列上分析结合DNA,该探针覆盖相对于17917个注释人类基因转录起始位点的−8 kb至+2 kb区域。
为了确定ChIP-ChIP实验中确定的OCT4、SOX2或NANOG结合位点是否对应于我们研究中发现的miRNAs的基因组调控区域,我们首先试图定义与我们的新的和候选miRNAss相对应的转录起始位点(TSS)。对于注释良好的RefSeq基因的内含子序列(由同一条链编码),推测与宿主基因共转录,TSS被认为是宿主基因的注释TSS。对于剩下的序列,我们使用了AceView基因模型(严重依赖EST数据)和来自UCSC基因组浏览器轨迹的Eponine TSS预测(只要可用)来定义TSS。我们能够识别(i)本研究中发现的13种新的miRNAs中的10种和56种候选miRNA中的36种的基于RefSeq的TSS,以及(ii)其余3种新的micRNA中的0种和其余21种候选micRNA中2种的基于Aceview和/或Eponine的TSS。然后,我们将这些TSS与Boyer等人的ChIP-ChIP数据定义的全基因组OCT4、SOX2和NANOG结合位点相交,要求ChIP-defined结合位点位于我们新的和候选miRNAs TSS的-8 kb到+2 kb之间。我们发现,在10个可定义TSS的新miRNA中,有2个和38个可定义TS的候选miRNA中有6个在其基因组位点上有OCT4、SOX2和/或NANOG结合的证据。数据在中进行了注释补充表4并在中进行了详细描述补充表5总的来说,在可以定义TSS的48个新的和候选的miRNA中,似乎有8个与这些多能性相关转录因子的占有和潜在的调节有关。
基于EST的新的和候选的miRNA在人胚胎干细胞及相关多能干细胞中表达的独立证据
许多已知的miRNA编码在其他基因的内含子中,并与其宿主基因共同转录。在这些情况下,可以使用宿主基因的表达作为替代物来推断内含子miRNA的表达。我们使用这种方法来获得新的和候选的miRNA在人胚胎干细胞或胚胎癌/畸胎瘤细胞系中转录的独立证据,首先确定那些与EST定义的宿主转录物内含子的miRNAs,然后询问是否有任何宿主转录物EST来自人类胚胎干细胞或人类胚胎癌/畸胎瘤细胞系。该方法为13种新miRNA中的7种以及与本研究中确定的候选miRNA相对应的68个位点中的21个候选miRNA位点在hESC或胚胎癌/畸胎瘤细胞系中的转录提供了独立的验证。这些结果在中进行了注释补充表4.
与小鼠ESC深度测序结果的比较
Calabrese等人最近通过深度测序对小鼠ESC(mESC)中的miRNAs进行了表征,确定了46个新的和52个候选的miRNA,其中许多与基因组重复相关14考虑到非重复相关miRNA,他们的研究报告了22个新的和21个候选的miRNA。我们将人类胚胎干细胞中发现的新的和候选的miRNA列表与小鼠胚胎干细胞研究中获得的相应列表进行了比较,我们没有发现任何共同的序列。考虑到miRNAs在整个序列中的保守性较差,我们接下来将人类胚胎干细胞数据中识别的新的和候选的miRNA的种子区域与mESC中识别的新型和候选miRNA进行比较。在那里,我们发现一个候选种子区域匹配({“类型”:“entrez-notide”,“属性”:{“文本”:“D12354.1”,“term_id”:“2148587”}}D12354.1标准)和mESC新型miRNAs之一(mmu-miR-466j)。值得注意的是,即使考虑已知的miRNA,mESC和hESC中的miRNA表达也存在显著差异。
新的和候选的miRNA数据与最近人类胚胎干细胞小RNA测序研究结果的比较
当当前手稿正在准备时,Morin等人。15报道了在未分化的人胚胎干细胞和由其衍生的类胚体的RNA中发现83个新的miRNAs(对应于104个基因组位点)。我们将我们的新的和候选的miRNA与Morin等人发现的miRNA进行了比较,发现重叠最小。Morin等人报告的83种新的miRNAs中,只有22种出现在我们的原始测序数据中。在这22个序列中,只有3个符合我们的新的或候选的miRNAs注释标准(在补充表4). 其他19个被我们的分类方案排除在外,原因包括重复相关,或匹配其他先前注释的特征,如tRNAs或RefSeq基因。相反,Morin等人在我们的13个新miRNA中只发现了3个,在我们的56个候选miRNA中只发现了1个。对不同结果的一种解释是,我们研究了人胚胎干细胞的自发分化培养物,并与他们对类甜味体的研究进行了比较;然而,当只比较Undiff-hESC培养物的结果(代表更相似的细胞群体)时,重叠仍然很小。替代性解释包括:(i)所用文库构建和测序平台的技术差异,以及(ii)人类胚胎干细胞中新的miRNAs/小RNA的多样性大于预期,因此我们的研究和Morin等人的研究都没有达到饱和。
未分化hESC相关miRNA及其预测靶点
在Undiff-hESC中表达但随着分化诱导而表达减少的MiRNAs特别令人感兴趣,因为它们可能参与与多潜能状态相关的功能。我们通过选择在Undiff-hESC中表现出4倍或更高过表达的所有miRNA,定义了一组属于这一类别的已知和新的miRNA(如果miRNA在Undiff-hESC和Diff-hESC中都被识别),或者由Undiff-hESC细胞中至少10个读数表示(在Diff-hESCs群体中根本没有检测到miRNA的情况下)。这组“Undiff-hESC-associated miRNAs”包括14个miRNA,其中5个是新的,9个是以前注释过的().
未分化的ESC相关miRNAs图中显示了五个新的(A)和九个已知的(B)miRNA的集合,它们在Undiff-hESC中至少有4倍的过表达,或者在Undiff-hESC上至少有10个读取(在Diff-hESCs中未检测到miRNA的情况下)。P(P)-这些值是通过费希尔精确检验计算出来的。对于每一种新的miRNA,显示了由RNA形状产生的假定发夹二级结构。发夹中的红色字母表示本研究中获得的成熟miRNA序列。本研究中发现的所有13种新型miRNAs的推测二级结构如下所示补充表4.
我们进行了功能注释分析,以深入了解这些miRNAs可能调控的过程。我们首先分别使用TargetScan和TargetScan-Custom获得该组已知和新miRNAs的计算预测靶点。TargetScan算法使用miRNAs与其潜在靶点之间的种子区域匹配,以及这些匹配的系统发育保守性来识别miRNA的预测靶点。因此,具有相同种子区域(例如miR-20b和miR-519d)的MiRNAs被视为一个,因为它们具有相同的TargetScan目标预测。
我们使用了基因本体37为了获得每个Undiff-hESC miRNA的预测miRNA靶点的功能描述,我们基于微阵列分析对12821个发现在Undiff-hESC中表达的基因(“Undiff/hESC表达的基因”)进行分析,微阵列分析的细节在实验程序和补充方法). 基因本体(GO)项目使用受控词汇来描述各种生物体中的基因产物。在将每个miRNA的预测靶点与12821个hESC表达基因组交叉后,我们最初确定了显著丰富的GO生物过程(BP)类别(数据未显示)。
尽管其中许多类别包括与ESC和早期发育相关的生物功能,但miRNAs通常可能以参与早期发育过程的基因为靶点。因此,为了确定对Undiff-hESC相关miRNAs更具特异性的富集类别,我们采取了不同的方法,通过分析295个已知miRNA(代表266个独特的种子区域)的GO功能注释,比较产生的空分布不检测到在我们的测序数据集中以Undiff-hESC表示。然后,我们将与每个Undiff-hESC相关miRNA靶点相关的过度代表GO类别与该空分布的统计显著性进行了比较。从这个比较中,我们只选择了那些对给定Undiff-hESC相关miRNA的靶点返回NullP值<0.01(参见补充方法有关NullP值计算的详细信息)。该分析的完整结果见补充表6,其中特别感兴趣的类别以黄色突出显示。特别令人感兴趣的是,髓系/红系分化和染色质重塑基因在新的miRNA U739.1-6的预测靶点中的过度表达,以及BMP信号通路和细胞分化类别在miRNA U755.1-4预测靶点的过度表达/{“类型”:“entrez-notide”,“属性”:{“文本”:“D10092.1”,“term_id”:“219518”}}2009年1月21日.
为了方便访问本研究中报告的所有新miRNAs的预测靶点,我们使用TargetScan Custom算法预测所有新miRNA和此处报告的候选miRNA的靶点。有关这些预测目标的完整列表,请参阅补充表7和8.
讨论
本文报道的这项工作的动机是假设hESC中表达的全部miRNA尚未阐明,以及遗传证据表明miRNA在胚胎干细胞功能中起着关键作用。大规模并行测序方法使我们能够全面(即不仅识别已知的而且识别新的miRNA),并且数据的“数字”性质允许对许多miRNA的相对表达水平进行半定量估计。使用深度测序方法,我们鉴定了13个新的和56个候选的miRNA,以及191个以前注释过的miRNA。我们认为这里发现的一些新的miRNA可能是人胚胎干细胞特异性的,因为最近对不同分化组织中miRNA表达的高通量序列研究尚未发现23,24,38.
虽然总的趋势是,在失去多能性和分化后,细胞群中大多数miRNA的表达增加,但五种新的和九种已知的miRNA(被指定为Undiff-hESC相关)的子集清楚地显示了相反的表达模式,可能代表hESC培养物中多能性的miRNA特征。这组miRNAs也代表了未来功能研究的关键集合,因为它们可能调节多能性或其他hESC特异性功能。尽管最终需要进行基因扰动实验来揭示这些miRNAs的功能,但可以测试的潜在扰动和特定表型的数量是巨大的,特别是当考虑多个miRNAs。我们对预测靶点的基因本体分析结果可能有助于这方面的研究,因为我们建议了特定Undiff-hESC相关miRNAs的功能假设,以指导进一步的研究。
特别值得注意的是,在最近的mESC和hESC的小RNA测序数据集中没有发现这里发现的新的和候选的miRNA。与mESC的差异可以通过已知的hESC和mESC之间的表型差异来解释,至少可以部分解释35,即使在表达已知hESC和mESC之间的miRNA(例如miR-302家族miRNA的表达)14.这里发现的新miRNA与最近公布的人类胚胎干细胞数据集中的新miRNAs没有重叠15然而,这表明即使在大规模平行测序研究中获得了序列,我们也不能排除hESC中表达的miRNAs的整个空间仍未完全阐明的可能性。也就是说,值得注意的是,所有测序研究中的许多新的miRNAs都是低水平表达的,其功能作用尚未明确。需要进一步研究,以了解本研究和其他研究中发现的新的hESC表达的miRNAs补体的生物学意义。