介绍
迄今为止,已有98个基因在小鼠中经历了基因组印记,56个基因在人类中被印记,这两个物种中有38个重叠的基因[1]两个物种的印记基因列表都不完整。全基因组生物信息学预测面临着高假阳性率的挑战,主要是因为已知印迹基因的训练集很小,而且我们不知道所有驱动组织的信号以及印迹的时间特异性[2],[3]对人类印迹基因进行彻底扫描的尝试遇到了几个缺点,包括使用最合适的组织和发育阶段的挑战,而依赖淋巴母细胞系(LCL)则加剧了这个问题[4]许多印记基因表现出组织和发育阶段特异性表达,许多基因仅在大脑发育的特定阶段表达和印记。人类研究还面临着信息丰富的杂合SNP数量少的挑战,因此等位基因特异性分析仅对一小部分个体有用。因此,需要系谱信息来区分基因组印迹和随机单等位基因表达[5],[6]这些因素大大增加了对人类印记基因进行转录全扫描所需的工作量和成本。相比之下,大规模的小鼠研究使用了单亲二体性[7]–[12]检测父母对孩子的影响。虽然这种方法已经发现了许多印迹基因,并改进了印迹破坏后果的表型分析,但并非所有基因组区域都被单亲失配所覆盖,而且这种异常的基因组配置可能会扭曲表达模式。使用等位基因特异探针的基于微阵列的方法只能可靠地检测到几乎“全部或全部”的印记,因为母体与父体等位基因表达之间的数量差异由于完美匹配和不匹配探针的交叉杂交而具有很高的误差[13],[14]事实上,基因组印迹可能是从完整的单亲表达到所表达的亲本等位基因中轻微但显著的偏差的连续体,一种能够在转录组规模上可靠检测等位基因特异表达的数量差异的技术将大大加速印迹研究。
结果
Illumina测序结果和SNP覆盖率
短阅读测序(例如转录物的Illumina/Selexa测序)提供了大量的序列标签,可以对两个传递的亲代等位基因编码的转录物进行简单计数,从而为印迹研究提供了许多优势。在这项研究中,我们对AKR/J和PWD/PhJ小鼠株的相互杂交后代的转录物中的基因组印迹进行了定量评估。从出生后第2天(P2)F1雌性小鼠全脑提取总RNA。对每个F1雌性大脑cDNA样本进行一轮Illumina测序。我们从PWD x AKR杂交中获得了1072.63 Mbp的序列数据(首先列出雌性菌株),从AKR x PWD中获得了1136.35 Mbp的高质量32 bp读取数据(图S1.1). 平均而言,27.74%的读数与NCBI RefSeq小鼠基因组数据库对齐。等位基因之间的序列异质性很大,导致ELAND在将读取数据映射到基因组时表现不佳,因此该映射是使用NCBI BLAST程序进行的(表S1.1). 总计,33519739和35510887个读数与相应的反向交叉中的RefSeq数据库对齐。这些序列涵盖了15491个RefSeq基因,其中至少有一个完全匹配的Illumina基因在两个反向杂交中读取。在这些基因中,我们分别鉴定了814360和884828个阅读跨越Perlegen SNP的两个互惠杂交[15].质控过滤后(表S1.2)、320804和327451个包含SNP的高质量读取保留,允许识别每个读取的原始父级(请参阅方法了解更多详细信息)。我们的研究涵盖了5533个RefSeq基因(5076个独特的Entrez基因),在两个互惠杂交中,总SNP计数为4个或更多(表S1.3). 从小鼠脑EST数据库中,在P4小脑中5500个含有polyA的3′端EST序列的cDNA克隆中,3500个是不同的物种[16]这与SAGE最近对P30小鼠大脑的研究形成了对比,其中每个细胞拷贝数为5或更多的匹配GenBank转录本数量为4161[17]但这些数据缺乏等位基因特异性鉴定。基于这一信息,我们可以查询几乎所有当前已知的转录基因在小鼠新生脑中的印记状态,这些转录基因具有可检测的表达,并且计数信息丰富。
检测基因组印迹
根据Illumina读取数据中AKR和PWD SNP等位基因的计数,对两个亲本等位基因相对表达水平进行量化(). 我们定义第页1是PWD x AKR杂交中AKR等位基因计数的百分比,以及第页2AKR x PWD杂交中AKR等位基因的计数百分比(表S1.4). 我们将一个基因确定为父亲表达的候选印记基因,如果第页1与第页2以及在哪里第页1>0.5和第页2<0.5(对于母体表达的基因,第页1<0.5,以及第页2>0.5) (表S1.5). 两个独立二项式的Storer-Kim检验[18],[19]用于测试两个二项式参数之间差异的显著性,第页1和第页2,研究中涉及的每个基因[18].q个-计算每个基因的值,并应用0.05的错误发现率阈值[20]使用这些标准,我们鉴定了13个父系和13个母系表达的候选印迹基因第页1>0.65,第页2<0.35 (第页1<0.65,第页2>母体基因为0.35)和q个-值分别<0.05().
表1
通过转录物中的偏倚等位基因计数确定的候选印记基因。
已知IP基因 | PWD x AKR | AKR x PWD | q值 | AKR百分比 | 已知状态†
| 已验证状态 | Sig_SNP(q<0.1)¶
| 高温淬火 |
| AKR公司*
| PWD公司*
| AKR公司*
| PWD公司*
| | 第1页 | 第2页 | | | | 第1页 | 第2页 |
纳特
1
| 1182 | 1 | 21 | 1853 | 0 | 99.9% | 1.1% | 知识产权 | 知识产权 | 4 | 100.0% | 0.0% |
Snarpn公司
2
| 898 | 1 | 1 | 19 | 0 | 99.9% | 5.0% | 知识产权 | 知识产权 | 1 | 100.0% | 0.0% |
蛇形花纹
2
| 888 | 1 | 1 | 18 | 0 | 99.9% | 5.3% | 知识产权 | 知识产权 | 1 | 100.0% | 0.0% |
第13页
三
| 168 | 0 | 6 | 74 | 0 | 100.0% | 7.5% | 尼泊尔卢比 | 知识产权 | 三 | 98.8% | 3.0% |
那不勒斯
三
| 22 | 0 | 0 | 67 | 1.2电子19 | 100.0% | 0.0% | 尼泊尔卢比 | 知识产权 | 1 | 100.0% | 0.0% |
发票5f_v2
4
| 41 | 三 | 14 | 80 | 1.4E-17号机组 | 93.2% | 14.9% | 知识产权 | 知识产权 | 2 | 91.9% | 7.8% |
中士
5
| 9 | 0 | 0 | 54 | 2.0E-09年 | 100.0% | 0.0% | 尼泊尔卢比 | 知识产权 | 2 | 100.0% | 1.5% |
Rasgrf1型
6
| 16 | 0 | 0 | 20 | 7.5E-09段 | 100.0% | 0.0% | 知识产权 | 知识产权 | 三 | 100.0% | 0.0% |
影响
7
| 15 | 6 | 8 | 83 | 1.2E-06 | 71.4% | 8.8% | 尼泊尔卢比 | 知识产权 | 2 | 79.1% | 19.8% |
Zrsr1型
8
| 11 | 0 | 1 | 14 | 6.7E-05年 | 100.0% | 6.7% | 知识产权 | 知识产权 | 0 | 97.5% | 0.4% |
Gtl2公司
9
| 1 | 339 | 193 | 1 | 0 | 0.3% | 99.5% | 尼泊尔卢比 | 知识产权 | 4 | 0.0% | 100.0% |
第19页
10
| 2 | 14 | 61 | 1 | 5.8E-10段 | 12.5% | 98.4% | 尼泊尔卢比 | 知识产权 | 三 | 9.4% | 100.0% |
Cdkn1c公司
11
| 0 | 8 | 13 | 0 | 1.3电子04 | 0.0% | 100.0% | 尼泊尔卢比 | 知识产权 | 1 | 3.6% | 100.0% |
命令1
12
| 12 | 33 | 22 | 7 | 2.6E-03型 | 26.7% | 75.9% | 知识产权 | 知识产权 | 0 | 41.2% | 72.5% |
新型IP基因
|
PWD x AKR
|
AKR x PWD
|
q值
|
AKR百分比
|
已知状态
†
|
已验证状态
|
Sig_SNP(q<0.1)
¶
|
高温淬火
|
|
AKR公司
*
|
PWD公司
*
|
AKR公司
*
|
压水堆
*
| |
第1页
|
第2页
| | | |
第1页
|
第2页
|
Inpp5f公司
| 359 | 19 | 89 | 1293 | 0 | 95.0% | 6.4% | - | 知识产权 | 7 | 83.2% | 19.1% |
2410042D21瑞克
| 21 | 7 | 16 | 32 | 0.024 | 75.0% | 33.3% | - | eQTL$
| 0 | 79.9% | 83.6% |
{“类型”:“entrez-notide”,“属性”:{“文本”:“BC043301”,“term_id”:“28175523”}}BC043301号
| 8 | 0 | 三 | 9 | 0.042 | 100.0% | 25.0% | - | eQTL公司 | 0 | - | - |
1810044A24Rik公司
| 7 | 20 | 25 | 5 | 1.1E-03段 | 25.9% | 83.3% | - | 知识产权 | 1 | 20.6% | 73.5% |
吉格
| 9 | 35 | 21 | 9 | 0.002 | 20.5% | 70.0% | - | eQTL公司 | 1 | 40.9% | 36.1% |
Ppfia2型
| 6 | 16 | 32 | 8 | 0.003 | 27.3% | 80.0% | - | eQTL公司 | 0 | - | - |
初级1
| 6 | 81 | 5 | 2 | 0.005 | 6.9% | 71.4% | - | eQTL公司 | 1 | - | - |
阿斯
| 24 | 60 | 27 | 14 | 0.005 | 28.6% | 65.9% | - | eQTL公司 | 1 | 53.7% | 56.3% |
2010012O05瑞克
| 6 | 17 | 41 | 16 | 0.010 | 26.1% | 71.9% | - | eQTL公司 | 0 | 56.7% | 57.6% |
17兰特
| 10 | 24 | 39 | 17 | 0.013 | 29.4% | 69.6% | - | eQTL | 0 | 54.5% | 55.1% |
Pdcl公司
| 5 | 13 | 61 | 23 | 0.018 | 27.8% | 72.6% | - | eQTL公司 | 0 | 56.8% | 58.9% |
Blcap公司
| 6 | 13 | 15 | 2 | 0.025 | 31.6% | 88.2% | - | 知识产权 | 1 | 25.2% | 73.7% |
在26个候选基因中,共有17个基因通过Sanger测序和Pyrosequencing的组合被证实印迹。其中14个是已知的印迹基因。纳特(聚乙二醇5),发票5f_v2,Rasgrf1型,Zrsr1公司(U2af1-rs1型),Snarpn公司和蛇形花纹已知基因在小鼠新生脑中以父系特有的表达方式印记(; 支持的参考S1)[21]–[25]Illumina序列数据以及Sanger测序和Pyrosequencing都证实了这一点(图S1.2–S1.5).神经元抑制素(纳特),小鼠第2染色体上的一个基因,已知印在小鼠新生脑中[21]。在我们的数据中,纳特显示100%的父系单等位基因表达q个-零值(). Illumina读数覆盖了该基因最后外显子内的四个SNP。在3057个观察到的父系等位基因携带读取中,所有这些基因都显示100%的父系表达()Sanger测序证实了这一结果()并通过焦深测序().
已知印迹基因的验证纳特(也称为Peg5型).(A) Perlegen SNP NES08901860、NES0890 1861、NES08 901863和NES08 90 1864的等位基因计数。蓝色条(从左到右)分别表示PWD x AKR和AKR x PWD F1中父系等位基因的Illumina读数(母系基因型列在第一位)。红色条表示母体等位基因Illumina读取计数。(B) Perlegen SNP NES08901861的Sanger测序验证。我们在NES08901861之前发现了一个相邻的SNP位置。目标序列为GCCCT(AC/GA)ATCT。(C) ,Perlegen SNP NES08901861的焦深测序验证。目标序列为GCCCT(AC/GA)ATCT。
7个已知印迹基因在新生儿脑中的印迹状态,包括父系表达的第13页,高级证书和那不勒斯(;图S1.6-S1.8)[26],[27]母性表达Gtl2公司(梅格3),影响,第19页和Cdkn1c公司(第57页知识产权2) (;图S1.9–S1.11)[28]–[31]我们的数据支持它们在P2新生儿大脑中的印记().Gtl2公司(也称为梅格3)是小鼠12号染色体上的一个非编码RNA基因,据报道它印在小鼠胎盘上[28].虽然Gtl2型已在大脑中确定[32],[33]未检测新生儿脑内的印迹状态。Solexa数据中没有包含Perlegen SNP,但从Solexa读数的集合中,发现了4个新的SNP,建议Gtl2公司文字记录({“类型”:“entrez-notide”,“属性”:{“文本”:“XR_035484”,“term_id”:“566560146”}}学而思_035484)仅由母体等位基因表达(). 这已通过焦深测序得到证实(). 的另一个拼接变体Gtl2公司NM_144513,在我们对新印迹基因的定制安捷伦微阵列调查中被鉴定为印迹基因(A.Clark未发表的数据),PWD x AKR杂交的探针强度差异为1847倍,互惠杂交的探针密度差异为793倍。NM_144513中的Perlegen SNP(NES17649478),但不是{“type”:“entrez核苷酸”,“attrs”:{“text”:“XR_035484”,“term_id”:“566560146”}学而思_035484通过焦深测序进行验证(). 分析明确表明,这两种剪接变体都有印记。仔细检查就地单亲双相畸形小鼠的胎脑图像与我们的研究结果一致,表明只有母亲的表达[34].
识别出已知和新的印记基因
我们还通过Illumina短读测序发现了三个新的印记基因,并通过Sanger和Pyrosequencing进行了验证。据Choi等人。[22],Inpp5f公司是已知印记基因的剪接变体发票5f_v2共有4个外显子和部分最后外显子。序列数据中涵盖了七个SNPInpp5f公司,其中2个由共享发票5f_v2。由于所有七个SNP都显示出显著的父亲过度表达,我们得出结论:Inpp5f公司也印在P2新生儿大脑中(图S1.2). 从形式上讲,也有可能Inpp5f公司和发票5f_v2共用同一个3′端。之前曾报道过基因区域附近的两个CpG岛[22]CpG1没有甲基化,CpG2是DMR(差异甲基化区域),只有父系等位基因被甲基化。之前报道的两个非印迹基因,1810044A24Rik公司
[35]和Blcap公司
[36]在我们的序列数据中发现主要是母体表达的新印记基因(q个-值0.0011和0.025),并通过Pyrosequencing验证,它们显示80%来自母体等位基因。的压印状态1810044A24Rik公司在C57BL/6和C3H/HeJ的相互杂交中也通过高温测序进行了验证(图S1.12、S1.13). 的压印状态Blcap公司由于缺乏外显子SNP,C57BL/6和C3H/HeJ中未得到验证。两个已知的印迹基因,第13页和纳特,位于1810044A24Rik公司和Blcap公司分别为。CpG岛第13页只在母体等位基因处甲基化[26]在纳特之前已确定[26],[37],所以这三个新的印记基因都在基因区域附近或内部有DMR(表S1.19). 9个基因仅在汇集所有SNP后才达到边际显著性,但没有显示具有显著偏斜频率的单一SNP。在所有9例中,焦平测序明确证明它们没有被压印().
本研究中已知印迹基因的覆盖率
在小鼠已知的98个印迹基因中,45个在AKR和PWD菌株之间同时具有RefSeq ID和SNP。在45个已知的带有SNP的印迹基因中,有33个包含在我们的短读序列数据中。由于在小鼠新生脑中检测不到表达,其余12个基因未被筛选出的含有SNP的高质量读码覆盖(表S1.6). 33个覆盖的已知印迹基因中有14个是显著的(). 在非重要的母体表达的印记基因中,Ppp1r9a、Asb4,计算器和Ube3a公司已被报告为脑内印记[38]–[41]它们都有一个略微重要的P(P)-值。Ube3a公司印迹通过焦平测序进行了验证。含有高质量SNP的读取计数过低的基因,例如格纳斯,加特姆,Tnfrsf23型,锌1,数字频道,那不勒斯,Osbpl5公司,Grb10级和Slc22a2系列印记状态仍不确定,但数据与强印记不一致(表S1.6). 所有已知的母体表达基因都有足够深度的序列读取,其等位基因偏向模式与其已知的印记状态一致。Gtl2公司,第19页,Cdkn1c公司和命令1在Solexa数据中具有重要意义,并且它们被证实在新生儿大脑中有印记。第1页第9页具有显著的标称值P(P)-值,但经多次测试校正后不显著。然而,Solexa计数与优先母体表达一致(表S1.7).Asb4类,计算器,Ube3a公司具有边际显著性P(P)-由于数据中包含少量含SNP的读操作,这表明它们可能会在新生儿大脑中留下印记。我们证实了Ube3a公司通过焦深测序方法在新生儿大脑中留下印记第页1和第页2比率0.392和0.755。数据中包含的其他基因,Gatm、Tnfrsf23、Zim1、Dcn、Nap1l4、Osbpl5、,和Slc22a2系列不显著,这与已知的印记在胎盘而不是新生儿脑中的事实一致(表S1.7).格纳斯,一个已知的印记基因存在于脑垂体中,但不存在于小鼠的整个大脑中[42]–[45],在Solexa数据中没有统计显著性。然而,焦深测序验证显示,0.459/0.562的比率为第页1/第页2这表明从母亲遗传来的等位基因表达略高。Grb10级印在胎盘和大脑中[46]–[48]但在第页1和第页2在Solexa数据中,尽管有足够的表达水平来提供足够的能力测试。随后的焦深测序证实了P2新生儿脑中的非印迹状态(表S1.7). 事实上,组10在小鼠大脑中印有父系表达,但在其他组织中只显示母系表达[48]。有可能组10在大脑的其他阶段(例如胎儿大脑)被印记,但在小鼠的P2大脑中没有印记,或者印记状态可能因菌株而异,AKR x PWD F1无法印记组10。对于在我们的数据中没有统计显著性的父亲表达的已知印记基因,马格尔2和桩3与100%父系表达一致。Rtl1号机组和应对策略2如序列计数数据所示,可能是母体表达,但读取次数太少,无法达到统计显著性。While期间应对策略2是母性表达的,并且Rtl1号机组由父系遗传的等位基因表达,包含microRNA的反义转录物由母系等位基因表示[49].免疫球蛋白2和Slc38a4系列与非印迹一致,与人类和小鼠的表达模式一致[50]–[53],免疫球蛋白2经Pyrosequencing证实在大脑中有双向表达(表S1.7).
紧密相连的印记基因对
在迄今为止发现的10对已知印记基因中[1],8对相互印记(母体表达为有义转录物,父体表达为反义转录物或反之亦然)[41],[49],[54]–[66](表S1.8). 其余两个只显示父亲的表情[51],[67],[68]。这些印记案例都是在使用不同鼠种的不同样品中发现并分别验证的(表S1.8). 在我们的Illumina序列数据中,三个相互表达的紧密相连的反义(或义)对被充分覆盖以进行统计分析(表S1.9). 其中四个是已知的印记基因(第13页,纳特,Zrsr1公司,命令1)和两个(1810044A24Rik公司,Blcap公司)是我们证实的新型印记基因之一。第13页,纳特和Zrsr1公司位于1810044A24Rik公司,Blcap公司和Commd(命令)分别为。有趣的是,在这三对中,Peg13-1810044A24Rik,Nnat-Blcap公司和Zrsr1-命令1,第一个基因是父亲表达的印记基因,100%单等位基因表达,而第二个基因是母亲表达的部分印记基因(). 这种模式与父亲表达的义转录物的单等位基因表达可能会减少反义转录物父亲拷贝的相对表达的可能性一致,从而导致主要由母亲表达。我们的假设是,父亲表达的印记基因驱动着母亲基因的明显印记,可能是通过转录干扰。虽然文献中已经注意到这种相互印记[24],[69],[70]这是第一项全基因组研究,确定了小鼠新生脑中多个量化良好的病例。
Illumina序列数据涵盖的敏感-反义基因对。三个基因对的基因结构显示嵌套结构。蓝色阴影表示父系等位基因,粉红色阴影表示母系等位蛋白。虚线框表示没有表达式。箭头代表转录的方向。每个基因的两个父母外显子的高度之和与表达水平成比例,表达水平由完美匹配的Illumina读数的总计数进行量化。同一基因中父系和母系等位基因外显子的相对高度代表两个亲本等位基因的相对表达水平。外显子下的短垂直线指示SNP位置,并标记母体和父体等位基因的两个反向杂交的总数。
成绩单范围内的印记状态模式
为了研究我们研究涵盖的所有转录物的印记状态模式,我们绘制了5076个独特的Entrez基因,在小鼠基因组的两个双向杂交中计数为四个或更多(;图S1.14). 我们将印迹状态定义为两个互惠杂交中AKR百分比之间的差异,即第页1-第页2(表S1.4). 大多数基因的值为第页1-第页2接近零,表明没有明显的印记。已知印迹簇中的正反义对和印迹基因在全基因组图中清晰显示(图S1.14). 共有1606个非显著基因,在两个互惠杂交中的总计数均为25或更多,形成了一个良好的组织特异性非印迹数据集,用于计算预测和进化分析(表S1.10).
印迹状态的染色体扫描。(A) 2号染色体的印记状态。(B) 7号染色体的印记状态。每个图都包含独特的Entrez基因,在两个互惠杂交中,包含SNP的Illumina读数不少于4。每根杆的高度是两个倒十字(p1-p2)中AKR百分比的差值,代表压印的强度。颜色代表印记的方向,蓝色代表父亲的表情,红色代表母亲的表情。颜色的强度表示重要性,灰色表示不重要(q个-值≥0.10),浅蓝色和粉红色表示轻微显著(0.05≤q个-值<0.10),深蓝色和红色表示显著(q个-值<0.05)。如果出现以下情况,则显示基因名称|第页1-第页2| ≥0.3.
印迹基因的父脑和母体胎盘偏倚
当比较序列读取数据中父系和母系表达的印记基因时,我们发现父系表达过多(11个父系和6个母系),其中大多数(11个中的9个)表现出强烈的单等位基因表达(90%–100%)。三个母体表达的基因仅部分印在大脑中,母体等位基因的表达量为70%-80%(). 总的来说,有一种偏向于父亲在大脑中表达的印记基因,而在胎盘中报告的29个印记基因中,只有8个是父亲表达的(表S1.11).
讨论
通过直接计数SNP,以准确比率量化等位基因特异性表达
基因组印记并不总是100%来自父系或母系等位基因的“全部或全部”效应。相反,印记的程度是从单亲完全表达到双亲等位基因同等表达的连续统一体。微阵列杂交可以识别单亲表达,但不能给出两个亲本等位基因的可靠比率,因为没有好的方法来量化完美探针和错配探针之间的亲和力差异。直接对cDNA进行Sanger测序的方法不是定量的,并且会遗漏母体与父体表达之间存在定量差异的病例。为了解决这些问题,我们采用Illumina/Selexa测序方法对小鼠F1代新生脑互惠基因的整个转录本进行了测序,并通过计算转录本中SNP位置的等位基因特异序列读取数,获得了两个亲本等位基因的相对表达率。该方法通过独立的方法(焦磷酸测序和桑格测序)得到了很好的验证。我们展示了许多新生儿大脑基因印迹状态的发现,包括在任何组织中未知的基因。只要对等位基因特异性差异表达感兴趣,就会广泛使用通过短阅读转录组测序对等位蛋白特异性表达进行评分,包括量化顺式-作用调节性SNP效应[71].
组织和发育阶段特异性基因组印迹详尽剖析的途径
由于这些基因的发现是以一种病态的方式进行的,因此在人类和小鼠中发现印记基因的情况仍然是零星的。不同的研究使用了不同的小鼠菌株,测试了不同组织和发育时间点的印记状态,迄今为止发表的研究中没有一项采用真正的转录宽屏幕进行印记。我们的研究显示了一种以高度一致的方式定量评估每个组织的整个转录组印迹状态的方法。短读测序方法的一致性具有明显的优势,为建立小鼠和人类所有转录基因的印记状态目录铺平了道路。
嵌套和紧密连锁基因的印记
我们的短阅读转录组测序方法确定了三对紧密相连且相互印记的基因,其中父亲表达的基因显示100%的单等位基因表达,而母亲表达的基因仅部分印记在新生儿大脑中。这些数据与父亲表达的基因被强烈印记的情况一致,并且由于其印记,存在转录干扰,导致从相反链转录的基因(或嵌套在第一个转录物中的基因)表达较弱。这会给人留下一种母性表达较弱的印记。部分印迹基因对母体表达的偏见,强印迹基因的父系表达,以及对链转录物的明显转录干扰都有待进一步分析,以了解调节其印迹的机制及其功能和进化意义。
基因组中有多少印记基因?
据估计,哺乳动物基因组中约有1%的基因被印记。然而,这一估计范围很广,大约有100个基因[2]到600个基因[3],到2000多个基因[72]这种差异是由于对印迹状态的组织特异性的忽视以及无法对非印迹基因进行推断。使用我们的方法,通过计算与两个亲本等位基因相对应的读数,我们可以确定一个基因没有印记的统计置信度,以及识别那些只有部分印记的基因。这使我们能够确定统计置信度,即印记基因列表在新生儿大脑中接近穷尽。除了我们在新生儿大脑中发现的三个新的印记基因外,我们还证实了7个已知印记基因的印记状态,我们还发现了7个已知印记在其他组织中的额外基因在新生儿大脑中的新印记状态。我们覆盖了5000多个转录本,没有发现新的印迹簇,只发现了少量新的印记基因。总的来说,数据表明,印在新生儿大脑中的基因列表已接近完整,剩下的唯一被发现的基因要么表达水平很低,要么显示出一种小的亲缘偏见,要么只印在大脑的一小部分。
材料和方法
小鼠应变
从Jackson实验室购买了四种小鼠菌株(C57BL/6、C3H/HeJ、AKR/J、PWD/PhJ)(网址:www.jax.org). 我们进行了两对小鼠互惠杂交(C57BL/6 x C3H/HeJ,C3H/HeJ x C57BL/6,AKR/J x PWD/PhJ,PWD/PhJ x AKR/J)。使用Qiagen RNeasy Lipid Tissue Mini Kit从P2 F1小鼠全脑提取总RNA样本。RNA浓度和A260纳米/安培280使用NanoDrop ND-1000分光光度计检查nm比值。使用安捷伦2100生物分析仪检查RNA完整性。所有样本的RIN(RNA完整性数)均为10。
所有涉及小鼠的程序均已获得康奈尔大学动物护理和使用委员会的批准(方案编号2002-0075,自2006年1月27日起批准三年)。康奈尔大学获得AAALAC认证。
转录组的Illumina测序
华盛顿大学基因组中心对PWD和AKR小鼠的每只倒数F1进行了一次Illumina基因组分析仪运行。cDNA是使用改进的SMART技术(ClonTech)合成的。为了提高序列覆盖率,我们使用了大小选择程序,删除了长度小于1.3 kb的cDNA。在Illumina Genome Analyzer上运行一次Illumiana Genome分析仪,每次运行一个倒数F1样品。
-简介
使用修改的SMART协议将小鼠总RNA转换为第一链cDNA。然后PCR扩增第一链cDNA,并在6%聚乙二醇(PEG)/0.55M氯化钠(NaCl)中进行大小分级,以富集cDNA≤1250bp。然后使用以下方法从cDNA中删除SMART适配器嗯使用11%PEG/0.5M NaCl将I和适配器从反应中移除。然后将纯化的cDNA群体进行片段化,并用作标准Illumina片段库的源。
-修改后的SMART
根据Clontech SMART协议(E.Mardis,个人通信)的修改版本,使用约1µg总RNA和SuperScript II(Invitrogen),从小鼠总RNA中生成第一链cDNA。
-循环优化PCR和生产PCR
将修改后的SMART cDNA用作PCR反应的模板,以确定反应不再呈指数增长的周期数。循环优化反应使用1µl第一链cDNA反应。在16至24个周期之间的2个周期时间点去除等分试样。然后在275 v的闪蒸凝胶(Lonza)上运行5 min,通过观察确定最佳循环数。
生产PCR由8个组成与循环优化反应相同的100µl反应组成,但每个反应使用2µl第一链cDNA,并使用经验确定的最佳循环数扩增所有8个反应。根据制造商的方案,用两个Qiaquick柱(Qiagen)纯化和浓缩PCR产物,并用每个柱30µl缓冲液EB(Qiangen)洗脱。
-粒度分级
为了分离≤1250 bp的cDNA,将生产PCR反应中扩增的cDNA重新悬浮在6%PEG-8000、0.55 M NaCl和羧酸盐顺磁性珠的300µl反应中。将混合物剧烈涡旋并在室温下孵育10分钟。将反应置于磁粉收集器(MPC,Invitrogen)上2分钟,将含有≤1250 bp分数的上清液转移到干净的管中。根据制造商的方案,在Qiaquick柱上纯化该cDNA片段,并在50µl缓冲液EB中洗脱。
-适配器去除和cDNA纯化
cDNA合成过程中添加的5′和3′适配器包含夫人在含有1×NEB缓冲液4(20 mM三醋酸、50 mM醋酸钾、10 mM醋酸镁、1 mM二硫苏糖醇、pH 7.9@25°C)、10µg 10mg/ml BSA、64µM S-腺苷蛋氨酸(新英格兰生物实验室)和12个单位的100µl反应中通过消化去除的I识别序列夫人I(新英格兰生物实验室)在37°C下保持30分钟。根据制造商的方案,用1个Qiaquick柱纯化并浓缩消化后的cDNA,并用30µl缓冲液EB洗脱。
第二轮PEG/NaCl分馏进一步去除了夫人1消化。这里,通过Qiaquick柱纯化的cDNA在11%PEG-8000、0.5M NaCl和羧酸盐顺磁性珠的300µl反应中重新悬浮。将混合物剧烈旋涡并在室温下培养10分钟。将反应物置于MPC上2分钟,然后丢弃上清液。用70%乙醇将顺磁性珠子洗涤两次并风干。将含有顺磁性磁珠的管从MPC中取出,并将磁珠重新悬浮在50µl缓冲液EB中,并剧烈旋转。将反应物置于MPC上2分钟,将上清液转移到干净的试管中。该片段含有大于150 bp的cDNA,不含5′和3′适配器。
-雾化/Covaris剪切和Illumina/Selexa文库准备
样品B17(PWD/PhJ x AKR/J):cDNA通过雾化剪切(在50 PSI下2分钟),剪切后的DNA根据制造商的方案用单个Qiaquick柱纯化/浓缩。样品B21(AKR/J x PWD/PhJ):cDNA用Covaris S2系统在75%甘油中剪切,程序如下:4个处理10个周期,每个处理60秒;占空比=20%;强度=10;1000次循环/脉冲。通过乙醇沉淀纯化/浓缩cDNA。
然后根据制造商的协议制备剪切cDNA用于Illumina测序。在适配器结扎和琼脂糖凝胶分离后,从150-200 bp大小的选择部分制备文库。使用单端读取方案对文库进行测序,每次在Illumina基因组分析仪上收集32bp的数据。通过Illumina仪器软件进行数据分析和基础调用。
相对亲本表达的估计
为了确定小鼠RefSeq数据库中SNP的位置,我们使用了Perlegen小鼠SNP数据库中的SNP基因型和信息(http://mouse.perlegen.com). Perlegen Sciences和NIEHS对包括PWD和AKR在内的15个基因组覆盖率为70%的小鼠菌株中的800万个SNP进行了基因分型。SNP密度约为3个SNP/kb,数据库中涵盖了大多数基因区域。审查和验证的小鼠RefSeq序列的基因组坐标(从NM和NR开始,参见http://www.ncbi.nlm.nih.gov/RefSeq/key.html#状态)从UCSC基因组浏览器下载(网址:www.genome.ucsc.edu2007年7月组装)。根据RefSeq基因坐标筛选RefSeq序列中的SNP位置。为了校正RefSeq基因序列比对中的缺口,我们还使用SNP位置上游和下游20 bp进行了文本匹配。18797个RefSeq序列中共发现206589个Perlegen SNP(表S1.14和S1.15),平均SNP密度为11个SNP/RefSeq序列(图S1.15). 根据Illumina序列读取,调用了Perlegen SNP数据库中缺失数据的4127个SNP。所有高质量Perlegen单核苷酸多态性的基因型(q个-Illumina读数中包含的得分≥10,替代等位基因的错配≤4,参考等位基因错配≤3,匹配长度≥28)在两个倒数F1中进行汇总。207407个Perlegen RefSeq SNP中有175687个(84.71%)未涵盖或未提供信息(两个方向的SNP计数均小于1个)。在31720个Illumina覆盖的Perlegen单核苷酸多态性中,有25289个(83.21%)通过Illuminia reads得到确认,4127个(13.58%)Perlgen单克隆多态性在AKR和PWD菌株中缺失数据(N),根据Illumiana序列信息被调用(图S1.19). 新称的SNPs被纳入数据分析。从结果来看,Illumina短阅读序列识别的SNP的基因型与Perlegen SNP一致,表明我们的Illumiana基因组分析仪运行的序列质量较高。只有161个不一致的SNP,其中大多数是互补等位基因,可能来自RefSeq基因的反义转录。
RefSeq转录物的表达水平通过Illumina序列数据中完全匹配的读取次数进行量化。15491个RefSeq基因被两个互易杂交中的每一个至少一个完美匹配所覆盖(图S1.20).
为了进行质量控制并过滤出真正的含SNP的读数,考虑了几个标准。根据Illumina序列SNP与Perlegen SNP信息的一致性,将Illuminia序列SNP(Illumiana读数中存在的Perlegen-SNP)分为六类(表S1.16). 1-5类是一致的SNP。类别1包括AKR和PWD菌株之间多态的SNP。这些是我们想在研究中用来量化父母相对表达的SNP。2类SNP也一致,但AKR和PWD菌株之间的SNP没有多态性。类3-5是在Perlegen数据库中缺少数据(N)的SNP。其余的Illumina SNP被归为0类,即不一致的SNP。大多数Illumina SNP的质量分数都在20分或以上(图S1.16). 错配数量的分布表明,模式1类SNP与完全匹配的参考和替代等位基因一致,这是任何其他SNP类中都没有的属性(图S1.17). 因此,在以下分析中使用了1类SNP。关于包含SNP的读取的匹配长度,80%以上的读取具有完整长度匹配(32 bp),并且大多数读取的匹配长为25或更大。blastn算法是一种局部对齐算法,因此,如果在读取的第一个或最后两个bp中存在SNP,则对齐将被截断,尽管它仍被视为全长匹配(图S1.18). 在总结每个RefSeq基因的最终SNP计数之前,使用了两组筛选标准(表S1.2). 过滤器1和过滤器2都是保守的,过滤后的读数都与Entrez基因数据库唯一匹配(由于选择性剪接,可能是多个RefSeq)。由于没有车道效应,两个互惠杂交中的AKR和PWD计数由RefSeq基因和SNP汇总。326个1类SNP在Illumina序列数据中没有多态性,因为小鼠基因组中含有SNP的序列重复匹配,所以我们不知道含有这些SNP的转录物来自哪里。这些SNP不包括在最终分析中(表S1.17).
检测基因组印迹和统计分析
我们有两个倒数F1的过滤AKR和PWD等位基因计数。我们定义第页1作为PWD x AKR杂交中AKR等位基因比例第页2AKR x PWD杂交中的AKR等位基因比例(表S1.4). 如果一个基因在两个亲本等位基因中的表达相同,第页1和第页2约为0.5。如果基因是来自AKR衍生的等位基因的具有较高表达的表达QTL(eQTL),第页1大约等于第页2以及两者第页1和第页2将大于0.5。父亲表达的印记基因将具有以下模式第页1>0.5和第页2<0.5,而母体表达的印记基因将具有以下模式第页1<0.5和第页2>0.5 (表S1.5). 反向杂交的优点是我们可以区分eQTL和真正的基因组印迹。
需要进行正式的统计测试来测试其重要性。我们没有使用费希尔精确测试,因为这是一种保守的测试,会导致大量功率损失,尤其是当总计数很小时[73]相反,我们使用现代统计方法,即两个独立二项式的Storer-Kim方法来测试两个二项式参数之间是否存在显著差异,第页1和第页2
[18]. TheP(P)-使用Wilcox代码计算值[19]在R中(版本2.60,网址:www.r-project.org). 的95%置信区间第页1和第页2也通过Wilson方法获得[74](R,binom包)。错误发现率(q个-值)由R中的qvalue包计算[20].
Sanger和Pyrosequencing验证
我们使用Pyrosequencing Assay Design Software Version 1.0.6(Biotage AB)为候选印迹基因设计了Pyrose测序PCR和测序引物。为了确保引物中没有SNP,在设计引物时,对Perlegen数据库中的SNP位置进行标记并排除。使用TaqGold酶(Applied Biosystems)进行热测序的PCR扩增,进行45个循环的三步PCR(95°C,45 s,46–58°C,30 s,72°C,10–20 s),然后最后延长10分钟。PCR产物(80–300 bp)通过外显核酸酶I和虾碱性磷酸酶纯化,并使用原始Pyro PCR引物在ABI 3730xl DNA分析仪(Applied Biosystems)上使用BigDye Terminator v3.1进行双向测序。序列色谱图采用CodonCode Aligner 2.0.4版(CodonCodeCorporation DNA测序软件)进行分析。用生物素标记的正向(或反向)引物在相同条件下扩增用于焦磷酸测序的PCR产物。使用Pyro Gold试剂(Biotage,AB)在PSQ™96 MA Pyrosequencer(BiotageAB)上进行Pyrose测序。两个亲本等位基因的相对水平通过PSQ™96 MA Pyrossequencer软件(版本2.02 RC 5.8,Biotage,AB)使用等位基因量化方法进行量化。