摘要
选择性剪接广泛存在于真核生物基因组中,极大地增加了转录组的多样性。许多替代亚型在发育过程中具有功能性作用,并受到精确的时间调控。为了便于在发育背景下研究选择性剪接,我们创建了后生动物发育选择性剪接数据库MeDAS。MeDAS是一种增值资源,它重新分析公开存档的RNA-seq文库,以提供有关选择性剪接事件的定量数据,因为它们在开发过程中会发生变化。它具有广泛的时间和分类范围,旨在帮助用户在整个开发过程中识别选择性剪接的趋势。为了创建MeDAS,我们重新分析了一组2232个Illumina polyA+RNA-seq文库,这些文库绘制了18个物种胚胎发育和出生后发育的详细时间进程,分类范围涵盖了从秀丽隐杆线虫对人类而言。MeDAS可在以下网站免费获得:https://das.chenlulab.com既可以作为原始数据表,也可以作为交互式浏览器,允许按物种、组织或基因组特征(基因、转录物或外显子ID和序列)进行搜索。结果将提供为查询特征确定的选择性剪接事件的详细信息,并可分别在基因、转录和外显子水平上显示为表达和包含水平的时间进程。
简介
选择性剪接是大多数真核生物基因组中普遍存在的一个过程,即从单个基因产生多种不同的功能转录物(1). 选择性剪接增加转录组多样性,是功能创新的重要机制(参见(2–4)供审查),这可能是生物复杂性随进化时间变化的基础(5,6),形态分化(7)和物种形成(8). 许多选择性剪接亚型具有限制转录谱,例如性别-(9–11),组织-(12,13)或单元格类型特定(14–16). 许多研究强调了选择性剪接在发育过程中的关键作用(见综述(17,18)). 因此,许多替代亚型也受到精确的时间调控(19)只有在特定的发育阶段才会发现这种情况(例如,在植入前胚胎中,阶段之间的划分是一个小时的问题(20)).
为了便于在发育背景下研究选择性剪接,我们提出了后生动物发育选择性剪接数据库MeDAS。MeDAS是一个附加值数据库,提供了不同发育阶段选择性剪接事件的定量数据。MeDAS是通过重新分析一组2232个Illumina polyA+RNA-seq文库构建的,这些文库绘制了18个物种胚胎发育和出生后发育的详细时间过程,这些物种的分类范围很广,涵盖了从秀丽隐杆线虫对人类而言。
有几个可供选择的剪接数据库,尽管这些数据库通常代表少数模式物种的深入功能特征,或者在范围上更加专业化,主要涉及特定剪接事件类型或组织。第一类数据库包括APPRIS(21)注释了脊椎动物、苍蝇和蠕虫以及VastDB的主要剪接亚型(22)它提供了跨多种细胞和组织类型的人类、小鼠和鸡基因的详细分析。更专业的数据库包括FasterDB(23,24),重点关注与癌细胞表型可塑性相关的剪接事件,以及HEXEvent(25)和ExonSkipDB(26)这两种基因都专门用于人类外显子跳跃事件,后者则进一步专门用于癌症组织。
MeDAS是围绕可选拼接的时间方面构建的,可在https://das.chenlulab.com具有允许按物种、组织和特征(基因、转录本或外显子ID和序列)进行搜索的界面。结果将提供在查询区域中识别的选择性剪接事件的详细信息,并可分别在基因、转录和外显子水平上显示为表达水平和包含水平的时间进程。
材料和方法
数据库创建和内容
MeDAS目前包含18个物种的选择性剪接事件数据,每个物种从9到24个不同的发育阶段取样(补充表S1). 对于每个物种、发育阶段和单个文库,MeDAS以外显子内含物估计值的形式,为每个多基因的每个内部外显子提供了选择性剪接事件的全基因组调查。为了使用户能够确定替代外显子使用与发育的显著差异性和时间趋势,MeDAS提供了每个外显子的拼接百分比(PSI)值的Spearman相关系数,这是对其内含水平的测量,以及每个组织发育阶段的时间等级顺序。我们还提供了PSI分布的Kruskal-Wallis统计数据,因为PSI分布在不同的发育阶段中不同,以及阶段特异性指数陶(Tau) (27). MeDAS的内容如表所示1,以带注释的示例条目的形式丹麦马克1a是一个外显子,它在时间上受到精确调控,并在功能上与神经突起生长有关(19).
表1。数据库条目的格式。MeDAS的内容是用一个经过充分研究的小鼠基因示例来说明的丹麦马克1a。所有MeDAS条目都有24列。选择外显子(或外显子部分)将向用户介绍“详细”子表,该表列出了每个发育阶段每个组织的PSI。在本表中,MeDAS“detail”表中的列以D为前缀
列编号。. | 列名称. | 例子. | 描述. |
---|
1 | 基因ID | ENSMUSG00000036940号 | 参考注释基因ID,通常为Ensembl。 |
2 | 基因符号 | 丹麦马克1a | HGNC基因符号,如果可用,否则为“NA”。 |
三 | Chr公司 | 4 | 参考基因组染色体名称。 |
4 | 基因启动 | 136550540 | 基因的第一个位置(基于1)。 |
5 | 基因末端 | 136602723 | 基因的最后位置(基于1)。 |
6 | 搁浅 | - | 给定为+或− |
7 | 生物型 | 蛋白质编码 | 基因生物型。 |
8 | ExPartName(外部部件名称) | ENSMUSG00000036940:017 | 外显子部分的名称。采用“gene_id:rank”格式,其中“rank”是该外显子部分根据其起始坐标在基因中出现的顺序外显子部分是外显子区域的子集,根据它们在亚型之间的重叠来定义,并充当PSI计算的计数箱(见图1). |
9 | ExPartStart公司 | 136563438 | 外显子部分的第一个位置(基于1)。 |
10 | ExPartEnd公司 | 136563449 | 外显子部分的最后位置(基于1)。 |
11 | ExPartLen公司 | 12 | 外显子部分的长度,以核苷酸表示。 |
12 | A等级 | 交替拼接 | 根据所有样本的数据,对该外显子部分选择性剪接的程度进行分类描述。取四个值之一:“未表达”(无可用PSI数据)、“低内含物”(PSI<5)、“交替拼接”(5≤PSI≤95)或“构成”(PSI>95)。 |
13 | AS类型 | 东南方 | 每个拼接事件的SUPPA2分类。可以是外显子跳跃(ES)、内含子保留(RI)、备选5'剪接位点(A5)、可选3'剪接部位(A3)、互斥外显子(MX)、备选第一外显子和备选最后外显子中的一个或多个。 |
14 | 匹配ExID | ENSMUSE00001017339号 | 参考注释外显子ID,仅当参考注释中的外显子与该外显子部分的坐标完全匹配时给出,否则为“NA”。要将MeDAS限制为仅限于离散外显子,请过滤此列以删除所有“NA”条目。如果这样做,每个“外显子部分”将是一个特定的外显子。 |
15 | 由ExID覆盖 | ENSMUSE00001017339号 | 坐标包含该外显子部分的所有参考注释外显子ID。 |
16 | 由Tx覆盖 | ENSMUST00000170979号 | 坐标涵盖该外显子部分的所有参考注释转录本ID。 |
17 | 物种 | MusMus公司 | 二项式物种名称,用三个字母缩写报告。 |
18 | 组织 | 前脑 | 采样的细胞或组织,如果不是特异性的,可以报告为“整个生物体”。 |
19 | PctZeroCov公司 | 0.00% | 该外显子部分覆盖范围为0的该组织所有发育阶段的样本百分比,即无包含和无排除读数。 |
20 | 矛兵.cor | 0.8105 | 该外显子部分的PSI值集与该组织发育阶段的等级顺序的相关性。报告为枪兵ρ并对其进行解释,以确定样本时间范围内外显子(替代)使用的趋势。仅当PctZeroCov≤30时计算。 |
21 | 矛兵。第页 | 6.50E−14 | P(P)-上述相关性的值。重要P(P)-数值表明该外显子可能在该组织的整个发育过程中受到不同的调控。 |
22 | 千瓦时 | 1.49E−06 | P(P)-Kruskal-Wallis(连续)PSI值测试的值,因为它们在(分类)发育阶段不同。如果剪接事件与发育相关,则其PSI可能会在一个或多个阶段之间发生变化,尽管我们事先没有预期哪个阶段或哪个方向的PSI会不同。Kruskal−Wallis检验了PSI估计值来自相同连续分布的零度。对该空区的拒绝表明该外显子可能在发育过程中的某个时间点发生差异拼接。仅当PctZeroCov≤30时计算。 |
23 | KW.padj公司 | 3.06E-04号机组 | 已调整P(P)-上述KW测试的值(Benjamini&Hochberg)。 |
24 | 陶(Tau) | 0.50 | 平均PSI的阶段特异性指数,因为它随该物种所有组织的发育过程而变化。在0(普遍表达,即在每个发育阶段)和1(特定阶段)之间绑定。以亚奈计算,等。(2005). |
D: 1个 | 阶段 | P 3天 | 发展阶段,简要总结。 |
D: 2个 | 样本总数 | 4 | 该物种、组织和阶段可用的样本数量(RNA-seq库)。 |
D: 3个 | 包含读数最小值 | 44 | 该组织和阶段的所有样本的最小包含读数,即那些与该外显子部分重叠并支持其包含在转录本中的样本。 |
D: 4个 | 包含读数平均值 | 85.75 | 该组织和阶段的所有样本的平均内含物读数。 |
D: 5个 | 包含最大读数 | 127 | 此组织和阶段的所有样本中的最大内含物读数。 |
D: 6个 | 包括读数SD | 36.62 | 内含物读数的标准偏差。 |
D: 7个 | 排除读数最小值 | 18 | 该组织和阶段的所有样本中的最小排除读数,即那些来源于分裂比对,因此来源于不包含该外显子部分的转录本的样本。 |
D: 8个 | 排除读数平均值 | 25 | 此组织和阶段的所有样本的平均排除读数。 |
D: 9个 | 排除最大读数 | 35 | 此组织和阶段的所有样本的最大排除读取数。 |
D: 10个 | 排除读数SD | 7.44 | 排除读取数的标准偏差。 |
D: 11个 | PSI最小值 | 68.48 | 该外显子部分的最小包含率,以该问题和阶段的所有样本中其剪接入的转录本百分比(PSI)报告。使用包含和排除读数的长度标准化计数进行计算,如Schafer中所述,等。(2015). |
D: 12个 | PSI平均值 | 74.3 | 该外显子部分在该组织和阶段的所有样本中的平均PSI。 |
D: 13个 | 最大磅/平方英寸 | 77.88 | 该外显子部分在该组织和阶段的所有样本中的最大PSI。 |
D: 14个 | PSIsd(磅/平方英寸) | 4.12 | 该组织和阶段所有样本的PSI标准偏差。 |
列编号。. | 列名称. | 例子. | 描述. |
---|
1 | 基因ID | ENSMUSG00000036940号 | 参考注释基因ID,通常为Ensembl。 |
2 | 基因符号 | 丹麦马克1a | HGNC基因符号,如果可用,否则为“NA”。 |
三 | Chr公司 | 4 | 参考基因组染色体名称。 |
4 | 基因启动 | 136550540 | 基因的第一个位置(基于1)。 |
5 | GeneEnd(发电机端) | 136602723 | 基因的最后位置(基于1)。 |
6 | 搁浅 | - | 以+或−形式给出 |
7 | 生物型 | 蛋白质编码 | 基因生物型。 |
8 | ExPartName(外部部件名称) | ENSMUSG00000036940:017 | 外显子部分的名称。采用“gene_id:rank”格式,其中“rank”是该外显子部分根据其起始坐标在基因中出现的顺序外显子部分是外显子区域的子集,根据它们在亚型之间的重叠来定义,并充当PSI计算的计数箱(见图1). |
9 | ExPartStart公司 | 136563438 | 外显子部分的第一个位置(基于1)。 |
10 | ExPartEnd公司 | 136563449 | 外显子部分的最后位置(基于1)。 |
11 | ExPartLen公司 | 12 | 外显子部分的长度,以核苷酸表示。 |
12 | ASlvl公司 | 交替拼接 | 根据所有样本的数据,对该外显子部分选择性剪接的程度进行分类描述。取四个值之一:“未表达”(没有可用的PSI数据)、“低夹杂物”(PSI<5)、“交替拼接”(5≤PSI≤95)或“组成”(PSI>95)。 |
13 | A类型 | 东南方 | 每个拼接事件的SUPPA2分类。可以是外显子跳跃(ES)、内含子保留(RI)、备选5'剪接位点(A5)、可选3'剪接部位(A3)、互斥外显子(MX)、备选第一外显子和备选最后外显子中的一个或多个。 |
14 | 匹配ExID | ENSMUSE00001017339号 | 参考注释外显子ID,仅当参考注释中的外显子与该外显子部分的坐标完全匹配时给出,否则为“NA”。要将MeDAS限制为仅限于离散外显子,请过滤此列以删除所有“NA”条目。如果这样做,每个“外显子部分”将是一个特定的外显子。 |
15 | 由ExID覆盖 | ENSMUSE00001017339号 | 坐标包含该外显子部分的所有参考注释外显子ID。 |
16 | 由Tx覆盖 | ENSMUST00000170979号 | 坐标涵盖该外显子部分的所有参考注释转录本ID。 |
17 | 物种 | 麝香 | 二项式物种名称,用三个字母缩写报告。 |
18 | 组织 | 前脑 | 取样的细胞或组织,如果不是特定的,可能被报告为“整个生物体”。 |
19 | PctZeroCov公司 | 0.00% | 该外显子部分覆盖范围为0的该组织所有发育阶段的样本百分比,即无包含和无排除读数。 |
20 | 斯皮尔曼公司 | 0.8105 | 该外显子部分的PSI值集与该组织发育阶段的等级顺序的相关性。报告为枪兵ρ并对其进行解释,以确定样本时间范围内外显子(替代)使用的趋势。仅当PctZeroCov≤30时计算。 |
21 | 矛兵。第页 | 6.50E−14 | P(P)-上述相关性的值。重要P(P)-数值表明该外显子可能在该组织的整个发育过程中受到不同的调控。 |
22 | 千瓦时 | 1.49E−06 | P(P)-(连续)PSI值的Kruskal-Wallis检验值,因为它们在(分类)发育阶段不同。如果剪接事件与发育相关,则其PSI可能会在一个或多个阶段之间发生变化,尽管我们事先没有预期哪个阶段或哪个方向的PSI会不同。Kruskal−Wallis检验了PSI估计值来自相同连续分布的零度。对该缺失的排斥表明,该外显子可能在发育过程中的某个时刻进行了差异剪接。仅当PctZeroCov≤30时计算。 |
23 | KW.padj公司 | 3.06E-04号机组 | 已调整P(P)-上述KW测试的值(Benjamini&Hochberg)。 |
24 | 陶(Tau) | 0.50 | 平均PSI的阶段特异性指数,因为它随该物种所有组织的发育过程而变化。在0(普遍表达,即在每个发育阶段)和1(特定阶段)之间绑定。以亚奈计算,等。(2005). |
D: 1个 | 阶段 | P 3天 | 发展阶段,简要总结。 |
D: 2个 | 总样本数 | 4 | 该物种、组织和阶段可用的样本数量(RNA-seq库)。 |
D: 3个 | 包含最小读数 | 44 | 该组织和阶段的所有样本的最小包含读数,即那些与该外显子部分重叠并支持其包含在转录本中的样本。 |
D: 4个 | 包含读取平均值 | 85.75 | 该组织和阶段的所有样本的平均内含物读数。 |
D: 5个 | 包含最大读数 | 127 | 此组织和阶段的所有样本中的最大内含物读数。 |
D: 6个 | 包括读数SD | 36.62 | 内含物读数的标准偏差。 |
D: 7个 | 排除读数最小值 | 18 | 该组织和阶段的所有样本中的最小排除读数,即那些来源于分裂比对,因此来源于不包含该外显子部分的转录本的样本。 |
D: 8个 | 排除读数平均值 | 25 | 该组织和阶段的所有样本的排除读数的平均数。 |
D: 9个 | 排除最大读数 | 35 | 该组织和阶段的所有样本的最大排除读数数。 |
D: 10个 | 排除读数SD | 7.44 | 排除读取数的标准偏差。 |
D: 11个 | PSI最小值 | 68.48 | 该外显子部分的最小包含率,以该问题和阶段的所有样本中其剪接入的转录本百分比(PSI)报告。使用包含和排除读数的长度标准化计数进行计算,如Schafer中所述,等。(2015). |
D: 12个 | PSI平均值 | 74.3 | 该外显子部分在该组织和阶段的所有样本中的平均PSI。 |
D: 13个 | PSI最大值 | 77.88 | 该外显子部分在该组织和阶段的所有样本中的最大PSI。 |
D: 14个 | PSIsd(磅/平方英寸) | 4.12 | 该组织和阶段所有样本的PSI标准偏差。 |
表1。数据库条目的格式。MeDAS的内容是用一个经过充分研究的小鼠基因示例来说明的丹麦马克1a。所有MeDAS条目都有24列。选择外显子(或外显子部分)将使用户参考“详细”子表,其中列出每个发育阶段每个组织的PSI。在本表中,MeDAS“detail”表中的列以D为前缀
列编号。. | 列名称. | 例子. | 描述. |
---|
1 | 基因ID | ENSMUSG00000036940号 | 参考注释基因ID,通常为Ensembl。 |
2 | 基因符号 | 丹麦马克1a | HGNC基因符号,如果可用,否则为“NA”。 |
三 | Chr公司 | 4 | 参考基因组染色体名称。 |
4 | 基因启动 | 136550540 | 基因的第一个位置(基于1)。 |
5 | GeneEnd(发电机端) | 136602723 | 基因的最后位置(基于1)。 |
6 | 搁浅 | - | 以+或−形式给出 |
7 | 生物型 | 蛋白质编码 | 基因生物型。 |
8 | ExPartName(外部部件名称) | ENSMUSG00000036940:017 | 外显子部分的名称。采用“gene_id:rank”格式,其中“rank”是该外显子部分根据其起始坐标在基因中出现的顺序外显子部分是外显子区域的子集,根据它们在亚型之间的重叠来定义,并充当PSI计算的计数箱(见图1). |
9 | ExPartStart公司 | 136563438 | 外显子部分的第一个位置(基于1)。 |
10 | ExPartEnd公司 | 136563449 | 外显子部分的最后位置(基于1)。 |
11 | ExPartLen公司 | 12 | 外显子部分的长度,以核苷酸表示。 |
12 | ASlvl公司 | 交替拼接 | 根据所有样本的数据,对该外显子部分选择性剪接的程度进行分类描述。取四个值之一:“未表达”(无可用PSI数据)、“低内含物”(PSI<5)、“交替拼接”(5≤PSI≤95)或“构成”(PSI>95)。 |
13 | A类型 | 东南方 | 每个拼接事件的SUPPA2分类。可以是外显子跳跃(ES)、内含子保留(RI)、备选5'剪接位点(A5)、可选3'剪接部位(A3)、互斥外显子(MX)、备选第一外显子和备选最后外显子中的一个或多个。 |
14 | 匹配ExID | ENSMUSE00001017339号 | 参考注释外显子ID,仅当参考注释中的外显子与该外显子部分的坐标完全匹配时给出,否则为“NA”。要将MeDAS限制为仅限于离散外显子,请过滤此列以删除所有“NA”条目。如果这样做,每个“外显子部分”将是一个特定的外显子。 |
15 | 由ExID覆盖 | ENSMUSE00001017339号 | 坐标包含该外显子部分的所有参考注释外显子ID。 |
16 | 由Tx覆盖 | ENSMUST00000170979号 | 坐标覆盖该外显子部分的所有参考注释转录物ID。 |
17 | 物种 | 麝香 | 二项式物种名称,用三个字母缩写报告。 |
18 | 组织 | 前脑 | 取样的细胞或组织,如果不是特定的,可能被报告为“整个生物体”。 |
19 | PctZeroCov公司 | 0.00% | 该外显子部分覆盖范围为0的该组织所有发育阶段的样本百分比,即无包含和无排除读数。 |
20 | 矛兵.cor | 0.8105 | 该外显子部分的PSI值集与该组织发育阶段的等级顺序的相关性。报告为枪兵ρ并对其进行解释,以确定样本时间范围内外显子(替代)使用的趋势。仅当PctZeroCov≤30时计算。 |
21 | 矛兵。第页 | 6.50E−14 | P(P)-上述相关性的值。重要P(P)-数值表明该外显子可能在该组织的整个发育过程中受到不同的调控。 |
22 | 千瓦时 | 1.49E−06 | P(P)-(连续)PSI值的Kruskal-Wallis检验值,因为它们在(分类)发育阶段不同。如果剪接事件与发育相关,则其PSI可能会在一个或多个阶段之间发生变化,尽管我们事先没有预期哪个阶段或哪个方向的PSI会不同。Kruskal−Wallis检验了PSI估计值来自相同连续分布的零度。对该空区的拒绝表明该外显子可能在发育过程中的某个时间点发生差异拼接。仅当PctZeroCov≤30时计算。 |
23 | KW.padj公司 | 3.06E-04号机组 | 已调整P(P)-上述KW测试的值(Benjamini&Hochberg)。 |
24 | 陶(Tau) | 0.50 | 平均PSI的阶段特异性指数,因为它随该物种所有组织的发育过程而变化。在0(普遍表达,即在每个发育阶段)和1(特定阶段)之间绑定。以亚奈计算,等。(2005). |
D: 1个 | 阶段 | P 3天 | 发展阶段,简要总结。 |
D: 2个 | 总样本数 | 4 | 该物种、组织和阶段可用的样本数量(RNA-seq库)。 |
D: 3个 | 包含最小读数 | 44 | 该组织和阶段的所有样本的最小包含读数,即那些与该外显子部分重叠并支持其包含在转录本中的样本。 |
D: 4个 | 包含读数平均值 | 85.75 | 该组织和阶段的所有样本的平均内含物读数。 |
D: 5个 | 包含最大读数 | 127 | 此组织和阶段的所有样本中的最大内含物读数。 |
D: 6个 | 包括读数SD | 36.62 | 内含物读数的标准偏差。 |
D: 7个 | 排除读数最小值 | 18 | 该组织和阶段的所有样本中的最小排除读数,即那些来源于分裂比对,因此来源于不包含该外显子部分的转录本的样本。 |
D: 8个 | 排除读数平均值 | 25 | 该组织和阶段的所有样本的排除读数的平均数。 |
D: 9个 | 排除最大读数 | 35 | 此组织和阶段的所有样本的最大排除读取数。 |
D: 10个 | 排除读数SD | 7.44 | 排除读取数的标准偏差。 |
D: 11个 | PSI最小值 | 68.48 | 该外显子部分的最小包含率,以该问题和阶段的所有样本中其剪接入的转录本百分比(PSI)报告。使用包含和排除读数的长度标准化计数进行计算,如Schafer中所述,等。(2015). |
D: 12个 | PSI平均值 | 74.3 | 该外显子部分在该组织和阶段的所有样本中的平均PSI。 |
D: 2013年 | PSI最大值 | 77.88 | 该外显子部分在该组织和阶段的所有样本中的最大PSI。 |
D: 14个 | PSIsd(磅/平方英寸) | 4.12 | 该组织和阶段所有样本的PSI标准偏差。 |
列编号。. | 列名称. | 例子. | 描述. |
---|
1 | 基因ID | ENSMUSG00000036940号 | 参考注释基因ID,通常为Ensembl。 |
2 | 基因符号 | 丹麦马克1a | HGNC基因符号,如果可用,否则为“NA”。 |
三 | Chr公司 | 4 | 参考基因组染色体名称。 |
4 | 基因启动 | 136550540 | 基因的第一个位置(基于1)。 |
5 | GeneEnd(发电机端) | 136602723 | 基因的最后位置(基于1)。 |
6 | 搁浅 | - | 以+或−形式给出 |
7 | 生物型 | 蛋白质编码 | 基因生物型。 |
8 | ExPartName(外部部件名称) | ENSMUSG00000036940:017 | 外显子部分的名称。采用“gene_id:rank”格式,其中“rank”是该外显子部分根据其起始坐标在基因中出现的顺序外显子部分是外显子区域的子集,根据它们在亚型之间的重叠来定义,并充当PSI计算的计数箱(见图1). |
9 | ExPartStart公司 | 136563438 | 外显子部分的第一个位置(基于1)。 |
10 | ExPartEnd公司 | 136563449 | 外显子部分的最后位置(基于1)。 |
11 | ExPartLen公司 | 12 | 外显子部分的长度,以核苷酸为单位。 |
12 | A等级 | 交替拼接 | 根据所有样本的数据,对该外显子部分选择性剪接的程度进行分类描述。取四个值之一:“未表达”(无可用PSI数据)、“低内含物”(PSI<5)、“交替拼接”(5≤PSI≤95)或“构成”(PSI>95)。 |
13 | A类型 | 东南方 | 每个拼接事件的SUPPA2分类。可以是外显子跳跃(ES)、内含子保留(RI)、备选5'剪接位点(A5)、可选3'剪接部位(A3)、互斥外显子(MX)、备选第一外显子和备选最后外显子中的一个或多个。 |
14 | 匹配ExID | ENSMUSE00001017339号 | 参考注释外显子ID,仅当参考注释中的外显子与该外显子部分的坐标完全匹配时给出,否则为“NA”。要将MeDAS限制为仅限于离散外显子,请过滤此列以删除所有“NA”条目。如果这样做,每个“外显子部分”将是一个特定的外显子。 |
15 | 由ExID覆盖 | ENSMUSE00001017339号 | 坐标包含该外显子部分的所有参考注释外显子ID。 |
16 | 由Tx覆盖 | ENSMUST00000170979号 | 坐标涵盖该外显子部分的所有参考注释转录本ID。 |
17 | 物种 | 麝香 | 二项式物种名称,用三个字母缩写报告。 |
18 | 组织 | 前脑 | 取样的细胞或组织,如果不是特定的,可能被报告为“整个生物体”。 |
19 | PctZeroCov公司 | 0.00% | 该外显子部分覆盖范围为0的该组织所有发育阶段的样本百分比,即无包含和无排除读数。 |
20 | 矛兵.cor | 0.8105 | 该外显子部分的PSI值集与该组织发育阶段的等级顺序的相关性。报告为枪兵ρ并对其进行解释,以确定样本时间范围内外显子(替代)使用的趋势。仅当PctZeroCov≤30时计算。 |
21 | 矛兵。第页 | 6.50E−14 | P(P)-上述相关性的值。重大P(P)-数值表明该外显子可能在该组织的整个发育过程中受到不同的调控。 |
22 | 千瓦时 | 1.49E−06 | P(P)-Kruskal-Wallis(连续)PSI值测试的值,因为它们在(分类)发育阶段不同。如果剪接事件与发育相关,则其PSI可能会在一个或多个阶段之间发生变化,尽管我们事先没有预期哪个阶段或哪个方向的PSI会不同。Kruskal−Wallis检验了PSI估计值来自相同连续分布的零度。对该空区的拒绝表明该外显子可能在发育过程中的某个时间点发生差异拼接。仅当PctZeroCov≤30时计算。 |
23 | KW.padj公司 | 3.06E-04号机组 | 已调整P(P)-上述KW测试的值(Benjamini&Hochberg)。 |
24 | 陶(Tau) | 0.50 | 平均PSI的阶段特异性指数,因为它随该物种所有组织的发育过程而变化。在0(普遍表达,即在每个发育阶段)和1(特定阶段)之间绑定。以亚奈计算,等。(2005). |
D: 1个 | 阶段 | P 3天 | 发展阶段,简要总结。 |
D: 2个 | 总样本数 | 4 | 该物种、组织和阶段可用的样本数量(RNA-seq库)。 |
D: 3个 | 包含最小读数 | 44 | 该组织和阶段的所有样本的最小包含读数,即那些与该外显子部分重叠并支持其包含在转录本中的样本。 |
D: 4个 | 包含读数平均值 | 85.75 | 该组织和阶段的所有样本的平均内含物读数。 |
D: 5个 | 包含最大读数 | 127 | 此组织和阶段的所有样本中的最大内含物读数。 |
D: 6个 | 包括读数SD | 36.62 | 内含物读数的标准偏差。 |
D: 7个 | 排除读数最小值 | 18 | 该组织和阶段的所有样本中的最小排除读数,即那些来源于分裂比对,因此来源于不包含该外显子部分的转录本的样本。 |
D: 8个 | 排除ReadsMean | 25 | 此组织和阶段的所有样本的平均排除读数。 |
D: 9个 | 排除最大读数 | 35 | 此组织和阶段的所有样本的最大排除读取数。 |
D: 10个 | 排除读数SD | 7.44 | 排除读取数的标准偏差。 |
D: 11个 | PSI最小值 | 68.48 | 该外显子部分的最小包含率,以该问题和阶段的所有样本中其剪接入的转录本百分比(PSI)报告。使用包含和排除读数的长度标准化计数进行计算,如Schafer中所述,等。(2015). |
D: 12个 | PSI平均值 | 74.3 | 该外显子部分在该组织和阶段的所有样本中的平均PSI。 |
D: 13个 | PSI最大值 | 77.88 | 该外显子部分在该组织和阶段的所有样本中的最大PSI。 |
D: 14个 | PSIsd(磅/平方英寸) | 4.12 | 该组织和阶段所有样本的PSI标准偏差。 |
通过分析一组2232个RNA-seq文库(详见补充表S2),全部来源于NCBI序列读取档案(28). 为了纳入MeDAS,我们要求所有文库都富含polyA+,以便分析完全剪接的成熟RNA,并使用Illumina平台以50 bp的最小读取长度进行测序(2126个文库,占总数的95%,以100或101 bp的平均读取长度进行了测序,2181个文库(占总数的97%)使用Illumina HiSeq 2000或HiSeq 2500进行测序)。我们还选择了与包含多个发育阶段的生物项目相关的物种(从鸡的9个到人类的24个)。具体来说,MeDAS包含来自八种脊索动物的全生物体RNA-seq库的数据:蜥蜴(29),肠蝉(30)两种文昌鱼(文昌鱼(30)和文昌鱼(31)),两种青蛙(非洲爪蟾(30)和热带爪蟾(30)),乌龟(30)和斑马鱼(30); 其中6个物种是由EXPANDE(基因表达谱AloNg发育和进化)联合会测序的(30). MeDAS还包含其他七种脊索动物(鸡、人、猕猴、小鼠、负鼠、大鼠和兔子)从器官发生到成年(如可能)发育阶段的七个主要器官(前脑、后脑、心脏、肝脏、肾脏、睾丸和卵巢)的数据(32). 请注意,对于包含少量细胞的早期胚胎阶段,原始研究中的复制通常代表来自多个个体的混合样本。每个组织和发育阶段具有多个生物复制的文库用于大多数物种,除了秀丽线虫(33),果蝇(33)还有海胆(34),其中没有复制品。添加这三种非脊索动物是为了确保后生动物更全面的分类覆盖。MeDAS涵盖的具体发展阶段总结如下补充表S3.
发育相关基因表达、亚型丰度和选择性剪接事件
使用标准管道对所有RNA-seq文库进行处理,以进行选择性剪接事件识别和量化(图1). 所有脚本都可以在https://github.com/LuChenLab/MeDAS并可应用于其他数据集和物种。简单地说,使用Trimmomatic v0.38修剪了低质量读取(35)带参数ILLUMINACLIP:适配器。fa:2:30:10领先:3落后:3滑动窗口:4:15最小值:25。修剪后的读数与各自的参考基因组对齐(补充表S1)使用STAR v2.6.1a(36)使用默认参数加上–quantMode TranscriptomeSAM,将生成的BAM文件输入RSEM v1.3.1(37)以原始计数和百万分之转录物(TPM)量化基因表达和异构体丰度。当无法从实验信息中获得时,使用RSeQC v3.0.0推断每个库的链特异性(38),以及与–strandness选项一起使用的RSEM。为了识别动态调节的基因和亚型(那些特定组织的表达谱随时间变化显著的基因和异构体),我们采用了前面描述的方法(32,39). 对于在至少15%的样本中表达的基因和转录物(TPM≥1),我们首先使用R/Bioconductor包edgeR v3.30.3中实现的“修剪平均值M”(TMM)方法对每百万原始计数(CPM)进行标准化(40). 然后,我们计算了每种器官和物种的质量(第页2)使用R/Bioconductor包maSigPro v1.60.0(41).
图1。
MeDAS基础管道概述。对MeDAS中包含的所有RNA-seq文库进行质量检查(FastQC)和清洁(Trimmomatic),然后使用STAR将其与各自的参考基因组对齐。这将生成一个BAM文件和一组关联的读取,这些读取与每个亚型中的每个拼接接头(SJ)对齐。通过将剪接连接处的比对数据与一组外显子部分(外显子区域的子集,根据它们在异构体之间的重叠)相结合,我们可以获得包含和排除读数的计数。这些分别是与给定外显子(或部分)重叠并支持其包含在转录物中的读数,以及源自分裂比对并因此源自不包含它的转录物的读数。最后,我们计算了每个外显子的拼接百分比(PSI)值我基于标准化计数n个对于这两个集合。
AS类型标识
为了识别剪接事件,我们要求每个剪接接头可以由至少两个样本中的10个单向映射读取独立检测,并且它可以由所有样本中计数的≥100个单向映射读支持。我们要求新的剪接连接也有三个内含子基序中的一个(GT/AG、GC/AG、AT/AC,每个基序都与前向链有关;每个基序的总数总结如下补充表S4,绝大多数拼接接头具有典型的GT/AG基序)。虽然原则上这种方法也允许我们识别新的拼接接头,但我们认为MeDAS的主要目的是支持现有注释。因此,虽然我们目前仅报告已知外显子的数据,但由于纳入MeDAS,这可能被视为对其边界的独立实验证实(这很有用,因为较少研究的物种的注释更有可能被自动分配)。
作为选择性剪接的指标,我们计算了每个外显子以及每个“外显子部分”的剪接百分比(PSI)值,如之前的研究所述(42)并在这里进行了概述。为了计算PSI值,我们首先需要定义计数箱:与外显子或其部分相对应的间隔(因为同一外显子区域在不同的转录物中可能具有不同的边界)。外显子的PSI估计值最终由其所有部分的集合得出。这些“外显子部分”是使用R/Bioconductor包DEXSeq从每个物种的编码转录本参考注释中派生出来的(43)并根据亚型之间的重叠来表示外显子区域的子集(图1). 为了计算PSI,我们使用BEDtools v2.23计算了包含读取数(IR),即与给定外显子(或部分)重叠并支持其包含在转录本中的读取数,以及排除读取数(ER),即源于分裂比对并因此源于不包含它的转录本的读取数(44). 然后,我们对IR和ER进行了标准化,以说明差异覆盖率,因为较长的外显子(或外显子部分)的读取计数会高于较短的外显字:哪里我表示外显子(部分)编号和n个标准化读取计数。 使用这种测量方法,构成外显子(假设没有转录组噪声)将具有100 PSI,而替代外显子将具有0<PSI<100。我们进一步根据所有样本的AS水平将外显子部分分为四类:“未表达”(无PSI数据)、“低内含物”(PSI<5)、“选择性剪接”(5≤PSI≤95)或“构成”(PSI>95)。
在“本地AS事件”模式下使用SUPPA2(45),我们将每个蛋白编码转录本中每个外显子部分的坐标与参考注释进行比较,并根据一种或多种AS类型对每个剪接事件进行分类:跳跃外显子(SE)、保留内含子(RI)、选择性5’剪接位点(A5)、替代3’剪接部位(A3)、互斥外显子,替代第一外显子(AF),其中替代第一外显子的使用导致具有不同5′UTR的mRNA亚型,替代最后外显子,其中替代多聚腺苷化位点的使用导致不同的末端外显子。
为了确保每个物种剪接景观的全面覆盖,MeDAS提供了每个多基因的每个内部外显子的PSI估计值,以及这些计算的原始数据:每个计数间隔内的包含和排除读数,即“外显子部分”。这是因为外显子部分本身可能很有趣,许多代表区域在多个转录物(即蛋白质域)中协同剪接。
用法和示例
数据库接口和查询
MeDAS的用户界面如图所示2。为了最大化效用并允许用户设置自己的阈值,我们以未过滤的形式在MeDAS中显示所有数据,但Spearman相关性和Kruskal–Wallis检验的结果除外,在计算之前需要某些标准(表1). 因此,我们建议用户交叉验证MeDAS的结果作为外显子包含率,以确定外显子是否被认为是选择性剪接的,这是基于预先存在的基因组注释计算的,可能具有可变质量。我们还建议用户对记录进行质量筛选,并根据每个外显子的最小包含和排除读数进行筛选。可批量下载替代剪接事件及其相关的PSI值、基因表达和异构体丰度,以制表符分隔的文本提供,每个组织和阶段的PSI值也以bigWig格式提供。
图2。
MeDAS用户界面。用户可以在选择物种和组织后,通过基因、转录本和外显子ID或序列搜索选择性剪接外显子,结果如表所示1(A类). 这些表格可以直接下载。通过选择外显子,可以可视化结果,包括序列(B类). MeDAS显示了在每个亚型和发育阶段绘制的PSI热图,以及基因和转录表达的箱线图,以及每个外显子的PSI。
例子
MeDAS根据(i)物种名称、(ii)器官(如有)、(iii)基因ID、(iv)转录ID、(v)外显子ID和(vi)外显序列具有层次结构。一旦选择了特定的基因、转录本或外显子ID,就会显示结果表,并且可以可视化基因组结构。MeDAS的内容如表所示1如图所示三以小鼠体内12核苷酸微xon为例丹麦马克1a基因(MeDAS中的ID为“ENSMUSG00000036940:017”)。PSI随时间的分布显示,出生后0至3天出现了包含高峰,如(19)与之前报道的通过改变磷酸化位点的可用性调节神经突起生长的作用一致(46,47). 在人类(ENSG0000004487:012)和负鼠(ENSMODG00000016138:012)的同源外显子中也观察到类似的模式,这两个外显子分别在“新生儿”和“出生后28天”发育阶段附近出现包合峰。
图3。
发育相关基因中保守12nt微xon的内含水平Kdm1a型PSI随时间的分布显示,负鼠在出生后28天左右出现包涵体峰值(A类),小鼠出生后0至3天(B类)在人类的“新生儿”周围(C类)分别是。
结论
MeDAS对后生动物选择性剪接事件的时间景观进行了全面调查,有助于确定其在整个发育过程中的假定调控作用。用于处理数据的管道位于https://github.com/LuChenLab/MeDAS并可应用于任何其他RNA-seq数据集。
补充数据
补充数据可从NAR Online获取。
基金
中国国家重点研发计划,干细胞与转化研究[2017YFA0106800 to L.C.,J-w.L.,2017YFA0106500 to L.C.];国家优秀青年科学基金[81722004至L.C.];桑坦德和牛顿基金会(Santander and Newton fund UK-China PhD placement travel grant);PAPPIT-DGAPA-UNAM赠款【IN200920】;NERC拨款[NE/P004121/1];英国皇家学会资助[DH071902、RG0870644、RG080272至A.O.U.]。开放获取费用资助:国家重点研发计划,干细胞与转化研究[2017YFA0106800]。
利益冲突声明。未声明。
参考文献
1科勒曼
O。
,孔韦尔蒂尼
第页。
,张
Z.公司。
,文
年。
,沈
M。
,法拉利耶娃
M。
,斯坦姆
美国。
可选拼接功能
.基因
.2013
;514
:1
–30
. 2布什
S.J.公司。
,陈
L。
,托瓦尔·科罗纳
J.M.公司。
,乌鲁西亚
A.O.公司。
选择性剪接与表型新颖性的进化
.菲洛斯。事务处理。罗伊。Soc.伦敦。B、 生物。科学。
2017
;372
:20150474
. 三。陈
L。
,托瓦尔·科罗纳
J.M.公司。
,乌鲁西亚
A.O.公司。
选择性剪接:真核生物基因组功能创新的潜在来源
.国际期刊演变。生物。
2012
;2012
:596274
. 4罗伊
B。
,搬运
L.M.有限公司。
,格里菲斯
有限责任公司。
综述:基因的选择性剪接(AS)作为产生蛋白质复杂性的一种方法
.货币。基因组学
.2013
;14
:182
–194
. 5陈
L。
,布什
S.J.公司。
,托瓦尔·科罗纳
J.M.公司。
,卡斯蒂略-莫拉莱斯
答:。
,乌鲁西亚
A.O.公司。
差异转录覆盖修正揭示了选择性剪接和生物体复杂性之间的密切关系
.分子生物学。进化。
2014
;31
:1402
–1413
. 6尼尔森
总重量。
,格雷夫利
业务风险管理。
通过选择性剪接扩展真核蛋白质组
.自然
.2010
;463
:457
–463
. 7托瓦尔·科罗纳
J.M.公司。
,卡斯蒂略-莫拉莱斯
答:。
,陈
L。
,奥尔兹
业务伙伴。
,克拉克
J.M.公司。
,雷诺数
瑞典。
,皮滕德里格
业务风险管理。
,菲尔
E.J.公司。
,乌鲁蒂亚属
A.O.公司。
替代虱子的替代拼接
.分子生物学。进化。
2015
;32
:2749
–2759
. 8哈尔
B。
,特纳
L.M.有限公司。
麝亚种间选择性剪接进化的全基因组分析
.摩尔生态。
2010
;19
:228
–239
. 9麦金太尔
L.M.有限公司。
,波诺
L.M.有限公司。
,热尼塞尔
答:。
,韦斯特曼
R。
,废旧物品
D。
,Telonis-Scott公司
M。
,哈尔什曼
L。
,韦恩
M.L.公司。
,科普
答:。
,努日丁
S.V.公司。
果蝇选择性转录物的性别特异性表达
.基因组生物学。
2006
;7
:79兰特
. 10普拉内利斯
B。
,戈梅斯·雷东多
一、。
,Pericuesta公司
E.公司。
,Lonergan公司
第页。
,古铁雷斯-阿丹
答:。
小鼠性别决定中的差异亚型表达和选择性剪接
.BMC基因组学
.2019
;20
:202
. 11萨尔茨
H·K。
昆虫性别决定:基于选择性剪接的二元决策
.货币。操作。遗传学。开发。
2011
;21
:395
–400
. 12徐
问:。
,莫德雷克
B。
,李
C、。
人类转录组中组织特异性选择性剪接的全基因组检测
.核酸研究。
2002
;30
:3754
–3766
. 13Yeo(Yeo)
G.公司。
,霍尔斯特
D。
,克里曼
G.公司。
,伯格
中央银行。
人体组织中选择性剪接的变化
.基因组生物学。
2004
;5
:74兰特
. 14玲
J.P.公司。
,威尔克斯
C、。
,查尔斯
R。
,利维
P.J.公司。
,高希
D。
,江
L。
,圣地亚哥
C.P.公司。
,庞
B。
,文卡塔拉曼
答:。
,克拉克
英国标准。
等。
ASCOT识别神经元亚型特异性剪接的关键调控因子
.国家公社。
2020
;11
:137
. 15富拉尼斯
E.公司。
,特伦米勒
L。
,富奇莱
G.公司。
,谢菲尔
第页。
核糖体增强转录亚型的景观揭示了广泛的神经细胞类特异性选择性剪接程序
.自然神经科学。
2019
;22
:1709
–1717
. 16张
十、。
,陈
M.H.医学博士。
,吴
十、。
,科达尼
答:。
,风扇
J。
,Doan公司
R。
,小泽
M。
,妈妈
J。
,吉田
N。
,雷特
J.F.公司。
等。
细胞类型特异性选择性剪接控制发育中大脑皮层的细胞命运
.单元格
.2016
;166
:1147
–1162
. 17巴拉勒
F.E.公司。
,朱迪斯
J。
选择性剪接作为发育和组织特性的调节器
.自然修订版分子细胞生物学。
2017
;18
:437
–451
. 18卡尔索特拉
答:。
,库珀
T.A.公司。
发育调控的选择性剪接的功能后果
.Nat.Rev.基因。
2011
;12
:715
–729
. 19韦恩·凡亨滕利克(Weyn-Vanhentenryck)
S.M.公司。
,冯
小时。
,乌斯蒂亚连科
D。
,达菲
R。
,雁鸣声
问:。
,袁耀发
M。
,马丁内斯
J.C.公司。
,古德温
M。
,张
十、。
,汉格斯特
美国。
等。
神经发育过程中选择性剪接的精确时间调控
.国家公社。
2018
;9
:2189
. 20Xing(兴)
年。
,杨
西。
,线路接口单元
G.公司。
,崔
十、。
,孟
小时。
,赵
小时。
,赵
十、。
,锂
J。
,线路接口单元
Z.公司。
,张
M.Q.公司。
等。
小鼠植入前胚胎发育过程中的动态选择性剪接
.前面。比昂。生物技术。
2020
;8
:35
. 21罗德里格斯
J.M.公司。
,罗德里格斯-里瓦斯
J。
,迪·多梅尼科
T。
,瓦兹奎兹
J。
,巴伦西亚
答:。
,特雷斯
M.L.公司。
APPRIS 2017:多基因集的主要亚型
.核酸研究。
2018
;46
:D213型
–第217天
. 22塔皮亚尔
J。
,哈
K.C.H.公司。
,斯特恩·韦勒
T。
,戈尔
答:。
,布伦瑞克
美国。
,Hermoso-Pulido公司
答:。
,奎斯内尔·瓦利埃
M。
,Permanyer公司
J。
,苏打(Sodaei)
R。
,马尔克斯
年。
等。
选择性剪接图谱和功能关联图谱揭示了同时表达多种主要亚型的新调控程序和基因
.基因组研究。
2017
;27
:1759
–1768
. 23.马林约德
第页。
,维莱明
J.P.公司。
,莫塔达
小时。
,波利·埃斯皮诺扎
M。
,德斯梅特
F.O.公司。
,萨曼
美国。
,肖塔尔
E.公司。
,Tranchevent公司
有限责任公司。
,奥博夫
D。
内皮细胞、上皮细胞和成纤维细胞表现出独立于其来源组织的特定剪接程序
.基因组研究。
2014
;24
:511
–521
. 24Tranchevent公司
有限责任公司。
,奥贝
F、。
,迪洛里耶
L。
,伯努瓦·皮尔文
C、。
,雷伊
答:。
,波雷
答:。
,肖塔尔
E.公司。
,莫塔达
小时。
,德斯梅特
F.O.公司。
,脉轮
F.Z.公司。
等。
利用外显子本体识别由替代外显子编码的蛋白质特征
.基因组研究。
2017
;27
:1087
–1097
. 25.布希
答:。
,赫特尔
K.J.公司。
HEXEvent:人类外显子剪接事件数据库
.核酸研究。
2013
;41
:第118天
–第124页
. 26基姆
第页。
,杨
M。
,梵珂
英国。
,赵
西。
,周
十、。
ExonSkipDB:人类外显子跳跃事件的功能注释
.核酸研究。
2019
;48
:D896号
–D907号
. 27亚奈
一、。
,本杰明
小时。
,什莫伊什
M。
,查利法·卡斯皮
五、。
,Shklar公司
M。
,奥菲尔
R。
,Bar-Even公司
答:。
,霍恩萨班
美国。
,萨夫兰
M。
,有很多
E.公司。
等。
基因组范围的中程转录谱揭示了人类组织规范中的表达水平关系
.生物信息学
.2005
;21
:650
–659
. 28协调员
不适用。
国家生物技术信息中心的数据库资源
.核酸研究。
2018
;46
:D8日
–第13天
. 29马林
R。
,科尔特斯
D。
,拉曼纳
F、。
,普拉迪帕
医学硕士。
,卢希金
E.公司。
,朱利安
第页。
,利希蒂
答:。
,哈尔伯特
J。
,布吕宁
T。
,莫辛格
英国。
等。
爬行动物谱系中类果蝇剂量补偿机制的聚合起源
.基因组研究。
2017
;27
:1974
–1987
. 30胡
小时。
,上坂
M。
,郭
美国。
,岛井
英国。
,卢
T.-M.公司。
,锂
F、。
,藤基
美国。
,石川
M。
,线路接口单元
美国。
,筱河
年。
等。
多效性基因限制脊椎动物进化
.自然生态。进化。
2017
;1
:1722
–1730
. 31马利塔兹
F、。
,菲尔巴斯
邮政编码:。
,梅索
一、。
,特纳
J.J.公司。
,波格丹诺维奇
O。
,佩里
M。
,怀亚特
C.D.R.公司。
,de la Calle客户
E.公司。
,贝特朗
美国。
,布尔格拉
D。
等。
文昌鱼功能基因组学与脊椎动物基因调控的起源
.自然
.2018
;564
:64
–70
. 32卡多索·莫雷拉
M。
,哈尔伯特
J。
,瓦罗顿
D。
,Velten公司
B。
,陈
C、。
,邵
年。
,利希蒂
答:。
,阿森桑奥
英国。
,拉梅尔
C、。
,奥夫钦尼科娃
美国。
等。
哺乳动物器官发育中的基因表达
.自然
.2019
;571
:505
–509
. 33戈尔斯坦
医学学士。
,罗佐夫斯基
J。
,雁鸣声
英国。
,王
D。
,程
C、。
,棕色
J。B。
,戴维斯
加拿大。
,希利尔
L。
,Sisu公司
C、。
,锂
J.J.公司。
等。
远缘物种转录组的比较分析
.自然
.2014
;512
:445
–448
. 34图
问:。
,卡梅隆
注册会计师。
,沃利
K.C.公司。
,吉布斯
注册会计师。
,戴维森
E.H.公司。
基于转录组分析的紫斑球海胆基因结构
.基因组研究。
2012
;22
:2079
–2087
. 35.博尔格
上午。
,洛泽
M。
,乌萨德尔
B。
Trimmomatic:Illumina序列数据的灵活微调器
.生物信息学
.2014
;30
:2114
–2120
. 36多宾
答:。
,戴维斯
加拿大。
,施莱辛格
F、。
,德伦科
J。
,扎勒斯基
C、。
,杰哈
美国。
,巴蒂
第页。
,链条箱
M。
,金戈拉斯
T.R.公司。
STAR:超快速通用RNA-seq对准器
.生物信息学
.2013
;29
:15
–21
. 37.锂
B。
,杜威
C.N.公司。
RSEM:有或无参考基因组的RNA-Seq数据的准确转录定量
.BMC生物信息学
.2011
;12
:323
. 38王
L。
,王
美国。
,锂
西。
RSeQC:RNA-seq实验的质量控制
.生物信息学
.2012
;28
:2184
–2185
. 39萨罗普洛斯
一、。
,马林
R。
,卡多索·莫雷拉
M。
,凯斯曼
小时。
哺乳动物器官和物种中lncRNA的发育动态
.自然
.2019
;571
:510
–514
. 40罗宾逊
医学博士。
,麦卡锡
D.J.公司。
,史密斯
G.K.(通用)。
edgeR:用于数字基因表达数据差异表达分析的Bioconductor软件包
.生物信息学
.2010
;26
:139
–140
. 41努埃达
医学博士。
,塔拉索纳
美国。
,科内萨
答:。
下一个maSigPro:更新RNA-seq时间序列的maSigPro-生物导体包
.生物信息学
.2014
;30
:2598
–2602
. 42谢弗
美国。
,苗族
英国。
,本森
C.C.公司。
,海宁
M。
,厨师
南非。
,胡布纳
N。
RNA-seq数据中的选择性剪接特征:剪接百分比(PSI)
.货币。协议。嗯,遗传学。
2015
;87
:11.16.11
–11.16.14
. 43安德斯
美国。
,雷耶斯
答:。
,胡贝尔
西。
从RNA-seq数据中检测外显子的差异使用
.基因组研究。
2012
;22
:2008
–2017
. 44昆兰
阿拉伯联合酋长国。
,霍尔
国际货币基金组织。
BEDTools:一套用于比较基因组特征的灵活实用程序
.生物信息学
.2010
;26
:841
–842
. 45特林卡多
法学博士。
,Entizne公司
J.C.公司。
,海塞纳吉
G.公司。
,辛格
B。
,斯卡利克
M。
,埃利奥特
D.J.公司。
,埃拉斯
E.公司。
SUPPA2:跨多种条件的快速、准确和不确定性差异拼接分析
.基因组生物学。
2018
;19
:40
. 46齐贝蒂
C、。
,阿达莫
答:。
,宾达
C、。
,福尔纳里
F、。
,托福洛
E.公司。
,韦佩利
C、。
,吉内利
E.公司。
,马特维
答:。
,萨拉
C、。
,巴塔廖利
E.公司。
组蛋白去甲基化酶LSD1/KDM1的选择性剪接有助于调节哺乳动物神经系统中的轴突形态发生
.神经科学杂志。
2010
;30
:2521
–2532
. 47托福洛
E.公司。
,鲁斯科尼
F、。
,帕格尼尼
L。
,托托里奇
M。
,皮洛托
美国。
,海斯
C、。
,维佩利
C、。
,泰代斯基
G.公司。
,马菲欧利
E.公司。
,萨拉
C、。
等。
神经元赖氨酸特异性脱甲基酶1LSD1/KDM1A的磷酸化通过调节与CoREST和组蛋白脱乙酰酶HDAC1/2的相互作用来削弱转录抑制
.神经化学杂志。
2014
;128
:603
–616
.
作者注释
©作者2020。由牛津大学出版社代表核酸研究出版。