Integrated gene set analysis for microRNA studies

Francisco Garcia-Garcia; Joaquin Panadero; Joaquin Dopazo; David Montaner

doi:10.1093/bioinformatics/btw334

生物信息学。2016年9月15日；32(18): 2809–2816.

2016年6月20日在线发布。数字对象标识：10.1093/生物信息学/btw334

预防性维修识别码：项目编号：5018374

PMID：27324197

用于microRNA研究的集成基因集分析

弗朗西斯科·加西亚（Francisco Garcia-Garcia）,¹ 华金·帕纳德罗,² 华金·多帕佐,^1,^三，^4,^*和大卫·蒙塔纳^1,^*

作者信息文章注释版权和许可证信息 PMC免责声明

关联数据

补充资料: 补充数据

supp_32_18_2809__index.html（731字节）
GUID:8A314FA9-C299-4A0A-99C5-FF9915E99626

supp_btw334_供应数据.zip（560万）
GUID:80DCDA02-EB10-4D20-8EFF-BAFABE20B41C

摘要

动机：miRNA表达数据的功能解释目前通过三个步骤完成：选择差异表达的miRNA，找到其靶基因，并执行基因集过度陈述分析然而，这种方法的主要局限性已经在基因水平上进行了描述，而在miRNA方案中出现了一些新的局限性。

在这里，我们提出了一种增强的方法，该方法建立在公认的基因集分析范式。miRNA水平差异表达的证据转移到基因差异抑制根据基因集或通路很容易解释的分数。这样的转移的索引解释了靶向同一基因的多个miRNAs的加性效应，也包括病例和对照之间的抵消效应。总之，这两个理想的特征允许对监管流程进行更准确的建模。

结果：我们分析了20种不同癌症类型的高通量测序数据，并提供了miRNA作用引起的基因和基因本体论术语失调的详尽报告。

可用性和实施：建议的方法在生物导体库中实施mdgsa公司.http://bioconductor.org/packages/mdgsa。为了再现性，所有脚本都可以在https://github.com/dmontaner-pass/gsa4mirna网址

联系人:moc.liamg@renatnom.divad

补充信息： 补充数据可在生物信息学在线。

1引言

MicroRNAs（miRNAs）是参与转录后基因调控的小的非编码RNA分子(他和汉农，2004年). 它们以部分互补性与靶mRNA结合，导致翻译抑制或靶降解(世界环境学会等。, 2013). 据报道，miRNAs的异常表达与疾病有关(江等。, 2009)为了阐明miRNA水平和表型之间的关系，目前正在进行许多基因组实验。这些实验通常使用微阵列或高通量测序来记录不同生物条件下miRNA的表达，然后进行差异表达分析，以评估每个miRNA与表型的关联。在这类分析中，通常首先选择显著不同的miRNAs，然后探索其靶基因，以推断这些miRNA放松管制的可能功能后果。基因功能数据库，如基因本体（GO）(阿什伯恩等。, 2000)、KEGG(Kanehisa和Goto，2000年)或Reactome(乔希·托普等。, 2005)通常在第二步中使用。一些作者倾向于首先将miRNA注释到其目标基因的功能上，然后在miRNA水平上进行功能解释(布莱扎德等。, 2015;Godard和van Eyll，2015年). 尽管这种方法没有那么本能或直观，但已经证明它可以减少有偏见的数据库信息的影响。这种两步范式，称为过度表示分析（ORA）已广泛用于基因表达实验，现在是用于miRNA功能分析的唯一方法。

但即使在基因表达背景下，ORA方法也受到了合理的批评，并描述了一些主要缺陷(Dopazo，2009年;卡特里等。, 2012). 这些缺点中最令人担忧的是只使用少数基因导致的信息丢失，以及对这些选定基因的平等处理，这一问题在miRNA场景中再次出现。例如，在差异基因表达分析中，ORA只考虑表现出大表达差异的基因，而功能相关的微小变化基因集可能与潜在的生物学更相关。在分析miRNA表达数据时也会出现类似的偏差，但在这种情况下，这种影响会加倍。一方面，一些基因可能受单个miRNA的大变化调节。如果在实验中发生这种变化，miRNA将被鉴定为差异表达，因此可以使用ORA，但有上述限制。另一方面，其他一些不太强大的基因失调可能会被忽视，因为引起它们的miRNA并没有出现在差异表达最多的候选中，因此，在这种情况下基因集效果将被忽略。此外，基因也可以被一些小的miRNA变化的加性效应所抑制(多克斯，2010年;帕帕彼得鲁等。, 2010). 这种情况很常见，但在ORA中通常被忽略，因为在两阶段方法中不太可能选择致病性miRNAs。最后，一个基因可能受几个具有相反表达模式的miRNAs调控(布莱扎德等。, 2015). 这可能会导致代偿效应，而ORA方法可能没有考虑到这种效应。作为后一种情况的一个简单例子，我们可以考虑由两个miRNAs调控的基因，其中一个在实验病例中上调，另一个在对照组中上调。该基因在这两种情况下都会被下调或抑制，因此与病例对照比较无关。尽管如此，ORA算法很可能在比较中确定这些相关基因，因为它们的调节性miRNAs将在分析的差异表达步骤中被选择(Godard和van Eyll，2015年).

因此，应用ORA方法本质上意味着对生物学的理解相对幼稚。在基因表达方面，ORA的局限性已经被基因集分析（GSA）方法(穆萨等。, 2003). GSA方法可以成功地模拟功能相关基因组中较弱但协调的变化的重要性，从而加强基因组数据的解释。但是，尽管GSA方法已经用于基因实验很长时间了，据我们所知，迄今为止还没有提出类似GSA的方法用于miRNA测量的功能分析。缺乏GSA风格的miRNA数据应用并不奇怪，原因有二：首先，功能注释通常附在基因上，因此，为了解释miRNA数据（例如GO或KEGG），科学家必须首先定义miRNA和数据库信息应如何链接。为此，有意义的miRNA到基因转移的实验证据是不言而喻的。其次，大多数GSA算法都是这样的：基因级分析和丰富这些步骤相互依存，不容易分割。大多数GSA算法缺乏灵活性，这阻碍了它们在miRNA环境中的重新实现和使用。

例如在经典的GSEA算法中(苏布拉马尼亚语等。, 2005)，使用应用于基因表达数据矩阵的基于表型的置换来评估富集的统计显著性。因此，差异表达步骤是在重新采样模式中执行的，并且在不重写算法的情况下无法更改。

在这篇论文中，我们提出了一种新的GSA型方法来解释miRNA表达数据的功能。利用miRNA对基因可能具有的加性抑制作用，我们首先提出了一种有意义的程序，通过差异抑制分数。然后我们使用逻辑回归模型(Montaner和Dopazo，2010年;蒙塔纳等。, 2009;萨托等。, 2009)从以下方面解释基因抑制信息基因集.

为了举例说明我们的方法在这里的适用性，我们分析了来自癌症基因组图谱项目(麦克伦登等。, 2008). 在差异miRNA表达分析中，将肿瘤样本与正常组织进行比较，然后根据GO对每个样本进行功能分析。一些已知与癌症相关的GO术语在不同的癌症中表现为解除管制，验证了我们方法的适用性。我们希望我们的算法能在R/Bioconductor包中实现mdgsa公司(Montaner和Dopazo，2010年)，将对数据分析师有用，但同时补充材料本文中的内容将构成一项宝贵的资产。

2材料和方法

在撰写本文时，32个数据集注册在癌症基因组图谱项目。我们下载并分析了其中20个：那些含有miRNA表达信息的人，使用Illumina HiSeq公司技术(宾利（Bentley）等。, 2008)其中包含肿瘤和健康样本。表1显示了下载数据集的参考以及每次分析中包含的样本数。

表1。

分析数据集

身份证件	总计	案例	控制	配对	说明
BLCA公司	271	252	19	19	膀胱尿路上皮癌
BRCA公司	807	720	87	86	乳腺浸润癌
CESC公司	218	215	三	三	宫颈鳞状细胞癌
COAD（涂层）	243	235	8	0	结肠腺癌
ESCA公司	113	102	11	11	食管癌
HNSC公司	519	475	44	43	头颈部鳞状细胞癌
基奇	91	66	25	25	肾嫌色症
KIRC公司	311	240	71	68	肾透明细胞癌
KIRP公司	245	211	34	34	肾乳头状细胞癌
LIHC公司	283	233	50	49	肝细胞癌
LUAD公司	474	428	46	39	肺腺癌
LUSC公司	376	331	45	45	肺鳞状细胞癌
PAAD公司	100	96	4	4	胰腺癌
PCPG公司	182	179	三	三	嗜铬细胞瘤和副神经节瘤
审慎监管局	117	100	17	17	前列腺腺癌
阅读	93	90	三	0	直肠腺癌
SKCM公司	75	74	1	0	皮肤皮肤黑素瘤
STAD公司	345	306	39	39	胃腺癌
THCA公司	558	499	59	59	甲状腺癌
UCEC公司	418	386	32	19	子宫体子宫内膜癌

在单独的窗口中打开

表中的列显示：TCGA疾病ID、分析中的样本总数、肿瘤样本数、对照样本数（实体正常组织）、数据集中可用的配对样本数和癌症类型。

预处理的miRNA表达计数矩阵下载自癌症基因组图谱数据门户https://tcga-data.nci.nih.gov/tcga网站差异表达分析、比较原发性肿瘤样本到实体法线组织，使用未成对的所有20个数据集的方法。此外，我们还执行了成对的对其中17个样本进行分析：包含来自同一个人的肿瘤和正常样本的数据集。这些miRNA水平的分析是使用生物导体进行的(绅士等。, 2004)图书馆边缘R(罗宾逊等。, 2010).

因此，对于每次比较，P（P）-在miRNA水平上获得值和测试统计数据。p值代表病例和对照组之间差异miRNA表达的强度，而统计数字的符号表示差异的意义或“方向”；在我们的病例中，与对照组相比，阳性统计值表示病例中过度表达，而阴性统计值表示表达不足。对于每个miRNA，这两个数量可以组合成一个独特的指数，使用以下转换解释差异表达的强度和意义：

第页=−符号（统计）·log(P（P）-值）

(1)

计算值第页在不同的miRNAs中具有可比性，因为它们代表了原始的P（P）-值。此外，第页还保留了测试统计的符号，保留了有关过度表达“方向”的信息。因此，这是一个根据miRNAs表达水平差异对其进行排序的指数；从病例中过度表达的病例（阳性值最高的病例）到病例中表达不足的病例（阴性指数更高）。根据定义，miRNAs具有第页接近于零的索引值是那些在案例和控件中具有相似表达水平的值，即那些没有差异表达的值。在这种情况下，我们导出了第页值使用边缘R尽管有任何其他统计检验，只要具有上述特征，甚至可以使用折叠变化来获得排名指数。

2.1增加对基因的影响

微RNA分子通过互补碱基连接调节基因表达(巴特尔，2004年)因此，对特定基因的抑制必须与靶向miRNA分子的数量成正比。此外，许多不同的miRNA可能截获同一基因，从而对其表达水平产生累加效应(Gusev，2009年;林等。, 2005). 因此，基因的干扰必须与其结合miRNAs的表达水平之和直接相关。在比较生物样品时，实验条件下miRNA表达的差异可以反映在不同的基因抑制模式中差异抑制每个基因的表达差异可能与其结合miRNAs的表达差异之和成比例。我们可以使用以下公式来表达：

{t吨}_{我} = \sum_{j个 \in {G公司}_{我}} {第页}_{j个}

(2)

哪里t吨_我代表基因抑制的增加我,第页_j个解释了miRNA的差异表达j个、和G公司_我是一组靶向基因的微小RNA我类似评分在总结几种miRNAs对特定基因的影响方面的效用之前已有描述(李等。, 2012;莫林等。, 2008).

使用方程式2我们可以将实验中的相关信息从miRNA“转移”到基因水平，即从miRNA差异表达值到基因差异抑制估计。对实验数据集中的所有基因进行计算，我们可以导出一个新的转移索引根据基因的差异抑制由miRNA活性在生物条件之间引起。基因显示最高差异抑制指数这些基因在病例中更容易被截获，而那些显示最低指数的基因应该对应于对照组中比病例中更受抑制的基因。带有a的基因差异抑制指数接近于零的是那些在miRNAs调控方面没有显著差异的基因。图1显示了miRNA和基因水平结果的解释摘要。

在单独的窗口中打开

图1。

解释miRNA水平的差异表达统计和转移索引在基因水平

在这里，我们应该注意到，一个基因的强差异抑制模式可能是因为只有一个靶向它的miRNAs中存在非常大的差异表达。但也有可能是由于许多不同的miRNA靶向一个特定基因的加性效应引起的，每种情况下个体差异表达模式较弱。

值得强调的是，基因不表达差异抑制可能是那些其调节性小RNA没有差异表达的小RNA，也可能是那些结合性小RNA的差异表达模式相加至零而相互抵消的小RNA。例如，在病例对照实验中，第一种情况是靶向特定基因的miRNAs没有差异表达。在这种情况下，所有第页_j个中的值方程式2等于零，它们的总和以及t吨_我参数。第二种情况是靶向该基因的一个子集microRNAs过度表达，增加了病例中的基因抑制，但另一个子集miRNAs表达不足，增加了对照组的抑制。因此，这两种抑制作用将相互抵消，从而导致病例和对照之间对该基因的调节差异。在第二种情况下第页_j个值为正数，一些值为负数，但它们的总和将产生t吨_我值接近零。

显然，要实现方程式2或者，更一般地说，为了能够将信息从miRNAs“转移”到它们的靶基因，必须事先定义miRNAs和它们的基因靶之间的关系。在这项研究中，我们从TargetScan预测目标和保守目标数据库(弗里德曼等。, 2009)但我们的软件可以使用任何其他类似信息来源。目前，关于miRNA靶点的大多数可用信息都是通过计算方法预测的，但准确性有限(泽尔巴赫等。, 2008)并包含功能性偏见(布莱扎德等。, 2015). 因此，在解释或验证结果时仍应小心。在任何情况下，我们的方法和软件都将保持有效，并可以继续使用，因为这个数据库变得更加精心策划，或者如果在不久的将来有其他更复杂的来源可用。

值得注意的是方程式2可以很容易地进行修改，以纳入miRNA-目标信息质量的权重。此外，除了知识方面，权重还可以用于通过包括额外的生物信息来改进建模，如可用的目标位点数量或基因表达水平。

方程式2将基因作为miRNA靶点，但事实上，它并不能解释基因是否表达。但是，考虑到mRNA连接miRNA功能，如果基因表达数据与miRNA水平同时可用，则将其纳入分析中是明智的。在这种情况下，研究人员可能更倾向于将转移的miRNA指数的功能解释仅限于那些有效表达的基因。方程式2可以通过设置t吨_我= 0if基因我未表达。此过程中的更改可以使用我们的mdgsa公司库（请参见补充资料).

2.2转移指数的基因集分析

在前一节中，我们描述了如何通过计算我们的基因，将在miRNA水平上测量的差异表达信息有意义地“转移”到基因水平抑制指数.

这个转移指数意味着以这样一种方式对基因进行排序，即通过miRNA作用的基因调控很容易被解释。当然，这种基因排名本身就提供了信息，但它也具有直接解释以下方面的优势基因集如GO所述(阿什伯恩等。, 2000)、KEGG(Kanehisa和Goto，2000年)或Reactome(乔希·托普等。, 2005)数据库，如果合适基因集分析方法。

Logistic回归模型以前已成功用于基因集分析基于排名统计。(萨托等。, 2009)描述了该模型如何用于功能性解释差异基因表达研究，以及(蒙塔纳等。, 2009)介绍了它在基因重要性加权模式中的使用。稍后(Montaner和Dopazo，2010年)在多基因组维度的背景下开发了它们，并分析了经典基因表达以外的基因组特征。最近(惯性矩等。, 2012)使其适应RNA-Seq研究中的基因长度偏差。

鉴于排名统计对于基因，t吨，对于所研究的每个功能类，F类logistic回归方法对基因成员与类别之间的依赖关系建模F类和t吨分配给基因的值如下：

日志 \frac{P（P） (克_{我} \in F类)}{P（P） (克_{我} \notin F类)} = κ + α {t吨}_{我}

(3)

当估计的坡度参数α非常积极，我们宣布排名很高t吨在给定的函数中得到了丰富。如果α估计值为负数，我们说富集发生在排名较低的值中t吨.

在解释我们的转移索引，阳性t吨排名值表明，与对照组相比，病例中存在一定程度的基因抑制。因此，积极α估计值方程式3表明病例中被抑制的基因功能丰富F类相反，一个负数α值对应于控制组比病例组更受抑制的基因中功能的丰富。安α与零无显著差异的估计值表明基因集与排名相关的丰富性。图2显示了此解释的摘要。

在单独的窗口中打开

图2。

根据基因和基因解释logistic回归模型斜率参数基因集

方程式2将导致t吨_我= 0对于没有被任何miRNA靶向的基因，这些零对方程式3因此，有效地基因集分析与至少一个miRNA靶向的基因结合。在ORA方法中，与使用所有注释基因作为测试背景的其他方法相比，仅使用靶向基因被报告为有益的(布莱扎德等。, 2015;Godard和van Eyll，2015年).

在我们的研究中，我们使用了GO(阿什伯恩等。, 2000)定义我们的基因集。基因注释从Ensembl网页下载http://www.ensembl.org（英语）。我们分析了生物过程,蜂窝组件和分子功能本体以获得α估计及其对应P（P）-检查每个GO术语的值。我们更正了P（P）-使用中的方法控制错误发现率的多重测试值(Benjamini和Yekutieli，2001年).

分析管道图如所示图3在这里，我们展示了神经丝细胞骨架配对乳腺浸润癌（BRCA）数据集研究中的GO项作为我们提出的算法的工作示例。

在单独的窗口中打开

图3。

分析步骤的示例图神经丝细胞骨架GO术语（GO:0060053）。绘图(A类)表示按中所述计算的排名指数的分布方程式1。白色方框显示了研究中所有miRNAs的分布。在我们的病例中，阳性值属于那些在肿瘤中表达较多的miRNAs，而阴性值则与在对照组中表达较多miRNA有关。每个彩色方框代表相同的指数，但仅代表靶向GO中一个基因的miRNAs子集。绘图(B类)代表基因转移索引在中引入方程式2对于GO术语中的每个基因，所有miRNA水平指数加起来形成一个独特的值。图B中的每个点表示根据下面箱线图（图A）中表示的microRNA计算的基因水平转移指数。绘图(C类)显示转移索引对于整个基因组（左框）和神经丝细胞骨架GO术语（右框和点）。在这里，我们可以理解GO术语中基因的总体分布如何高于所有基因的基本分布。logistic回归模型发现了这种模式，并报告GO项在肿瘤样本中富集，这意味着神经丝细胞骨架与对照组相比，病例组的细胞成分更多地被miRNA作用截获

3结果和讨论

3.1 MicroRNA水平

使用以下方法对每种癌症类型进行差异表达分析边缘R然后P（P）-控制错误发现率的值修正(本杰米尼和霍奇伯格，1995年).表2显示了配对和非配对分析中每种癌症类型上调和下调的miRNA数量。值得注意的是，即使在多次测试校正了P（P）-值。这是因为肿瘤和正常样本之间存在巨大差异，但也突出了调节单个组织中基因表达的大量miRNAs。因此，解释统计结果以得出具有生物学意义的结论可能是一项艰巨的任务。

表2。

每种癌症类型中上调、下调和非差异调节的miRNAS数量

	未付款			配对
身份证件	向下	无Dif	向上	向下	无Dif	向上
BLCA公司	128	337	353	127	343	219
BRCA公司	200	244	396	202	215	269
CESC公司	92	621	73	29	537	65
COAD（涂层）	174	291	262
ESCA公司	98	443	152	62	464	133
HNSC公司	204	285	360	164	305	222
基奇	166	297	199	217	252	169
KIRC公司	169	191	323	213	180	215
KIRP公司	221	262	295	223	242	237
LIHC公司	120	278	407	200	283	213
LUAD公司	152	292	405	130	264	259
LUSC公司	169	215	462	180	313	244
PAAD公司	23	607	11	8	606	14
PCPG公司	70	608	43	40	507	55
审慎监管局	76	429	104	38	513	31
阅读	136	307	204
SKCM公司	46	680	6
STAD公司	152	308	356	138	307	206
THCA公司	218	351	257	226	347	145
UCEC公司	243	284	347	211	272	229

在单独的窗口中打开

如果我们探索这些差异表达的miRNAs的靶基因，那么解释癌症中哪些生物功能被miRNA解除调控的困难就变得更加明显。表3显示了每种癌症类型中上调和下调miRNA靶向的基因数量。一些饱和效应可能是由大量差异表达的miRNA引起的，也可能是由每种miRNA的更多已知靶基因引起的。平均而言，8000个基因被上调或下调的miRNA靶向，此外，作为miRNA常见靶点的基因数量非常高，约为6000个（见表3). 在一些极端的情况下，更具理论性而非实际性，基因组中的大多数基因可以被上调和下调的miRNAs同时靶向，但与以前的ORA方法不同，我们的方法在这种情况下仍然有意义。

表3。

上调和下调miRNAS靶向的基因数量

	未付款			配对
身份证件	向下	通用	向上	向下	通用	向上
BLCA公司	8345	6763	8599	8087	5955	7528
BRCA公司	8968	7700	9465	9305	7724	9001
CESC公司	7834	5201	6525	4877	3178	5431
COAD（涂层）	6981	6418	9998
ESCA公司	7992	5646	6959	8233	5207	6212
HNSC公司	9090	7496	8976	9065	7006	8013
基奇	8998	7044	8252	9594	7125	7902
KIRC公司	8838	7351	9056	9575	7543	8681
KIRP公司	9169	7388	8629	9311	7025	8267
LIHC公司	7466	6848	9560	8896	6851	7720
LUAD公司	8255	7354	9898	8150	6843	8848
LUSC公司	8535	7265	9447	8844	6710	8166
PAAD公司	3759	616	1169	1529	442	1748
PCPG公司	6303	4033	5295	4102	3110	5652
审慎监管局	7422	5932	8039	4997	1600	2374
阅读	6938	6225	9672
SKCM公司	5983	631	857
STAD公司	8921	6761	8041	8947	6731	7855
THCA公司	8763	7244	8702	9064	7065	8056
UCEC公司	9182	7171	8436	9338	7069	8201

在单独的窗口中打开

公共栏显示了上调和下调miRNAs的靶基因数量。至少一个miRNA的靶基因总数为12084个。

表4显示了与miRNAs上调和下调的基因相关的GO术语数量。正如我们所见，对于大多数癌症类型，研究中包含的所有GO术语都由这些基因表示。显然，在这种情况下，过度表示分析方法对于结果的功能性解释是没有意义的。这种情况通常通过“临时”方法处理，例如增加截止线P（P）-值，因此称为差异表达的miRNAs较少，因此需要解释较小的基因组。但在基因组研究中也可能出现相反的模式；在癌症病例中，大量miRNAs预计会有差异表达，但我们可以很容易地想象，由于样本量的限制，一项实验导致很少甚至没有差异表达的miRNAs。在这种情况下，ORA方法不适用，但基因集分析风格方法，如本文所示，可以让研究人员从数据中提取一些有意义的结论。

表4。

与上调和下调miRNAs靶向基因相关的GO术语数量

	未付款			配对
身份证件	向下	通用	向上	向下	通用	向上
BLCA公司	5169	5169	5169	5169	5168	5168
BRCA公司	5169	5169	5169	5169	5169	5169
CESC公司	5169	5168	5168	5144	5138	5160
COAD（涂层）	5168	5168	5169
ESCA公司	5169	5168	5168	5169	5167	5167
HNSC公司	5169	5169	5169	5169	5169	5169
基奇	5169	5169	5169	5169	5169	5169
KIRC公司	5169	5169	5169	5169	5169	5169
KIRP公司	5169	5169	5169	5169	5169	5169
LIHC公司	5169	5169	5169	5169	5169	5169
LUAD公司	5169	5169	5169	5169	5169	5169
LUSC公司	5169	5169	5169	5169	5169	5169
PAAD公司	5129	4578	4590	4870	4681	4915
PCPG公司	5166	5161	5164	5150	5146	5165
审慎监管局	5169	5169	5169	5159	4981	4990
阅读	5168	5168	5169
SKCM公司	5169	4385	4385
STAD公司	5169	5169	5169	5169	5169	5169
THCA公司	5169	5169	5169	5169	5169	5169
UCEC公司	5169	5169	5169	5169	5169	5169

在单独的窗口中打开

大多数GO术语都是针对案例和控件的，同时可以在通用列。为靶基因注释的GO术语总数为5169.

3.2基因水平

miRNA差异表达分析后，方程式1用于总结P（P）-值并将统计信息签名为单个排名统计信息。然后，方程式2用于将这种miRNA差异表达证据转化为基因差异抑制比例尺。对于每个基因转移索引浓缩了靶向miRNA的信息，保留了适合于实验功能解释的两个特征：它解释了多个miRNA的抵消效应，并结合了几个小抑制事件的加性效应。

例如162加仑该基因由两个miRNAs靶向：hsa-miR-22-3p和hsa-miR-214-3p在配对分析中肾嫌色症（KIRCH）癌，过度表达hsa-miR-22-3p在肿瘤样本中报告（P（P）-的值5.6 × 10⁻³⁰)同时hsa-miR-214-3p表达不足（置信水平为1.8 × 10⁻²⁹). 使用派生的过表达式索引方程式1其中67.34用于hsa-miR-22-3p和-66.61hsa-miR-214-3p表明有证据表明这两种miRNAs的差异表达非常相似，但方向相反。因此，基因162加仑在某些情况下必须被miRNA抑制hsa-miR-22-3p与miRNA在对照中抑制的强度相同hsa-miR-214-3p因此，我们的解释是，两种抑制作用相互抵消，因此，基因162加仑就miRNA作用而言，被认为与癌症过程无关。这种抵消反映在基因中转移索引使用计算方程式2这产生了微不足道的结果差异抑制该基因的得分为0.73。此外，当使用中所示的逻辑回归模型时方程式3执行基因集分析基因的转移索引，基因162加仑将不支持其所涉及的任何功能的丰富。

一些较弱的miRNA差异表达事件的累积效应也可以被理解，例如，在为癌症生长调节基因生成的结果中绿色1该基因被16个miRNAs靶向，其中没有一个是绝对的差异抑制在分析中得分高于10分食管癌（ESCA）数据集。然而，将所有16个值相加，我们计算出差异抑制该基因的得分为−53.65，表明与肿瘤相比，正常样本具有较强的抑制作用。我们的结论是绿色1通常在正常组织中由许多miRNAs的联合作用调节，而这种调节在ESCA肿瘤中丢失，因此可能影响肿瘤生长。关于基因集分析,绿色1将支持其所属的GO术语，即在对照组中被miRNA作用抑制，或在病例中被解除管制。

3.3基因集水平

一旦miRNA差异表达证据转移到基因上差异抑制排名指数可以很容易地从以下方面进行分析基因集使用logistic回归方法(Montaner和Dopazo，2010年;蒙塔纳等。, 2009;萨托等。, 2009).

表5显示了以正负两种形式丰富的GO项数量转移索引值。在我们的分析中，阳性转移指数值属于靶向miRNAs在癌症中过度表达的基因。由于miRNAs的作用，这些基因在肿瘤样本中通常受到更多抑制。因此，富含阳性转移指数基因值的GO术语代表的生物功能在病例中比在对照组中更容易被miRNA效应所抑制或阻断。同样，富含负转移指数基因值的GO术语表示对照样品中的截获率高于肿瘤样品中的。对这第二组功能的生物学解释是，它们通常由正常组织中的miRNA作用控制，而这种协调在受影响组织中丢失，导致癌症状态下的功能失调。因此，在本文中，我们将富含正转移指数值的GO项称为被抑制的或被拦截的在癌细胞中，我们称之为基因集富含负转移指数值解除管制处于癌症状态。图2概述并总结了我们方法中的关键参数和步骤。

表5。

对成对比较和非成对比较的功能分析中的重要GO项进行编号

	未付款			配对
身份证件	德格。	无Dif	英寸。	德格。	无Dif	英寸。
BLCA公司	2	5167	0	2	5167	0
BRCA公司	三	5166	0	0	5167	2
CESC公司	0	5169	0	1	5167	1
COAD（涂层）	18	4930	221
ESCA公司	2	5167	0	1	5168	0
HNSC公司	53	5116	0	0	5169	0
基奇	1	5167	1	30	5138	1
KIRC公司	0	5159	10	5	5163	1
KIRP公司	4	5165	0	13	5155	1
LIHC公司	7	5080	82	0	5169	0
LUAD公司	0	5169	0	0	5169	0
LUSC公司	0	5169	0	0	5169	0
PAAD公司	三	5165	1	0	5169	0
PCPG公司	0	5169	0	0	5166	三
审慎监管局	0	5168	1	1	5168	0
阅读	0	5157	12
SKCM公司	121	5043	5
STAD公司	5	5164	0	0	5169	0
THCA公司	2	5167	0	2	5167	0
UCEC公司	89	5080	0	9	5160	0

在单独的窗口中打开

柱英寸。表示带有积极的 αlogistic回归分析中的系数。这些是在某些情况下被禁止或截获的术语。柱德格。表示带有消极的 α值。这些是控件或解除管制在案例中。noDif列表示斜率系数不显著的GO数量。

总的来说，GO抑制或违规配对分析和非配对分析中发现的模式是强正相关的（参见补充资料)，反映了我们方法的一致性。尽管如此，成对和非成对分析中丰富的GO术语数量不同，这可能反映了miRNAs在癌症中作用的诱导间变异性。GO大小（区块中的基因数量）和显著性水平之间没有发现关联模式（参见补充资料)，表明该方法在这方面没有偏差。

癌症类型之间没有很多丰富的GO术语（参见补充资料). 这是预料之中的，因为在年进行的不同实验中收集到的正常组织和肿瘤组织存在巨大差异癌症基因组图谱但也可能反映了miRNA在癌症发展中发挥的特定作用。不同癌症类型之间共享的大多数丰富术语与细胞发育众所周知，它与癌症进化有关。另一方面，在不同的特定癌症类型中单独富集的大多数GO术语与细胞有关发展,粘附,信号和增殖; 所有这些都是与癌症相关的主要过程。

例如，在我们的成对的分析内质网内腔细胞成分（GO:0005788）在BLCA公司,CESC公司和UCEC公司，均为密切相关的泌尿生殖道癌。完全基因集可以在我们的补充资料它包括配对和未配对亚群之间的比较，以及基于GSA结果的不同癌症类型的聚类分析。

为了估计1型错误，在miRNA靶数据库中的基因列随机排列后重复所有分析。这种重新取样过程保留了每个miRNA靶基因的数量和GO注释，但消除了miRNA内部和之间的所有生物关联。在这些置换实验中，有效GO项的比例仍远低于预期的5%（参见补充资料).

遵循(Godard和van Eyll，2015年)逻辑回归分析也直接在miRNA水平上进行。使用mdgsa公司注释后的文库从基因外推到miRNAs。miRNA和基因水平的功能结果显示出显著的正相关（参见补充资料).

为了说明如果这些信息可用，功能分析如何仅限于表达的基因，我们下载了基奇数据集和重复分析修改方程式2如方法部分所示。正如预期的那样，在有和无表达基因的结果之间发现了显著的正相关性，但相关性并不太强。有关分析和结果的详细信息，请参阅补充资料.

4结论

我们引入了一种新的方法来解释miRNA研究的功能，该方法主要旨在揭示miRNA差异表达对基因组或路径.

我们的建议基于基因集分析扩展了当前使用的范例过度代表方法论。它构成了适用于大多数基因组场景的通用框架，即使没有（或太多）miRNAs差异表达，因此，该算法消除了当前“特别”程序的任意性。但更重要的是，我们的算法可以包含被其他人忽略的生物相关事件，这代表着miRNA基因调控建模向前迈进了一步。首先，我们的方法说明抵消效应当一个基因在每种生物条件下被不同组的miRNAs截获时，就会出现这种情况。其次，它能够将加性效应当几个弱的miRNA抑制剂对同一基因产生影响时引起。

这些主要的优势都可能归功于本文介绍的一个关键创新想法：差异miRNA表达可以有意义地转移到基因水平差异抑制分数。

如果miRNA-to-gene转移包括抵消效应和总和效应基因集方法论在功能层面发挥着同样的作用。GO项被视为不丰富，或取消如果它的一半基因在病例中被抑制，另一半在对照组中被抑制。但也有加性效应考虑再次出现在通路水平上：如果在相同的生物功能下对许多在分离中无关紧要的弱调控或抑制基因进行系统注释，它们就会变得相关。

除了这里介绍的分析之外，我们之前工作中开发的逻辑回归方法允许以许多方便的方式扩展算法。例如，miRNAs、基因或miRNA-基因关系的相对重要性可以很容易地在转移步骤或在拟合logistic模型时。因此，对miRNA靶点、基因靶点数量、绝对基因表达水平甚至自然miRNA功能丧失的信心(卡博内尔等。, 2012)，可以使用我们的模型直接计算。此外，可以使用我们的多维框架整合额外的基因组信息：例如，一旦转移问题是用我们在本文中解释的方法解决的。此外，我们的方法和软件的灵活性使得其使用独立于miRNA水平上使用的差异表达算法。不同的统计测试或甚至折叠变化可以替代边缘R此处使用的方法；类似地，可以使用任何miRNA靶数据库。

我们已经使用广泛的癌症数据集说明了我们的新方法，但在这里，我们只是提出一些解除管制的基因或功能作为概念证明。完整的结果可在补充数据我们希望这里介绍的想法可以很容易地推断到其他基因调控过程，例如涉及转录因子的过程。

最后，强调数据规范化对NGS研究正确功能解释的重要性至关重要。数据预处理不足可能会影响P（P）-miRNA差异表达值，甚至测试统计符号，顺序影响方程式1-3从而改变我们方法的结果。因此，在使用我们的算法之前，应始终进行彻底的数据准备和探索。

补充材料

补充数据：

单击此处查看。

基金

这项工作得到了西班牙经济与竞争力部（MINECO）的BIO2014-57291-R拨款和ISCIII的Plataforma de Recursos Biomoleculares y Bioinformatics PT 13/0001/0030拨款的支持；两者均由欧洲区域发展基金（ERDF）、巴伦西亚共同体教育委员会PROMETEOII/2014/025和欧盟FP7的FP7-PEOPLE-2012-ITN MLPM2012 318861共同资助。

利益冲突：未声明。

工具书类

阿什伯恩·M·。等（2000）基因本体：生物学统一的工具。基因本体联盟.自然遗传学.,25, 25–29.[PMC免费文章][公共医学][谷歌学者]
Bartel D.P.（2004）微RNA：基因组学、生物发生、机制和功能.单元格,116, 281–297. [公共医学][谷歌学者]
Benjamini Y.，Hochberg Y.（1995）控制错误发现率：一种实用而有效的多重测试方法.J.R.统计社会服务。B类,57, 289–300.[谷歌学者]
Benjamini Y.，Yekutieli D.（2001）依赖下多重测试中错误发现率的控制,Ann.统计.,29, 1165–1188.[谷歌学者]
宾利D.R。等（2008）使用可逆终止剂化学进行精确的全人类基因组测序.自然,456, 53–59.[PMC免费文章][公共医学][谷歌学者]
布莱扎德T。等（2015）microRNA功能富集分析中的偏差.生物信息学,31, 1592–1598.[PMC免费文章][公共医学][谷歌学者]
卡博内尔J。等（2012）人类microRNA变异图揭示了出乎意料的高度变异性.基因组医学.,4, 62.[PMC免费文章][公共医学][谷歌学者]
Dopazo J.（2009）制定和检验功能基因组学中的假设.Artif公司。智力。医学.,45, 97–107. [公共医学][谷歌学者]
Doxakis E.（2010年）mir-7和mir-153对α-突触核蛋白表达的转录后调节.生物学杂志。化学.,285, 12726–12734.[PMC免费文章][公共医学][谷歌学者]
弗里德曼R.C。等（2009）大多数哺乳动物的mRNA是microRNA的保守靶点.基因组研究.,19, 92–105.[PMC免费文章][公共医学][谷歌学者]
绅士R.C。等（2004）生物导体：计算生物学和生物信息学的开放软件开发.基因组生物学.,5，R80。[PMC免费文章][公共医学][谷歌学者]
Godard P.、van Eyll J.（2015）基于microRNA列表的通路分析：常见陷阱和替代策略.核酸研究.,43, 3490–3497.[PMC免费文章][公共医学][谷歌学者]
Gusev Y.（2009）癌症中的MicroRNA谱分析：生物信息学视角《潘斯坦福出版社》，新加坡。[谷歌学者]
He L.，Hannon G.J.（2004年）MicroRNAs：在基因调控中发挥重要作用的小RNA.自然版本基因.,5, 522–531. [公共医学][谷歌学者]
姜强（音）。等（2009）miR2Disease：人类疾病中微RNA解除调控的人工管理数据库.核酸研究.,37, 98–104.[PMC免费文章][公共医学][谷歌学者]
乔希·托普。等（2005）反应组：生物途径的知识库.核酸研究.,33，D428–D432。[PMC免费文章][公共医学][谷歌学者]
Kanehisa M.，Goto S.（2000年）KEGG：基因和基因组京都百科全书.核酸研究.,28, 27–30.[PMC免费文章][公共医学][谷歌学者]
卡特里·P。等（2012）路径分析十年：当前方法和突出挑战.公共科学图书馆计算。生物.,8，e1002375。[PMC免费文章][公共医学][谷歌学者]
李S.Y。等（2012）以微RNA为中心的测量改进了共表达和差异表达微RNA簇的功能富集分析.BMC基因组学,13，第17章。[PMC免费文章][公共医学][谷歌学者]
Lim有限责任合伙。等（2005）微阵列分析表明，一些microRNA下调了大量靶mRNA.自然,433, 769–773. [公共医学][谷歌学者]
麦克伦登·R。等（2008）全面的基因组特征定义了人类胶质母细胞瘤基因和核心通路.自然,455, 1061–1068.[PMC免费文章][公共医学][谷歌学者]
米·G。等（2012）基于logistic回归的基因本体丰富分析中长度偏差修正.公共科学图书馆,7，e46128。[PMC免费文章][公共医学][谷歌学者]
Montaner D.、Dopazo J.（2010年）基因组数据的多维基因集分析.公共科学图书馆,5，e10348。[PMC免费文章][公共医学][谷歌学者]
蒙塔纳·D·。等（2009）功能分析背景下的基因集内部一致性.BMC基因组学,10, 197.[PMC免费文章][公共医学][谷歌学者]
穆萨等人（2003）参与氧化磷酸化的PGC-1α应答基因在人类糖尿病中协调下调.自然发电机.,34, 267–273. [公共医学][谷歌学者]
莫林R.D。等（2008）大规模平行测序在人类胚胎干细胞microRNA谱分析和发现中的应用.基因组研究.,18, 610–621.[PMC免费文章][公共医学][谷歌学者]
帕帕彼得鲁E.P。等（2010）哺乳动物造血干细胞miRNA功能单一和组合分析的遗传策略.干细胞,28, 287–296. [公共医学][谷歌学者]
罗宾逊医学博士。等（2010）edgeR：用于数字基因表达数据差异表达分析的Bioconductor软件包.生物信息学,26, 139–140.[PMC免费文章][公共医学][谷歌学者]
Sartor医学硕士。等（2009）LRpath：识别基因表达数据中丰富生物群的逻辑回归方法.生物信息学,25, 211–217.[PMC免费文章][公共医学][谷歌学者]
塞尔巴赫M。等（2008）微RNA诱导的蛋白质合成的广泛变化.自然,455, 58–63. [公共医学][谷歌学者]
Subramanian A。等（2005）基因集富集分析：基于知识的全基因组表达谱解释方法.程序。国家。阿卡德。科学。美国.,102, 15545–15550.[PMC免费文章][公共医学][谷歌学者]
魏凯。等（2013）精氨酸蛋白作为生理过程指挥中心的连接物.下巴。癌症研究杂志.,25, 430–441.[PMC免费文章][公共医学][谷歌学者]

文章来自生物信息学由以下人员提供牛津大学出版社