Transcript length bias in RNA-seq data confounds systems biology

Alicia Oshlack; Matthew J Wakefield

doi:10.1186/1745-6150-4-14

生物直接。2009; 4: 14.

2009年4月16日在线发布。数字对象标识：10.1186/1745-6150-4-14

预防性维修识别码：项目经理2678084

PMID：19371405

RNA-seq数据中的转录长度偏差混淆了系统生物学

艾丽西亚·奥什拉克¹和马修·威克菲尔德¹

作者信息文章注释版权和许可信息 PMC免责声明

摘要

背景

最近的几项研究证明了哺乳动物转录组分析（RNA-seq）的深度测序的有效性。随着RNA-seq变得越来越便宜，全基因组转录谱可能成为具有良好基因组序列物种的选择平台。到目前为止，还没有开发出严格的分析方法，我们仍处于探索数据特征的阶段。

结果

我们使用三个不同的公开数据集调查了RNA-seq数据中转录长度偏差的影响。对于使用每个基因的聚合标签计数进行的标准分析，调用样本间差异表达基因的能力与转录本的长度密切相关。

结论

调用差异表达基因的转录长度偏差是当前RNA-seq技术协议的一个普遍特征。这对差异表达基因的排序有影响，尤其可能会在通路分析和其他多基因系统生物学分析的基因集测试中引入偏差。

审阅者

这篇文章由罗汉·威廉姆斯（由加文·赫特利提名）、妮可·克罗南（由马克·拉根提名）和詹姆斯·布拉德（由桑德琳·杜多特提名）审阅。

背景

高通量测序很可能成为转录组分析的首选平台。测序平台查询整个转录环境的能力为了解生物系统中转录复杂性的水平提供了新的见解。转录测序也提供了新的机会，例如定量测量剪接变体[1]和单核苷酸多态性（SNPs）用于等位基因特异性表达，而无需任何先验知识。然而，这种新的细节水平需要仔细的统计建模，以提供新技术所承诺的好处。

不同的技术显示不同的数据特征，因此具有不同的优势和劣势。对数据的技术和统计属性的调查将揭示每种技术的优缺点。我们假设，使用统计方法检测样本之间的差异表达受到转录长度的影响，并且这种影响是标准RNA-seq过程固有的。

目前的RNA-seq协议在测序之前使用mRNA片段化方法，以获得整个转录物的序列覆盖率。简单来说，这意味着给定转录本的总读取次数与转录本的表达水平乘以转录本的长度成正比。换句话说，与表达相似的短基因相比，长转录本将具有更多的读映射。由于实验的威力与样本大小成正比，因此检测较长基因的差异表达的威力更大。这是数据的固有属性，不会被任何涉及对片段短于转录本的全长转录本进行排序的过程所改变。相比之下，微阵列的强度测量值仅与转录物的表达水平以及探针本身固有的任何特征（如GC含量）成正比[2,三]. RNA-seq数据中较长转录物的较高采样率的特征在识别样本之间差异表达基因的情况下变得重要。大多数用于检测差异表达的统计方法对读取次数较多的转录本具有更强的能力。因此，与同一样本中的长抄本相比，短抄本在统计上总是处于劣势。

在这里，我们探索了几个先前发布的高通量RNA测序数据集，并表明最广泛使用的RNA-seq协议与较短的转录物相比，可以检测到较长转录物中更多的差异表达。对于使用单个或一组诊断探针评估表达水平的微阵列平台，不存在这种偏见。我们还证明，在迄今为止所分析的所有实验中，无论是特定样本、平台还是统计分析，都存在此处提出的固有偏差。

结果

基于简化的计算，我们可以证明，使用非常简单的测试程序检测差异表达的能力取决于转录本的长度（参见方法）。为了实证研究RNA-seq和微阵列中转录长度偏差的影响，我们使用了三个不同的已发布数据集对全长转录进行排序。第一组数据比较了Illumina基因组分析仪和Illumiana微阵列的测序结果，并寻找人类胚胎肾脏和B细胞系之间的差异表达[4]. 第二种方法使用SOLiD测序比较小鼠胚胎干细胞和类胚体[5]第三个比较了Illumina测序和Affymetrix微阵列在人类肝脏和肾脏样本中的测序结果[6]. 为了确定哪些基因差异表达，每项研究都使用不同的统计方法计算显著性。在这里，我们使用这些统计数据来检查转录长度差异表达的行为。

对于每个平台，我们首先根据转录长度将所有基因装箱到相等的基因数箱中。接下来，我们根据相关出版物中定义的统计程序的截止值，将基因指定为差异表达（DE）。我们发现使用的特定统计截止值对结果没有实质性差异。然后，我们计算了每个箱子中DE基因的百分比图11显示了每个实验中绘制为RNA-seq和微阵列转录长度函数的DE基因百分比。显然，无论平台、统计分析程序或差异表达的总体比例如何，检测DE的能力与RNA-seq的转录长度密切相关（图1a、c和和1d）。1天). 正如预期的那样，来自两个不同平台的微阵列数据没有观察到这种趋势（图（图1b1亿和和1e第1页).

在单独的窗口中打开

图1

差异表达与转录长度的关系数据根据转录长度进行分类，并绘制使用统计截止值表示的差异转录百分比（点）。还绘制了线性回归曲线（直线）。一–e（电子）使用RNA-seq的所有数据和研究中的微阵列[4-6]分别是。（f）和克从微阵列数据中提取33%的高表达基因（蓝色交叉）和33%的低表达基因（红色三角形），用于分析出现在两个平台上的基因[6]. 回归显示了差异表达百分比与转录长度的显著趋势一,c（c）,d日和（f）和低表达基因克请注意，此图说明了不同实验之间的常见数据特征，而不是平台、方法或实验之间的比较。

为了进一步研究转录长度偏差，我们使用了Marioni等人（2008）的数据，并观察了RNA-seq和微阵列数据中出现的转录物。我们根据微阵列上测量的平均强度水平将基因分为三个相等的组。然后，我们计算了%DE作为高表达组和低表达组长度的函数（图（图1f1英尺和和1g）。1克). RNA-seq对低表达基因显示出更强的长度偏差，这在一定程度上有所改善，但对高表达基因来说仍然显著。我们认为高表达基因的斜率较低，因为几乎所有这些基因都有足够的能力在这个数据集中被称为差异表达，即使较短基因的p值较高。相比之下，使用微阵列平台未观察到高表达基因的显著趋势，而低表达基因的趋势很小。尽管对于RNA-seq，被称为DE基因的总数可能更大，但增加重复次数将增加微阵列检测到的DE基因的数量。对平台间DE绝对速率的仔细校准可能是进一步调查的主题，但此处确定的趋势与所使用的特定统计截止值相一致，并且对其稳健。

许多当前的统计方法都使用由基因长度归一化的表达水平度量。这提供了对表达水平的无偏测量，但也会以长度相关的方式影响数据的方差，从而导致对差异表达估计的相同偏差（参见玩具示例的方法）。为了证明这种效果，我们展示了从Marioni等人的数据的复制路线计算出的每个基因的样本平均值和方差。在图中图2a2a个我们证明了样本均值和方差近似等于泊松随机变量的期望值。然而，当平均值除以转录本的长度时，关系变得更加复杂，数据不再是泊松。图图2b2亿显示了相同的数据，每个转录本的标签计数除以转录本的长度。两条拟合曲线显示了三分之一具有最长转录本和最短转录本的数据的均值-方差关系。很容易看出，对于按长度归一化的基因，较短的转录物与较长的转录物相比，在相同表达水平下具有更大的差异。

在单独的窗口中打开

图2

均值-方差关系这里我们展示了Marioni等人的肝脏样本中跨车道的样本方差[6]数据绘制为每个基因平均值的函数（a）。接下来，我们有相同的数据，其中每个基因的标签数除以基因的长度（b）。红线拟合三分之一最短基因的均值和方差之间的线性关系，而蓝线拟合最长基因的线性关系。在绘图中一拟合非常接近平均值和方差之间的相等线（黑线），这是泊松过程的预期结果。在绘图中b条对于给定的表达水平，短基因比长基因具有更高的方差。

当在具有不同长度的基因或基因集之间进行比较时，RNA-seq数据中转录物长度偏差的后果变得最成问题。这最有可能发生在系统生物学中进行基因集测试时，与其他基因集相比，特定基因集具有长度偏差。如果一个集合包含的基因短于平均值，那么在差异表达中会出现低表达，而如果集合包含的是长于平均值的基因，那么在差别表达中该类别更有可能出现高表达。为了证明这种效应，我们使用Marioni等人的RNA-seq和微阵列数据寻找了过度代表的KEGG通路。在每次分析中，我们只使用两个平台上发现的基因，然后使用DAVID软件进行通路分析[7,8]. 我们发现肝脏和肾脏之间的差异表达有几个过度表达的途径。桌子表11和和22在p值0.1以下显示所有过度表达的通路（然而，经过多次测试校正后，只有前16个类别仍保留在微阵列数据中，其重要性与测序数据相同）。以粗体突出显示的类别不会在其他平台的列表中的任何位置出现过度显示。经过多次测试校正后，微阵列平台包含四条低于阈值0.1的通路，所有这些通路都可以在测序数据中找到。相比之下，RNA-seq数据包含九个类别，其中三个类别不包含在阵列数据的任何地方。图图3三显示了与每个类别相关的基因的长度。第一个方框显示了基因在两个平台上显著的路径中的分布。第二个框给出了仅在测序平台中出现显著的基因（即，不出现在阵列平台的列表中的任何位置），第三个框是分析中所有转录物的长度分布。可以清楚地看到，仅在RNA-seq平台上过度表达的类别中的基因明显长于平均值。

表1

使用微阵列过度表达KEGG通路。

期限	计数	流行歌曲	P值	本杰米尼
hsa04610：补体和凝血级联	54	68	2.36E-10型	5.44E-08年
hsa00980:细胞色素P450对外源物质的代谢	45	65	6.97E-06号	5.37E-04页
hsa00190：氧化磷酸化	74	121	5.83E-06号机组	6.73E-04号文件
hsa00120：胆汁酸生物合成	25	36	0.00126	0.0702

hsa00260：甘氨酸、丝氨酸和苏氨酸代谢	29	45	0.00246	0.107
hsa00591：亚油酸代谢	20	31	0.01496	0.252
hsa00380：色氨酸代谢	35	60	0.00764	0.255
hsa05010：阿尔茨海默病	19	29	0.0149	0.271
hsa00363:双酚A降解	11	14	0.0188	0.287
hsa00020：柠檬酸盐循环（TCA循环）	18	27	0.0148	0.291
hsa04514：细胞粘附分子（CAM）	65	126	0.0108	0.300
hsa00040：戊糖和葡萄糖醛酸相互转化	16	23	0.0141	0.305
hsa03320：PPAR信号通路	39	70	0.0125	0.305
hsa00650：丁酸代谢	26	45	0.0280	0.374
hsa00280：缬氨酸、亮氨酸和异亮氨酸降解	25	44	0.03995	0.425
hsa00361：γ-六氯环己烷降解	15	23	0.0379	0.428
hsa00903:柠檬烯和蒎烯降解	18	29	0.0360	0.432
hsa00230：嘌呤代谢	69	143	0.0472	0.462
hsa00071：脂肪酸代谢	25	45	0.0536	0.488
hsa00670：一个叶酸碳池	11	16	0.0622	0.524
hsa00620：丙酮酸代谢	23	42	0.0776	0.526
hsa00910：氮代谢	14	23	0.0874	0.529
hsa00010：糖酵解/糖异生	31	59	0.0666	0.531
hsa04330：Notch信号通路	25	46	0.0703	0.535
hsa00860：卟啉和叶绿素代谢	21	38	0.0857	0.535
hsa02010:ABC运输车–概述	24	44	0.0738	0.537
hsa00150：雄激素和雌激素代谢	28	53	0.0774	0.539
hsa00410：β-丙氨酸代谢	15	25	0.0838	0.541
hsa00052：半乳糖代谢	18	32	0.0996	0.554
hsa04614：肾素-血管紧张素系统	11	17	0.0977	0.559

在单独的窗口中打开

粗体的类别在RNA-seq数据中没有过度显示。

表2

使用Illumina测序过度表达KEGG途径。

期限	计数	流行歌曲	P值	本杰米尼
hsa04610：补体和凝血级联	60	68	2008年3月8日	2006年11月7日
hsa04910：胰岛素信号通路	96	133	1.06E-04号机组	0.0122
hsa00020：柠檬酸盐循环（TCA循环）	25	27	2.23E-04号机组	0.0170
hsa00120：胆汁酸生物合成	31	36	4.23E-04号机组	0.0242
hsa00071：脂肪酸代谢	37	45	5.35E-04号	0.0244
hsa00980:细胞色素P450对外源物质的代谢	50	65	7.29E-04日	0.0277
hsa00190：氧化磷酸化	85	121	0.001155	0.0374
hsa00310：赖氨酸降解	38	48	0.001627	0.0459
hsa04510：焦点粘连	128	196	0.004824	0.0966

hsa00051：果糖和甘露糖代谢	33	42	0.00463	0.102
hsa00650：丁酸代谢	35	45	0.00448	0.109
hsa04520：粘附连接	52	74	0.0129	0.171
hsa04810：肌动蛋白细胞骨架的调节	133	208	0.0116	0.175
hsa04912:GnRH信号通路	64	93	0.0109	0.177
hsa00010：糖酵解/糖异生	43	59	0.0110	0.177
hsa00230：嘌呤代谢	94	143	0.0128	0.180
hsa00280：缬氨酸、亮氨酸和异亮氨酸降解	33	44	0.0147	0.183
hsa05010：阿尔茨海默病	23	29	0.0200	0.228
hsa00620：丙酮酸代谢	31	42	0.0262	0.253
hsa05210：结直肠癌	57	84	0.0250	0.254
hsa00260：甘氨酸、丝氨酸和苏氨酸代谢	33	45	0.0241	0.256
hsa04514：细胞粘附分子（CAM）	82	126	0.0285	0.262
hsa04670：白细胞跨内皮细胞迁移	74	113	0.0315	0.275
hsa00220：尿素循环与氨基代谢	23	30	0.0359	0.297
hsa04360:Axon指南	81	126	0.0429	0.313
hsa04370:VEGF信号通路	47	69	0.0401	0.315
hsa05120：幽门螺杆菌感染中的上皮细胞信号传导	47	69	0.0401	0.315
hsa00052：半乳糖代谢	24	32	0.0448	0.315
hsa00480：谷胱甘肽代谢	27	37	0.0495	0.315
hsa00903:柠檬烯和蒎烯降解	22	29	0.0488	0.319
亨廷顿舞蹈症	22	29	0.0488	0.319
hsa03320：PPAR信号通路	47	70	0.0549	0.327
hsa00380：色氨酸代谢	41	60	0.0535	0.328
hsa05211：肾细胞癌	45	67	0.0605	0.330
hsa00591：亚油酸代谢	23	31	0.0596	0.333
hsa01510：神经退行性疾病	28	39	0.0585	0.336
hsa00410：β-丙氨酸代谢	19	25	0.0717	0.356
hsa00363:双酚A降解	12	14	0.0691	0.360
hsa00640：丙酸盐代谢	24	33	0.0712	0.361
hsa00860：卟啉和叶绿素代谢	27	38	0.0752	0.363
hsa00740：核黄素代谢	13	16	0.0932	0.424
sa00770：泛酸和CoA生物合成	13	16	0.0932	0.424
hsa04530：紧密连接	81	130	0.0991	0.429

在单独的窗口中打开

粗体的类别在微阵列数据中没有被过度表示。

在单独的窗口中打开

图3

KEGG通路中发现的基因长度显著高于差异表达基因图中的第一个方框表示在两个平台的四个重要类别中发现的基因长度。第二个方框是仅在测序数据中显著类别中发现的基因长度。第三个方框是这两种技术共有的所有基因的长度。可以看出，测序数据特有的类别往往具有更长的转录本。

讨论

RNA-seq数据中的转录长度偏差是采样过程的可预测结果，不能通过除以转录长度来校正（例如Cloonan等人（2008）或Sultan等人（2008）中的统计方法）。泊松随机变量的长度偏差是预期的，其中基因的预期读取计数与转录本的长度和表达水平成正比。换句话说，与短基因相比，长基因的采样率更高，因此无论使用何种特定测试，在给定的统计显著性下检测差异表达的能力更强。检测样本间差异表达的统计检验需要估计样本的平均值和方差。将平均值除以成绩单的长度可以消除该度量的偏差，但随后会将长度偏差引入方差中，问题仍然存在。类似地，与微阵列一样，对于高表达水平的基因，检测差异表达的能力更强。然而，我们在这里并没有关注这一现象，因为我们认为与转录长度偏差相比，表达水平是一个具有生物学意义的数量，而转录长度偏差是技术性的。

高通量测序可以使用不同的处理方法来确定转录水平，例如大规模并行签名测序（MPSS）、基因表达序列分析（SAGE）、基因表达式帽分析（CAGE）。这些方法只计算每个转录本的一个序列，因此不会受到转录长度的影响。然而，在许多情况下，研究人员希望通过对整个RNA序列进行测序来检查转录组的全部复杂性，因此我们推测这些无偏见的方法将构成RNA-seq实验的一小部分。由于片段大小是转录长度偏差的基础，而不是读取的碱基数，因此当前平台上读取长度的改进不会改变转录长度偏差。

使用外显子水平分析作为减少转录长度范围的一种方法可能不会显著减少偏差。虽然在查看人类基因组中基因和外显子的长度时，基因的长度明显长于外显子，但对数中的四分位间距（IQR）₂长度相似（基因IQR=1.45，外显子IQR=1.23）。这意味着长度加倍的基因数量与长度加倍的外显子数量相似，这意味着偏见也同样强烈。扩大测序深度将提高检测差异表达的能力。然而，由于转录长度偏差是基因之间的相对度量，因此不会影响呈现的结果。

目前，我们建议的解释基因间长度偏差的唯一方法是使用固定长度窗口方法，窗口大小小于最小的基因。在这种方法中，可以计算每个窗口的聚集标记数，并评估差异表达。进一步的扩展可以将每个转录本的多个窗口组合成一个单一的度量，方法类似于在RMA微阵列算法中组合多个探针[9]但这一建议需要进一步探索和分析。尽管如此，由于需要在窗口级别进行分析，这将需要丢弃部分数据或为每个基因引入可变数量的窗口。此外，窗口的较小尺寸将需要每个样本的较大总读取次数，以实现统计显著性，从而在以基因为中心的分析中降低到小基因的等效水平。

重要的是要理解，使用统计截止值从聚集的标签计数生成DE基因列表，不可避免地会对具有较长转录本的基因更加敏感。因此，包含具有不同长度分布的基因的基因集和本体类在基因集测试中可能看起来被错误地低估或高估。由于基因集测试是许多系统生物学实验和大型生物医学项目（如国际癌症基因组联合会）的一个组成部分，因此长度偏差将显著影响目前正在使用RNA-seq的许多应用。将需要复杂的统计方法来开发一个新的分析框架，为不同的转录长度提供类似的错误发现率。

结论

目前可用的RNA-seq和微阵列技术的不同优势使得这些平台对转录组的综合分析具有互补性。使用高通量测序来询问全长转录物的一个技术特征是，相对于类似表达的短转录物，较长的转录物产生更多的读数。这种更高的抽样意味着，与短转录本相比，长转录本检测差异表达的统计能力更强。使用三个已发布的RNA-seq数据集，我们已经证明，正如我们假设的那样，更长的转录物更有能力检测差异表达。这些数据集使用不同的样本、平台和统计方法。这种偏差在微阵列数据中不存在。如果无法解释，检测差异表达能力中的转录长度偏差可能会混淆系统生物学和基因集测试方法。了解新技术中的技术问题将导致开发更复杂的分析方法。

方法

在这里，我们表明，在一些非常简单的假设下，当测试给定表达水平的两个样本之间的差异时，较长的基因比较短的基因更重要。让X（X）是图书馆中与特定成绩单对应的读取次数。的预期值X（X）与转录本总数成比例N个乘以基因的长度L（左）

其中c是比例常数。假设数据分布为泊松随机变量，则方差等于平均值。

例如，我们可以使用t检验来测试相同库大小的两个样本之间特定基因计数的差异是否与零显著不同

(1)

哪里D类是两个样本的观测平均值之差瑞典（D）是的标准误差D类.

t检验的功效取决于E（D）/S.E.（D）=δ本质上是t分布的非中心性参数

可以看出，这与长度的平方根成正比。因此，对于给定的表达水平，测试对于更长的转录长度更为重要。

按基因长度除法

考虑到上面的简单设置，我们可以看到表达水平除以基因长度的效果。在这里

和

鉴于我们假设X（X）作为泊松随机变量分布，我们可以看到，一旦我们除以长度，分布就不再是泊松分布μ' ≠变量(μ').

使用上述t检验的相同格式，我们发现我们恢复了等式1中相同的长度相关性。

哪里

t检验的威力再次取决于E（D）/S.E.（D）=δ哪里

我们得到了与等式1相同的测试结果，等式1仍然有平方根L（左）依赖。

经验数据

对所提交的三项研究中的每一项都下载了经过处理的数据。每个数据集包含一个基因ID和样本间差异表达的统计测试结果。每个数据集使用不同的统计测试。简要介绍：Marioni等人[6]根据每个基因的总标签数，使用泊松模型对Illumina基因组分析仪的32 bp读数进行建模。然后使用似然比检验检验样本之间的显著差异。Cloonan等人[5]从SOLiD测序机生成25-35 bp的标签。每个转录本的总标签数除以转录本的长度。然后对数据进行分位数标准化和对数₂-改变了。然后使用经验Bayes调节t检验评估差异表达[10]. 读取长度为27bp的Illumina测序数据由Sultan等人产生[4]每个基因的聚集标签数除以转录本中发现的独特27米的数量。然后，他们使用了一种基于Audic和Claverie提出的每个库的计数比例的方法[11]确定差异表达的显著性。

使用BioMart下载所有人类转录物和小鼠转录物的转录长度，并将基因长度计算为与该基因相关的所有转录物的中间长度。然后根据一个任意的统计截止值，将每个基因定义为差异表达或非差异表达。改变这个截止值对结果没有质量差异。对于Marioni等人（2008）的数据，RNA-seq平台和微阵列平台之间的基因匹配。然后根据平均对数将这些基因分为三个大小相等的组₂研究中六种微阵列的表达水平。图形中使用了高表达组和低表达组图1f第1页和和1g1克.

缩写

DE：差异表达；IQR：四分位范围。

竞争性利益

作者声明，他们没有相互竞争的利益。

作者的贡献

AO和MJW构思了这个想法并撰写了论文。AO分析了数据。

审核人意见

审阅者报告1

罗汉·威廉姆斯，澳大利亚国立大学约翰·科廷医学研究院，澳大利亚。由加文·哈特利提名

RNA-Seq和相关的高通量测序由于其以无偏见的全球方式调查转录组的潜力而受到广泛关注。虽然这些基于测序的方法可能会在基于微阵列的技术上取得重大进展，但这些数据中也很可能存在意料之外的系统性错误，需要进行纠正，以便进行适当的应用。虽然已知表达微阵列和平铺阵列会受到许多此类影响，但迄今为止，对新兴RNA-Seq文献中的问题几乎没有进行调查。Oshlack和Wakefield现在对最近几项RNA-Seq研究的数据进行了重新分析，表明差异表达的鉴定正向偏向于较长的转录物（并有可能在功能水平上影响下游解释）。虽然人们认识到标签计数与表达水平和转录长度的乘积成正比，但调整转录长度并不能消除这种影响：作者表明，这种影响是由于短转录的方差增加所致。他们进一步认为，这种影响不太可能通过外显子水平的分析消除。有趣的是，这种效应在微阵列表达平台中并不明显。这篇论文对RNA序列分析方法的不断发展做出了重要贡献，我建议将其发表在《生物学直通》上。

审查报告2

Nicole Cloonan，澳大利亚昆士兰大学分子生物科学研究所。马克·拉根提名

本文作者描述了RNAseq数据中的“转录长度偏差”，即使用“鸟枪测序”方法检测短mRNA与长mRNA差异基因表达的统计能力降低。由于随机片段的mRNA分子对短转录物产生的短阅读标签少于长转录物，因此两个（相对）采样较差的转录物之间的表达变化在采样噪声中不太明显。作者检查了三项已发表的基于鸟枪测序的研究，以表明测序数据中存在这种偏差，但来自相同样本的相应微阵列数据中不存在这种偏差。这种对短转录物的偏见可能导致短基因丰富功能类别（如细胞间通讯、先天免疫和信号转导）的基因集测试中出现普遍的低表达。这是RNA测序界需要注意的一项重要发现。

手稿通常写得很好，作者在没有经过专门的数学或统计培训的情况下，很好地创造了一份生物读者可以理解的手稿。由于我对这份手稿的所有（通常是次要的）担忧都得到了充分的解决，我建议出版这份手稿。

审阅者报告3

James Bullard，美国加州大学伯克利分校公共卫生学院生物统计学系，由Sandrine Dudoit提名

在Oshlack和Wakefield中，作者在三项已发表的研究（Marioni等人、Cloonan等人、Sultan等人）中证明了基因长度与统计检验的观察显著性之间的关系。作者证明，当使用微阵列时，在马里奥尼研究中对相同样本的分析中，这种观察到的趋势并不存在。这种“偏差”是由于方差对阅读过程强度的依赖性，阅读过程强度与测序的转录本长度成正比。

审稿人建议发表这篇文章，因为提出的问题既相关又重要。特别是，随着大量高通量测序研究的出现，提出的问题非常相关。评论员认为，在目前的形式下，这篇文章将从一些修改中受益，要么更严格地呈现数学，要么只是简单地呈现冒犯性研究中描述的统计数据。

背景：第2段，“我们假设……”你为什么假设？我认为这句话需要参考特定的测试统计数据，那么你真的不需要假设任何事情。

作者的回答：我们认为文章中的陈述与我们所述假设下的所有统计分析方法有关，但我们没有也确实无法测试所有可能的方法。因此，我们使用了“假设”一词，但在方法部分也给出了一个示例.

背景：第3段，“所有检测……的方法”这句话看起来有点强烈吗？

作者回复：我们将其修改为“大多数统计方法……”

结果：第2段，你能评论一下为什么“长度偏差”对低表达基因更强吗？此外，我认为最好是在图上显示所有数据，而不是排除中间的箱子。

作者的回答：我们添加了一句话：“我们认为高表达基因的斜率较低，因为我们观察到，几乎所有这些基因都有足够的能力在这个数据集中被称为差异表达，即使较短基因的p值较高。”

结果：第3段，在均值-方差图中，你如何计算方差？这只是样本方差吗？跨车道计数的不同数量如何？对于面板（2），在我们除以长度后，我们没有泊松，因此均值-方差图是不正确的，或者至少对它的正确解释是不明显的（很明显，我们会导致图上的偏移，因为我们现在是按长度平方缩放的，不是吗？）

作者的回答：是的，这正是我们想要表达的观点。该图本质上更具启发性，而不是任何严格的证据，证明除以长度并不能消除长度偏差。因此，我们只是使用了样本方差，而没有考虑车道上不同数量的计数作为视觉演示。为了澄清，我们还添加了一句话：“然而，当平均值除以转录本的长度时，关系变得更加复杂，数据显然不再是泊松”

结果：第4段，一个潜在的“更好”图是从KEGG p值最大到最小排序的箱线图（基因长度）；用于微阵列和测序数据。

作者回应：谢谢你的建议。我们觉得你建议的情节解释起来有点复杂.

方法：第1段，数学有点马虎。一般来说，随机变量和参数之间存在混淆。具体来说，我注意到两个明显的错误：1.）t吨被定义为一个事物（方程（1）rhs上的随机变量），然后被重新定义为另一事物（rhs上以下定义的参数）。2.）方法：第2段，μ'是一个参数，然后执行变量（μ'）这是不正确的，你可能想X’相反，你可以计算方差。

作者回复：谢谢你指出这一点。我们修改并整理了数学.

从你的处理来看，我可以将t除以√L来消除测试统计中对L的依赖性，这是正确的吗？

作者回应：不，我认为这是不可能的。t检验类似于信噪比，因此在平均值估计值和估计值标准误差之间具有特定关系。我认为这不应该通过将平均值的估计值除以√L来打破.

鸣谢

我们感谢Gordon Smyth和Matthew Young对统计分析的建议。我们感谢Marioni等人公开了他们的所有数据和分析脚本，感谢Sean Grimmond提供了他们发布的数据。我们感谢Yoav Gilad、Tony Papenfuss、Mark Robinson、Matthew Young、Gordon Smyth和Terry Speed批判性地阅读了之前版本的手稿。

工具书类

Wang ET、Sandberg R、Luo S、Khrebtukova I、Zhang L、Mayr C、Kingsmore SF、Schroth GP、Burge CB。人类组织转录体中的替代亚型调控。自然。2008;456:470–476. doi:10.1038/nature07509。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Dunning MJ、Barbosa-Morais NL、Lynch AG、Tavare S、Ritchie ME。Illumina数据分析中的统计问题。BMC生物信息学。2008;9：85.网址：10.1186/1471-2105-9-85。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Wu Z，爱尔兰共和国。受短寡核苷酸阵列杂交理论启发的随机模型。计算机生物学杂志。2005;12:882–893. doi:10.1089/cmb.2005.12.882。[公共医学] [交叉参考][谷歌学者]
Sultan M、Schulz MH、Richard H、Magen A、Klingenhoff A、Scherf M、Seifert M、Borodina T、Soldatov A、Parkhomchuk D等。通过人类转录组的深度测序对基因活性和选择性剪接的全球观点。科学。2008;321:956–960. doi:10.1126/science.1160342。[公共医学] [交叉参考][谷歌学者]
Cloonan N、Forrest AR、Kolle G、Gardiner BB、Faulkner GJ、Brown MK、Taylor DF、Steptoe AL、Wani S、Bethel G等。通过大规模信使核糖核酸测序进行干细胞转录组分析。自然方法。2008;5:613–619. doi:10.1038/nmeth.1223。[公共医学] [交叉参考][谷歌学者]
Marioni JC、Mason CE、Mane SM、Stephens M、Gilad Y.RNA-seq：技术再现性评估和与基因表达阵列的比较。基因组研究。2008;18:1509–1517. doi:10.1101/gr.079558.108。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Huang da W、Sherman BT、Lempicki RA。利用DAVID生物信息学资源对大基因列表进行系统和综合分析。国家协议。2009;4:44–57. doi:10.1038/nprot.2008.211。[公共医学] [交叉参考][谷歌学者]
Huang da W、Sherman BT、Lempicki RA。生物信息学富集工具：大型基因列表综合功能分析的途径。核酸研究。2009;37：1–13.doi:10.1093/nar/gkn923。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Irizarry RA、Hobbs B、Collin F、Beazer Barclay YD、Antonellis KJ、Scherf U、Speed TP。高密度寡核苷酸阵列探针水平数据的探索、规范化和总结。生物统计学。2003;4:249–264. doi:10.1093/biostatistics/4.2.249。[公共医学] [交叉参考][谷歌学者]
Smyth GK公司。用于评估微阵列实验中差异表达的线性模型和经验贝叶斯方法。统计应用基因分子生物学。2004;三：第3条。[公共医学][谷歌学者]
Audic S，Claverie JM。数字基因表达谱的意义。基因组研究。1997;7:986–995.[公共医学][谷歌学者]

来自的文章生物学指导由以下人员提供BMC公司

RNA-seq数据中的转录长度偏差混淆了系统生物学

艾丽西娅·奥什拉克

马修·威克菲尔德

摘要

背景

结果

结论

审阅者

背景

结果

表1

表2

讨论

结论

方法

按基因长度除法

经验数据

缩写

竞争性利益

作者的贡献

审核人意见

审阅者报告1

罗汉·威廉姆斯，澳大利亚国立大学约翰·科廷医学研究院，澳大利亚。由加文·哈特利提名

审查报告2

Nicole Cloonan，澳大利亚昆士兰大学分子生物科学研究所。马克·拉根提名

审阅者报告3

James Bullard，美国加州大学伯克利分校公共卫生学院生物统计学系，由Sandrine Dudoit提名

鸣谢

工具书类