Correction of technical bias in clinical microarray data improves concordance with known biological information

Aron C Eklund; Zoltan Szallasi

doi:10.1186/gb-2008-9-2-r26

基因组生物学。2008; 9（2）：R26。

2008年2月4日在线发布。数字对象标识：10.1186/gb-2008-9-2-r26

PMCID公司：项目经理2374720

PMID：18248669

临床微阵列数据中技术偏差的纠正提高了与已知生物信息的一致性

Aron C Eklund公司^1,²和佐尔坦·萨拉西^1,²

作者信息文章注释版权和许可信息 PMC免责声明

关联数据

补充资料: 附加数据文件1八个任意选择的癌症数据集[8-12]测试强度相关偏差。对于每个数据集，使用RMA、MAS5、MBEI和GCRMA归一化算法从原始数据计算表达式值。无论采用何种归一化算法，都存在强度相关偏差，PSQN降低了这种偏差。
gb-2008-9-2-r26-S1.pdf（778K）
GUID:C8BA769E-6818-4FC3-B90A-B7731C3DEC9A

简短摘要

提出了一种方法来纠正临床微阵列数据中的技术偏差，这增加了与已知生物学关系的一致性。

摘要

基因表达微阵列的性能已经用对照参考样品进行了很好的表征，但在临床样品上的性能仍然不太清楚。我们确定了影响许多基因的技术偏见的来源，从而导致临床数据集中的虚假相关性以及基因和临床变量之间的虚假关联。我们开发了一种方法来纠正临床微阵列数据中的技术偏差，这增加了与多个数据集中已知生物学关系的一致性。

背景

大规模并行测量技术的引入，如基因表达微阵列，导致了实验设计中备受争议的范式转变[1]. 当对单个生化实体进行量化时，通常会包括复制品和仔细选择的对照品，如校准曲线，这会增加测量有效性的信心。然而，由于微阵列的费用相对较高，且起始材料稀缺，许多微阵列数据集的特点是每个样本只有一个测量值。除了财政压力外，这种方法的主要理由是，一个概念是，在给定基因芯片上的大量或所有探针的总体行为提供了与微阵列上任何给定探针相关的系统测量偏差的可靠估计。例如，广泛使用的微阵列归一化方法基于这样的假设：如果给定芯片上的平均探针强度往往比其他芯片上的更亮，那么任何给定探针的估计表达值都会被高估；因此，必须相应地调整较亮芯片上的单个探针强度，使平均强度与其他芯片一致。

以尖峰或混合物为特征的受控参考数据集证明了测量中高精度的可能性，并对归一化算法和分析技术的比较具有价值[2-4]. 然而，尚不清楚这些数据集是否代表了真实的临床数据，或者在这些数据集上表现良好的算法在临床数据上是否也表现良好。

结果和讨论

在大多数临床微阵列数据集中，对真实表达水平知之甚少，如果没有这些参考点，很难评估数据转换或统计方法的有效性。然而，一个可能的标准是，取自同一肿瘤的多个样本应该比取自其他肿瘤的样本更相似。在Signoretti之前发布的一组乳腺癌数据中等. [5]在Affymetrix HG-U95Av2阵列上对98个手术标本进行了轮廓分析。其中，18个样本形成9个重复对，其中两个样本取自同一冷冻块的相邻切片[5]. 使用稳健的多阵列平均（RMA）算法对这些数据进行规范化后[6]，我们执行了层次聚类，发现九个复制对中只有四个聚集在一起（图（图1a1a个).

保存图片、插图等的外部文件。对象名称为gb-2008-9-2-r26-1.jpg

在单独的窗口中打开

图1

在一项大型乳腺癌微阵列研究中，偏差校正提高了重复数据的一致性。进行层次聚类，并使用正确配对（在最低节点连接）的重复样本数量作为一致性的度量。树状图下面的颜色表示从单个肿瘤样本中提取每对重复样本，黑色方块表示从正常乳房中提取样本。（a）未经过滤、未经校正的数据只会导致九对复制对中的四对同时出现。（b）筛选出所有差异最大的前100个基因之外的所有基因，结果是所有9对基因聚集在一起。（c）本文中描述的偏差校正也会导致所有九个复制对聚集在一起，但在这种情况下，所有基因都会保留。（d）通过方差过滤获得的一致性对保留的基因数很敏感。通常，随着严格程度的增加，筛选出低方差探针集会增加重复样本对之间的一致性。

为了增加聚集在一起的复制对的数量，我们尝试了各种阈值来筛选出低方差基因。这种常见做法旨在通过删除样本间基本不变的基因来减少噪音[7]. 正如预期的那样，我们发现使用越来越严格的阈值会产生更多聚集在一起的复制对（图（图1d）。1天). 当我们删除了除最可变的100个基因外的所有基因后，9个复制对中的每一个都聚集在一起（图（图1b）。1亿). 令人满意的是，七个正常（非肿瘤）样本也聚集在一起，这在未经过滤的数据中是没有发生的。因此，至少在这个数据集中，对表达数据进行强过滤会产生更准确地反映样本之间已知关系的树状图。如果目标是提取稳健的临床标记物，则这种筛选可能是合适的。然而，对于其他类型的分析（例如，当寻找关于具有已知生物功能的预定基因集的信息时），这种极端过滤可能会消除有价值的信息，在这种情况下，纠正噪声数据比去除噪声数据更可取。

虽然树状图很可能是由原始未过滤数据生成的（图（图1a）1a个)我们假设复制对的破坏是由过滤出的基因中的噪声引起的伪影。如果这种噪音完全是随机的，那么过滤掉基因将是减少噪音的唯一方法。然而，如果噪声有系统的偏差，则可能描述偏差并纠正测量的表达值。值得注意的是，如果偏差以协调的方式影响足够大的基因子集，即使是少量的系统偏差也会对聚类产生重大影响。

因此，我们在Signoretti数据集中寻找系统性偏差的证据。我们预计，任何系统偏差都会影响具有某些共同特征的基因子集，而不是基因的随机子集。这样的偏倚会倾向于增加这个亚群中的基因对之间的明显相关性。通过可视化成对探针集之间的相关性，作为强度的函数，我们观察到强度相关偏差（图（图2a）。2a个). 值得注意的是，我们检查的所有数据集中都存在这种强度相关偏差[8-12]并没有通过将RMA规范化替换为Microarray Suite 5（MAS5）、基于模型的表达指数（MBEI）而得到改善[13]或基因芯片稳健多阵列平均（GCRMA）归一化[14]（附加数据文件1）。重要的是，在汇总后分位数归一化（PSQN）后，偏差基本上无法检测到，PSQN是一个二级归一化步骤，为每个样本提供相同的表达值分布，证明偏差与强度分布有关，并且不反映生物学相关的基因关系（附加数据文件1）。此外，应用于未过滤Signoreti数据集的PSQN将成对复制的数量从四个（九个）增加到五个（未显示数据）。

保存图片、插图等的外部文件。对象名称为gb-2008-9-2-r26-2.jpg

在单独的窗口中打开

图2

成对基因之间以及基因与偏差度量之间的伪强度相关。探针集按平均值进行排序，并分为50个箱子，每个箱子大约有250个探针集。对于每对可能的箱子，探测集之间的中值相关系数用颜色表示。因此，彩色区域的存在表示成对探针组之间的强度相关偏差。（a）在未修正的数据中，给定一对探测集之间的相关性受到每个探测集的平均表达式值的影响。例如，两个平均高表达的探针集更有可能比偶然预期的正相关。（b）在偏差校正数据中，相关偏差减小。

由于PSQN仅部分解决了Signoretti数据中重复数据的误聚类问题，我们试图了解偏差的潜在原因。两种变异来源，即杂交过程中产生的变异和起始RNA固有的变异，似乎特别可能以协调的方式影响许多探针组。在杂交过程中，探针子集容易受到高强度饱和或低强度噪声地板引起的非线性效应的影响[15]. 对于这些探针，与线性状态下的探针相比，目标浓度的变化对探针强度的影响较小。因此，如果样品以稍微不同的浓度加载到阵列上，或者在稍微不同的条件下进行杂交或清洗，任何后续的归一化都可能会过度校正非线性范围内的探针，而对线性范围内的探头校正不足。使用多个探针和稳健的归一化方案可能会减少这些非线性探针的影响，但我们观察到的强度相关偏差（图（图2a）2a个)表明许多不考虑系统偏差的归一化方案在某些情况下可能是不够的。

第二个潜在的偏差来源是起始RNA的质量和数量可变，这在以手术样本为特征的数据集中可能特别有问题[16]. 为了使单个转录物有助于测量信号，它必须在微阵列探针靶向区域和poly-A尾部之间完好无损，而参与Eberwine型扩增/标记步骤的聚合酶必须在整个距离内完成其过程。因此，mRNA完整性或聚合酶加工性的任何变化都应通过与探针靶点和3'poly-a尾部之间的碱基数量成比例的因素影响测量强度。此外，起始mRNA的数量可变可能会影响扩增cRNA的最终多样性，因此起始mRNA较少的样本往往具有较少的可靠测量基因，因此具有较高的信噪比。

在我们当前的分析中，我们假设一组四个指标可以表征影响数据集中每个样本的相对偏差量。为了捕捉原始探针强度的饱和度和噪声基底，我们使用了阵列上完美匹配探针的中值和四分位间距（IQR）（“PM中值”和“PM IQR”）。通过5’探针和3’探针之间表达的平均减少（“降解”）来评估RNA降解的影响。最后，通过RMA汇总表达值的IQR（“RMA IQR”）来表征起始mRNA的多样性。

在Signoretti数据集中，四个偏差度量中的每一个都与比预期的更多探针集的表达式值相关（图（图3）。三). 当应用于多元线性回归中的基因表达载体时，四个偏差指标解释了33%的方差，而一组随机向量预计解释了4%。探针集和偏差度量之间的相关性强烈依赖于强度，因此可能是强度相关偏差的来源（图（图4）。4). RMA IQR和降解偏差指标共同解释了样本距离矩阵中44%的方差，表明图中所有基因的树状图图1a1a个主要是由技术偏见驱动的。

保存图片、插图等的外部文件。对象名称为gb-2008-9-2-r26-3.jpg

在单独的窗口中打开

图3

许多探针集的表达值与四个偏差度量中的每一个相关。对于每个偏差度量，密度曲线表示偏差度量和每个探针集的表达式值之间的皮尔逊相关系数分布。四条黑色曲线（显示为一条）表示每个探针集的表达式值与每个偏差度量的100个随机排列之间的相关系数分布。

保存图片、插图等的外部文件。对象名称为gb-2008-9-2-r26-4.jpg

在单独的窗口中打开

图4

根据平均基因强度，基因和偏差度量之间的相关性是非随机分布的。对于乳腺癌数据集中的每个探针集，我们计算了平均强度（所有98个样本）和与偏差度量的相关性（也包括所有98个样品）。所有12625个探针组的值汇总为四个偏差度量中每一个的二维直方图：（a）项目经理IQR；（b）RMA IQR；（c）PM中值；和（d）退化。

由于偏差指标没有对应任何可用的临床协变量（激素受体状态、HER-2扩增、肿瘤分级），我们删除了由偏差向量解释的表达矩阵的组成部分（见材料和方法）。由此产生的偏差校正数据的强度依赖性相关偏差大大降低（图（图2b），2亿)，当我们对其进行层次聚类时，我们发现所有九个复制都聚集在一起（图（图1c）。1c个). 在具有两对重复数据的单独胶质瘤数据集中[17]，相同的过程也增加了聚集在一起的对的数量（图（图5）。5). 因此，这种偏差校正方法似乎可以改进层次聚类和样本之间已知关系之间的对应关系，而不会过滤掉大多数基因。

保存图片、插图等的外部文件。对象名称为gb-2008-9-2-r26-5.jpg

在单独的窗口中打开

图5

偏差校正提高了胶质瘤基因表达研究中重复数据的一致性。分层聚类如图1所示。（a）未过滤、未更正的数据将导致两个复制对都不在一起。（b）本文所述的偏差校正导致两个重复对中的一个聚集在一起。

为了研究偏差校正对单基因分析的影响，我们以乳腺肿瘤的雌激素受体（ER）状态为参考点[7]. 由于在许多数据集和多个微阵列平台上观察到ER阳性和ER阴性亚型，因此在足够大的数据集之间，ER状态和任何给定基因表达水平之间的相关性应相对良好。相关性相关性（CC）是一种衡量数据集与另一数据集之间基因-表型关联一致性的指标[18]. 我们计算了五组乳腺癌患者数据集之间的成对CC(n个范围99-289）、通用平台（Affymetrix HG-U133A）和ER状态注释[8-10,12,19]. 偏差消除将平均CC从0.70增加到0.76，尽管并非所有数据集都得到了改善（图（图6a）。第6页). 值得注意的是，最初CC较低的数据集对从偏差校正中受益最多。在最极端的情况下，经过偏差校正后，两个数据集之间的CC从0.55增加到0.76（图6b、c).

保存图片、插图等的外部文件。对象名称为gb-2008-9-2-r26-6.jpg

在单独的窗口中打开

图6

偏差校正增加了五项乳腺癌临床研究中ER状态相关性的一致性。（a）在偏差校正前后，为每对可能的数据集绘制CC系数。最大的改进（用红色圆圈表示）是在Sotiriou的数据集之间等[19]和米勒等. [9]. 对于这两个数据集，二维直方图表示所有探针集的表达值和ER状态之间的相关系数分布（b）使用未修正的数据和（c）偏差校正后。

作为偏差校正方法的替代方法，我们考虑了批量调整，即调整表达式矩阵，每次设置一个探针，以消除批次之间平均值的任何差异。根据CEL文件中嵌入的扫描日期，我们推断Signoreti乳腺癌数据分三批扫描。我们对该数据集进行了批量调整，发现正确配对的重复数从四个增加到五个（数据未显示）。因此，在这个数据集上，批量调整不如我们的偏差校正方法有效。本研究中使用的其他数据集均以相对较大的批次进行扫描（中位数为14；范围为8-31），因此未尝试进行批次调整。

结论

各种分析方法都容易受到技术偏差引起的错误的影响。对于单个基因的简单分析（例如，检测先前定义的组之间差异表达的基因），技术偏见可能表现为未建模因素，使显著性测试复杂化[20]. 然而，如果偏差指标与感兴趣的生物或临床变量相关，则很难将偏差效应与生物相关效应分开。强相关性可能表明样本组是在不一致的条件下采集或处理的，这种情况应该避免[21].

更复杂的分析根据基因的协同表达推断出基因之间的功能关系[22]. 这种方法可能对技术偏差特别敏感，因为技术偏差对多个探针集的协同作用会导致这些探针集之间的虚假相关性。另一方面，对多个基因的协同偏倚也会影响样本之间的相关性，因此具有不同偏倚水平的两个样本可能具有非常不同的表达谱。我们已经证明，这种偏差会影响样本聚类，但其他可视化方法，如主成分分析，也可能会发生类似的失真（数据未显示）。类似地，最近的工作表明，从基因表达数据重建细胞网络会受到归一化过程中引入的伪影的强烈影响[23].

我们发现，技术偏差会对临床微阵列数据产生重大影响，我们的结果表明，在任何分析中，都应该对其进行纠正，或至少将其视为潜在的混淆效应。我们提出了一种简单的方法来校正有偏差的数据，但它可能并不适用于所有数据集。我们对偏差指标的选择是基于对微阵列数据生成过程的考虑，但其他变量，例如用于证明排除外围阵列的变量，也可能量化技术偏差[24]. 随着更多具有已知生物学关系的临床数据集（例如重复数据）可用，将有可能探索更复杂的模型来进行偏差校正。

材料和方法

所有分析均使用R统计环境进行[25]，使用Bioconductor的“affy”包装[26]. 使用RMA分别对每个数据集进行规范化/汇总[6]，除非另有说明。所有相关性均为皮尔逊生产-时刻相关性。采用完全连锁和皮尔逊相关距离进行层次聚类。我们的网站上提供了一个实现我们方法的R包，以及复制我们结果的原始数据和脚本[27].

摘要后分位数归一化

通过对所有样本的排序表达式值求平均值来计算参考分布。然后，对于每个样本，原始的表达值被以相同顺序的参考分布的表达值替换，领带随机断裂。这将导致数据集中的所有样本具有完全相同的表达式值分布。

强度相关偏差

首先n个根据平均表达值对表达矩阵的行（探针集）进行排序。然后将这些行分成50个大小大致相等的箱子。因此，第一个箱子包含n个/50个平均信号最低的探针组，最后一个箱子包含n个/具有最高平均信号的50个探针组。对于每对可能的箱子(n个/50) × (n个/50）计算两两皮尔逊相关系数（行间），并记录中位数相关系数。每对箱子的中位数相关系数绘制为彩色编码的50×50矩阵。注意，对于彩色编码矩阵的对角线，对应箱子与自身之间的相关性，只计算不相同探针集之间的相关性。

偏差指标

为每个微阵列样本计算此处定义的四个偏差指标：PM中值是对数的中值₂-转换的完美匹配探测强度；PM IQR是对数的四分位范围₂-转换的完美匹配探测强度；RMA IQR是所有汇总RMA值（已经是对数）的四分位范围₂-转化）；‘退化’是对数的最小二乘回归斜率₂-转化的完美匹配探针强度与它们在靶转录物上的相对位置（在探针集中）-这是用Bioconductor包affy中的AffyRNAdeg函数计算的[26].

偏差指标和表达式值之间的相关性

计算图中的随机分布图3，三每个偏差度量被随机排列100次。我们计算了12625个探针组中每个排列和每个表达值之间的皮尔逊相关系数；因此，每个密度曲线代表100×12625个相关系数。对四个偏差指标中的每一个重复该程序。

偏差修正

让E类_ij公司是探针集的RMA规范化表达式值我在样品中j个四个偏差指标B类_{mj（百万焦耳）}(米∈1..4）计算每个样本j个独立地。技术偏差对表达水平的影响通过最小二乘回归估计，偏差度量作为自变量。具体而言，对于每个探针组我独立地，参数α_我和β_{感应电动机}被选择来最小化残差的平方和ε_ij公司.

{E类}_{我 j个} = α_{我} + \sum_{米 = 1}^{4} β_{我 米} {B类}_{米 j个} + ε_{我 j个}

偏差修正表达式值E类^′_我j个等于残差加上偏移量（以保留每个探针集的平均表达式）：

{E类}^{'}_{我 j个} = ε_{我 j个} + {\bar{E类}}_{我 \cdot}

缩写

CC，相关性相关性；雌激素受体；GCRMA，基因芯片稳健多阵列平均；IQR，四分位范围；MAS5，微阵列套件5；MBEI，基于模型的表达指数；PSQN，后摘要分位数归一化；RMA，稳健的多阵列平均。

作者的贡献

ACE和ZS构思并设计了该研究。ACE执行了所有分析。ZS提供了指导。两位作者撰写、阅读并批准了最终手稿。

其他数据文件

本文的在线版本提供了以下附加数据。附加数据文件1图中显示了所有测试数据集中都存在强度相关偏差。

补充材料

附加数据文件1：

八个任意选择的癌症数据集[8-12]测试强度相关偏差。对于每个数据集，使用RMA、MAS5、MBEI和GCRMA归一化算法从原始数据计算表达式值。无论采用何种归一化算法，都存在强度相关偏差，PSQN降低了这种偏差。

单击此处获取文件^{（778K，pdf）}

致谢

我们感谢Andrea Richardson、Hanni Willenbrock、Simon Kasif、Chris Workman和Andrea Vala对手稿的有益建议和阅读。这项工作得到了美国国立卫生研究院（National Institutes of Health）通过拨款P50 CA089393和R21LM008823-01A1、国防部（Department of Defense）通过拨款W81XWH-04-1-0549和夏洛特·盖尔基金会（Charlotte Geyer Foundation）的部分支持。

工具书类

Lee ML，Kuo FC，Whitmore GA，Sklar J.复制在微阵列基因表达研究中的重要性：来自重复cDNA杂交的统计方法和证据。美国国家科学院程序。2000;97:9834–9839. doi:10.1073/pnas.97.18.9834。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Choe SE、Boutros M、Michelson AM、Church GM、Halfon MS。通过完全定义的控制数据集揭示Affymetrix基因芯片的首选分析方法。基因组生物学。2005;6：R16.doi:10.1186/gb-2005-6-2-R16。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Cope LM、Irizarry RA、Jaffee HA、Wu Z、Speed TP。Affymetrix基因芯片表达测量的基准。生物信息学。2004;20:323–331. doi:10.1093/bioinformatics/btg410。[公共医学] [交叉参考][谷歌学者]
MAQC Consortium、Shi L、Reid LH、Jones WD、Shippy R、Warrington JA、Baker SC、Collins PJ、de Longueville F、Kawasaki ES、Lee KY、Luo Y、Sun YA、Willey JC、Setterquist RA、Fischer GM、Tong W、Dragan YP、Dix DJ、Fureh FW、Goodsaid FM、Herman D、Jensen RV、Johnson CD、Lobenhofer EK、Puri RK、Schrf U、Thierry-Mieg J、Wang C、Wilson M等。微阵列质量控制（MAQC）项目显示了基因表达测量的平台间和平台内再现性。国家生物技术。2006;24:1151–1161. doi:10.1038/nbt1239。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Signoretti S、Di Marcotullio L、Richardson A、Ramaswamy S、Isaac B、Rue M、Monti F、Loda M、Pagano M。泛素连接酶亚基Skp2在人类乳腺癌中的致癌作用。临床投资杂志。2002;110:633–641. doi:10.1172/JCI200215795。 [PMC免费文章][公共医学] [交叉参考][谷歌学者] 已缩回
Irizarry RA、Hobbs B、Collin F、Beazer-Barclay YD、Antonellis KJ、Scherf U、Speed TP。高密度寡核苷酸阵列探针水平数据的探索、规范化和总结。生物统计学。2003;4:249–264. doi:10.1093/biostatistics/4.2.249。[公共医学] [交叉参考][谷歌学者]
Sorlie T、Perou CM、Tibshirani R、Aas T、Geisler S、Johnsen H、Hastie T、Eisen MB、van de Rijn M、Jeffrey SS、Thorsen T、Quist H、Matese JC、Brown PO、Botstein D、Lónning PE、Börresen-Dale A-L。乳腺癌的基因表达模式区分具有临床意义的肿瘤亚类。美国国家科学院程序。2001;98:10869–10874. doi:10.1073/pnas.191367098。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Hess KR、Anderson K、Symmans WF、Valero V、Ibrahim N、Mejia JA、Booser D、Theriault RL、Buzdar AU、Dempsey PJ、Rouzier R、Sneige N、Ross JS、Vidaure T、Gómez HL、Hortobagyi GN、Pusztai L。乳腺癌术前紫杉醇和氟尿嘧啶、阿霉素和环磷酰胺化疗敏感性的药物基因组预测因子。临床肿瘤学杂志。2006;24:4236–4244. doi:10.1200/JCO.2006.05.6861。[公共医学] [交叉参考][谷歌学者]
Miller LD、Smeds J、George J、Vega VB、Vergara L、Ploner A、Pawitan Y、Hall P、Klaar S、Liu ET、Bergh J。人类乳腺癌中p53状态的表达特征可预测突变状态、转录效应和患者生存率。美国国家科学院程序。2005;102:13550–13555. doi:10.1073/pnas.0506230102。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Minn AJ、Gupta GP、Siegel PM、Bos PD、Shu W、Giri DD、Viale A、Olshen AB、Gerald WL、Massague J.介导乳腺癌肺转移的基因。自然。2005;436:518–524. doi:10.1038/nature03799。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Pawitan Y、Bjöhle J、Amler L、Borg AL、Egyhazi S、Hall P、Han X、Holmberg L、Huang F、Klaar S、Liu ET、Miller L、Nordgren H、Ploner A、Sandelin K、Shaw PM、Smeds J、Skoog L、Wedrén S、Bergh J。基因表达谱分析使早期乳腺癌患者免于辅助治疗：在两个基于人群的队列中获得并验证。乳腺癌研究。2005;7：R953–964。doi:10.1186/bcr1325。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Wang Y、Klijn JG、Zhang Y、Sieuwerts AM、Look MP、Yang F、Talantov D、Timmermans M、Meijer van Gelder ME、Yu J、Jatkoe T、Berns EM、Atkins D、Foekens JA。基因表达谱预测淋巴结阴性原发性乳腺癌的远处转移。柳叶刀。2005;365:671–679.[公共医学][谷歌学者]
Li C、Wong WH。寡核苷酸阵列的基于模型的分析：表达指数计算和离群值检测。美国国家科学院程序。2001;98:31–36. doi:10.1073/pnas.011404098。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Wu Z，爱尔兰共和国。寡核苷酸阵列数据的预处理。国家生物技术。2004;22:656–658. doi:10.1038/nbt0604-656b。[公共医学] [交叉参考][谷歌学者]
Skvortsov D，Abdueva D，Curtis C，Schaub B，Tavare S.解释Affymetrix基因芯片阵列饱和水平的差异。核酸研究。2007;35:4154–4163. doi:10.1093/nar/gkm348。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Lin DW、Coleman IM、Hawley S、Huang CY、Dumpit R、Gifford D、Kezele P、Hung H、Knudsen BS、Kristal AR、Nelson PS。手术操作对前列腺基因表达的影响：治疗效果和疾病预后的分子相关性。临床肿瘤学杂志。2006;24:3763–3770. doi:10.1200/JCO.2005.05.1458。[公共医学] [交叉参考][谷歌学者]
Freije WA、Castro-Vargas FE、Fang Z、Horvath S、Cloughesy T、Liau LM、Mischel PS、Nelson SF。胶质瘤的基因表达谱强烈预测生存率。癌症研究。2004;64:6503–6510. doi:10.1158/0008-5472.CAN-04-0452。[公共医学] [交叉参考][谷歌学者]
Parmigiani G，Garrett-Mayer ES，Anbazhagan R，Gabrielson E.肺癌分子分类基因表达研究的交叉研究比较。临床癌症研究。2004;10:2922–2927. doi:10.1158/1078-0432.CCR-03-0490。[公共医学] [交叉参考][谷歌学者]
Sotiriou C、Wirapati P、Loi S、Harris A、Fox S、Smeds J、Nordgren H、Farmer P、Praz V、Haibe-Kains B、Desmedt C、Larsimont D、Cardoso F、Peterse H、Nuyten D、Buyse M、Van de Vijver MJ、Bergh J、Piccart M、Delorenzi M。乳腺癌基因表达谱分析：了解组织学分级的分子基础以改善预后。美国国家癌症研究所。2006;98:262–272.[公共医学][谷歌学者]
Leek JT、Storey JD。通过替代变量分析捕获基因表达研究中的异质性。公共科学图书馆-遗传学。2007;三:1724–1735. doi:10.1371/journal.pgen.0030161。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Ransohoff DF公司。偏见对癌症分子标记物研究的有效性构成威胁。Nat Rev癌症。2005;5:142–149. doi:10.1038/nrc1550。[公共医学] [交叉参考][谷歌学者]
Stuart JM、Segal E、Koller D、Kim SK。全球发现保守遗传模块的基因表达网络。科学。2003;302:249–255. doi:10.1126/science.1087447。[公共医学] [交叉参考][谷歌学者]
Lim WK，Wang K，Lefebvre C，Califano A.微阵列标准化程序的比较分析：对反向工程基因网络的影响。生物信息学。2007;23：i282–288。doi:10.1093/bioinformatics/btm201。[公共医学] [交叉参考][谷歌学者]
Jones L、Goldstein DR、Hughes G、Strand AD、Collin F、Dunnett SB、Kooperberg C、Aragaki A、Olson JM、Augood SJ、Faul RL、Luthi-Carter R、Moskvina V、Hodges AK。Affymetrix基因芯片表达数据芯片前和芯片后质量测量之间的关系评估。BMC生物信息学。2006;7：211.网址：10.1186/1471-2105-7-211。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
R开发核心团队。R：统计计算的语言和环境。维也纳：R统计计算基金会；2007.[谷歌学者]
Gautier L、Cope L、Bolstad BM、Irizarry RA。affy-在探针级别对Affymetrix基因芯片数据进行分析。生物信息学。2004;20:307–315. doi:10.1093/bioinformatics/btg405。[公共医学] [交叉参考][谷歌学者]
补充材料网址：http://www.cbs.dtu.dk/suppl/biascorr/

文章来自基因组生物学由以下人员提供BMC公司