Absolute mRNA concentrations from sequence-specific calibration of oligonucleotide arrays

Doeke Hekstra; Alexander R. Taussig; Marcelo Magnasco; Felix Naef

doi:10.1093/nar/gkg283

核酸研究。2003年4月1日；31(7): 1962–1968.

数字对象标识：10.1093/nar/gkg283

预防性维修识别码：项目经理152799

PMID：12655013

寡核苷酸阵列序列特异性校准的绝对mRNA浓度

杜克·赫斯特拉,亚历山大·托西格,马塞洛·马格纳斯科、和费利克斯·纳夫^一

作者信息文章注释版权和许可信息 PMC免责声明

关联数据

补充资料: 【补充资料】

nar_31_7_1962_index.html（863字节）
GUID:F3D439B2-9830-44C1-AD3F-E4948124DCB7

纳尔31_7_1962_1.pdf（29.5万）
GUID:1D702D42-0DCB-4BB9-A43A-34960500BEF6

摘要

寡核苷酸微阵列是基于标记的mRNA分子与玻璃表面上的短寡核苷酸探针的杂交。有两种效应影响了原始数据：探针杂交特性的序列依赖性和表面吸附过程导致的化学饱和度。我们使用物理激励的杂交模型同时解决这两个问题。基于公开可用的校准数据集，我们表明Langmuir吸附准确描述了基因芯片杂交，模型参数由探针序列组成预测。因为这些参数有物理单位，所以我们能够估计微粒体中的绝对mRNA浓度。此外，通过考虑化学饱和度，我们大大降低了差异表达估计值的压缩偏差，而差异表达估计通常发生在高浓度。

简介

互补寡核苷酸序列的杂交是微阵列技术的核心。对这一过程的详细了解对于完善阵列设计和实验分析至关重要。然而，很少有研究涉及寡核苷酸与玻璃表面附近的DNA探针结合的序列特异性。在高密度寡核苷酸阵列（也称为GeneChips）的情况下，已经报道了序列特异性的几个实际相关后果(1). 例如，在中讨论了探针响应的非线性以及完全互补探针和单一失配探针之间饱和起始点的差异(2,三). 此外，Naef中提到了不匹配探针行为的序列特异性等. (4). 在最近的一篇文章中(5)在斑点寡核苷酸阵列的背景下，描述了特异性和非特异性靶点之间的杂交动力学差异，并说明了如何利用这些差异来减少污染非特异性贡献。

在这里，我们展示了如何在一个简单的表面吸附模型中理解大多数这些问题，以及如何使用探针的序列组成来校准基因芯片。我们分几个步骤进行：首先展示基因芯片数据如何完美地遵循朗缪尔等温线（图。（图1）。1). 接下来，我们将三个模型参数拟合到每个探针的序列组成。最后，我们解释了如何构造绝对浓度和表达率的估计量并测试其预测。

在单独的窗口中打开

图1

Langmuir等温线为基因芯片杂交提供了非常准确的描述。将每个探针安装到表格后我=斧头/ (b条+x个) +d日，重缩放的变量X（X）=x个/b条和Y（Y）= (我–d日) /一折叠到窗体上Y（Y）=X（X）/ (1+X（X）). 请注意上的范围x个-轴包含六个数量级。路肩附近点的显著密度表明饱和度不是边际效应。具体而言，69%的PM探针具有b条<512 pM。对于这些，14个测量值中至少有2个位于上面X=1.上述测量的总分数X=1（分别为X=0.5)为20%（分别为28%）。MM的情况只是稍微有点吵。所有探针都带有一,b条,Y（Y）>绘制的0代表了PM所有探针的94%（5824次测量中5472次目标RNA浓度为阳性），而MM为87%。

我们的程序提供了几个优点，其中包括绝对浓度的估计，以及在假设测得的荧光和目标RNA浓度之间存在线性关系时，差异表达测量的偏差大大减少。我们强调现有的方法，或者类似于MAS 5.0，或者基于模型(6)，是围绕这样一个概念设计的，即预测浓度可以比较不同实验中测量的相同转录物，但不能比较不同转录物。原因是序列特异性根本没有考虑（MAS 5.0）或只是部分考虑(6). 相反，下面描述的方法得出的估计值允许在同一实验中比较α-微管蛋白和β-微管蛋白质。

材料和方法

基因芯片技术基于光刻寡核苷酸沉积过程：单个探针由25个碱基DNA序列组成。由于这种短长度杂交不应具有足够的特异性，因此标记的mRNA转录物由22-40个探针探测（取决于芯片模型），从而引入冗余。此外，探针有两种类型：一半是完美匹配（PM），与数据库中的模板完全相同；另一半是单一错配（MM），在中间（13）个碱基位置进行单碱基替换。MM探针被引入作为非特异性杂交对照，其想法是真实信号（与靶mRNA浓度成正比）与匹配与不匹配（PM–MM）信号的差异成正比。

数据集

人类HG-U95A拉丁方（LS）实验是Affymetrix生成的校准数据集（可在网址：http://www.netaffx.com)其中14个基因以对应系列（0，0.25，0.5，1，2，…，1024）pM的所有循环排列的浓度被添加到14个不同的阵列中。因此，每个基因都以14种不同的浓度进行探测，其中一种浓度为零。其余的以因子2的对数间隔排列，范围从0.25到1024 pM。除了尖峰靶cRNA外，还将从人类胰腺提取的复杂RNA背景添加到样品中。每个实验都进行了两次杂交，得到两组14个阵列，分别命名为1521组和1532组（另外一组2353没有使用，因为它是不完整的）。所有转录本的探针序列也可在上述网站上获得。

规范化

在本文中，我们将默认的MAS 5.0算法与下面描述的方法进行了比较。特别是，我们对化学饱和度如何影响差异表达分数的敏感性感兴趣。为了公平比较，我们在整篇文章中使用了一种单一的归一化方法：使用MAS 5.0提供的默认（全局）归一化，将所有数组归一化为1521组中的第一个数组。

背景减影

我们喜欢区分两种背景来源：物理背景，例如玻璃表面或光电倍增管暗电流的反射，以及非特异性RNA分子杂交产生的生物背景。物理背景ε的估算如Naef中所述等. (三)并从所有原始PM和MM强度中减去。我们将专门讨论数量我=我_F类–ε，其中我_F类是原始荧光强度。我们发现单独估计ε，而不是将其包含在参数中d日在方程式中1，略微增加灵敏度。

结果

Langmuir吸附模型

表面吸附的最基本模型是朗缪尔吸附等温线(7). 让x个是特定的靶RNA浓度。然后，所占探针位置θ的分数由下式给出

哪里x个₀是占据一半表面位置的浓度。该模型假设溶液中的分子与吸附位点的数量相比有很大的过剩。假设测得的荧光强度线性依赖于结合到探针上的互补RNA的数量，则得出以下强度模型我:

哪里一,b条和d日是探针特定的参数。两者都有一和d日有强度单位；b条可以解释为如果没有非特异性杂交，互补RNA饱和一半探针的浓度。背景术语d日包含非特异性杂交的贡献。其他荧光源已经被减去（见材料和方法）。在高强度下，该模型预测了我值为一+d日我们强调，这种效应描述了化学饱和，这与高光电倍增管增益导致的光学饱和不同。最近，Dai也提出了该模型与微阵列的相关性等. (5)和开普勒等. (8).

我们继续证明，靶溶液中非特异性RNA的竞争性交叉杂交不会改变对方程式浓度的功能依赖性1，但仅影响参数值。要了解这一点，请检查两个竞争物种的Langmuir模型的扩展。让z（z）是竞争性非特异性RNA的浓度z（z）₀为其半饱和浓度；一_S公司和一_NS公司表示荧光信号对特定和非特定杂交分子分数的依赖性。然后，荧光读数

多个非特异性化合物的包合很简单，不会影响功能依赖于特定浓度的结论x个已保存。有效参数(一,b条,d日)在方程式中1可以很容易地读出方程式2非特定背景的大小可以从比率中估计d日/一=z（z）/z（z）₀事实证明，非特异性背景很小(z（z）/z（z）₀<1%），66.5%的探针（见补充材料）。

Langmuir形式为校准数据提供了近乎完美的描述。为了说明这一点，一,b条和d日通过方程的加权最小二乘拟合分别确定所有探针（PM和MM）1荧光测量我_我，其中我是浓度指数。我们最小化了总数S公司加权平方误差：

其中重量w个_我= 1 /我_我与噪声模型一致，其中我_我与…成比例

随后，我们根据

使用拟合的杂交参数。根据该模型，所有测量应满足一个单一关系：

生成的折叠数据如图所示图1，1，提供了一个引人注目的证明，Langmuir模型彻底捕获了基因芯片杂交的物理化学。我们强调非线性区域中点的高密度，证明化学饱和度不是边际效应（见图。图5A5A表示饱和的后果）。

在单独的窗口中打开

图5

预期比率为2和1的差异表达分数（无变化）。比率为2的结果如所示(一)和(B类); 控制假阳性率(C类)和(D类). （A）和（C）从MAS 5.0中获得；（B）和（D）根据我们自己的估计，仅使用PM探针。压缩偏差在（A）中清晰可见，因为中值比率系统地低于上方红线所示的预期值。（B）显示了我们的方法能够在多大程度上减少偏差；尽管噪音水平增加，但灵敏度也有所提高（表（表3）。三). （C）和（D）中的低强度结果表明归一化并不理想。对于（B）中的结果，85.4%的比较中保留了一半以上的探针，336例中有333例保留了12个以上的探针（共16个）。补充材料中显示了整箱图。

完全匹配和不匹配杂交参数的比较

杂交参数值的比较一,b条和d日PM探针与其MM伙伴之间的连接如图所示图2。2本质上，我们系统地观察到更大的一s及更小b条另一方面，PM探针中的s，d日在PM和MM情况下平均相等。的结果b条和d日可以用我们的杂交模型来解释。

在单独的窗口中打开

图2

Langmuir参数的比较一(一),b条(B类)和d日(C类)用于PM和MM探头。（B）中的线对应于b条^{MM（毫米）}= 3.13b条^颗粒物.

第一，b条是形式b条=x个₀（1+z/z₀)考虑到非特定背景水平普遍较低（见上文讨论）（1+z/z₀)接近1，我们预计：

在朗缪尔模型中x个₀可以解释为反向平衡常数，因此结合自由能的差异E类_B类PM和MM探针之间的距离由以下公式给出：

哪里k个_B类是玻尔兹曼常数T型是进行杂交的温度（45°C）。图图22表明几乎所有探针的差异都是负值。作为眼睛的引导，图中的线条图2B2B代表3.13b条^颗粒物=b条^{MM（毫米）}，对应于1.15的结合能差k个_B类T型=3.0千焦/摩尔T型=45°C（318 K）。

转向非特定背景d日，方程式2意味着

什么时候z（z）/z（z）₀很小。如图所示图2C，2C、，d日PM和MM探针具有可比的量级，预计用于非特异性贡献。我们在补充材料中表明，中间基数在很大程度上决定了d日对于PM或MM来说更大。具体来说，我们观察到d日^颗粒物>d日^{MM（毫米）}当PM中间碱基为C或T时，G或a则相反。这种嘌呤-嘧啶效应可能与cRNA标记协议有关，因为C和Us是生物素化碱基（参见我们的预印本http://xxx.lanl.gov/abs/physics/0208095).

相反，结果的来源一s更难理解。一描述了荧光对互补RNA结合量的依赖性。根据方程式2我们确定

什么时候z（z）/z（z）₀很小。自一_S公司是互补RNA完全饱和探针时的预期荧光，我们预计PM和MM探针之间的荧光量不会不同；然而，我们几乎只能看到一^颗粒物>一^{MM（毫米）}一个看似合理的解释是，扫描前对阵列进行清洗，MM探针可能比PM探针更容易受到这种影响[参见Dai等. (5)以及关于b条以上]。

从序列预测探针杂交参数

很自然，探针参数的很大一部分变化都有序列特定的起源。因此，我们承诺预测参数一,b条和d日根据探针的序列。对杂交参数的粗略检查表明杂交参数的对数为线性模型：

对于以下情况b条与每个碱基对结合自由能有附加贡献的模型兼容。在这里，n个_L（左）是探针序列中字母L=A、C或G的数量，γs是字母特定的敏感性，C类s是截取，并且

是一个错误术语。因为字母的总数必须加起来达到25，所以这个表示法相当于一个没有截距但有一个附加项γ的表示法_T型 n个_T型.在上述表格中，截取C类对应ln的估计值一（或者，b条或d日)当探针序列仅由T组成时。例如，γ^b条_C类应该理解为ln的变化b条当C碱基被T取代时。

方程中的线性模型三符合杂交参数一,b条和d日从上一节开始。参数γ的结果如表所示表11对于PM，表表22对于MM，如图图3。三拟合参数中的小误差表明，简单线性模型确实捕捉到了序列特定的影响（拟合参数与原始参数的比较见补充材料）。我们发现很难为结果指定物理基础，但我们指出了以下特征：（i）PM和MM参数非常相似（在彼此的误差范围内）；（ii）令人惊讶的是，只有一展示了A和T或G和C碱基之间的对称性；（iii）字母A对ln有很大的负面影响d。目前尚不清楚标记方案在多大程度上导致了A-T或C-G不对称，只有cRNA链上的嘧啶C和U被标记。

在单独的窗口中打开

图3

表中的数据表11和和2。2.捐款中的符号从字母A翻到ln(d日)与ln相比(一)和ln(b条)尤其明显。

表1。

方程中模型的线性回归参数三用于PM数据

颗粒物	拦截	γ_一	γ_C类	γ_G公司	R（右）²
自然对数一	6.617 ± 0.167	0.008 ± 0.014	0.219 ± 0.014	0.195 ± 0.013	0.56
自然对数b条	0.768 ± 0.324	0.154 ± 0.022	0.206 ± 0.028	0.377 ± 0.026	0.44
自然对数d日	2.533 ± 0.416	–0.305 ± 0.028	0.354 ± 0.035	0.168 ± 0.033	0.48

在单独的窗口中打开

与它们的值相比，大多数参数都有较小的标准误差，这表明拟合真正捕获了序列特异性。可能性第页(γ =0) < 10^–6在没有序列特异性的假设下，除了γ^一_一根据以下标准，探头被排除在配合范围之外：（i）(一,b条,d日)由于对数，必须严格为正；（ii）上限b条<10000个排除的探针中未观察到饱和效应，因此一和b条无法独立确定；（iii）d日<一/5个排除的探针可能需要进行显著的杂交；以及（iv）校准曲线必须遵循良好的朗缪尔等温线：相关系数ρ（ln我_{光突发事件}，英寸我_适合)观测值与拟合值之间的强度必须大于0.99。总的来说，该程序去除了29.7%的探针。

表2。

方程中模型的线性回归参数三用于MM数据

MM（毫米）	拦截	γ_一	γ_C类	γ_G公司	R（右）²
自然对数一	5.526 ± 0.256	0.012 ± 0.017	0.277 ± 0.023	0.219 ± 0.018	0.57
自然对数b条	1.066 ± 0.489	0.108 ± 0.032	0.268 ± 0.043	0.418 ± 0.035	0.46
自然对数d日	2.200 ± 0.564	–0.213 ± 0.036	0.322 ± 0.050	0.178 ± 0.040	0.37

在单独的窗口中打开

可能性第页(γ =0) < 10^–3在无序列特异性的假设下，除了γ^一_一.

校准集的小尺寸（14个基因×每个基因16个探针=224个探针）只能支持使用每个探针的总碱基组成的模型。然而，我们在下文中表明，即使是这种粗略的建模水平在实践中也是有用的。

RNA绝对浓度预测

我们现在谈谈实际相关的方面。首先，我们展示了如何利用预测的探针特异性杂交参数来构建绝对mRNA浓度的估计器。我们这里真正的意思是绝对值，即不同基因的RNA水平可以进行比较。这为基因芯片添加了一个有趣的新功能。

Langmuir模型将荧光强度与绝对mRNA浓度联系起来。我们通过反转方程来进行1其中，我们从方程中替换预测参数三（用帽子表示）。每个探头第页（PM或MM）然后得出浓度估计值：

垂直渐近线为我=â+ $\hat{d日}$ 有时，测量的强度会低于渐近线或背景，导致 $\hat{x个}$ _第页。因此，我们排除带有我>â+ $\hat{d日}$ 或我< $\hat{d日}$ .价值观 $\hat{x个}$ _第页然后组合以获得探针集浓度的估计值：

其中，素数（′）表示排除探针我< $\hat{d日}$ 或我>â+ $\hat{d日}$ 、和n个'是总和中包含的探针数。对于结果部分中的分析，我们只包括PM探针，因为包括MM似乎会增加估计中的噪声，而不会提高灵敏度。

实际浓度与估计浓度的比较如图所示图4。4。重要的是要注意，没有进行比例调整，因此可以在同一绘图上比较不同的探头组。图图4A4A显示了三个转录本，它们本身被排除在确定参数γ的训练集之外（训练集由其余11个转录本组成）。其中两个在整个范围内表现出显著的线性，而一个在16 pM以下并不十分精确图4B4B在2到256 pM的范围内表现出整体良好的线性行为，尽管可以观察到刻度两端的残余偏差。在线性范围内，我们发现预测浓度系统性地过低，低于1.5倍。造成这种偏差的一个因素是杂交参数的预测不完善(â, $\hat{b条}$ , $\hat{d日}$ )，其动态范围小于原始参数（参见补充资料中的图S3）。

在单独的窗口中打开

图4

绝对浓度估算：未进行规模调整。(一)我们通过使用14个转录本中的11个来拟合参数γ来测试泛化，然后使用这些参数来预测其他三个参数的浓度。在这里，我们选择了前三个转录本（根据按字母顺序排列的Affymetrix标签），并显示了1521和1532两个重复实验的预测浓度与pM的实际浓度。(B类)我们测试了所有成绩单；测定γs时不排除探针组。圆点代表28次测量中的第一个四分位、中位数和第三个四分位数（14份副本）。完整的方框图显示在补充材料中。

我们发现，在我们尝试过的许多方法中，上述估算浓度的方法是最有利的。例如，我们尝试了更稳健的估计（而不是等式中的平均值4)像中值或M-估计量一样，但我们发现这些对这个数据集没有任何明显的优势。中位数的结果（如补充材料所示）噪声稍低，但偏差较大，但平均值非常接近使用平均值获得的结果。或者，我们尝试了基于函数最小化的估计器，如

哪里w个_我是可以依赖的重量(我,一,b条,d日). 不幸的是，我们无法获得与方程中的结果相似的结果5.

差异表达的估计

每个探头第页在探测集中提供差分表达式估计 $\hat{（f）}$ _第页在两个条件1和2之间。根据方程式4，我们获得

哪里我₁和我₂是探针的测量荧光强度第页在条件1和2中。请注意，参数b条从方程中消失了。我们将表达式分解为原始线性估计(我₂– $\hat{d日}$ ) / (我₁– $\hat{d日}$ )乘以饱和校正因子。然后，将全探头组的比率计算为受限探头组的几何平均值：

在这里，n个“”是总和中包含的探针数量。限制如下：如果我₁< $\hat{d日}$ 或我₂< $\hat{d日}$ ，或我₁> (â+ $\hat{d日}$ )或我₂> (â+ $\hat{d日}$ )，如前一节所述。因为当我₁或我₂接近â+ $\hat{d日}$ ，我们还排除了饱和校正因子大于4或小于四分之一的探针。

为了测试该方法的敏感性，我们估计了在校准集中后续浓度下测量之间mRNA水平的相对变化，即我们比较了每个探针集的浓度0.5与0.25 pM、1与0.5、……、1024与512 pM。通过这种方式，在所有情况下，预期比率为2。结果如图所示图5，5为了进行比较，还显示了MAS 5.0的分数。我们还估计了假阳性率（图。（图5C5C和D），通过比较来自复制组的测量值（参见材料和方法）。在这种情况下，我们期望比率为1（或对数坐标中的0）。图图5A5A清楚地表明，MAS 5.0的比率在整个范围内都有偏差，在大RNA浓度下最为严重[见Naef等. (三)对于酵母数据集上的类似结果]。请注意，由框的边界指示的四分位间距完全位于预期线下。我们强调，这种定性行为是所有当前分析方法的特征，而不仅仅是MAS 5.0。我们的方法（图。（图5B）5B）明显降低了超过1 pM的整个范围内的偏差，浓度窗口中的中位数几乎完美，范围为1–128 pM。毫不奇怪，这些改进是以稍大的可变性为代价的；然而，信号检测中的增益克服了噪声的增加，如配对所示t吨-表中报告的统计数据表3三.

表3。

检测变化的灵敏度

基线浓度（pM）	0.25	0.5	1	2	4	8	16	32	64	128	256	512
朗缪尔	1.04	2.47	8.42	10.85	10.98	13.60	12.41	21.27	21.62	11.93	12.36	7.14
MAS 5.0版	2.28	2.70	5.74	9.51	13.14	18.99	16.87	27.09	12.96	11.81	5.62	4.43

在单独的窗口中打开

A配对t吨-比率估计值2和1之间的统计（无变化）。根据测试，Langmuir方法的灵敏度高于基线浓度32 pM。

讨论

我们证明，在基因芯片的情况下，测量强度和浓度之间的线性关系的假设是不准确的。相反，我们已经证明，校准曲线完全符合人们对朗缪尔等温线的预期。实际上，这种饱和度会在差异表达估计中导致显著的压缩偏差，在高浓度时最为严重。类似的效应可能会影响其他版本的微阵列，例如cDNA载片或斑点寡核苷酸阵列。我们接着展示了如何根据探针的序列组成来估计Langmuir模型中的三个参数。尽管训练集规模较小，但我们在预测绝对浓度方面取得了良好的结果。此外，我们能够在不降低信噪比的情况下显著降低偏差，从而提供差异表达的估计值。

该技术的一个吸引人的特点是，当产生更广泛的校准数据时，它自然会进行微调。主要的改进应归功于Langmuir参数作为探针序列函数的更详细建模。这里只使用了最粗糙的线性模型，较大的数据集可能会支持包含基本位置信息或最近邻相互作用的模型。我们还预计，有可能对估计器进行改进，以结合冗余探针的信息。到目前为止，我们的结果表明，几何平均（方程5和7)结果与中位数等更为离群的ro-blast估计值类似，表明离群值在这里并不起关键作用。

我们还观察到，无论是从PM中减去MMs，还是将其与PM合并，MMs的加入通常都会导致噪声级增加。这表明，该技术将受益于用非冗余序列的额外PM替换MM探针。

在实践中，我们的方案的有效实施需要对当前协议进行一些修改。首先，其广泛适用性将取决于标准化的进展，但普遍认为这是必要的(9). 其次，测试估计的参数在多大程度上可以在不同的实验和/或芯片系列之间传递是至关重要的。归一化后，我们预计参数变化不大一和b条另一方面，参数d日可能取决于样品的特殊性。然而，在每个阵列上掺入一组非基因组（随机）探针应该可以确定非特异性杂交的水平，从而校准参数d日.

我们相信，使用探针的序列组成来校准阵列将是完善基于微阵列的转录研究的关键。这项工作为这一方向迈出了一步。

补充材料

补充材料可在NAR Online上获得。

【补充资料】

单击此处查看。

致谢

我们感谢埃里克·范·尼姆维根（Erik van Nimwegen）和尼古拉斯·索奇（Nicolas Socci）的有益讨论。

参考文献

1Chee M.，Yang，R.，Hubbell，E.，Berno，A.，Huang，X.C.，Stern，D.，Winkler，J.，Lockhart，D.J.，Morris，M.S.和Fodor，S.P.（1996）通过高密度DNA阵列访问遗传信息。科学类,274, 610–614. [公共医学][谷歌学者]

2Chudin E.、Walker，R.、Kosaka，A.、Wu，S.X.、Rabert，D.、Chang，T.K.和Kreder，D.E.（2002）Affymetrix基因芯片阵列信号强度和转录物浓度之间关系的评估。基因组生物学。,三，研究0005。[PMC免费文章][公共医学][谷歌学者]

三。Naef F.，Socci，N.和Magnasco，M.（2002）寡核苷酸阵列准确性和精密度研究：在大浓度下提取更多信号。生物信息学,19, 178–184. [公共医学][谷歌学者]

4Naef F.，Lim，D.A.，Patil，N.和Magnasco，M.（2002）《DNA杂交到不匹配模板：芯片研究》。物理学。版次E Stat.Nonlin。软物质物理。,65, 040902. [公共医学][谷歌学者]

5Dai H.，Meyer，M.，Stepaniants，S.，Ziman，M.和Stoughton，R.（2002）利用杂交动力学来区分寡核苷酸微阵列的特异性和非特异性结合。核酸研究。,30，e86。[PMC免费文章][公共医学][谷歌学者]

6Li C.和Wong，W.H.（2001）寡核苷酸阵列的基于模型的分析：表达指数计算和异常值检测。程序。美国国家科学院。科学。美国,98, 31–36.[PMC免费文章][公共医学][谷歌学者]

7阿特金斯·P.W.（1994）物理化学，第5版。牛津大学出版社，英国牛津。

8Kepler T.B.、Crosby，L.和Morgan，K.T.（2002）通过自我一致性和局部回归对DNA微阵列数据进行归一化和分析。基因组生物学。,三，研究0037。[PMC免费文章][公共医学][谷歌学者]

9Brazma A.、Hingamp P.、Quackenbush J.、Sherlock G.、Spellman P.、Stoeckert C.、Aach J.、Ansorge W.、Ball C.A.、Causton H.C.、Gaasterland T.、Glenisson P.、Holstege F.C.、Kim I.F.、Markowitz V.、Matese J.C.、Parkinson H.、Robinson A.、Sarkans U.、Schulze-Kremer S.、Stewart J.、Taylor R.、Vilo J.和Vingron M.（2001）关于微阵列实验（MIAME）的最低信息-针对微阵列数据的标准。自然遗传学。,29, 365–371. [公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社