简介
互补寡核苷酸序列的杂交是微阵列技术的核心。对这一过程的详细了解对于完善阵列设计和实验分析至关重要。然而,很少有研究涉及寡核苷酸与玻璃表面附近的DNA探针结合的序列特异性。在高密度寡核苷酸阵列(也称为GeneChips)的情况下,已经报道了序列特异性的几个实际相关后果(1). 例如,在中讨论了探针响应的非线性以及完全互补探针和单一失配探针之间饱和起始点的差异(2,三). 此外,Naef中提到了不匹配探针行为的序列特异性等. (4). 在最近的一篇文章中(5)在斑点寡核苷酸阵列的背景下,描述了特异性和非特异性靶点之间的杂交动力学差异,并说明了如何利用这些差异来减少污染非特异性贡献。
在这里,我们展示了如何在一个简单的表面吸附模型中理解大多数这些问题,以及如何使用探针的序列组成来校准基因芯片。我们分几个步骤进行:首先展示基因芯片数据如何完美地遵循朗缪尔等温线(图。). 接下来,我们将三个模型参数拟合到每个探针的序列组成。最后,我们解释了如何构造绝对浓度和表达率的估计量并测试其预测。
Langmuir等温线为基因芯片杂交提供了非常准确的描述。将每个探针安装到表格后我=斧头/ (b条+x个) +d日,重缩放的变量X(X)=x个/b条和Y(Y)= (我–d日) /一折叠到窗体上Y(Y)=X(X)/ (1+X(X)). 请注意上的范围x个-轴包含六个数量级。路肩附近点的显著密度表明饱和度不是边际效应。具体而言,69%的PM探针具有b条<512 pM。对于这些,14个测量值中至少有2个位于上面X=1.上述测量的总分数X=1(分别为X=0.5)为20%(分别为28%)。MM的情况只是稍微有点吵。所有探针都带有一,b条,Y(Y)>绘制的0代表了PM所有探针的94%(5824次测量中5472次目标RNA浓度为阳性),而MM为87%。
我们的程序提供了几个优点,其中包括绝对浓度的估计,以及在假设测得的荧光和目标RNA浓度之间存在线性关系时,差异表达测量的偏差大大减少。我们强调现有的方法,或者类似于MAS 5.0,或者基于模型(6),是围绕这样一个概念设计的,即预测浓度可以比较不同实验中测量的相同转录物,但不能比较不同转录物。原因是序列特异性根本没有考虑(MAS 5.0)或只是部分考虑(6). 相反,下面描述的方法得出的估计值允许在同一实验中比较α-微管蛋白和β-微管蛋白质。
材料和方法
基因芯片技术基于光刻寡核苷酸沉积过程:单个探针由25个碱基DNA序列组成。由于这种短长度杂交不应具有足够的特异性,因此标记的mRNA转录物由22-40个探针探测(取决于芯片模型),从而引入冗余。此外,探针有两种类型:一半是完美匹配(PM),与数据库中的模板完全相同;另一半是单一错配(MM),在中间(13)个碱基位置进行单碱基替换。MM探针被引入作为非特异性杂交对照,其想法是真实信号(与靶mRNA浓度成正比)与匹配与不匹配(PM–MM)信号的差异成正比。
数据集
人类HG-U95A拉丁方(LS)实验是Affymetrix生成的校准数据集(可在网址:http://www.netaffx.com)其中14个基因以对应系列(0,0.25,0.5,1,2,…,1024)pM的所有循环排列的浓度被添加到14个不同的阵列中。因此,每个基因都以14种不同的浓度进行探测,其中一种浓度为零。其余的以因子2的对数间隔排列,范围从0.25到1024 pM。除了尖峰靶cRNA外,还将从人类胰腺提取的复杂RNA背景添加到样品中。每个实验都进行了两次杂交,得到两组14个阵列,分别命名为1521组和1532组(另外一组2353没有使用,因为它是不完整的)。所有转录本的探针序列也可在上述网站上获得。
规范化
在本文中,我们将默认的MAS 5.0算法与下面描述的方法进行了比较。特别是,我们对化学饱和度如何影响差异表达分数的敏感性感兴趣。为了公平比较,我们在整篇文章中使用了一种单一的归一化方法:使用MAS 5.0提供的默认(全局)归一化,将所有数组归一化为1521组中的第一个数组。
背景减影
我们喜欢区分两种背景来源:物理背景,例如玻璃表面或光电倍增管暗电流的反射,以及非特异性RNA分子杂交产生的生物背景。物理背景ε的估算如Naef中所述等. (三)并从所有原始PM和MM强度中减去。我们将专门讨论数量我=我F类–ε,其中我F类是原始荧光强度。我们发现单独估计ε,而不是将其包含在参数中d日在方程式中1,略微增加灵敏度。
结果
Langmuir吸附模型
表面吸附的最基本模型是朗缪尔吸附等温线(7). 让x个是特定的靶RNA浓度。然后,所占探针位置θ的分数由下式给出
哪里x个0是占据一半表面位置的浓度。该模型假设溶液中的分子与吸附位点的数量相比有很大的过剩。假设测得的荧光强度线性依赖于结合到探针上的互补RNA的数量,则得出以下强度模型我:
哪里一,b条和d日是探针特定的参数。两者都有一和d日有强度单位;b条可以解释为如果没有非特异性杂交,互补RNA饱和一半探针的浓度。背景术语d日包含非特异性杂交的贡献。其他荧光源已经被减去(见材料和方法)。在高强度下,该模型预测了我值为一+d日我们强调,这种效应描述了化学饱和,这与高光电倍增管增益导致的光学饱和不同。最近,Dai也提出了该模型与微阵列的相关性等. (5)和开普勒等. (8).
我们继续证明,靶溶液中非特异性RNA的竞争性交叉杂交不会改变对方程式浓度的功能依赖性1,但仅影响参数值。要了解这一点,请检查两个竞争物种的Langmuir模型的扩展。让z(z)是竞争性非特异性RNA的浓度z(z)0为其半饱和浓度;一S公司和一NS公司表示荧光信号对特定和非特定杂交分子分数的依赖性。然后,荧光读数
多个非特异性化合物的包合很简单,不会影响功能依赖于特定浓度的结论x个已保存。有效参数(一,b条,d日)在方程式中1可以很容易地读出方程式2非特定背景的大小可以从比率中估计d日/一=z(z)/z(z)0事实证明,非特异性背景很小(z(z)/z(z)0<1%),66.5%的探针(见补充材料)。
Langmuir形式为校准数据提供了近乎完美的描述。为了说明这一点,一,b条和d日通过方程的加权最小二乘拟合分别确定所有探针(PM和MM)1荧光测量我我,其中我是浓度指数。我们最小化了总数S公司加权平方误差:
其中重量w个我= 1 /我我与噪声模型一致,其中我我与…成比例
随后,我们根据
使用拟合的杂交参数。根据该模型,所有测量应满足一个单一关系:
生成的折叠数据如图所示,提供了一个引人注目的证明,Langmuir模型彻底捕获了基因芯片杂交的物理化学。我们强调非线性区域中点的高密度,证明化学饱和度不是边际效应(见图。A表示饱和的后果)。
预期比率为2和1的差异表达分数(无变化)。比率为2的结果如所示(一)和(B类); 控制假阳性率(C类)和(D类). (A) 和(C)从MAS 5.0中获得;(B) 和(D)根据我们自己的估计,仅使用PM探针。压缩偏差在(A)中清晰可见,因为中值比率系统地低于上方红线所示的预期值。(B) 显示了我们的方法能够在多大程度上减少偏差;尽管噪音水平增加,但灵敏度也有所提高(表). (C)和(D)中的低强度结果表明归一化并不理想。对于(B)中的结果,85.4%的比较中保留了一半以上的探针,336例中有333例保留了12个以上的探针(共16个)。补充材料中显示了整箱图。
完全匹配和不匹配杂交参数的比较
杂交参数值的比较一,b条和d日PM探针与其MM伙伴之间的连接如图所示本质上,我们系统地观察到更大的一s及更小b条另一方面,PM探针中的s,d日在PM和MM情况下平均相等。的结果b条和d日可以用我们的杂交模型来解释。
Langmuir参数的比较一(一),b条(B类)和d日(C类)用于PM和MM探头。(B)中的线对应于b条MM(毫米)= 3.13b条颗粒物.
第一,b条是形式b条=x个0(1+z/z0)考虑到非特定背景水平普遍较低(见上文讨论)(1+z/z0)接近1,我们预计:
在朗缪尔模型中x个0可以解释为反向平衡常数,因此结合自由能的差异E类B类PM和MM探针之间的距离由以下公式给出:
哪里k个B类是玻尔兹曼常数T型是进行杂交的温度(45°C)。图表明几乎所有探针的差异都是负值。作为眼睛的引导,图中的线条B代表3.13b条颗粒物=b条MM(毫米),对应于1.15的结合能差k个B类T型=3.0千焦/摩尔T型=45°C(318 K)。
转向非特定背景d日,方程式2意味着
什么时候z(z)/z(z)0很小。如图所示C、,d日PM和MM探针具有可比的量级,预计用于非特异性贡献。我们在补充材料中表明,中间基数在很大程度上决定了d日对于PM或MM来说更大。具体来说,我们观察到d日颗粒物>d日MM(毫米)当PM中间碱基为C或T时,G或a则相反。这种嘌呤-嘧啶效应可能与cRNA标记协议有关,因为C和Us是生物素化碱基(参见我们的预印本http://xxx.lanl.gov/abs/physics/0208095).
相反,结果的来源一s更难理解。一描述了荧光对互补RNA结合量的依赖性。根据方程式2我们确定
什么时候z(z)/z(z)0很小。自一S公司是互补RNA完全饱和探针时的预期荧光,我们预计PM和MM探针之间的荧光量不会不同;然而,我们几乎只能看到一颗粒物>一MM(毫米)一个看似合理的解释是,扫描前对阵列进行清洗,MM探针可能比PM探针更容易受到这种影响[参见Dai等. (5)以及关于b条以上]。
从序列预测探针杂交参数
很自然,探针参数的很大一部分变化都有序列特定的起源。因此,我们承诺预测参数一,b条和d日根据探针的序列。对杂交参数的粗略检查表明杂交参数的对数为线性模型:
对于以下情况b条与每个碱基对结合自由能有附加贡献的模型兼容。在这里,n个L(左)是探针序列中字母L=A、C或G的数量,γs是字母特定的敏感性,C类s是截取,并且
是一个错误术语。因为字母的总数必须加起来达到25,所以这个表示法相当于一个没有截距但有一个附加项γ的表示法T型 n个T型.在上述表格中,截取C类对应ln的估计值一(或者,b条或d日)当探针序列仅由T组成时。例如,γb条C类应该理解为ln的变化b条当C碱基被T取代时。
方程中的线性模型三符合杂交参数一,b条和d日从上一节开始。参数γ的结果如表所示对于PM,表对于MM,如图拟合参数中的小误差表明,简单线性模型确实捕捉到了序列特定的影响(拟合参数与原始参数的比较见补充材料)。我们发现很难为结果指定物理基础,但我们指出了以下特征:(i)PM和MM参数非常相似(在彼此的误差范围内);(ii)令人惊讶的是,只有一展示了A和T或G和C碱基之间的对称性;(iii)字母A对ln有很大的负面影响d。目前尚不清楚标记方案在多大程度上导致了A-T或C-G不对称,只有cRNA链上的嘧啶C和U被标记。
表中的数据和.捐款中的符号从字母A翻到ln(d日)与ln相比(一)和ln(b条)尤其明显。
表1。
方程中模型的线性回归参数三用于PM数据
颗粒物 | 拦截 | γ一 | γC类 | γG公司 | R(右)2 |
---|
自然对数一 | 6.617 ± 0.167 | 0.008 ± 0.014 | 0.219 ± 0.014 | 0.195 ± 0.013 | 0.56 |
自然对数b条 | 0.768 ± 0.324 | 0.154 ± 0.022 | 0.206 ± 0.028 | 0.377 ± 0.026 | 0.44 |
自然对数d日 | 2.533 ± 0.416 | –0.305 ± 0.028 | 0.354 ± 0.035 | 0.168 ± 0.033 | 0.48 |
表2。
方程中模型的线性回归参数三用于MM数据
MM(毫米) | 拦截 | γ一 | γC类 | γG公司 | R(右)2 |
---|
自然对数一 | 5.526 ± 0.256 | 0.012 ± 0.017 | 0.277 ± 0.023 | 0.219 ± 0.018 | 0.57 |
自然对数b条 | 1.066 ± 0.489 | 0.108 ± 0.032 | 0.268 ± 0.043 | 0.418 ± 0.035 | 0.46 |
自然对数d日 | 2.200 ± 0.564 | –0.213 ± 0.036 | 0.322 ± 0.050 | 0.178 ± 0.040 | 0.37 |
校准集的小尺寸(14个基因×每个基因16个探针=224个探针)只能支持使用每个探针的总碱基组成的模型。然而,我们在下文中表明,即使是这种粗略的建模水平在实践中也是有用的。
RNA绝对浓度预测
我们现在谈谈实际相关的方面。首先,我们展示了如何利用预测的探针特异性杂交参数来构建绝对mRNA浓度的估计器。我们这里真正的意思是绝对值,即不同基因的RNA水平可以进行比较。这为基因芯片添加了一个有趣的新功能。
Langmuir模型将荧光强度与绝对mRNA浓度联系起来。我们通过反转方程来进行1其中,我们从方程中替换预测参数三(用帽子表示)。每个探头第页(PM或MM)然后得出浓度估计值:
垂直渐近线为我=â+有时,测量的强度会低于渐近线或背景,导致第页。因此,我们排除带有我>â+或我<.价值观第页然后组合以获得探针集浓度的估计值:
其中,素数(′)表示排除探针我<或我>â+、和n个'是总和中包含的探针数。对于结果部分中的分析,我们只包括PM探针,因为包括MM似乎会增加估计中的噪声,而不会提高灵敏度。
实际浓度与估计浓度的比较如图所示。重要的是要注意,没有进行比例调整,因此可以在同一绘图上比较不同的探头组。图A显示了三个转录本,它们本身被排除在确定参数γ的训练集之外(训练集由其余11个转录本组成)。其中两个在整个范围内表现出显著的线性,而一个在16 pM以下并不十分精确B在2到256 pM的范围内表现出整体良好的线性行为,尽管可以观察到刻度两端的残余偏差。在线性范围内,我们发现预测浓度系统性地过低,低于1.5倍。造成这种偏差的一个因素是杂交参数的预测不完善(â,,),其动态范围小于原始参数(参见补充资料中的图S3)。
绝对浓度估算:未进行规模调整。(一)我们通过使用14个转录本中的11个来拟合参数γ来测试泛化,然后使用这些参数来预测其他三个参数的浓度。在这里,我们选择了前三个转录本(根据按字母顺序排列的Affymetrix标签),并显示了1521和1532两个重复实验的预测浓度与pM的实际浓度。(B类)我们测试了所有成绩单;测定γs时不排除探针组。圆点代表28次测量中的第一个四分位、中位数和第三个四分位数(14份副本)。完整的方框图显示在补充材料中。
我们发现,在我们尝试过的许多方法中,上述估算浓度的方法是最有利的。例如,我们尝试了更稳健的估计(而不是等式中的平均值4)像中值或M-估计量一样,但我们发现这些对这个数据集没有任何明显的优势。中位数的结果(如补充材料所示)噪声稍低,但偏差较大,但平均值非常接近使用平均值获得的结果。或者,我们尝试了基于函数最小化的估计器,如
哪里w个我是可以依赖的重量(我,一,b条,d日). 不幸的是,我们无法获得与方程中的结果相似的结果5.
差异表达的估计
每个探头第页在探测集中提供差分表达式估计第页在两个条件1和2之间。根据方程式4,我们获得
哪里我1和我2是探针的测量荧光强度第页在条件1和2中。请注意,参数b条从方程中消失了。我们将表达式分解为原始线性估计(我2–) / (我1–)乘以饱和校正因子。然后,将全探头组的比率计算为受限探头组的几何平均值:
在这里,n个“”是总和中包含的探针数量。限制如下:如果我1<或我2<,或我1> (â+)或我2> (â+),如前一节所述。因为当我1或我2接近â+,我们还排除了饱和校正因子大于4或小于四分之一的探针。
为了测试该方法的敏感性,我们估计了在校准集中后续浓度下测量之间mRNA水平的相对变化,即我们比较了每个探针集的浓度0.5与0.25 pM、1与0.5、……、1024与512 pM。通过这种方式,在所有情况下,预期比率为2。结果如图所示为了进行比较,还显示了MAS 5.0的分数。我们还估计了假阳性率(图。C和D),通过比较来自复制组的测量值(参见材料和方法)。在这种情况下,我们期望比率为1(或对数坐标中的0)。图A清楚地表明,MAS 5.0的比率在整个范围内都有偏差,在大RNA浓度下最为严重[见Naef等. (三)对于酵母数据集上的类似结果]。请注意,由框的边界指示的四分位间距完全位于预期线下。我们强调,这种定性行为是所有当前分析方法的特征,而不仅仅是MAS 5.0。我们的方法(图。B) 明显降低了超过1 pM的整个范围内的偏差,浓度窗口中的中位数几乎完美,范围为1–128 pM。毫不奇怪,这些改进是以稍大的可变性为代价的;然而,信号检测中的增益克服了噪声的增加,如配对所示t吨-表中报告的统计数据.
表3。
检测变化的灵敏度
基线浓度(pM) | 0.25 | 0.5 | 1 | 2 | 4 | 8 | 16 | 32 | 64 | 128 | 256 | 512 |
---|
朗缪尔 | 1.04 | 2.47 | 8.42 | 10.85 | 10.98 | 13.60 | 12.41 | 21.27 | 21.62 | 11.93 | 12.36 | 7.14 |
MAS 5.0版 | 2.28 | 2.70 | 5.74 | 9.51 | 13.14 | 18.99 | 16.87 | 27.09 | 12.96 | 11.81 | 5.62 | 4.43 |
讨论
我们证明,在基因芯片的情况下,测量强度和浓度之间的线性关系的假设是不准确的。相反,我们已经证明,校准曲线完全符合人们对朗缪尔等温线的预期。实际上,这种饱和度会在差异表达估计中导致显著的压缩偏差,在高浓度时最为严重。类似的效应可能会影响其他版本的微阵列,例如cDNA载片或斑点寡核苷酸阵列。我们接着展示了如何根据探针的序列组成来估计Langmuir模型中的三个参数。尽管训练集规模较小,但我们在预测绝对浓度方面取得了良好的结果。此外,我们能够在不降低信噪比的情况下显著降低偏差,从而提供差异表达的估计值。
该技术的一个吸引人的特点是,当产生更广泛的校准数据时,它自然会进行微调。主要的改进应归功于Langmuir参数作为探针序列函数的更详细建模。这里只使用了最粗糙的线性模型,较大的数据集可能会支持包含基本位置信息或最近邻相互作用的模型。我们还预计,有可能对估计器进行改进,以结合冗余探针的信息。到目前为止,我们的结果表明,几何平均(方程5和7)结果与中位数等更为离群的ro-blast估计值类似,表明离群值在这里并不起关键作用。
我们还观察到,无论是从PM中减去MMs,还是将其与PM合并,MMs的加入通常都会导致噪声级增加。这表明,该技术将受益于用非冗余序列的额外PM替换MM探针。
在实践中,我们的方案的有效实施需要对当前协议进行一些修改。首先,其广泛适用性将取决于标准化的进展,但普遍认为这是必要的(9). 其次,测试估计的参数在多大程度上可以在不同的实验和/或芯片系列之间传递是至关重要的。归一化后,我们预计参数变化不大一和b条另一方面,参数d日可能取决于样品的特殊性。然而,在每个阵列上掺入一组非基因组(随机)探针应该可以确定非特异性杂交的水平,从而校准参数d日.
我们相信,使用探针的序列组成来校准阵列将是完善基于微阵列的转录研究的关键。这项工作为这一方向迈出了一步。