跳到主要内容

短寡核苷酸微阵列中探针之间的杂交相互作用导致虚假相关性

摘要

背景

微阵列测量核苷酸序列与一组序列特异性探针的结合。该信息与注释结合,说明探针和靶点之间的关系,并用于推断转录物,最终推断基因表达。在某些情况下,探针能够与多个转录物杂交,在其他情况下,多个探针可以针对单个序列。这些“多靶向”探针可以导致测量的表达水平之间的非依赖性。

结果

Affymetrix阵列的这些关系分析考虑了探针和转录序列之间精确匹配的程度和影响。对于流行的HGU133A阵列,发现大约一半的探针以这种方式相互作用。使用真实和模拟的表达数据集来检查这些效应是如何影响表达信号的。研究发现,这不仅导致受影响探针的信号强度增加,而且主要影响是显著增加了它们的相关性,即使在只涉及来自探针的单个探针的情况下也是如此。通过构建probe-baset-transcript关系网络,可以识别相互作用probetest家族。超过10%的家族成员被注释为不同的基因,甚至不同的Unigene簇。在一个家族中,可能会出现真正的生物和人工关联。

结论

多重目标定位不仅普遍存在,而且意义重大。在分析基因表达时,探针杂交到多个基因产物的能力可能导致假阳性。解释阵列数据时,需要描述多目标的综合注释。

背景

微阵列实验中的噪声源可能有很多[1,2],因此,大多数研究人员试图通过各种质量控制、归一化和异常值过滤程序来最大限度地减少其影响或估计其影响[]. 变异的一个来源是交叉杂交(CH),当非预期序列与预期靶标旁边的探针杂交时,就会发生交叉杂交。在Affymetrix阵列中,使用一组短的(通常为25 mer)寡核苷酸探针来靶向转录物,杂交条件受到仔细控制,目的是将非特异性结合导致的CH影响降至最低[4]. 此外,每个完美匹配(PM)探针都伴随着一个不匹配探针(MM),其中中间残留物已经改变。其目的是,这可用于测量与每个PM探针相关的CH水平。关于短寡核苷酸阵列中CH的更详细讨论,请参阅[5]. 从2004年10月起,Affymetrix也开始在其自己的NetAffx服务中显示交叉杂交的简要摘要[6].

在某些情况下,探针可能与多个转录本完全匹配。这一点很重要,因为这些探针不再能够用唯一的转录物识别,而是依赖于多个基因产物。Affymetrix阵列使用多个探针(通常是11个PM/MM对,统称为“探针”)来定位每个转录本,这使得情况变得更加复杂。最近,建立了几个数据库,以提供Affymetrix探针到已知转录本的映射[710],到cDNA微阵列中的序列[11,12],或用于将算法方法应用于跨平台或跨物种比较[7]. 最近的一篇论文[13]介绍了基因芯片阵列解释的全球概述,以及更新注释以匹配基因组数据库持续进化的需要。该解决方案包括重新定义CDF文件,类似于最初在[10],这在许多情况下可能就足够了。

“多靶向”探针的问题很重要,因为它们有可能导致所属探针之间的串扰。如果它们的影响是显著的,并且表达式汇总算法无法控制它们,那么这将导致原本不相关的问题看起来是相关的,因为它们是由共享信号驱动的。

ADAPT数据库[4]用于调查Affymetrix表达数据中多靶点探针的范围和重要性(参见方法)。该平台结合了短寡核苷酸和严格的杂交条件,旨在最大限度地结合PM探针,同时最小化与MM探针的结合。这使得它可以使用生物信息学确定哪些探针可能与哪些转录物100%结合的方法。我们将探针和转录物之间精确匹配的情况称为多重靶向(MT),以区别于更一般的交叉杂交情况,在这种情况下,可能会发生同一性低于100%的匹配。

特别关注MT对探针表达测量之间的明显相关性的影响。由于皮尔逊相关性与尺度无关,因此它不受被比较信号的总体幅度的影响,而是受其形状相似性的影响。虽然这似乎是反直觉的,但当两个信号叠加时,每个原始信号和组合信号之间的相关性量是由这两个信号的相对方差驱动的,而不是由它们的平均强度驱动的(示例和对此的进一步讨论可以在补充材料中找到)。许多微阵列数据分析技术依赖于相关性分析,大多数方法旨在区分以某种方式共现、共表达或相关的基因与不遵循显著共同模式的基因。层次聚类等方法[14,15]和相关网络[1618]直接使用问题之间表达式值的皮尔逊相关系数,而其他问题(如方差分析和更一般的线性模型)最终基于类相关原理。

结果

Affymetrix阵列使用一系列探针瞄准转录本。这些探针被组合在一起以形成一个问题集;MAS5等表达式处理算法[19]、军事革命[20]和GCRMA[21]将来自每个探针的信号组合在一个探针中,以提供一个单一的汇总值,表示溶液中转录物浓度的估计值。MT问题的出现是因为某些探针能够与多个转录物杂交,从而导致非依赖性,而在其他情况下,来自多个探针的探针能够与单个转录物杂交(图1). 通常,这些相互作用结合在一起形成一个复杂的晶格(图2,另请参见附加文件1).

图1
图1

MT图案.多重瞄准的基本主题。a) PTP基序b)TPT基序c)两者的简单组合–PTPTP基题。这些基序构成了多目标网络的基本构建块。转录本和探针之间的关系强度取决于与转录本匹配的探针数量。

图2
图2

MT的LGL图a)HG_U133A数组b)和c)中所有probestet-transcript关系的LGL图是a)中区域的特写视图

在本文中,我们考虑这些关系的范围和结构,然后调查它们对信号强度和问题之间的相关性有多大影响。

寡聚物阵列中多重靶向的流行程度

对HG_U133A阵列的分析表明,许多转录本(Ensembl:7257;RefSeq:6702)与多个探针匹配(即图中的案例a)。1)而22215个探针(不包括对照探针)中近一半(10223个)显示出与多个信号群(9460)或RefSeq(9666)转录本(即图中的案例b)的精确匹配(使用1个或多个PM探针)。1). 为了进行比较,发现18722个问题与至少一个众所周知的抄本相匹配。

MM探针的影响很小:可以与已知转录物精确杂交的MM探针数量大约少1000倍(集合:1899个MM匹配,多于1956000个PM匹配,RefSeq:1962个MM,多于1922000个PM),大多数是与无关序列的单体匹配。因此,我们将MM探针排除在后续分析之外。由于未考虑MM探针,并且RMA在其计算中未使用这些探针,因此RMA处理的数据用于此处显示的所有计算,尽管MAS5处理也观察到类似的效果。

Affymetrix问题名称应该用于识别与多个目标相关的问题。特别是,标记为“_x_at”的标记被标识为非特定。类似地,“_s_at”探针被鉴定为潜在靶向不同基因家族成员或剪接变体。分析表明,许多与机器翻译相关的问题没有以这种方式识别,只是注释为“_at”(根据Ensembl匹配,2189个;RefSeq,1496个)。这些数字可能被低估,因为ADAPT仅使用特征良好的序列构建。因此,MT中涉及大量的标准“_at”问题。

寡核苷酸阵列中的多重靶向结构

基本图案

MT交互网络的两个基本构建块是Probeset-Transcript-Probeset(PTP)基序(图1a个),和转录探针转录(TPT)基序(图1亿). 根据用于处理阵列数据的分析算法的稳健性,任何一个模体的存在都可能导致参与探针的表达谱之间的非依赖性。

对这两种基序的搜索证实了MT在寡核苷酸阵列中的流行。1总结了各种Affymetrix阵列中两个基序的发生率。PTP基序特别常见–它涉及HG_U133A阵列上几乎一半的探针,以及HG_0133Plus2上三分之一以上的探针。一般来说,较新的阵列在MT中涉及的探针比例较大。

表1不同Affymetrix阵列的PTP和TPT基序摘要

相关问题系列

探针集可能涉及多个PTP和TPT基序,从而形成一个MT-网络。这可以表示为一个图,其中节点表示转录本和探针,而边表示转录本与探针之间的匹配,并标有交互中涉及的匹配探针的数量。这样的图是有信息的,因为有太多的问题有可能涉及MT(几乎一半用于HGU133A阵列)。由于Affymetrix阵列测量cRNA序列与序列特异性探针的结合,用于定义MT的搜索有助于编目哪些结合事件是可能的。MT相互作用的知识很重要,因为它开始描述微阵列实验中实际测量的内容。

2显示了一个这样的图表,使用LGL布局[22]. RefSeq成绩单的边缘涂成红色,合奏部分涂成绿色。蓝色用于标记MT的强度,强度与匹配探头的数量相对应。放大后的LGL图显示了一组不同复杂度的断开族分离子图。因此,几乎所有的机器翻译关系都是局部关系。

为了建立家族,查询数据库以识别所有PTP基序。然后,使用一个简单的搜索算法来识别使用所识别的基序从起始问题可以到达的最大图。不涉及任何PTP基序的探针会产生由单个探针组成的琐碎家族。另一个步骤用于消除“轮毂问题”,如下所述。

对于HG_U133A阵列,此过程将识别出至少包含2个探针的3859个系列(有关示例,请参见附加文件2). 家庭中的平均患病人数不高,约为2.56人。有趣的是,发现了429个家族(共涉及1529个问题),其中家族成员被注释为不同的基因。重要的是,这些族不仅仅由“_x_at”问题组成:456个被注释为“_at”,497个被注释成“_s_at”。

MT系列的完整列表包含在补充数据中(参见附加文件3)以及允许探索这些族的小程序,附加到示例表达式数据(请参见附加文件4).

中心问题

有一组探针(Affymetrix并不总是将其注释为“_x_at”)与大量转录本匹配,通常带有少量探针。它们可能被称为“中心”探针,因为它们的表达结合了来自许多可用转录本的信号。在probestet-transcript关系网络中,hub probetes通常将较小的probetest家族连接在一起,通常一次连接多个probetests家族。集线器问题集的一个典型例子是“221992_at”,它与44个RefSeq或Ensembl转录本匹配,平均每次匹配3.18个探针,或“210524_x_at”(127个匹配,平均1.5个探针)。

如果匹配探针的平均数量少于3个,转录本的总数大于30,或者转录本匹配的总数大于70,则为上述家族搜索算法选择中心。这导致选择了277个中心问题,使系列的粒度保持在合理的水平(另请参见表2轮毂选择标准)。

表2集线器问题和未注释的集线器问题的数量x_at,取决于匹配转录物数量的条件

多重靶向效应的量化

数据库搜索发现的针对多个转录本的探针,通常比针对唯一转录本的探测器具有更高的测量信号。例如,对于多靶向PM探针,基因图谱数据中的平均测量表达水平高出16%,如果考虑单个PM:MM探针对的PM–MM差异,则高出80%以上。

这些数字表示原始探针强度的差异,这些差异随后被分组为探针,并由表达式摘要工具(如MAS5或RMA)处理。以下部分研究探针级别的这些变化是否会传递到MAS5或者RMA处理的表达式摘要中,以及它们对皮尔逊相关性的影响。

真实数据,相同的抄本

1区分共享probeset的抄本和共享抄本的probeset。第一种情况(PTP,la)相对来说微不足道:我们应该看到这些问题之间的相关性。过度相关性的程度由图证实,它显示了阵列上每个探针对之间计算的皮尔逊相关系数的分布。结果分布几乎正常,有轻微位移( 第页 ¯ 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciacaGaaeqabaqabebeGadaaaakaacuWGYbGCgaqeaaaa@2E31@ =0.02,对于RMA处理的基因图谱数据,对于其他数据集,平均值相对较小)。相比之下,当只考虑多目标问题时(如图1a个),分布向正值方向严重扭曲( 第页 ¯ 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciacaGaaeqabaqabebeGadaaaakaacuWGYbGCgaqeaaaa@2E31@ = 0.55). 因此,正如预期的那样,针对同一转录本的探针显示出比那些没有以这种方式连接的探针更高的相关性。MAS5和GCRMA处理的数据也显示出类似的结果(未显示)。重要的是,这种影响并不局限于11/11探针匹配的探针。4显示了探针的Pearson相关性分布,其中只有一部分探针涉及到MT。可以看出,即使是单个匹配探针也会导致相关性增加。这是令人惊讶的,因为MAS5和RMA等寡阵列数据处理方法的设计能够抵抗离群值–与对等探针行为不同的单个探针可能不会对数据产生很大影响。下面将对此进行更详细的调查。

图3
图3

MT对探针相关性的影响所有探针对(黑色)与MT探针对(红色)的Pearson相关性分布。来自Gene Atlas的50个阵列的数据经过RMA处理。全局(黑色)曲线表示100万个随机探针对的相关性,而MT曲线(红色)是使用HG_U133A阵列中110000多个PTP基序的所有探针对绘制的。MT曲线的峰值接近1的相关性,可以用一组具有几乎恒定高信号的探针来解释。其中大多数是文本中定义的“中心”问题。绿色分布为正态分布,其平均值(=0.018)和标准偏差与黑色分布相同。可以看出,全球分布非常接近正态分布。

图4
图4

实际数据中MT对问题相关性的影响MT-相关问题的Pearson相关性分布。曲线对应于PTP基序中相互作用探针的数量:橙色–1个探针,洋红–最多3个探针,蓝色–最多7个探针,绿色–所有MT探针对。在接近1的相关性处的峰值是由于集线器探针,其通常具有高强度并且与具有单个探针的许多转录物相匹配。

仿真数据

强度

1亿显示了probeset的表达水平可能由两个不同的转录本驱动的情况。由于TPT基序中涉及的单个转录物的表达水平没有独立的估计值,因此进行了模拟实验,通过人为添加原始表达数据来模拟这种影响。

5显示了一个这样的模拟的结果,该模拟旨在考虑与预期靶相同丰度的额外转录物的存在的影响。可以看出,随着尖峰探针数量的增加,信号变得更加明显。正如之前通过实际数据观察到的那样,单个匹配探针可能会对计算的表达式水平产生重大影响。即使当表达水平相对较高时,来自两个探针的信号也足以导致明显的差异表达。即使如此,最大的褶皱变化通常仅限于较低强度的问题,这表明MAS5和RMA在减少异常值的影响方面都做得很好。

相关性

在第二个模拟实验中,通过将第二组探针的信号添加到第一组探针来实现峰值。这样,图中所示的情况1亿模拟-即,与两个不同的转录本进行探针杂交(一个探针全部匹配,另一个探针匹配数量不同)。第二组问题是通过随机选择多达500个问题产生的。进行方差过滤以确保至少一个转录物具有变化的表达谱。由于Pearson相关性不依赖于信号的平均强度,而是依赖于其形状的相似性,因此对方差而非强度进行滤波。皮尔逊相关,第页在第一个列表的每个成员和第二个列表中的相应伙伴之间进行计算。在加标之前,这两组数据应该是不相关的;峰值预计会增加相关性。与实际数据一样,即使只涉及少量探针,来自尖峰探针的信号也对相关性有显著贡献。从图中可以看出6即使当高方差预测是额外峰值信号的接收者发生变化时第页是可能的。因此,影响不限于低信号探头(另请参阅附加文件5,6,7,8).

图5
图5

模拟实验–折叠变化。尖峰后测量信号强度的变化,以模拟与预期靶点相同丰度的额外杂交转录物的存在。数字表示探针中修改的探针数量。轴是日志2。即使是单个尖峰探针也会导致强度发生显著变化。即使对于高强度目标探测,也可以看到折叠变化。

图6
图6

峰值和目标问题的方差滤波。如图5所示生成数据的相关性分布,但根据方差进行分组。绿色-高方差预测值加上高方差峰值,蓝色-高方差预计值加上低方差峰值,品红色-低方差预测值+低方差峰值、青色-低方差预计值+高方差峰值。红色–加标前的相关性。当预期目标的方差较低时,多重目标对相关性的影响最为显著,但即使是方差较高的目标,相关性也可能受到影响。

强度与相关性

真实数据集和人工数据集都表明,即使交互中只涉及一小部分问题,机器翻译也会对相关性产生显著影响。RMA和MAS5等算法成功地采用了稳健的平均技术(如中值抛光或Tukey双权)来减少异常值的影响。因此,当探针中只有少量探针参与MT时,预计测得的表达水平变化通常很小。这在实际和模拟数据集中都得到了证实。

然而,即使强度的总体变化很小,皮尔逊相关性的增加也可能很高。这是因为皮尔逊相关性是由轮廓形状的相似性驱动的,而不是强度;少量的杂散信号会导致第页即使问题之间的总体平均值差异很大。由于Pearson相关性将每个变量的平均值作为中心,并根据其标准偏差进行缩放,因此相关性完全取决于两个信号的相对形状和方差,而不是它们的总体强度。当两个信号,b条与它们的总和相比,,与这并不取决于它们的相对大小,而是取决于它们之间的相对方差。这是反直觉的,但在考虑相互作用信号对相关性的影响时,需要认识到这一点(参见附加文件9).

这种效应可以通过改变加标探针的贡献量来证明(f和f-请参见方法)。7结果表明,即使只有5%的尖峰信号存在,对皮尔逊相关性的影响仍然很大,即使由此产生的折叠变化通常很小。

图7
图7

峰值水平对RMA表达值和相关分布的影响.第1行:f和f=0.05,第二排:f和f=0.2,第三排:f和f= 1. RMA后信号与加标前信号的第一列散射图,相关分布的第二列畸变-加标后变化。500个随机选择的目标和尖峰。即使是少量的杂散信号也可能会显著影响相关性。对于f和f=0.2,褶皱变化受影响不大,但对相关失真的影响几乎与f和f= 1.

合并数字67研究表明,相关性的增加不仅仅局限于向低方差探针中添加大量变化信号的情况。

在探针已经高度相关的情况下,由于与另一转录物交叉杂交而增加额外信号可能会降低相关性。尖峰实验发现情况确实如此(数据未显示)。然而,有趣的是,尽管有时第页被多重目标降低,总体趋势是相关性显著增加(如图所示; 模拟实验的类似图–参见附加文件10).

假阳性率也会增加,因为由于与预期靶点以外的转录物精确匹配,否则仅由非特异性杂交背景水平产生信号的缺失探针可能会经历额外的结构化信号。

问题族中的函数同质性和伪相关性

对MT家族的分析表明,在图中所示的3859个家族中2,395包含注释的问题(使用BioConductor annaffy包[])2个或更多UniGene簇。当考虑基因符号时,注释变得更加模糊:429个家族包含注释到不同基因的转录本。因此,尽管大多数家族在UniGene和基因符号方面是同质的,但大约10-15%(取决于家族的大小和注释来源)可能被注释为不同的基因。这意味着大约有1000个问题。

正如我们使用真实数据和人工数据所示,机器翻译导致相关性增加。其结果是,与机器翻译相关的问题应该在树状图中相互靠近,例如那些用于使用热图对问题进行聚类以实现可视化的问题。例如,图中的热图8是使用三组问题创建的。第一个(注释为基因RPS29、HFL-B5、EIF4A1、RPL36A和RPL18)在[23]区分标准风险和高风险TEL-AML1细胞遗传学异常。这些问题中没有一个与MT相关,因此可以被视为形成一个“行为良好”的生物家族。第二组(注释为TUBB6、TUBB2和TUBB3)构成另一个生物家族,但它们也通过MT相互关联,以及与其他微管蛋白基因关联。因此,该家族代表了一个混合生物-MT家族。第三组问题与RPS10有关,但也与许多假基因转录物有关。这个群体代表了一个“MT家族”,其中的关系被认为是人为的。这三组问题被添加到另一组随机选择的问题中,作为“背景”,然后进行聚类。MT-家族、微管蛋白和生物家族被发现是独立的簇(MT-家族的联系比其他家族更紧密),这表明层次聚类无法区分可能的真实(即生物)簇和可能的人工(即MT驱动的)簇。

图8
图8

热图示例3个探针家族(MT驱动、微管蛋白和功能探针)的热图和层次聚类,以及随机选择的非MT探针。集群并没有区分功能性家族和MT家族,而是以非常相似的方式将它们组合在一起。

讨论

很明显,多重靶向是微阵列数据中的一个重要人工制品:HG_U133A阵列上几乎一半的探针与MT相关。考虑到实际表达数据,可以看出这些探针的相关性明显高于偶然预期。这些结果也得到了模拟实验的支持,使用从实际实验数据中获得的数据集,可以在一个更可控的框架中考虑机器翻译。机器翻译可以提高相关探针之间的相关性,即使只涉及一小部分探针。尽管表达式汇总算法能够成功地减少异常值探测的影响,但并不能完全消除它们,少量的杂散信号仍然会对相关性产生重大影响。这种明显悖论的原因是皮尔逊相关的尺度方差;绝对信号并不重要。重要的是表达谱形状的差异和(有效地)相对相似性。因此,在使用基于相关性的方法分析表达式数据时必须特别小心。由于机器翻译发生在探针级别(为探针内的单个探针添加额外信号),情况也变得更加复杂,但相关性是在使用RMA或MAS5等算法进行归一化和表达式汇总后计算的。这种额外的复杂性使得很难可靠地预测信号组合时会发生什么。然而,经验数据(图6)表明对相关性的影响取决于组合的两个问题的相对方差。正如预期的那样,高方差峰值探针通常比低方差峰值具有更大的影响,但有趣的是,将低方差峰值添加到低方差数据中(图中的品红色线6)与向低方差数据(青色线)添加高方差峰值相比,其影响更大。这可能是对数据进行表达式汇总和规范化的结果。

MT的一个结果是,因为它用于为没有真实信号的随机问题添加结构,所以它可能导致检测到假阳性,除非已知交叉匹配问题的存在。MT和非MT探头的强度分布分析显示,存在相当程度的重叠(参见附加文件11). 这意味着MT问题无法通过简单的强度过滤来消除。事实上,由于MT通常会增加信号强度,这种滤波实际上可能有助于丰富MT探头。

MT最终是一个基于序列的事件;当两个序列在探针靶向的25bp之间显示100%一致时,就会发生这种情况。在问题的层面上,当转录本显示出高度的序列相似性时,最有可能发生这种情况。这种关系很麻烦,因为表达数据的主要用途是通过相关的表达谱来识别探针(以及通过注释识别基因),并使用这些关系来推断功能相似性。由于序列相似性本身往往是推断公共函数的基础[24]序列相似性与机器翻译相结合有可能成为一种自我实现的预言。

对数据库的搜索发现,大约5%的家庭成员含有注释为不同基因的探针。因此,在一对随机选择的基因之间,由于MT而发现虚假功能关系的可能性很小。然而,这是乐观的,因为微阵列分析通常涉及筛选,以产生一组重要的问题(根据变化的大小或统计置信度)。这种过滤的结果是,不仅为了真实的生物效果,而且为了其他一致的东西,包括生物化学或基于序列的人工制品,例如MT,来丰富最终的“命中列表”。图中的热图说明了这一点8; MT家族在随机选择的问题背景下分为不同的集群。

MT的一个可能解决方案是重新定义探针,以便将针对同一转录物的探针放入代表整个序列的较大探针中,如[10]. 这也是[13]但作者总结道,“在许多情况下,基于当前一代基因芯片上可用的探针,不可能为具有多个转录本的基因生成转录特异性探针集”。因此,它们可以用于在基因水平上进行区分,但不能在转录物或剪接变异体水平上进行区别——MT及其所有后果仍然存在。在泛化和保持解决转录本和剪接变异体之间细微差异的能力之间需要做出妥协。

随着Affymetrix外显子阵列等新一代微阵列的出现,这个问题变得更加重要[25]它故意使用多个探针来区分特定基因表达的一组剪接变异体中的单个转录物。结果是基因、转录物和探针之间存在许多关系。

试图将这些多个关系压缩为一对一映射的注释方案将失去系统固有的复杂性。将针对多个转录本的探针与针对一个或多个单个转录本的探测器组合在一起,会导致新探针与所有其他与其共享探针的转录本之间发生MT。从一个角度来看,许多这些问题都归结为注释。数据中明显的事实只存在于问题注释中,因为这些注释不能准确地反映它们所绑定的抄本。

对于所有解决方案,包括那些试图通过将探针聚合到更大的问题中来解决问题的解决方案,注释是至关重要的,因为除非明确表示数据中发生的所有许多关系,否则会出现不准确的情况。

结论

探针之间的交叉杂交是一种显著的效果,对微阵列数据的解释具有实际影响。在分析过程中,它可能会导致各种问题,包括假阳性和假阴性,并且通常会增加多个目标问题之间的相关性。虽然此处显示的结果是针对Affymetrix阵列的,但可以合理地预期,其他基于表达的技术也会出现类似的效果。使用短寡聚物和严格的杂交条件,可以进行生物信息学在Affymetrix数据中识别MT所需的搜索。然而,CH并不排斥任何一个平台,类似的行为可能在其他地方也会出现。表达式摘要算法不仅必须纠正数组之间的差异,还必须纠正probeset中各个探测之间的差异。这通常使用某种稳健的平均程序来执行,但即使是少量的杂散信号也会导致探针之间的高度相关性。尽管RMA和MAS5等算法在显著降低异常值探测的影响方面做得很好,但它们并不总是能够完全消除它,这表现为探测之间的相关性显著增加,即使只涉及一小部分探测。

通过更详细的注释,可以避免上述许多问题。术语“基因”、“转录物”和“问题集”经常互换使用。这是危险的,因为这种关系不是一对一的,机器翻译网络的存在可以导致明显的生物关系,实际上,这种生物关系是人工的。简单地表示为基因列表的表达数据很难正确解释,因为数据中隐含的交互网络的复杂性丢失了。社区应确保实际的问题ID始终与基因名称或转录材料一起可用。这允许在必要时探索与基因转录-蛋白映射相关的图形结构,并用于全面解释基因表达数据的复杂性。

方法

图形渲染

通过从ADAPT提取数据并将可视化输出重定向到LGL,生成MT网络和交互图[22]和我们自己的可视化软件。由于LGL等图形的全局布局是静态的,因此不是交互式的,因为顶点的数量太大,无法进行有效的实时渲染,因此开发了一个小程序,用于快速灵活地分析各个族。小程序中的这些小的局部图形是用JUNG API实现的[26].

数据库、实验数据源和数据处理

自适应[4]是Affymetrix探针、转录物和基因之间映射的数据库。它是通过搜索所有探针序列来填充的,以便与RefSeq(编写时版本11)中的转录数据精确匹配[27]和Ensembl(撰写本文时为V30)[28]. 对于RefSeq,使用“已知”和“模型”序列;对于合奏,ADAPT使用指定的“已知”、“新颖”或“伪”状态。使用这两个数据库是因为它们使用不同的方法来预测转录/基因序列。

查询ADAPT数据库(使用SQL和RdbiPqSQL数据库链接到R)以提取一组表,描述探针和转录本之间所有可能的MT链接,不包括反义链匹配。这些探针可以将转录本与1到16个匹配探针进行匹配。这些表隐式定义了一个未连接的图(参见图2为了考虑MT效应的强度及其对表达研究的影响,将来自ADAPT的数据与使用HG-U133A阵列生成的实验的表达数据相结合。使用MAS5和RMA产生表达水平,如Bioconductor(包装阿菲单纯的[,29,30]).

当用MAS5重复实验时,结果类似。所有呈现的图均使用诺华基因图谱生成[31]数据集。两种白血病的结果相似[23]和肉瘤[32]数据集–可从ArrayExpress公开获取。

针对所有被发现靶向相同转录物的成对问题计算Pearson相关性。计算所有探针对以及其中一个探针与少于指定数量探针的转录本匹配的所有探针对的相关系数分布。

仿真数据

来自Gene Atlas V2的50个HG_U133A阵列的子集被用作模拟实验的基础,旨在探索MT探针的数量如何影响RMA处理数据的表达测量。

加标操作如下:在使用RMA生成表达摘要之前,随机选择500个探针进行加标,500个探针(随机)作为加标数据的来源。没有对这些问题进行筛选。将探针随机配对,并为每个探针选择1到10个探针(再次随机)。来自尖峰源的信号被添加到尖峰目标的原始信号中。用这种方法模拟TPT基序。使用RMA对生成的模拟数据进行批量规范化,并将其与原始未采样数据进行比较(再次使用RMA进行批量规范,与第一组数据分开)。在所有模拟实验中,所选探针的峰值都在整个阵列上进行。

在第二个实验中,像以前一样,选择了一组500个问题。然后随机选择第二组具有相同数量的问题。这些问题是从可用问题的子集中选择的,这些问题是通过对表达数据进行方差过滤而产生的。通过这种方式,可以从具有特别高、平均或低表达方差的问题集中对两个集合进行采样。高方差和低方差定义为按方差排序的前2000个或后2000个预测,不包括100个最极端的预测。第二个列表中的每个问题用于为第一个列表中问题提供数据;选择了1到11个探针,并将第二个列表中的探针强度添加到第一个列表中相应的探针。应用了不同程度的影响,将一个问题信号的特定比例添加到另一个:颗粒物11之后=颗粒物1之前+f和f*颗粒物2,在哪里f和f范围从0.05到1。通过这种方式,模拟了第一个列表中的探针和第二个列表中由探针表示的转录本之间的交叉杂交。

缩写

适配器:

“Affymetrix调查和笔录数据库”

中国:

杂交

LGL公司:

大型图形布局

MAS5:

MicroArray Suite–Affymetrix算法(MAS 5.0)

月:

不匹配探针

手动变速箱:

多重瞄准

下午:

完美匹配探头

巴基斯坦国家石油公司:

probestet-transcript-probested网络基序

军事革命:

鲁棒多芯片平均算法

TPT(TPT):

转录-转录网络基序

工具书类

  1. Zakharkin S、Kim K、Mehta T、Chen L、Barnes S、Scheirer K、Parrish R、Allison D,第G页:Affymetrix微阵列实验中的变异来源。 BMC生物信息学2005,6:214. 10.1186/1471-2105-6-214

    第条 公共医学中心 公共医学 谷歌学者 

  2. Nimgaonkar A、Sanoudou D、Butte A、Haslett J、Kunkel L、Beggs A、Kohane I:各代Affymetrix微阵列中基因表达的再现性。 BMC生物信息学2003,4:27. 10.1186/1471-2105-4-27

    第条 公共医学中心 公共医学 谷歌学者 

  3. Wilson CL、Miller CJ:Simpleafy:用于Affymetrix质量控制和数据分析的BioConductor软件包。 生物信息学2005,21(18):3683–3685. 10.1093/生物信息学/bti605

    第条 中国科学院 公共医学 谷歌学者 

  4. Leong HS、Yates T、Wilson C、Miller CJ:ADAPT:一个关于affymetrix问题和转录本的数据库。 生物信息学2005,21(10):2552–2553. 10.1093/生物信息学/bti359

    第条 中国科学院 公共医学 谷歌学者 

  5. Wu C、Carta R、Zhang L:短寡核苷酸微阵列交叉杂交的序列依赖性。 核酸研究2005,33(9) :e84。10.1093/nar/gni082

    第条 公共医学中心 公共医学 谷歌学者 

  6. Liu G、Loraine AE、Shigeta R、Cline M、Cheng J、Valmeekam V、Sun S、Kulp D、Siani-Rose MA:NetAffx:Affymetrix问题和注释。 核酸研究2003,31:82–86.10.1093/nar/gkg121

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  7. Mecham BH、Klus GT、Strovel J、Augustus M、Byrne D、Bozso P、Wetmore DZ、Mariani TJ、Kohane IS、Szallasi Z:序列匹配探针在基于微阵列的基因表达测量中产生了更高的跨平台一致性和更可重复的生物学结果。 核酸研究2004,32(9) :e74。10.1093/nar/gnh071

    第条 公共医学中心 公共医学 谷歌学者 

  8. Mecham BH、Wetmore DZ、Szallasi Z、Sadovsky Y、Kohane I、Mariani TJ:提高序列验证微阵列探针的测量精度。 基因组学杂志2004,18(3):308–315. 10.1152/生理遗传学.0066.2004

    第条 中国科学院 公共医学 谷歌学者 

  9. Harbig J、Sprinkle R、Enkemann SA:Affymetrix U133 plus 2.0阵列上探针检测到的基因的基于序列的鉴定。 核酸研究2005,33(3) :e31。10.1093/nar/gni027

    第条 公共医学中心 公共医学 谷歌学者 

  10. Gautier L、Moller M、Fries-Hansen L、Knudsen S:Affymetrix芯片探针到基因的替代映射。 BMC生物信息学2004,5:111. 10.1186/1471-2105-5-111

    第条 公共医学中心 公共医学 谷歌学者 

  11. Carter S、Eklund A、Mecham B、Kohane I、Szallasi Z:通过与cDNA微阵列探针的序列重叠重新定义Affymetrix探针集,减少了癌症相关基因表达测量中的跨平台不一致。 BMC生物信息学2005,6:107. 10.1186/1471-2105-6-107

    第条 公共医学中心 公共医学 谷歌学者 

  12. 联合体GO:基因本体(GO)数据库和信息资源。 核酸研究2004,(32数据库):D258-D261。10.1093/nar/gkh036

  13. Dai M、Wang P、Boyd AD、Kostov G、Athey B、Jones EG、Bunney WE、Myers RM、Speed TP、Akil H、Watson SJ、Meng F:进化中的基因/转录定义显著改变了基因芯片数据的解释。 核酸研究2005,33(20) :el75。10.1093/nar/gki783

    第条 谷歌学者 

  14. Shannon W、Culverhouse R、Duncan J:使用聚类分析分析微阵列数据。 药物基因组学2003,4:41–52.10.1517/phgs.4.1.41.22581

    第条 中国科学院 公共医学 谷歌学者 

  15. 夏洛克G:大规模基因表达数据分析。 生物信息学简介2001,2(4):350–362. 10.1093/bib/2.4.350

    第条 中国科学院 公共医学 谷歌学者 

  16. Butte AJ、Tamayo P、Slonim D、Golub TR、Kohane IS公司:利用相关网络发现RNA表达和化疗敏感性之间的功能关系。 美国国家科学院2000,97(22):12182–12186. 10.1073/pnas.220392197

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  17. Butte AJ,Kohane一号:相互信息相关网络:使用成对熵测量的功能基因组聚类。 Pac-Symp生物计算机2000, 418–429.

    谷歌学者 

  18. Stuart J、Segal E、Koller D、Kim S:全球发现保守遗传模块的基因合作表达网络。 科学类2003,302:249–255. 10.1126/科学.1087447

    第条 中国科学院 公共医学 谷歌学者 

  19. Affymetrix公司:统计算法描述文档。2002.

    谷歌学者 

  20. Irizarry R、Bolstad B、Collin F、Cope L、Hobbs B、Speed T:Affymetrix基因芯片探针级数据摘要。 核酸研究2003,31(4) :el5。10.1093/nar/gng015

    第条 谷歌学者 

  21. Wu Z、Irizarry R、绅士R、Murillo F、Spencer F:基于模型的寡核苷酸表达阵列背景调整。技术报告。 约翰·霍普金斯大学。生物统计系工作文件2003.

    谷歌学者 

  22. Adai AT、Date SV、Wieland S、Marcotte EM公司:LGL:使用可视化超大生物网络的算法创建蛋白质功能图。 分子生物学杂志2004,340:179–190. 2016年10月10日/j.jmb.2004.04.047

    第条 中国科学院 公共医学 谷歌学者 

  23. Teuffel O、Dettling M、Cario G、Stanulla M、Schrappe M、Buehlmann P、Niggli F、Schaefer B:儿童急性白血病的基因表达谱和风险分层。 血液学2004,89:801–808.

    中国科学院 公共医学 谷歌学者 

  24. 阿特伍德·T,米勒·C:生物信息学的进展和认真对待的重要性。 生物技术年度收益2002,8:1–54.

    第条 中国科学院 公共医学 谷歌学者 

  25. Affymetrix公司:外显子问题集注释和转录物簇分组。2005

    谷歌学者 

  26. O’Madadhain J、Fisher D、Smyth P:使用JUNG分析和可视化网络数据。 统计软件杂志,正在印刷中。

  27. 普鲁伊特KD、塔图索娃T、马格洛特DR:NCBI参考序列(RefSeq):基因组、转录物和蛋白质的精选非冗余序列数据库。 核酸研究2005,33(数据库问题):D501–504。10.1093/nar/gki025

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  28. Birney E、Andrews T、Bevan P、Caccamo M、Chen Y、Clarke L、Coates G、Cuff J、Curwen V、Cutts T、Down T、Eyras E、Fernandez-Suarez X、Gane P、Gibbins B、Gilbert J、Hammond M、Hotz H、Iyer V、Jekosch K、Kahari A、Kasprzyk A、Keefe D、Keenan S、Lehvaslaiho H、McVicker G、Melsopp C、Meidl P、Mongin E、Pettett R、Potter S、Proctor G、Rae M、Searle S、,Slater G、Smedley D、Smith J、Spooner W、Stabenau A、Stalker J、Storey R、Ureta-Vida A、Woodwark K、Cameron G、Durbin R、Cox A、Hubbard T、M C:合奏概述。 基因组研究2004,14:925–8. 10.1101/gr.1860604

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  29. 绅士R、凯里五世、贝茨D、博尔斯塔德B、德特林M、杜多伊特S、埃利斯B、戈蒂埃L、葛Y、金特里J、霍尼克K、霍霍恩T、胡贝尔W、伊库斯S、伊里扎里R、利希F、李C、梅歇勒M、罗西尼A、萨维茨基G、史密斯C、史密斯G、蒂尔尼L、杨J、张J:生物导体:用于计算生物学和生物信息学的开放软件开发。 基因组生物学2004,5(10) :R80。[http://genomebiology.com/2004/5/10/R80]10.1186/gb-2004-5-10-r80

    第条 公共医学中心 公共医学 谷歌学者 

  30. Gautier L、Cope L、Bolstad BM、Irizarry RA:affy–在探针级别分析Affymetrix基因芯片数据。 生物信息学2004,20(3):307–315. 10.1093/生物信息学/btg405

    第条 中国科学院 公共医学 谷歌学者 

  31. Su AI、Wiltshire T、Batalov S、Lapp H、Ching KA、Block D、Zhang J、Soden R、Hayakawa M、Kreiman G、Cooke MP、Walker JR、Hogenesch JB:小鼠和人类蛋白质编码转录体的基因图谱。 美国国家科学院2004,101(16):6062–6067. [http://www.pnas.org/cgi/content/abstract/101/16/6062]10.1073/pnas.0400782101

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  32. Wang H、Trotter M、Lagos D、Bourboulia D、Henderson S、Makinen T、Elliman S、Flanagan A、Alitalo K、C B:卡波西肉瘤疱疹病毒诱导的细胞重编程有助于卡波西肉瘤中淋巴管内皮基因的表达。 自然遗传学2004,36(7):687–93. 1038/ng1384年10月10日

    第条 中国科学院 公共医学 谷歌学者 

下载参考资料

鸣谢

这项工作由英国癌症研究所资助。

Zhi Cheng Wang和Tim Yates维护和管理ADAPT数据库。我们感谢斯图亚特·佩珀、弗朗西丝卡·布法和克莱尔·威尔逊的有益讨论。

作者信息

作者和附属机构

作者

通讯作者

与的通信MichałJ Okoniewski.

其他信息

作者的贡献

MO开发了问题家族中相互作用的概念,进行了数据库和统计分析,并起草了手稿,CM构思了关于探针与转录本对齐及其含义的研究,监督并参与了其设计,并帮助起草了手稿件。

电子辅助材料

12859_2006_1015_MOESM1_ESM.gif

附加文件1:HGU133A阵列的MT系列图。动画GIF,阵列中MT家族的3D可视化。(GIF 9 MB)

12859_2006_1015_MOESM2_ESM.tiff

附加文件2:三类问题和成绩单的示例。小程序的屏幕截图。大节点表示问题(绿色-阳性检测呼叫),小洋红节点表示抄本。边缘宽度与MT探头数量成正比。探针标有名称、Affymetrix或BioConductor中的注释和表达式值。主要与PAX8、RUNX1/RPL22和微管蛋白相关的家族。(TIFF 423 KB)

12859_2006_1015_MOESM3_ESM.csv

附加文件3:HGU133A阵列的MT系列列表。根据Affymetrix和BioConductor,CSV文件列出了所有发现的MT probeset家族及其基因级注释。(CSV 286 KB)

12859_2006_1015_MOESM4_ESM.txt

附加文件4:用于族探索的Applet。http://bioinformatics.picr.man.ac.uk/adaptnet一个小程序,用于浏览HGU133A数组中的MT-系列图形。大节点代表HGU133A问题:绿色节点具有“当前”检测调用,粉红色节点具有“不存在”检测调用。在实验中,它们被标记为Affymetfix和BioConductor注释、检测调用和表达式值。小的品红色节点表示转录物。有可能在图中添加Exon 1.0ST探针(蓝色)。边缘的宽度与匹配探针的数量成正比。小程序用于在线使用–它连接到应用程序服务器和ADAPT数据库。(TXT 623字节)

12859_2006_1015_MOESM5_ESM.pdf

附加文件5:尖峰实验,信号滤波1。散点图和相关分布,如图所示7,但根据平均信号强度进行过滤。低强度:10%的探头平均信号最低。高强度:10%的探针平均信号最高。低强度尖峰增加到高目标上。中的图附加文件5,6,7,8证明了在任何类型的信号强度滤波下,相关系数都会发生偏移。(PDF 101 KB)

12859_2006_1015_MOESM6_ESM.pdf

附加文件6:尖峰实验,信号滤波2。作为附加文件5,但高强度峰值增加了高目标。(PDF 100 KB)

12859_2006_1015_MOESM7_ESM.pdf

附加文件7:尖峰实验,信号滤波3。作为附加文件5,但高强度峰值增加了低目标。(PDF 100 KB)

12859_2006_1015_MOESM8_ESM.pdf

附加文件8:尖峰实验,信号滤波4。作为附加文件5,但低强度峰值增加了低目标。(PDF 100 KB)

12859_2006_1015_MOESM9_ESM。R(右)

附加文件9:相关性实验的R代码。一个简单的实验,使用10000个随机生成的案例来考虑相关系数和方差之间的关系。(R 3 KB)

12859_2006_1015_MOESM10_ESM.pdf

附加文件10:特定数量的加标探针对相关性的影响。峰值后Pearson相关性的变化,以模拟探针之间的MT。红色图-加标前的相关性,橙色-每个探针1个加标探针,品红色-最多3个探针,蓝色-最多7个探针,绿色-所有探针都加标。就真实数据而言,即使是单个探针也可能影响相关性的分布,但在这种情况下,生物相似性没有影响,这就是为什么存在这种影响,但单个探针的影响最小。(PDF 10 KB)

12859_2006_1015_MOESM11_ESM.pdf

附加文件11:用RMA和MAS5处理后MT和非MT探针的表达信号分布。曲线图(汇总表达值的归一化分布)表明MT探针(蓝色)相对于非MT探针(绿色)的高信号值略有增加。(PDF 9 KB)

作者提交的原始图像文件

权利和权限

本文由BioMed Central Ltd.授权发布。这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

转载和许可

关于本文

引用这篇文章

Okoniewski,M.J.,Miller,C.J.短寡核苷酸微阵列中探针之间的杂交相互作用会导致虚假的相关性。BMC生物信息学 7, 276 (2006). https://doi.org/10.1186/1471-2105-7-276

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1471-2105-7-276

关键词