Affymetrix阵列使用一系列探针瞄准转录本。这些探针被组合在一起以形成一个问题集;MAS5等表达式处理算法[19]、军事革命[20]和GCRMA[21]将来自每个探针的信号组合在一个探针中,以提供一个单一的汇总值,表示溶液中转录物浓度的估计值。MT问题的出现是因为某些探针能够与多个转录物杂交,从而导致非依赖性,而在其他情况下,来自多个探针的探针能够与单个转录物杂交(图1). 通常,这些相互作用结合在一起形成一个复杂的晶格(图2,另请参见附加文件1).
在本文中,我们考虑这些关系的范围和结构,然后调查它们对信号强度和问题之间的相关性有多大影响。
寡聚物阵列中多重靶向的流行程度
对HG_U133A阵列的分析表明,许多转录本(Ensembl:7257;RefSeq:6702)与多个探针匹配(即图中的案例a)。1)而22215个探针(不包括对照探针)中近一半(10223个)显示出与多个信号群(9460)或RefSeq(9666)转录本(即图中的案例b)的精确匹配(使用1个或多个PM探针)。1). 为了进行比较,发现18722个问题与至少一个众所周知的抄本相匹配。
MM探针的影响很小:可以与已知转录物精确杂交的MM探针数量大约少1000倍(集合:1899个MM匹配,多于1956000个PM匹配,RefSeq:1962个MM,多于1922000个PM),大多数是与无关序列的单体匹配。因此,我们将MM探针排除在后续分析之外。由于未考虑MM探针,并且RMA在其计算中未使用这些探针,因此RMA处理的数据用于此处显示的所有计算,尽管MAS5处理也观察到类似的效果。
Affymetrix问题名称应该用于识别与多个目标相关的问题。特别是,标记为“_x_at”的标记被标识为非特定。类似地,“_s_at”探针被鉴定为潜在靶向不同基因家族成员或剪接变体。分析表明,许多与机器翻译相关的问题没有以这种方式识别,只是注释为“_at”(根据Ensembl匹配,2189个;RefSeq,1496个)。这些数字可能被低估,因为ADAPT仅使用特征良好的序列构建。因此,MT中涉及大量的标准“_at”问题。
寡核苷酸阵列中的多重靶向结构
基本图案
MT交互网络的两个基本构建块是Probeset-Transcript-Probeset(PTP)基序(图1a个),和转录探针转录(TPT)基序(图1亿). 根据用于处理阵列数据的分析算法的稳健性,任何一个模体的存在都可能导致参与探针的表达谱之间的非依赖性。
对这两种基序的搜索证实了MT在寡核苷酸阵列中的流行。表1总结了各种Affymetrix阵列中两个基序的发生率。PTP基序特别常见–它涉及HG_U133A阵列上几乎一半的探针,以及HG_0133Plus2上三分之一以上的探针。一般来说,较新的阵列在MT中涉及的探针比例较大。
相关问题系列
探针集可能涉及多个PTP和TPT基序,从而形成一个MT-网络。这可以表示为一个图,其中节点表示转录本和探针,而边表示转录本与探针之间的匹配,并标有交互中涉及的匹配探针的数量。这样的图是有信息的,因为有太多的问题有可能涉及MT(几乎一半用于HGU133A阵列)。由于Affymetrix阵列测量cRNA序列与序列特异性探针的结合,用于定义MT的搜索有助于编目哪些结合事件是可能的。MT相互作用的知识很重要,因为它开始描述微阵列实验中实际测量的内容。
图2显示了一个这样的图表,使用LGL布局[22]. RefSeq成绩单的边缘涂成红色,合奏部分涂成绿色。蓝色用于标记MT的强度,强度与匹配探头的数量相对应。放大后的LGL图显示了一组不同复杂度的断开族分离子图。因此,几乎所有的机器翻译关系都是局部关系。
为了建立家族,查询数据库以识别所有PTP基序。然后,使用一个简单的搜索算法来识别使用所识别的基序从起始问题可以到达的最大图。不涉及任何PTP基序的探针会产生由单个探针组成的琐碎家族。另一个步骤用于消除“轮毂问题”,如下所述。
对于HG_U133A阵列,此过程将识别出至少包含2个探针的3859个系列(有关示例,请参见附加文件2). 家庭中的平均患病人数不高,约为2.56人。有趣的是,发现了429个家族(共涉及1529个问题),其中家族成员被注释为不同的基因。重要的是,这些族不仅仅由“_x_at”问题组成:456个被注释为“_at”,497个被注释成“_s_at”。
MT系列的完整列表包含在补充数据中(参见附加文件3)以及允许探索这些族的小程序,附加到示例表达式数据(请参见附加文件4).
中心问题
有一组探针(Affymetrix并不总是将其注释为“_x_at”)与大量转录本匹配,通常带有少量探针。它们可能被称为“中心”探针,因为它们的表达结合了来自许多可用转录本的信号。在probestet-transcript关系网络中,hub probetes通常将较小的probetest家族连接在一起,通常一次连接多个probetests家族。集线器问题集的一个典型例子是“221992_at”,它与44个RefSeq或Ensembl转录本匹配,平均每次匹配3.18个探针,或“210524_x_at”(127个匹配,平均1.5个探针)。
如果匹配探针的平均数量少于3个,转录本的总数大于30,或者转录本匹配的总数大于70,则为上述家族搜索算法选择中心。这导致选择了277个中心问题,使系列的粒度保持在合理的水平(另请参见表2轮毂选择标准)。
多重靶向效应的量化
数据库搜索发现的针对多个转录本的探针,通常比针对唯一转录本的探测器具有更高的测量信号。例如,对于多靶向PM探针,基因图谱数据中的平均测量表达水平高出16%,如果考虑单个PM:MM探针对的PM–MM差异,则高出80%以上。
这些数字表示原始探针强度的差异,这些差异随后被分组为探针,并由表达式摘要工具(如MAS5或RMA)处理。以下部分研究探针级别的这些变化是否会传递到MAS5或者RMA处理的表达式摘要中,以及它们对皮尔逊相关性的影响。
真实数据,相同的抄本
图1区分共享probeset的抄本和共享抄本的probeset。第一种情况(PTP,la)相对来说微不足道:我们应该看到这些问题之间的相关性。过度相关性的程度由图证实三,它显示了阵列上每个探针对之间计算的皮尔逊相关系数的分布。结果分布几乎正常,有轻微位移(=0.02,对于RMA处理的基因图谱数据,对于其他数据集,平均值相对较小)。相比之下,当只考虑多目标问题时(如图1a个),分布向正值方向严重扭曲(= 0.55). 因此,正如预期的那样,针对同一转录本的探针显示出比那些没有以这种方式连接的探针更高的相关性。MAS5和GCRMA处理的数据也显示出类似的结果(未显示)。重要的是,这种影响并不局限于11/11探针匹配的探针。图4显示了探针的Pearson相关性分布,其中只有一部分探针涉及到MT。可以看出,即使是单个匹配探针也会导致相关性增加。这是令人惊讶的,因为MAS5和RMA等寡阵列数据处理方法的设计能够抵抗离群值–与对等探针行为不同的单个探针可能不会对数据产生很大影响。下面将对此进行更详细的调查。
仿真数据
强度
图1亿显示了probeset的表达水平可能由两个不同的转录本驱动的情况。由于TPT基序中涉及的单个转录物的表达水平没有独立的估计值,因此进行了模拟实验,通过人为添加原始表达数据来模拟这种影响。
图5显示了一个这样的模拟的结果,该模拟旨在考虑与预期靶相同丰度的额外转录物的存在的影响。可以看出,随着尖峰探针数量的增加,信号变得更加明显。正如之前通过实际数据观察到的那样,单个匹配探针可能会对计算的表达式水平产生重大影响。即使当表达水平相对较高时,来自两个探针的信号也足以导致明显的差异表达。即使如此,最大的褶皱变化通常仅限于较低强度的问题,这表明MAS5和RMA在减少异常值的影响方面都做得很好。
相关性
在第二个模拟实验中,通过将第二组探针的信号添加到第一组探针来实现峰值。这样,图中所示的情况1亿模拟-即,与两个不同的转录本进行探针杂交(一个探针全部匹配,另一个探针匹配数量不同)。第二组问题是通过随机选择多达500个问题产生的。进行方差过滤以确保至少一个转录物具有变化的表达谱。由于Pearson相关性不依赖于信号的平均强度,而是依赖于其形状的相似性,因此对方差而非强度进行滤波。皮尔逊相关,第页在第一个列表的每个成员和第二个列表中的相应伙伴之间进行计算。在加标之前,这两组数据应该是不相关的;峰值预计会增加相关性。与实际数据一样,即使只涉及少量探针,来自尖峰探针的信号也对相关性有显著贡献。从图中可以看出6即使当高方差预测是额外峰值信号的接收者发生变化时第页是可能的。因此,影响不限于低信号探头(另请参阅附加文件5,6,7,8).
强度与相关性
真实数据集和人工数据集都表明,即使交互中只涉及一小部分问题,机器翻译也会对相关性产生显著影响。RMA和MAS5等算法成功地采用了稳健的平均技术(如中值抛光或Tukey双权)来减少异常值的影响。因此,当探针中只有少量探针参与MT时,预计测得的表达水平变化通常很小。这在实际和模拟数据集中都得到了证实。
然而,即使强度的总体变化很小,皮尔逊相关性的增加也可能很高。这是因为皮尔逊相关性是由轮廓形状的相似性驱动的,而不是强度;少量的杂散信号会导致第页即使问题之间的总体平均值差异很大。由于Pearson相关性将每个变量的平均值作为中心,并根据其标准偏差进行缩放,因此相关性完全取决于两个信号的相对形状和方差,而不是它们的总体强度。当两个信号,一和b条与它们的总和相比,秒,与秒这并不取决于它们的相对大小,而是取决于它们之间的相对方差。这是反直觉的,但在考虑相互作用信号对相关性的影响时,需要认识到这一点(参见附加文件9).
这种效应可以通过改变加标探针的贡献量来证明(f和f-请参见方法)。图7结果表明,即使只有5%的尖峰信号存在,对皮尔逊相关性的影响仍然很大,即使由此产生的折叠变化通常很小。
合并数字6和7研究表明,相关性的增加不仅仅局限于向低方差探针中添加大量变化信号的情况。
在探针已经高度相关的情况下,由于与另一转录物交叉杂交而增加额外信号可能会降低相关性。尖峰实验发现情况确实如此(数据未显示)。然而,有趣的是,尽管有时第页被多重目标降低,总体趋势是相关性显著增加(如图所示三; 模拟实验的类似图–参见附加文件10).
假阳性率也会增加,因为由于与预期靶点以外的转录物精确匹配,否则仅由非特异性杂交背景水平产生信号的缺失探针可能会经历额外的结构化信号。
问题族中的函数同质性和伪相关性
对MT家族的分析表明,在图中所示的3859个家族中2,395包含注释的问题(使用BioConductor annaffy包[三])2个或更多UniGene簇。当考虑基因符号时,注释变得更加模糊:429个家族包含注释到不同基因的转录本。因此,尽管大多数家族在UniGene和基因符号方面是同质的,但大约10-15%(取决于家族的大小和注释来源)可能被注释为不同的基因。这意味着大约有1000个问题。
正如我们使用真实数据和人工数据所示,机器翻译导致相关性增加。其结果是,与机器翻译相关的问题应该在树状图中相互靠近,例如那些用于使用热图对问题进行聚类以实现可视化的问题。例如,图中的热图8是使用三组问题创建的。第一个(注释为基因RPS29、HFL-B5、EIF4A1、RPL36A和RPL18)在[23]区分标准风险和高风险TEL-AML1细胞遗传学异常。这些问题中没有一个与MT相关,因此可以被视为形成一个“行为良好”的生物家族。第二组(注释为TUBB6、TUBB2和TUBB3)构成另一个生物家族,但它们也通过MT相互关联,以及与其他微管蛋白基因关联。因此,该家族代表了一个混合生物-MT家族。第三组问题与RPS10有关,但也与许多假基因转录物有关。这个群体代表了一个“MT家族”,其中的关系被认为是人为的。这三组问题被添加到另一组随机选择的问题中,作为“背景”,然后进行聚类。MT-家族、微管蛋白和生物家族被发现是独立的簇(MT-家族的联系比其他家族更紧密),这表明层次聚类无法区分可能的真实(即生物)簇和可能的人工(即MT驱动的)簇。