跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2007年8月;35(15):e99。
2007年8月7日在线发布。 数字对象标识:10.1093/nar/gkm549
预防性维修识别码:项目经理1976448
PMID:17686789

走向通用微阵列:通过最近邻探针序列鉴定预测基因表达

摘要

适用于任何物种的通用DNA微阵列设计将大大有利于比较基因组学。我们利用基因组平铺微阵列的巨大特征密度和相对公正的性质,解决了这种设计的可行性。具体来说,我们首先将每个智人Refseq衍生基因的剪接核苷酸序列到其所有可能的相邻25nt子序列中。对于这25 nt子序列中的每一个子序列,我们搜索了最近的人类转录映射实验的探针设计,寻找与子序列不匹配最少的25 nt探针序列,但与子序列并不完全匹配。随后,对每个基因的最近邻特征测量的信号强度进行平均,以预测实验33次杂交中每个基因的基因表达水平。我们从检测活性转录基因的敏感性和特异性、同一基因外显子之间的转录一致性以及平铺阵列设计之间的再现性两方面检验了该方法的保真度。总之,我们的结果为探测具有离靶、最近邻特征的核酸靶点提供了原理证明。

简介

今天的DNA微阵列设备包含超过500万个特征,每个特征都包含一个独特的探针序列。技术进步不断地将这种特征密度推高,最终允许构建基因组平铺微阵列,其中基因组序列的大片段由定期靶向它的探针表示(1). 这些间隔通常为100 nt或更细,允许无偏见地监测基因组功能,如DNA转录(2,)和复制(4)在许多其他用途中。

从技术角度来看,贴片微阵列最大的成就是将DNA微阵列技术从一种严重依赖基因组注释的特定应用(基因表达或基因分型)转移到了一种更通用的工具。例如,最近ENCODE联合会的一系列基因组实验证明,单个平铺微阵列设计可用于转录图谱绘制、转录因子定位和DNA复制计时(5).

在这方面,可以说DNA微阵列技术的目标正在实现,这是一种检测核酸的通用应用工具。为此,DNA微阵列的最初设想是一个包含特征的寡核苷酸矩阵,每个特征都包含独特的n个-mer探针(6). 理论上,这个矩阵可以用于查询生物样本中是否存在任何核酸序列。阻碍n个-mer构造是这样一个数组需要合成4n个特征。当然,更大的值n个为阵列探针注入更大的特异性,但n个随着数量的增加,所需功能的数量迅速增加。尽管有此限制,通用n个-mer微阵列最初被概念化为一种为人类基因组测序工作生成初级序列数据的手段,尽管这种“杂交测序”(7,8)该方法已经在许多测试用例中得到了演示(6,8–10),由于对微阵列杂交的热力学假设有些不切实际,它还没有得到广泛使用。理论研究表明,对于可以说更简单地测量基因表达的应用,包含所有可能的10-mers的通用阵列就足够了(11)但这种说法尚未在一个有效的系统中得到证实。

虽然n个-mer方法基本上被放弃了,但至少有一个明显的例外(12)我们假设,随着平铺阵列的发展,通用微阵列可能会无意中重新合并。几个促成因素促使我们思考这个假设。第一,就地寡核苷酸制造技术将微阵列特征密度提高到每阵列500万个特征。这允许通用阵列系统所需的巨大序列覆盖范围。其次,在许多平铺阵列应用程序中(例如,转录图谱和ChIP-ChIP应用程序),只有很小一部分基因组有望“活跃”。这将使阵列的大多数功能几乎没有特定于目标的活动(如果有的话)。第三,众所周知,许多贴片微阵列中使用的短寡核苷酸可能容易与非靶点弱结合(13). 这些点综合起来表明,基因组中没有在平铺微阵列上表示的生物活性区域可能仍会在平铺阵列探针所针对的“非活性”区域中留下微弱的活性特征。

如果这个假设是真的,那么一个结果是,以人类基因组为靶点的平铺微阵列(或随机寡核苷酸,就此而言)可以用来弥合差距,使DNA微阵列普遍适用于任何生物体和/或应用。人们只需将标记的核酸杂交到平铺(或随机)阵列,然后读取与他们感兴趣的靶点交叉杂交的探针对应的强度。当然,单个交叉杂交探针的靶点特异性将,比完全互补的探针要少得多,但理论上可以从M(M)可能与M(M)目标序列中存在的子序列。这样,专一性的损失可以通过扩大该地区的覆盖面来弥补。

如果这些数据被证明是有用的,那么这种方法对于研究生物的研究人员来说肯定会很有吸引力,因为生物阵列制造商对其支持不足。为了应对这一现实,一种类似的方法是进行所谓的跨物种杂交(14). 顾名思义,这一过程需要将从一个物种获得的RNA(或反转录cDNA)杂交到一个旨在靶向另一物种遗传物质的微阵列。跨谱战略产生了许多有意义的结果(14–17),这表明可以仅从交叉杂交信号中测量有用信息。

为了研究物种非特定通用阵列的概念是否会与平铺阵列重新融合,我们模拟了使用最近邻特征来测量转录物丰度的场景,方法是使用针对人类基因组一部分的平铺微阵列数据来预测全基因组的表达水平。我们采用了一种强度预测策略进行基因表达谱分析,虽然我们认为这种方法不会取代目前用于研究人类和其他模型生物基因表达模式的现有微阵列策略,我们确实提供了这项技术作为一种理论上可行的选择,用于研究没有商业阵列的物种中的RNA表达,或用于希望分析没有拼接阵列的生物体中的非基因区域的人。虽然我们的结果并不表明与通过传统方法获得的信号完全一致,但我们确实证明了非常显著的趋势,这在假设生成环境中肯定是有用的,因为DNA微阵列是典型的应用环境(18).

材料和方法

微阵列数据

我们研究的数据集使用了98种独特的微阵列设计,以5碱基对的分辨率将10条人类染色体分片(19). 每个阵列用一个完全匹配的25nt寡核苷酸和一个与完全匹配的25mt寡核苷酸探测大约760000个独特的基因组块,保留第13个核苷酸;该核苷酸被完美匹配探针第13个核苷酸的补体核苷酸所取代。利用这些阵列,从9个不同的细胞系中分离出11个不同的RNA群体进行了探测。样品平均探测三次。9个样品含有polyA选择的RNA,2个含有总RNA。11个样品中有9个含有胞质RNA,2个含有核RNA。

在我们的工作中,我们主要关注使用98种设计中的两种收集的数据。在最初的实验中,我们将重点放在了名为“chip01”和“chip02”的阵列设计上,它们针对人类6号染色体的不同区域。

数据规范化

微阵列数据标准化如下。首先,计算每个阵列的最小特征强度,并按一个强度单位递减。然后从每个阵列中的每个测量值中减去该值,这样每个阵列随后的最小信号强度为1。这种减法近似于去除光学背景噪声(20). 然后记录每个阵列的信号2转换后,整个数据集随后进行分位数归一化(21)消除任何阵列特异性影响,例如与阵列杂交的cDNA浓度差异。

最近邻查询

为了找到与所需核酸靶点序列接近的特征,我们首先将靶点的核苷酸串划分为其所有长度的25个子串。然后,将每个子串用作对给定微阵列设计(例如芯片01)中存在的探针序列数据库的查询。然后定义子串的最近邻特征,使其探测序列与查询子串的不匹配比数组上的任何其他探测序列都少。如果多个特征具有与查询子字符串最大匹配数相同的探测,则随机选择一个作为最近邻特征。该程序如图所示图1。除非另有说明,否则我们忽略了其探测与查询子字符串完全匹配的功能。

保存图片、插图等的外部文件。对象名为gkm549f1.jpg

最近邻微阵列分析概述。(A类)一个带有多个外显子的基因合并成一个单一的转录单位,从中提取出所有25nt片段。(B类)并行地,构建一个数据库,使每个条目代表一个单一特征的表达式配置文件n个电池类型和/或条件,C1,…Cn个。每个条目都根据其功能的探测序列进行索引。(C类)对于每个查询磁贴,都会对该数据库执行最近邻查询。(D类)当找到最近邻探测时,其表达式配置文件被分配给查询磁贴。

靶基因

2月6日,根据2006年3月构建的人类基因组,从UCSC表格浏览器下载了Refseq精心管理的人类基因数据库(22). 截至下载日期,Refseq包含25319个核苷酸序列,我们对其进行了最近邻查询。

抄本检测

在确定基因是否转录时,我们首先发现n个其最近邻特征如上所述。对于这些识别出的特征中的每一个,我们从探针序列具有相同GC内容的同一数组中抽取了一个额外的特征。然后,我们计算了最近邻特征的信号比包含GC的匹配特征的信号大的次数,并将这两个数量相等的次数的一半加在这个数量上。将该值除以n个给出了观察到的比例,P(P)0,显示信号大于其GC含量匹配控制特征的最近邻特征。这一比例在零假设下的重要性P(P)0=0.5可以通过对二项式概率分布函数的尾部求和来直接计算。由于每个基因都有大量的近邻特征,我们通过转换来简化计算P(P)0标准化z(z)-得分:

方程式图像
(1)

将中心极限定理估计的方差应用于二项式随机变量。具体来说,分母中的0.25来自伯努利随机变量方差的公式,即其期望值乘以1减去其期望值。由于我们在零假设下的预期值是0.5,因此我们的变量方差是0.5(1−0.5)=0.25。这个z(z)-然后将分数转换为P(P)-值使用标准法向曲线。

结果

我们试图确定现有的平铺微阵列平台是否正在向具有更高特征密度的通用核酸检测设备融合。为了评估这一假设,我们通过使用现有的平铺微阵列数据“测量”Refseq转录物丰度来模拟这一场景,这些转录物不是预期目标。

数据集的选择

我们从十染色体Affymetrix转录图谱项目下载平铺微阵列数据开始(19). 这项工作包括98个独特的微阵列设计,每个设计针对人类基因组的不同区域。在可用的平铺数据集中,这一个最接近于表示通用阵列平台。这是因为它的阵列具有高特征密度,并且探针序列具有非常精细的平铺分辨率(5 nt)。精细的分辨率确保了探针选择的空间非常小,因此相对于其他瓷砖设计,序列是无偏的。由于该数据集具有探测多个不同RNA样本的额外优势,我们不仅限于检查最近邻特征是否与单个阵列上的完美匹配特征具有相似的强度;我们能够检查细胞条件之间的相关性,这是所建议方法有效性的一个强有力的指标。

为了简化我们的工作,我们只关注了数据集的两种设计,即研究作者指定的“chip01”和“chip02”。为了实现这些设计,Affymetrix的研究人员将11个不同的cDNA样本进行杂交,每个样本都来自不同的RNA转录物群体。所有杂交均一式三份。因此,每个芯片设计都有33个杂交数据。33个杂交为我们的分析中计算有意义的相关系数提供了足够的样本量。

交叉杂交随着探针相似性的增加而增加

接下来,我们研究了非作用匹配微阵列探针与非靶点杂交的程度。对于芯片01设计中的每个完美匹配特征,我们将其探针序列与设计中存在的每个其他完美匹配特征的探针序列对齐,并记录两者之间存在的不匹配数量。我们同时计算了这对归一化阵列信号在样本间的相关系数(皮尔逊)。对于每一个可能的失配计数(0…25),我们平均了探针有如此多失配的特征之间的相关系数,并将这些平均值绘制在图2从图中可以看出,具有相似序列的特征之间的相关性随着相似程度的增加而增加。从一个数据集(人类转录)来看,我们可能预计在大多数特征上都不会有丰富的活动,这个结果是惊人的。这表明在大量特征中观察到了可变活动。

保存图片、插图等的外部文件。对象名为gkm549f2.jpg

最近邻策略的属性。(A类)具有多个失配的特征对是信号的弱预测因子。分析了来自单个平铺微阵列设计的所有可能的特征对。绘制了所有可能的失配数量的平均相关系数(蓝色圆圈、左轴)和构成这些平均值的对数(橙色条、右轴)。(B类)图块与其最近的探测序列之间的预期不匹配数。对于多个失配,k个,具有以下功能的预期数量k个绘制与任何25nt瓦片的不匹配或更少的不匹配。这些期望值是针对具有10个5, 106, 107和108特征。的价值k个其中一个系列跨越了-axis表示块与其最近的探测序列之间的预期不匹配数。(C类)该横截面的详图。

检测已知基因的转录

假设观察到的正相关性至少部分是由于与一个或多个普通cDNA物种相对特异地结合的特征,我们试图利用图2用于协助转录检测。对于每个长度的成绩单M(M)在Refseq中,我们首先确定了那些在最初的Affymetrix研究中被转录片段或“transfrags”覆盖的长度超过75%的人。然后将这些序列分为M(M)-计算出24个25 nt块。然后,每个贴片都被用作对芯片01设计的查询,以确定探测序列与查询序列最匹配的特征(图1). 随后,我们将此特征称为瓷砖的最近邻特征,并根据我们在图2,这一特征可能有一个小的能力来指示来自该瓷砖相应基因组DNA的转录。

然后,我们将重点放在对A375细胞的polyA-selected RNA进行单次杂交,并测试来自最近邻特征的信号是否高于具有相同GC含量的随机选择特征的信号。显著性阈值为P(P)<0.05,我们能够在转基因支持下检测到71%的Refseq基因的转录,而我们预计只有5%的转录是偶然的(图3A) ●●●●。图3C、 我们绘制了各种阈值的检测百分比。我们还研究了具有少量错配的最近邻特征的特异性与这种特异性探针序列发生率之间的权衡(图3B) ●●●●。我们发现,如果我们只接受具有七个或更少不匹配的最近邻特征,那么我们的方法比接受更少不匹配中的九个特征表现得更好。但是,当我们进一步将最接近的邻居限制在五个或更少的不匹配时,该方法的表现就差得多。这可能是由于存在很少错配的最邻近国家的稀少。这里显然存在一个折衷方案,可以用更大的阵列特征密度进行补偿。

保存图片、插图等的外部文件。对象名为gkm549f3.jpg

许多基因是通过最近邻特征信号检测出来的。(A类)使用其最近邻特征计算每个Refseq基因的显著性,其转化覆盖率至少为75%。将这些特征与探针具有相同GC含量的特征进行比较,以计算其重要性,或P(P)-value(“方法”部分)。(B类)最近邻特征的特异性与其覆盖范围之间存在权衡。我们将面板(A)中描述的分析限制为具有至少9、8、7、6或5个失配的最近邻特征。无法看到“8个不匹配项”序列,因为它与“9个不匹配”序列几乎相同。限制为7个或更少的失配会增加功率,因为这些探针对最近邻的目标更具特异性。将失配进一步限制在六个和五个会降低功率,因为满足这些标准的探针更少(C类)一组已知阳性被定义为Refseq基因,其转化覆盖率至少为75%。通过对已知阳性集合中的序列进行排列来构建一组已知阴性。对于不同的阈值,计算灵敏度和特异性,然后绘制曲线。这里,我们将敏感性定义为TP/(TP+FN),特异性定义为TN/(TN+FP),其中TP、TN、FP和FN分别代表真阳性、真阴性、假阳性和假阴性的计数。

最近邻估计值具有生物学相关性

除了简单的转录鉴定外,我们预计任何基因表达平台都会显示同一基因外显子之间的相关性,因为当拼接在一起时,它们会形成一个单一的转录单位。我们首先计算每个杂交中每个外显子的平均信号(如最近邻特征所报告的)来测试这一点。然后,我们通过测试外显子是否表现出任何细胞系效应来筛选外显子(P(P)<0.05,Kruskal–Wallis试验)。然后记录所有杂交中计算出的相关系数,用于从该过滤集随机取样的属于同一基因的外显子对。还计算了从原始数据集中随机选择的外显子的系数。然后将这两组相关系数组合在一起并绘制成图图4观察到的这两种分布之间的差异表明,同一基因内的外显子往往会像人们预期的那样统一上调和下调。这一结果进一步深化了我们的推测,即通过最近邻信号映射获得的信号中可以看到生物学相关的结果。

保存图片、插图等的外部文件。对象名为gkm549f4.jpg

最近邻源外显子表达水平与基因内相关。在每个外显子和杂交中平均最近邻特征的信号。计算33个杂交中随机选择的外显子对之间以及同一基因外显子之间的相关系数。将系数装箱并绘制差异。只有外显子在细胞系中表现出显著变化才被纳入分析(P(P)<0.05,Kruskal–Wallis试验)。

最近邻估计值通常与信号的PM估计值一致

更进一步,我们期望从最近邻信号中获得的信号应与从同一基因的完美衍生信号中获取的信号相关联。对于所有被Cheng标记的基因. (19)数据集中,我们计算了从它们的完美匹配特征中获得的平均信号。我们对来自chip01的最近邻功能也进行了同样的处理。然后计算每个基因的完美匹配和最近邻衍生信号之间的相关系数。分布汇总于图5。我们观察到样本之间的相关系数远大于随机概率的预期,但系数仍然相对较低。正如预期的那样,我们还发现,表达水平较高的基因导致完美匹配衍生信号和最近邻衍生信号之间的相关性较高。

保存图片、插图等的外部文件。对象名为gkm549f5.jpg

完美匹配和最近邻源基因摘要之间的一致性。计算每个基因和每个杂交的平均信号。这些总结是使用(1)仅使用来自芯片01的最近邻探针和(2)仅使用整个实验的完美匹配探针计算的。针对所有杂交中的每个基因计算这些汇总之间的相关系数。(A类)显示了这些系数的直方图。该分析中包括了至少具有20个完美匹配特征的基因。(B类)显示了不同平均记录强度仓的这些系数的方框图。

鉴于我们方法的疗效存在上述可变性,我们接下来研究了各种基因组特性对我们最近邻策略的影响(图6). 在以下三项分析中,我们再次关注完美匹配和最近邻基因图谱之间的相关性。

保存图片、插图等的外部文件。对象名为gkm549f6.jpg

最近邻源基因摘要和完美匹配源基因摘要之间的相关性根据各种标准进行了分类(A类)根据基因长度小于或大于中间基因长度,将基因分为“短”和“长”基因。(B类)根据已知片段重复中是否存在基因,将其装箱。(C类)根据基因的GC含量是否小于或大于GC含量中值,对基因进行装箱。(D类)根据GC含量将基因装箱(不包括与其最近邻探针不匹配的核苷酸)。GC含量大于50%被定义为“高”。

首先,我们假设在我们的近邻策略中,较长的基因可能比较短的基因工作得更好,因为这些转录本要平均的测量数量更多,因此更好地平滑近邻信号中潜在的噪声。长基因和短基因之间的粗略比较如所示图6答:似乎不存在显著的关系。然而,我们确实发现(P(P)<0.0004,Spearman相关性)基因长度和相关性之间呈负相关,但这种关系的大小(Spearman相关ρ=−0.045)非常微小。观察到的这种关系可能是由于一个与基因长度相关的未知因素而获得的,例如较长转录物中选择性剪接的可能性增加,这是已知的影响Affymetrix GeneChip品牌微阵列的测量(23).

我们的第二个假设考虑了基因存在于基因组的注释重复区域内。因此,我们下载了分段重复数据库(24)并将Refseq基因分为复制中存在的基因和不存在的基因。我们的假设是,重复区域内的基因可能更难用最近邻特征进行分析,但我们没有发现这种关系(图6B) 。

最后,我们研究了GC含量对我们的方法性能的影响。之所以这样做,是因为人们可能会认为探针中GC含量越高,对非目标的亲和力就越大。我们通过两项相关研究进行了这项调查。首先,我们简单地寻找相关系数和基因总GC含量之间的任何联系。这是通过将基因分为GC含量大于或小于所有基因GC含量中位数的基因来实现的(图6C) ●●●●。其次,我们将GC含量的计算限制在与目标子序列完全匹配的核苷酸上(图6D) ●●●●。后一种检查的动机是,唯一可能提供任何特异性的核苷酸是那些与其靶点互补的核苷酸。也就是说,如果鸟嘌呤或胞嘧啶与腺嘌呤或者胸腺嘧啶对齐,我们预计GC对相关性的影响最小。在这两项检查中,我们发现GC含量高的基因在我们的分析方案中往往工作得更好。

选择k个

我们的查找方案本质上是k个-我们设置的最近邻查询k个= 1. 我们只是寻找与每个查询最相似的探测序列。我们还调查了k个更大的值可能会增强最近邻源基因摘要与其完美衍生对应项的相关性。具体来说,我们重新提交了50个随机选择的基因的最近邻查询,并记录了k个我们变化的每个子序列的最近邻居k个从1到100。图7,我们绘制了对于k个。我们发现,我们在k个=4,其中相关性稳定下降。k个=1很小,在我们看来,不足以保证我们的基因长度、GC含量和片段重复分析中相应增加的复杂性。

保存图片、插图等的外部文件。对象名为gkm549f7.jpg

之间的相关性k个-绘制最近邻源基因摘要和完美匹配源基因摘要k个= 1 … 100. 对于给定的k个,的k个确定了最接近每个瓷砖的探针序列。基因的表达摘要是总体平均值k个探针对基因内所有瓷砖的信号。

阵列设计之间的最近邻估计值一致

最后,我们希望了解来自两种不同阵列设计的最近邻衍生基因摘要及其相应杂交之间是否存在一致性。图8,我们绘制了一个直方图,总结了来自两个不同的最近邻查找(来自chip01和chip02)的基因谱之间的相关系数。尽管我们使用独特的阵列设计从完全不同的数据集得出了基因表达估计值,但我们还是看到了相当好的再现性。这有力地表明了该技术的稳健性以及随机探针测量转录物丰度的能力,具有良好的再现性。

保存图片、插图等的外部文件。对象名为gkm549f8.jpg

最近邻特征产生的结果在阵列设计之间具有可比性。对两种不同的平铺阵列设计进行了最近邻查找。每个设计用于33个杂交。显示了基因间相关性的直方图。

讨论

贴片微阵列允许对基因组功能进行无偏见的分析。这是通过将微阵列的特征分配给以规则间隔靶向基因组序列的探针来实现的。在转录图谱实验中,基因组DNA的这些间隔在很大程度上是不活跃的。我们试图利用这些空白以及短寡核苷酸可以与非预期序列交叉杂交的事实,以仅用非靶向近邻特征来测量基因表达。具体来说,我们已经表明,这些潜在的杂交特征可以检测大量已知基因的转录。我们通过显示外显子表达的最近邻衍生摘要在基因内相关,最近邻衍生基因摘要与完美衍生基因摘要相关,以及来自不同阵列设计的最近邻摘要彼此一致来补充这一分析。总之,这些发现提供了证据,表明平铺微阵列可以作为“通用”阵列,应用于任何查询核酸序列的研究。这种方法不同于完整的n个-寡核苷酸的mer补体,传统上定义通用微阵列,对于ENCODE联盟开展的多物种研究可能有用。

除了我们的基本工作外,我们还量化了使用我们的技术的主要局限性。这种局限性表现为我们的近邻策略在与传统微阵列测量信号的相关性方面表现出相当数量的基因间差异(图5A) ●●●●。因此,我们敦促将我们的方法获得的结果视为对传统的低通量实验的后续研究的提示和保证。这一建议通常适用于几乎所有的微阵列技术,这也是为什么这些平台通常被视为假设生成平台的原因。在我们目前的工作中,我们已经将这种假设生成能力扩展到了更广泛的应用领域和更具包容性的物种列表。虽然生成的假设中有很大一部分可能是错误的,但该技术仍然将假定假设的大空间缩小到一个更易于管理的列表中,适合进一步的实验。

我们分析中的统计显著趋势进一步表明,我们的方法可以在非模型系统中研究基因组尺度的假设,在非模型的系统中,较大的样本容量(例如20000个基因)很容易容纳较高的错误率。这些假设可能涉及生物网络预测、样本聚类和分类或本体论分析。通过使用传统DNA微阵列在模型生物中研究这些问题,已经得出了许多有价值的结论,即使这些生物处于婴儿期,并且在其表现中包含非常高水平的基因间变异。

同样,我们所介绍的工作在很大程度上是一个原则证明。有几个扩展可以扩大该方法的用途。在当前的工作中,我们使用了一个非常简单的函数来评估tile:探针相似性,即两个短寡核苷酸序列之间的不匹配数量。可以探索基于二核苷酸错配距离、吉布斯自由能或最长公共子串长度的函数。除了更改相似性函数以查找单个最近邻探针外,还可以想象使用几个最近邻探针的表达式配置文件以加权方式预测查询。例如,我们探讨了使用不同的值k个在我们的k个-最近邻查找,但发现增加k个超过k个=4性能稳步下降。我们不仅专注于使用k个=1,这是为了简化我们的分析和讨论,但也因为与完美匹配探针的相关性增加很小(图7). 这一领域的进一步研究有很多方向,尤其是考虑各种权重函数时。在这里,我们仅限于最简单的探测模型:目标相似性,以证明可行性。

另一个可能受益于进一步研究的领域是算法的运行时。在实现我们的策略时,我们将查询序列与数据库中的每个探测序列进行比较。由于数据库中有超过500万个探针序列,并且查询记录由数千个查询组成,因此查找所有Refseq的表达式摘要可能是一项耗时的任务(查找所有Refseq需要几天时间)。目前,我们已经使用暴力并行化来执行查找,但可能会使用更优雅的策略。一种明显的方法是使用短子序列散列来加速查找。这可以通过将查询拆分为其所有组件8-mer来实现,例如,将这些组件作为键使用到数据结构(例如哈希表或后缀树)中,该数据结构记录了具有所有可能的8-mer子序列的探针的身份。这种方法可以实现快速查找,并可以找到类似的探针序列,但不能保证识别最近邻探针。这类似于BLAST识别与查询非常相似的序列的能力,尽管不能保证识别核酸数据库中最近的序列(25).

我们的工作与将一个物种的遗传物质杂交到针对另一个密切相关物种的阵列的目的类似。这两种策略以及本文所述的策略都寻求获得非预期核酸靶点的功能基因组数据。以这种方式获得的数据可以用于比较基因组学和其他基于进化的基因表达研究,这是目前非常令人兴奋的研究领域(26,27). 从靶向系统发育邻域的阵列中获得的基因表达摘要可能会更好地估计基因表达,因为阵列的探针与它们的跨物种靶点很少不匹配。然而,本文中概述的方法可能更适合于从多个不同物种中探测材料的研究,因为随机阵列将包含与所研究的任何目标物种序列都相同的探针。使用随机数组选择平台不会产生任何偏差。

最后,我们希望得出的主要结论是,短寡核苷酸交叉杂交不一定是坏事。在这项工作中,我们利用它的存在将微阵列用于非预期目的。在这样做的过程中,我们证明了微阵列不需要完全由探针序列组成,而探针序列是目标核酸的完美补充。我们认为,向前推进,物种特异性微阵列的设计可能也希望利用这一事实。

致谢

国家卫生研究院(NIH)根据P50 HG02357-01拨款为本研究提供资金,并支付开放获取出版费用。这项工作中的许多计算都是由耶鲁大学生物学和生物医学高性能计算中心和美国国立卫生研究院资助的RR19895-02资助的。我们感谢Nick Carriero在简化最近邻居代码方面的帮助,感谢Rob Bjornson帮助实现应用程序的并行化。

利益冲突声明。未声明。

参考文献

1Selinger DW、Cheung KJ、Mei R、Johansson EM、Richmond CS、Blattner FR、Lockhart DJ、Church GM。使用30碱基对分辨率进行RNA表达分析大肠杆菌基因组阵列。自然生物技术。2000;18:1262–1268.[公共医学][谷歌学者]
2Bertone P、Stolc V、Royce TE、Rozowsky JS、Urban AE、Zhu X、Rinn JL、Tongprasit W、Samanta M等。利用基因组平铺阵列对人类转录序列进行全球鉴定。科学。2004;306:2242–2246.[公共医学][谷歌学者]
三。Kapranov P、Cawley SE、Drenkow J、Bekiranov S、Strausberg RL、Fodor SPA、Gingeras TR。染色体21和22的大规模转录活性。科学。2002;296:916–919.[公共医学][谷歌学者]
4Jeon Y、Bekiranov S、Karnani N、Kapranov P、Ghosh S、MacAlpine D、Lee C、Hwang DS、Gingeras TR等。人类染色体复制的时间剖面。程序。美国国家科学院。科学。美国。2005;102:6419–6424. [PMC免费文章][公共医学][谷歌学者]
5ENCODE项目联盟。通过ENCODE试点项目鉴定和分析1%人类基因组中的功能元素。自然。2007;447:799–816. [PMC免费文章][公共医学][谷歌学者]
6.Pease AC、Solas D、Sullivan EJ、Cronin MT、Holmes CP、Fodor SP。用于快速DNA序列分析的光生成寡核苷酸阵列。程序。美国国家科学院。科学。美国。1994;91:5022–5026. [PMC免费文章][公共医学][谷歌学者]
7.Drmanac R,Labat I,Brukner I,Crkvenjakov R。通过杂交对大碱基和DNA进行测序:方法理论。基因组学。1989;4:114–128.[公共医学][谷歌学者]
8Drmanac R、Drmanac S、Strezoska Z、Paunesku T、Labat I、Zeremski M、Snoddy J、Funkhouser WK、Koop B等。通过杂交确定DNA序列:高效大规模测序的策略。科学。1993;260:1649–1652.[公共医学][谷歌学者]
9.Drmanac S、Kita D、Labat I、Hauser B、Schmidt C、Burczak JD、Drmanac R。通过杂交进行精确测序,用于DNA诊断和个体基因组学。自然生物技术。1998;16:54–58.[公共医学][谷歌学者]
10Yershov G、Barsky V、Belgovskiy A、Kirillov E、Kreindlin E、Ivanov I、Parinov S、Guschin D、Drobishev A等。寡核苷酸微芯片的DNA分析和诊断。程序。美国国家科学院。科学。美国。1996;93:4913–4918. [PMC免费文章][公共医学][谷歌学者]
11van Dam RM,Quake SR.通用n-mer阵列的基因表达分析。基因组研究。2002;12:145–152. [PMC免费文章][公共医学][谷歌学者]
12Roth ME、Feng L、McConnell KJ、Schaffer PJ、Guerra CE、Affourtit JP、Piper KR、Guccione L、Hariharan J等。使用基于六聚体的通用微阵列进行表达谱分析。自然生物技术。2004;22:418–426.[公共医学][谷歌学者]
13Kane MD、Jatkoe TA、Stumpf CR、Lu J、Thomas JD、Madore SJ。寡核苷酸(50mer)微阵列的敏感性和特异性评估。核酸研究。2000;28:4552–4557. [PMC免费文章][公共医学][谷歌学者]
14Bar-Or C、Bar-Eyal M、Gal TZ、Kapunik Y、Czosnek H、Koltai H。从跨物种杂交结果中推导物种特异性杂交类知识。BMC基因组学。2006;7:110. [PMC免费文章][公共医学][谷歌学者]
15Brodsky LI、Jacob-Hirsch J、Avivi A、Trakhtenbrot L、Zeligson S、Amariglio N、Paz A、Korol AB、Band M等。全基因组基因表达揭示的盲性地下鼹鼠Spalax的进化调控。程序。美国国家科学院。科学。美国。2005;102:17047–17052. [PMC免费文章][公共医学][谷歌学者]
16Gilad Y,Rifkin SA,Bertone P,Gerstein M,White KP。多谱微阵列揭示了序列差异对基因表达谱的影响。基因组研究。2005;15:674–680. [PMC免费文章][公共医学][谷歌学者]
17Grigoryev DN、Ma S、Simon BA、Irizarry RA、Ye SQ、Garcia JGN。利用基因芯片技术进行种间序列相似性的体外鉴定和电子化利用。BMC基因组学。2005;6:62. [PMC免费文章][公共医学][谷歌学者]
18Gibson G.微阵列分析:基因组规模假设扫描。《公共科学图书馆·生物》。2003;1:E15。 [PMC免费文章][公共医学][谷歌学者]
19Cheng J、Kapranov P、Drenkow J、Dike S、Brubaker S、Patel S、Long J、Stern D、Tammana H等。10条人类染色体在5核苷酸分辨率下的转录图谱。科学。2005;308:1149–1154.[公共医学][谷歌学者]
20Wu Z,Irizarry RA。受短寡核苷酸阵列杂交理论启发的随机模型。J.计算。生物。2005;12:882–893.[公共医学][谷歌学者]
21Bolstad BM、Irizarry RA、Astrand M、Speed TP。基于方差和偏差的高密度寡核苷酸阵列数据归一化方法的比较。生物信息学。2003;19:185–193.[公共医学][谷歌学者]
22Karolchik D、Hinrichs AS、Furey TS、Roskin KM、Sugnet CW、Haussler D、Kent WJ。UCSC表格浏览器数据检索工具。核酸研究。2004;32:493–496. [PMC免费文章][公共医学][谷歌学者]
23Wang H、Hubbell E、Hu J、Mei G、Cline M、Lu G、Clark T、Siani-Rose MA、Ares M等。使用微阵列平台进行基于基因结构的剪接变体反褶积。生物信息学。2003;19(补充1):i315–i322。[公共医学][谷歌学者]
24She X,Jiang Z,Clark RA,Liu G,Cheng Z,Tuzun E,Church DM,Sutton G,Halpern AL,et AL.人类基因组中Shotgun序列组装和最近片段复制。自然。2004;431:927–930.[公共医学][谷歌学者]
25肯特·WJ。BLAT–类似BLAST的对齐工具。基因组研究。2002;12:656–664. [PMC免费文章][公共医学][谷歌学者]
26Khaitovich P、Hellmann I、Enard W、Nowick K、Leinweber M、Franz H、Weiss G、Lachmann M、Paabo S。人类和黑猩猩基因组和转录体的平行进化模式。科学。2005;309:1850–1854.[公共医学][谷歌学者]
27Khaitovich P,Enard W,Lachmann M,Paabo S.灵长类动物基因表达的进化。Nat.Rev.基因。2006;7:693–702.[公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社