Evolving gene/transcript definitions significantly alter the interpretation of GeneChip data

Manhong Dai; Pinglang Wang; Andrew D. Boyd; Georgi Kostov; Brian Athey; Edward G. Jones; William E. Bunney; Richard M. Myers; Terry P. Speed; Huda Akil; Stanley J. Watson; Fan Meng

doi:10.1093/nar/gni179

核酸研究。2005; 33（20）：e175。

2005年11月10日在线发布。数字对象标识：10.1093/nar/gni179

PMCID公司：项目经理1283542

PMID：16284200

进化中的基因/转录定义显著改变了基因芯片数据的解释

戴满红,王平浪,安德鲁·博伊德,¹ 乔治·科斯妥夫,¹ 布莱恩·阿西,¹ 爱德华·G·琼斯,² 威廉·本尼,^三理查德·迈尔斯,⁴ Terry P.速度,⁵ 胡达·阿基尔,斯坦利·沃森、和范萌^*

作者信息文章注释版权和许可信息 PMC免责声明

摘要

全基因组表达谱分析是一种强有力的工具，可以将新的基因集合应用于健康和疾病的细胞机制。全基因组表达谱分析最流行的平台是Affymetrix GeneChip。然而，其探针的选择依赖于早期的基因组和转录组注释，这与当前的知识有很大不同。由此产生的信息学问题对数据的分析和解释具有深远的影响。在这里，我们解决这些关键问题并提供解决方案。我们在现有注释的单个探针水平上确定了几类问题，假设当前基因组和转录组数据库比用于基因芯片设计的数据库更准确。然后，我们根据最新基因组、cDNA/EST聚类和单核苷酸多态性信息，将十几个流行基因芯片上的探针重组为基因、转录和外显子特异性探针集。比较原始探针组和重新定义的探针组之间的分析结果显示，无论采用何种分析方法，先前确定为差异表达的基因之间存在约30–50%的差异。我们的结果表明，最初的Affymetrix探针集定义不准确，过去基因芯片分析得出的许多结论可能存在重大缺陷。使用更新的探针集定义重新分析现有基因芯片数据将是有益的。

简介

尽管在基于基因芯片的表达分析中，人们一直致力于提高用于估计基因表达水平和检测差异表达的统计算法的准确性和灵敏度(1–4)，与探测和探测集标识相关的问题可能会导致重大错误，尤其是在表达式变化不大的情况下。用于表达分析的基因芯片使用含有11–20对25聚体寡核苷酸的探针组来代表靶基因或转录物。每个寡核苷酸对由一个与目标序列区域（PM探针）完全匹配的寡核苷酸和另一个寡核苷酸组成，寡核苷酸中心（MM探针）与同一目标区域具有单碱基错配。尽管Affymetrix利用了基因芯片设计时可用的最完整信息，但近年来基因组测序和注释方面的巨大进步使得现有基因芯片探针组设计不太理想。例如，当设计HG-U133芯片组时，人类UniGene Build 133包含约280万个cDNA/EST序列，而人类基因组序列仅完成约25%(5). 目前，人类UniGene构建包含超过500万个序列，人类基因组构建35具有已测序基因组中99%的常染色部分(6). 我们的分析表明，由于一些影响探针识别的信息学相关问题，许多旧探针组不能忠实地反映给定组织中大量基因的表达水平。应该指出的是，最近的三篇论文也研究了HG-U133A、HG-U95A和HG-U134 Plus 2.0基因芯片的一些问题，但没有提供系统的解决方案(7–9). 例如，哈比格等.根据BLAST序列匹配，重新标注了HG-U133 Plus 2.0阵列上37%的探针。他们还设想了几种自动化基因芯片探针注释过程的方法，并向生物信息学界求助。在这里，我们提出了一个与所有现有基因芯片分析软件兼容的用户友好的解决方案。更新的探针集定义对基因芯片数据解释的影响也使用公共域数据集进行评估。

方法

基于UniGene数据库的重组探针集生成

我们想首先描述生成基于UniGene的探针集定义的过程，因为UniGene数据库是使用最广泛的基因分类系统，大多数研究人员将首先将GeneChip结果映射到UniGene数据，以了解GeneChip数据的生物学意义。生成基于UniGene的探针集很复杂，因为UniGene簇通常包含可靠性和链方向未知的多个序列。

以下是UniGene探针集重组过程中的步骤。这些步骤按显示的顺序应用。

（i）执行序列对齐。这一步包括两个部分：（a）将所有基因芯片探针序列映射到UniGene、dbSNP和相应物种的基因组序列中的单个序列。只有完美的匹配才能保留。（b）将UniGene数据库中的所有序列与对应物种的最新基因组组装对齐。由于UniGene簇经常包含来自其他基因的序列，我们将在后面的步骤中使用基因组比对结果来提供一些容易自动化的清理。

（ii）我们要求探针集中的每个探针只能与相应的基因组序列完全匹配。这可能会排除与基因组中非转录区域匹配的探针，但该过滤器不依赖于基因组注释或cDNA/EST序列收集的完整性，因此，从长远来看应该更稳定。无处不在的非编码转录本也支持使用这种更具攻击性的策略(10). 考虑到该标准只消除了10%或更少的探针，我们认为每个探针集的统计能力的轻微下降对于提高最终结果的信心是值得的。

（iii）由于EST序列的错误率相对较高，我们需要一个探针来完美匹配基因组区域，该基因组区域可以与UniGene数据库中收集的mRNA/EST序列对齐。仅与EST序列完全匹配但与相应基因组序列不完全匹配的探针将不包括在最终探针集中。此规则的一个例外是外显子-外显子连接探针与同一UniGene簇中的mRNA参考序列完全匹配。我们将这种外显子-外显子连接探针添加回相应的探针集，并指定最低的探针对数。

（iv）为了确保探针对一个UniGene簇具有特异性，我们消除了具有多个匹配cDNA/EST序列的探针，这些序列可以分配给多个UniGene簇。我们之前对基因组序列比对的要求可以减少错误EST测序或污染EST序列导致的假非特异性探针。尽管此过滤器可能会由于UniGene聚类中的错误而删除良好的探针，但它将确保每个探针集与当前UniGene集群一致。

理论上，如果非预期转录物的表达水平不足以导致特定组织或样品中探针信号的显著干扰，那么具有与多个基因转录物杂交潜力的探针仍然有用。然而，尽管组织或样本依赖型探针集定义可以提高基因芯片探针的利用率，但组织/样本依赖型探头集定义的简单性和一致性在大多数情况下应该更有利。

在理想情况下，基因特异性探针组应仅包含其序列将存在于来自同一基因的所有剪接产物的共享序列上的探针，因为这样的探针组的信号水平不会受到不同组织或个体中的选择性剪接的影响。对于大多数基因来说，目前对潜在的选择性剪接产物的了解还远远不够。因此，我们选择汇集所有靶向相同基因的探针来定义基因特异性探针集。我们相信基于基因的探针集定义对于评估基因的整体转录活性是有用的，事实上大多数微阵列研究论文都声称这一点。我们的转录或外显子特异性探针集可以探索潜在的选择性剪接事件。由于一些研究人员更喜欢检查靶向转录物3′端的探针，我们还创建了在最多3′端包含不超过11个探针对的探针集。

（v）除了具有已知mRNA/参考序列的基因外，我们要求每个探针集中的所有探针在基因组上沿同一方向对齐，因为代表同一基因的旧探针集有时可以针对同一转录物的不同链。此约束确保了在合并来自多个旧探测集的探测时，新定义的探测集的方向一致性。如果UniGene簇中没有用于确定基因组上转录方向的mRNA/参考序列，则与相同基因组区域但方向不同的完全匹配的探针被分为两个探针集。

（vi）我们还要求针对同一UniGene簇的探针在基因组序列上以相同方向连续排列。例如，如果代表UniGene簇的探针分布在不同的基因组区域或染色体上，则将使用最大的连续探针集来代表此UniGene集群。所有其他与针对不同UniGene簇的探针混合的探针将从最终探针集中删除。

此规则的一个例外是，当UniGene簇中的mRNA参考序列可以与不同的基因组位置对齐时，因为mRNA参考顺序可能比当前版本的基因组组装更可靠。

（vii）每个探头组应至少包含三对探头。无法由至少三个探测对表示的目标在最终探测集定义中被删除。这个阈值很大程度上是任意的，但具有三个探测对的探测集应该满足大多数探测级分析算法的最低要求。在我们新的UniGene探针集定义中，包含三个或四个探针对的探针集占所有探针集的10%以下。大多数探针集的大小是给定GeneChip上原始探针集大小的～1倍或2倍（例如～11或22），但由于之前描述的原始GeneChip探针集的冗余，一些探针集可以有几十个探针对。

Refseq、DoTS、Entrez基因、ENSEMBL基因、转录和外显子探针集的生成

为这些目标类型生成自定义探测集要容易得多，因为每个目标序列和方向都在相应的数据库中定义良好。在识别基因芯片上所有与相应目标序列完全匹配的探针后，我们删除对相应基因组序列进行多次完美匹配的探针，并且我们还需要每个包含三个以上探针的最终探针集。在相应的基因或转录定义中，3′聚焦探针集只包含最多的3′11个探针。

等位基因相关探针组的产生

为了减少不同样本中单核苷酸多态性（SNP）引起的噪声，我们还通过删除已知在完美匹配或错配探针的中心15 bp区域具有等位基因特异性碱基的所有探针对来生成探针集。当然，未知的高异质性SNP位点可能仍会对某些探针组造成高噪声。

最终探头组的命名

如果探针通过了我们的选择标准，则会根据相应数据库中的目标定义，将其添加到相同目标（基因、转录物或外显子）的初步探针池中。如上所述，在生成最终探针集之前，可以有其他标准，例如只保留最多的3′11探针或删除等位基因特异性探针。如果一个初始探测集只包含一个或两个探测，则它不会产生最终探测集。最终的探测集将在相关数据库中具有相应的目标名称。按照Affymetrix的命名法，我们在序列ID名称的末尾添加“_at”。因此，Hs.10000_at、Mm.1111_at、NM_12235_at、ENSG00003456_at等可以是相应自定义CDF文件中的探测集名称。

为探测集分配最佳匹配加入编号

由于许多基于非GenBank登录号的探针集ID（如UniGene ID和ENSEMBL转录ID）不是很稳定，我们还为所有基因和转录特定探针集（包括原始GeneChip探针集）指定了GenBank的登录号，通过识别最可靠的短序列的登录号，该序列与相应的探针集的探针匹配百分比最高。在给定探针集的最高探针命中率相同的序列中，序列选择的顺序为Refseq>cDNA>EST。如果仍然存在平局，则选择最短的序列。在许多情况下，上述过程仍然会导致多个序列，我们只需选择字母顺序最低的登录号作为探针集的指定最佳登录号。

上述所有过程都是在4×双opteron/8 GB内存集群和具有16 GB内存的双安腾Oracle服务器上实现的。我们通常每3-4个月生成一个新的CDF构建，每个构建需要约10天才能完成当前的设置。自去年年初以来，共生成了六个自定义CDF构建。

自定义CDF的使用

在我们的CDF下载网格上，可以根据物种、Affymetrix基因芯片类型、CDF文件类型和CDF文件格式轻松选择自定义CDF文件。以下是三个涵盖所有常见基因芯片探针级分析情况的示例。

示例1。在Affymetrix MAS5或独立dCHIP中使用自定义CDF：ASCII格式的CDF文件适用于Affymetrix MAS5和独立dCHIP程序。解压缩ASCII CDF包后，ASCII格式的自定义CDF文件可以与Affymetrix CDF文件完全相同的方式使用。请注意，dCHIP程序只接受Affymetrix CDF名称，因此必须将自定义CDF文件的名称更改为相应的Affymetix CDF文件名。

示例2。在R环境中使用自定义CDF，方法是直接在具有Internet链接的计算机上调用自定义CDF包。以下是一个示例会话：

图书馆
数据<-ReadAffy（）
UMRepos<-getOption（“存储库2”）
UMRepos[“UMRepository”]='http://arrayanalysis.mbni.med.umich.edu/repository’
选项（'repositories2'=UMRepos）
emaNfdc@atad<-“HS133A_HS_UG_5”
结果<-rma（数据）
write.exprs（结果，文件=“output.txt”）

粗体斜体的字符串是用户需要在R会话中添加的额外命令。自定义CDF文件名“HS133A_HS_UG_5”可以用CDF下载页面上的任何自定义CDF文件名替换（“CDF文件名称”，CDF下载网格左起第四列）。

示例3。将相应的自定义CDF R包下载到用户的本地计算机上后，在R环境中使用自定义CDF。

请注意，LINUX/UNIX/MAC OS X有一个R软件包，Windows平台有另一个R程序包。下载正确的包后，需要执行以下操作：

在Linux/Unix/MAC OS X下，使用命令“R CMD INSTALL”？。tar.gz’。

在Windows下，选择菜单“软件包->从本地zip文件安装软件包”。

为了在安装后的数据分析中使用自定义CDF文件，应添加一行R命令来替换默认的Affymetrix CDF文件。以下是不同芯片和定制探针组组合的两个示例：

数据←ReadAffy（）
emaNfdc@atad<-“HS133A_HS_UG_5”
data<-read.affybatch（'1.cel'，'2.cel'）；
emaNfdc@数据<-‘HS133B_HS_ENSG_5’.

同样，粗体斜体部分中的CDF名称可以替换为您下载的任何自定义CDF的名称。对于给定的CDF版本，每个自定义CDF的标准名称位于CDF下载网格的第四列。

结果

原始基因芯片探针集定义和注释中的问题

不可靠的代表加入编号

将最新的基因身份和功能注释与GeneChips上的探针集关联的流行方法是将每个探针集的Affymetrix“代表公共ID”映射到当前版本的基因和注释数据库，如UniGene(11,12)，LocusLink/Entrez基因(11,12)和基因本体论(http://www.geneontology.org). 虽然使用一个核酸加入号表示一组中的所有探针大大简化了对基因芯片数据的处理，但这种方法隐含地假设一个探针组中的全部探针与其“代表性公共ID”来自相同的基因。这种假设可能会有问题，因为相当大比例的探针集是基于所谓的“一致序列”创建的，该序列源于合并旧UniGene簇中的多个序列。排除在“Representative Public ID”序列之外的探针可能会分配给不同的UniGene集群，因为旧集群在最近的构建中被拆分。此外，当前版本的UniGene/Refseq/EST数据库中不再包含许多具有代表性的登录号。我们的分析表明，分配给流行基因芯片上探针集的原始登录号中，有10%到40%要么与对应集合中的探针不到一半匹配，要么从当前数据库中退出。这些探针组更有可能包含非相关基因的探针或来自不可靠序列的探针(表1).

表1

潜在问题基因芯片探针组的百分比

芯片类型	不可靠的代表公共ID	UniGene冗余	包含多个UniGene命中的探针	具有多个基因组命中的探针	基因组定位或链问题	包括无已知目标的探针	含有等位基因特异探针
HG-U95平均值2	27.9	21.1	36.6	16.2	8.8	4.6	40.5
HG-U133A型	14.4	34.2	36	16.3	10.1	3.6	42.7
HG-U133B型	22.2	31.4	22.3	9.3	10.4	5	35.2
HG-U133以上	18.2	47.2	26.1	11.6	12	4.8	37.6
人体X3P	21	50.8	22.8	10.6	10.3	4.8	32.7
MG-U74Av2型	42.7	18.8	28.8	16.1	8.8	10	11.7
430A美元	13.3	38.6	30.9	15	10.4	4.1	11
430B美元	28.5	31.2	16.5	5.5	9.9	11.6	4.6
鼠标430	20.8	44.7	23.6	10.2	11.2	7.8	7.8
34A兰特	21.3	28	17.4	15.8	7	8.2	18.1
RAE230A型	10.7	17.5	16.5	13.2	8.7	3.6	19.5
RAE230B型	32.8	15.1	6.8	7	5	15.8	7.8
费率230	21.5	24.8	11.7	10.1	8.3	9.6	13.7

在单独的窗口中打开

探头组冗余

新cDNA/EST序列的注入导致一些旧UniGene簇的合并，其效果是明显的，因为15-50%的UniGene ID由基于分配给每个探针集的“代表公共ID”的多个探针集表示(表1). 由于理解每个探针集（例如目标转录物或外显子）的真正生物学含义并不简单，大多数研究人员只使用与探针集登录号相关联的最新UniGene ID作为给定探针集的标识，导致探针集高度冗余。没有标准的方法来处理来自冗余探头组的数据。一些报告使用代表同一基因的所有探针集的平均信号，而其他报告则侧重于显示差异表达的探针集，而不管代表同一个基因的其他探针集的行为如何。冗余探针集也会在基于功能类别的分析中产生偏差，例如Fisher精确测试和利用基因本体的基因集富集分析。对于大多数分析，一个探针设置为一个目标关系是非常可取的。

非特定探针

cDNA/EST/基因组序列信息的显著增加导致一个被认为对一个基因具有特异性的探针可能实际上可以与来自其他基因或非编码转录物的转录物杂交。如所示表1根据UniGene数据库的当前版本，对于大多数GeneChips，10-30%的探针集包含至少一个非特异性探针。探针与基因组序列的比对还表明，5-16%的探针组包含一个探针，该探针具有一个以上的基因组序列命中。UniGene和基于基因组的标准之间的差异可能主要是由于UniGene聚类或EST测序错误。

删除的目标序列

一些探针不再与当前UniGene数据库中的任何序列或相应物种的基因组序列在任一链方向上匹配。主要原因可能是从新的UniGene数据库中删除了用于探针设计的序列。

基因组定位问题

单次点击探针与基因组序列的比对揭示了探针集层面的其他问题。一些探针集包含至少一个探针，该探针与另一染色体上的唯一序列或同一染色体上不同的链完美匹配。其他被认为代表不同UniGene簇的探针在给定染色体的同一条链上相互混合。序列聚类问题和/或早期基因组组装错误可能是这些并发症的原因。

此外，针对同一基因组区域相反链的数千个探针可以与分配给特定UniGene ID的cDNA/EST序列对齐。这可能是由于在探针集设计中使用了纯EST簇，因为如果没有已知的cDNA序列，通常很难确定纯EST集群的转录方向。受这些问题影响的探针集列于表1如“基因组定位或链问题”。尽管目前的基因组组合绝非完美，但此类定位问题的很大一部分可能是由早期版本的UniGene数据库和基因组组合的缺陷造成的。

等位基因特异性探针

过去几年，人类基因组中已知SNP位点的显著增加造成了另一种类型的探针身份问题：一些基因芯片探针具有等位基因特异性，因此可能在不同个体的样本中表现不同。我们的分析表明，在流行的人类基因芯片上，30%到40%的探针集包含至少一个与探针中央15 bp区域的已知SNP位点重叠的探针。我们只关注中心15 bp区域具有等位基因特异性碱基的探针，因为与探针序列末端附近的失配相比，中心区域的失配更可能导致结合能的显著变化(13,14).

生成更新的探测集定义和相关实用程序函数

鉴于现有基因芯片探针集定义中探针身份问题的严重程度，我们利用最新的序列和注释信息应用了一系列探针选择和分组标准。我们根据不同的目标定义为流行的人类、小鼠和大鼠基因芯片生成了新的基因芯片库文件（CDF文件），例如UniGene(11,12)，参考序列(11,12)、DoTS(http://www.cbil.upenn.edu/downloads/DoTS/)、ENSEMBL基因、转录和外显子(15).

我们生成的所有自定义CDF以及与最近三个自定义CDF版本相关的统计数据都可以在我们的自定义CDF网页上免费访问，网址为http://brainarray.mbni.med.umich.edu/CustomCDF这些CDF文件与所有流行的R分析包（例如RMA、GCRMA、fitPLM、MAS5、dCHIP、three-step）以及独立的probe-level分析程序（例如Affymetrix的MAS5和Li和Wong的dCHIP）兼容。由于不同的程序和操作系统需要不同的自定义CDF数据格式，我们为LINUX/MAC OS X、Windows R包和ASCII CDF提供了自定义CDF R包，用于非R程序，如Affymetrix的MAS5和独立的dCHIP程序。

除了更新的探测集定义外，我们还提供了四个与每个CDF相关的有用文件。（i）探针套件包。对于分析方法（如GCRMA），在低电平信号建模中使用探针序列，需要使用此包。（ii）对应CDF文件中每个基因和转录本的最佳登录号列表。（iii）探针基因组图文件：列出相应基因组序列上探针集中每个探针的基因组位置。（iv）探头组文件：列出每个探头组的探头内容。用户可以很容易地在相关探针集定义中找到冗余，例如来自同一基因的不同转录物之间共享探针。这些文件都可以通过我们的自定义CDF页面免费下载。

此外，我们开发了一系列辅助功能，帮助研究人员比较和探索每个探针集定义的细节，例如将自定义探针集映射到相应的目标定义数据库中的条目，在探针集列表中查找每个探针的基因组位置，确定探针集中的探针是否与已知SNP重叠，检查探针集内容，匹配不同基因芯片的探针集，探针集定义和物种。这些web功能列在我们的主自定义CDF页面上的“下载自定义CDF”链接下。

最重要的是，用户可以通过自定义CDF页面上的“使用自定义CDF文件的GeneChip分析”链接来测试这些自定义CDF文件对GeneChip分析结果的影响。BioConductor包中所有流行的基因芯片分析功能(16)和保存在NCBI基因表达综合数据库中的GeneChip-cel文件(17)可以通过此功能访问。如此函数所示，“public”是用于登录的用户名和密码。

基于UniGene数据库的新旧基因芯片探针组的比较

由于UniGene数据库是使用最广泛的基因定义系统，也是现有基因芯片设计的基础，因此我们总结了我们更新的UniGene衍生探针集定义与原始基因芯片探针集的比较表2我们在这里提出了含有SNP的UniGene探针集定义，因为我们正在研究基因定义改变的纯效应，而不是包括去除等位基因特异性探针的附加效应。表2显示新注释对所有检查的GeneChip的UniGene ID影响超过30%：该百分比包括新探针集定义中所有完全重新分配的UniGeneID的总和，以及保留旧UniGene IDs但探针内容差异超过50%的探针集。由于此比较是在同一UniGene构建下进行的，并且不涉及在不同UniGene构造中将同一探针集分配给不同的UniGene，因此在新的探针集定义下，可能至少有30%的基因具有非常不同的绝对表达值。

表2

Affymetrix探针集和更新的UniGene探针集之间的探针集内容比较^一

芯片类型	Affymetrix探测装置总数	两种定义共享的UGID	100%相同的探头组	探头组含量差异≥50%	Affymetrix探针集定义中的唯一UGID	更新的UniGene探针组中的唯一UGID
HG-U95平均值2	12 558	6847	3275	1153	956	1355
HG-U133A型	22 212	11 182	4800	1920	1612	657
HG-U133B型	22 577	7924	2799	2155	4912	1052
HG-U133以上	54 613	18 555	5624	5450	5496	1483
人类X3P	61 297	18 250	6339	5673	5714	1507
MG-U74Av2型	12 422	6531	3056	1217	1455	1253
MOE430A型	22 626	11 488	5732	1694	1461	753
430B美元	22 511	7866	2834	1904	3751	1147
鼠标430	45 037	17 215	6487	4074	3356	1507
34A兰特	8740	3934	1538	886	990	595
RAE230A型	15 866	9296	4586	1354	2614	722
RAE230B型	15 276	6379	2453	1141	3034	890
费率230	31 042	14 598	5899	2992	4303	1384

在单独的窗口中打开

^一UniGene构建用于表2是HUG 183、MmUG 146和RUG 142。如果将多个旧探针集映射到相同的新UniGene ID，则在将探针内容与相应的基于UniGene的新探针集进行比较之前，会合并这些旧探针集中的探针。

有关Refseq、ENSENBL基因、Entrez基因和原始Affymetrix探针集定义之间差异的详细统计数据，请访问我们的网站：http://brainarray.mbni.med.umich.edu/brainarray/Database/CustomCDF/cdfreadme.htm#Statistics_of_Affmetrix_and_custom_CDF_files_。也可以通过以下链接找到外显子探针集的信息。有兴趣调查每个探针集的细节并比较不同定义的探针集的研究人员可以使用自定义CDF主页上的相应web功能来查询探针集内容、探针的基因组位置、探针与任何cDNA序列的匹配以及交叉芯片，跨目标定义和跨物种探针集匹配。

然而，关键问题是，新的自定义探针集定义是否会导致基因芯片实验中被鉴定为差异表达的实际基因发生显著变化？大多数基于基因芯片的表达谱分析实验的最终目的不是量化绝对表达水平，而是建立一个可靠的差异表达基因列表。

更新探针集定义对基因芯片分析结果的影响

由于HG-U133A芯片是使用最广泛的基因芯片之一，我们使用我们的内部和公共域HG-U133A数据集来检查在各种分析方法和截止阈值下更新的探针集定义对差异表达基因列表的影响。我们的分析表明，在大多数情况下，更新的CDF文件可能会导致来自HG-U133A芯片的各种数据集的差异表达基因的最终列表出现30-40%的差异。表3是使用保存在基因表达综合数据库中的心脏组织表达谱数据集对旧Affymetrix探针集和各种新探针集定义得出的结果进行的比较(GSE974标准) (18). 我们之所以选择这个数据集，是因为它使用了每个个体的配对样本，大大降低了配对中等位基因特异性探针的影响t吨-测试或错误发现率分析，因为我们这里的主要目标是评估基因/转录定义变化对基因芯片数据解释的纯粹影响。RMA的R实现用于生成探针集级别的数据，这些数据通过SAMR包进行分析(19)用于在不同的错误发现率阈值下为显示至少20%表达变化的基因推导差异表达基因列表。使用我们为每个探针集生成的最佳登录号，将来自非UniGene探针集的差异表达基因/转录列表映射到UniGene数据库相同版本中的UniGene ID。给定探针集定义对（例如Affymetrix和ENSG）的共享不同UniGene ID的平均百分比如下所示表3，相同问-在不同的探针集定义下，值阈值通常会导致不同数量的独特基因。可以看出，无论使用的截止阈值或自定义探针集定义如何，新旧探针集定义之间的一致性通常为～60-70%。因此，根据现有基因和转录定义，在旧探针集定义下被认为差异表达的基因中，有30-40%可能存在问题。

表3

不同FDR阈值下Affymetrix和其他探针集定义之间共享UniGene ID的百分比

FDR（萨姆问-值）截止（%）	<1	<2	<5	<10	<20
无人值守地面	73	73	65.1	63.9	71.6
3个UG^一	75.4	75.4	67.8	63.8	68.2
ENTREZG公司	64.4	54.8	64.1	62.3	71.8
ENSG公司	70.9	62.3	61.7	62	70.5
参考序列	66	58.1	70.4	62.2	72.2
3参考序列^一	67.5	67.5	67.7	64.5	70.6
ENST公司	69.7	52.3	67.1	64.8	71.7
3ENST公司^一	72.9	65.6	65.8	62.9	69.2
点	56.7	61.1	65.6	65.2	67.7
3DOTS公司^一	60.6	61.4	65	65.5	69.3

在单独的窗口中打开

^一如果一个探测集中有11个以上的探测，则以“3”开头的探测集定义仅包含最多的3′11个探测。

为了确保观察到的探针集效应不是我们常规分析方法所独有的，我们测试了其他分析方法，如MAS5、dCHIP、affyPLM和GCRMA以及t吨-测试P（P）-基于价值的基因排序。表4是Affymetrix和其他探针集定义之间排名靠前的基因列表相似性的总结。中的每个相似性值表4是对应探针集定义对（例如Affymetrix与UniGene）在五种不同分析方法（RMA、MAS5、dCHIP、affyPLM和GCRMA）、两种基因排序方法下50个相似性值的平均值(P（P）-值来自t吨-测试和问-SAMR值）和五个不同的阈值（前10、20、50、100、200个基因基于P（P）-价值；SAMR公司问-1、2、5、10和20%时的截止值）。此外，我们要求差异表达列表中的所有基因/转录物显示至少20%的表达变化。无论分析方法和截止阈值如何，使用更新的探针集定义总是会导致HG-U133A数据的差异表达基因列表中出现30-50%的差异（数据列1 in表4)这表明探针组内容的差异确实导致了差异表达基因列表中30-50%的差异。

表4

基于不同截止阈值和分析方法下获得的差异表达基因列表的不同探针集定义之间的平均相似性^一

探针集定义	AFFY公司	无人值守地面	3个UG	ENTREZG公司	ENSG公司	参考序列	3参考序列	ENST公司	3ENST公司	点	3DOTS公司
AFFY公司	100
无人值守地面	66	100
3个UG	71.5	77.7	100
ENTREZG公司	65.8	80.1	73.2	100
ENSG公司	66.4	78.4	72.6	87.8	100
参考文献	67.2	78.5	73.7	89.1	86.5	100
3参考序列	68.6	72.8	82.3	80.1	78.1	83.4	100
ENST公司	66	74.9	71.8	83.7	87.8	87.4	78.4	100
3ENST公司	68.7	68.9	79.6	76.3	79.8	78.2	84.4	82.5	100
点	60	59	58.6	62.2	63.1	62.9	60.8	63.6	62.3	100
3DOTS公司	61.3	57	61	60.4	61.5	61.7	62.7	62.4	64.2	89	100

在单独的窗口中打开

^一相似性值<70%以粗体显示。

对表4揭示出，除了基于DoTS的转录定义外，广泛采用的基因和转录定义的结果，如UniGene、Entrez gene（最初为LocusLink）、ENSEMBL基因、转录物和mRNA参考序列通常与原始Affymetrix探针集定义的结果更为相似。图1树状图是根据中的相似性数据得出的吗表4在默认设置下使用R hclust函数。它证实了一个事实，即最初的Affymetrix探针集定义与目前广泛使用的所有基因/转录物定义有很大不同。虽然当前的基因/转录数据库中肯定存在问题，最初的Affymetrix探针集定义与它们中的任何一个都不一样，而当前的大多数基因/转录定义彼此更为相似，这一事实表明，在存在新的基因组和转录组信息的情况下，最初的Affeymetriz探针集定义不再准确。

在单独的窗口中打开

图1

基于差异表达基因列表的探针集定义相似性的层次聚类GSE974标准数据集使用不同的探测集定义和分析方法。

讨论

我们的分析表明，基于当前基因组和转录组知识，原始基因芯片探针集的定义在许多方面存在问题。我们认为，重组后的探针集定义应能更准确地解释基因芯片数据。

由于HG-U133A实际上是新探针集定义和旧探针集定义之间具有相对较高探针集内容一致性的基因芯片之一(表2)可以想象，对来自其他芯片的数据使用更新的探针集定义，尤其是来自HG-U133B、mouse_U74Av2和大鼠Rn34A的数据，将导致显著更高的基因水平差异。最终差异表达基因列表或排名的显著变化不仅影响后续研究的基因选择，也会改变基于功能类别分析的结果，如基因集富集分析和使用功能类别的Fisher精确检验(20,21).

我们认为，将一个基因的所有探针结合起来，可以检测基因的整体转录活性。鉴于我们对与各种基因相关的选择性剪接事件的了解有限，基于基因的探针集在表达谱分析中应该非常有用。此外，对于所有流行的探针级分析算法，如MAS5、RMA和dChip，探针集中的探针越多，通常会为检测细微变化提供更高的统计能力。

对检查单个转录本感兴趣的研究人员可能希望使用基于Refseq、ENSEMBL转录本和DoTS的探针集定义。这些基于转录的定义提供了检测剪接变体的可能性，也证实了来自同一基因的不同转录物的发现。然而，我们必须指出，这些以转录物为靶点的探针集不是转录物特异性的，因为针对同一基因转录物的探针集可能共享许多甚至所有探针。在许多情况下，基于当前一代GeneChips上可用的探针，不可能生成包含至少三个针对具有多个转录本的基因的探针的转录特定探针集。

如果研究人员对选择性剪接更感兴趣，最敏感的方法是使用基于外显子的探针集定义。每个基于外显子的探针集只包含特定外显子中的探针，而没有不同转录物之间共享外显子探针所产生的“平均”效应。我们认为，基于外显子的探针集在检测选择性剪接方面优于冗余Affymetrix探针集，因为代表同一基因的Affymotrix冗余探针集之间的关系非常复杂，它们通常跨越两个外显子，并且以不同的方式相互重叠。

聚焦3′的CDF版本是否优于相应的全探测集版本仍存在争议。我们的经验表明，3′聚焦探头组通常会导致较高的噪声。值得注意的是，聚焦于3′的CDF的结果之间的一致性低于表4.

我们认为基因、转录和外显子靶向探针集以及聚焦于3′的基因和转录探针集提供了与单个基因相关的复杂转录活动的不同观点。在我们开发的解决方案中，研究人员可以自由选择任何CDF或使用所有CDF进行更全面的分析。比较Affymetrix探针集和定制探针集的结果也可能会得到有趣的发现，如前所述，我们提供了各种网络功能来促进此类探索过程。

可以想象，将基因芯片探针映射到最新序列和注释可以促进开发新的分析方法，用于检测大规模基因芯片数据集中数百或数千个基因的选择性剪接和序列多态性。毫无疑问，如果Affymetrix没有发布基因芯片探针序列，就不可能对现有基因芯片数据进行重新分析和解释。微阵列基因表达数据协会最近在一封公开信中谈到了公开实际探针序列的重要性，我们的研究结果有力地支持了这一重要要求(http://www.mged.org/Workgroups/MIAME/MIAME_reporters.pdf).

对同一数据集应用不同探针集定义的可能性为在不同基因/转录物模型下确认分析结果提供了一种非常好的方法。尽管一致性并不等于真理，但无论使用何种探针集定义，一组基因或转录物始终可以通过一个截止阈值，这一事实将强烈表明检测到的表达变化的可靠性。

估计这些定制CDF可能给基因芯片分析带来多少“真正的”改进也很有意思。尽管我们认为目前所有的基因/转录物定义都比现有基因芯片设计中使用的信息Affymetrix更准确，但来自不同数据库的基因/转录物模型并非100%相同，因此新旧CDF之间的一些差异可能是由于当前数据库中的问题。比较不同探测集定义的结果的一致性将使我们大致了解这些CDF的“实际”改进。然而，可靠的估计应基于Affymetrix CDF和基于更严格的基因/转录定义的自定义CDF结果的比较，因为使用攻击性规则的定义，如UniGene和DoTS，可能包含显著的噪音。它可以从表4Affymetrix CDF的结果与Entrez Gene、ENSG、ENST和Refseq CDF的全探针集版本（即非3′聚焦版本）的结果的平均一致性为66.4%，而后面四个CDF的平均一致度为87.1%，基于更严格的基因和转录定义，建议使用CDF时“真正”提高约20%。我们还想指出，自定义CDF对其他基因芯片的影响可能更大，因为HG-U133A主要代表已知基因和转录物。从长远来看，我们预计不同的基因/转录定义将趋于一致，但它们与Affymetrix几年前使用的基因组和转录组信息的差异可能会增加。因此，基于最新基因组和转录组信息更新探针集定义将为基因芯片分析带来更多实际改进。

总之，我们的分析表明，流行的人类、小鼠和大鼠基因芯片上的现有基因芯片探针集定义中有很大一部分不再与主要公共数据库中的基因和转录模型一致。探针身份问题至关重要，因为它可以极大地影响对基因芯片表达数据的解释和理解。因此，我们建议使用我们公开提供的更准确的注释重新分析以前的基因芯片数据，并且需要随着基因组和转录组信息学的进一步改进而不断更新。

致谢

我们要感谢普里茨克神经精神疾病研究联盟的曼努埃尔·洛佩兹·菲格罗亚博士和罗斯·贝索特先生提出的富有洞察力的建议和意见。M.D.、P.W.、E.G.J.、W.E.B.、R.M.M.、T.P.S.、H.A.、S.J.W.和F.M.是Pritzker神经精神障碍研究联合会的成员，该联合会由Pritzke神经精神疾病研究基金L.L.C.资助。这项工作得到了海军研究办公室向H.A.，A.D.B.提供的N00014-02-1-0879赠款的部分支持。，G.K.和B.A.感谢密歇根经济发展公司和密歇根技术三走廊对本研究项目的支持（拨款085P1000819）。支付本文公开获取出版费用的资金由Pritzker神经精神疾病研究联盟提供。

利益冲突声明。未声明。

参考文献

1Li C.，Wong W.H.寡核苷酸阵列的基于模型的分析：表达指数计算和异常值检测。程序。美国国家科学院。科学。美国。2001;98:31–36. [PMC免费文章][公共医学][谷歌学者]

2.Bolstad B.M.、Irizarry R.A.、Astrand M.、Speed T.P.基于方差和偏差的高密度寡核苷酸阵列数据归一化方法的比较。生物信息学。2003;19:185–193.[公共医学][谷歌学者]

三。Irizarry R.A.、Bolstad B.M.、Collin F.、Cope L.M.、Hobbs B.、Speed T.P.Affymetrix基因芯片探针水平数据摘要。核酸研究。2003;31：e15。 [PMC免费文章][公共医学][谷歌学者]

4Irizarry R.A.、Hobbs B.、Collin F.、Beazer-Barclay Y.D.、Antonellis K.J.、Scherf U.、Speed T.P.高密度寡核苷酸阵列探针水平数据的探索、归一化和总结。生物统计学。2003;4:249–264.[公共医学][谷歌学者]

5Lander E.S.、Linton L.M.、Birren B.、Nusbaum C.、Zody M.C.、Baldwin J.、Devon K.、Dewar K.、Doyle M.、FitzHugh W.等。人类基因组的初始测序和分析。自然。2001;409:860–921.[公共医学][谷歌学者]

6国际人类基因组测序协会。完成人类基因组的常染色序列。自然。2004;431:931–945.[公共医学][谷歌学者]

7Zhang J.，Finney R.P.，Clifford R.J.，Derr L.K.，Buetow K.H.通过生物信息学方法。基因组学。2005;85:297–308.[公共医学][谷歌学者]

8Gautier L.，Moller M.，Fris-Hansen L.，Knudsen S.Affymetrix芯片探针到基因的替代映射。BMC生物信息学。2004;5:111. [PMC免费文章][公共医学][谷歌学者]

9Harbig J.、Sprinkle R.、Enkemann S.A.Affymetrix U133 plus 2.0阵列上探针检测到的基因的基于序列的鉴定。核酸研究。2005;33：e31。 [PMC免费文章][公共医学][谷歌学者]

10Okazaki Y.、Furuno M.、Kasukawa T.、Adachi J.、Bono H.、Kondo S.、Nikaido I.、Osato N.、Saito R.、Suzuki H.等。基于60770个全长cDNA的功能注释的小鼠转录组分析。自然。2002;420:563–573.[公共医学][谷歌学者]

11Wheeler D.L.、Church D.M.、Federhen S.、Lash A.E.、Madden T.L.、Pontius J.U.、Schuler G.D.、Schriml L.M.、Sequeira E.、Tatusova T.A.等，国家生物技术中心数据库资源。核酸研究。2003;31:28–33. [PMC免费文章][公共医学][谷歌学者]

12Wheeler D.L.、Church D.M.、Edgar R.、Federhen S.、Helmberg W.、Madden T.L.、Pontius J.U.、Schuler G.D.、Schriml L.M.、Sequeira E.等人。国家生物技术信息中心的数据库资源：更新。核酸研究。2004;32：D35–D40。 [PMC免费文章][公共医学][谷歌学者]

13Mei R.、Hubbell E.、Bekiranov S.、Mittmann M.、Christians F.C.、Shen M.M.、Lu G.、Fang J.、Liu W.M.、Ryder T.等。高密度寡核苷酸阵列的探针选择。程序。美国国家科学院。科学。美国。2003;100:11237–11242. [PMC免费文章][公共医学][谷歌学者]

14Lee I.，Dombkowski A.A.，Athey B.D.将非完全匹配的寡核苷酸纳入DNA微阵列靶向杂交探针的指南。核酸研究。2004;32:681–690. [PMC免费文章][公共医学][谷歌学者]

15Hubbard T.、Andrews D.、Caccamo M.、Cameron G.、Chen Y.、Clamp M.、Clarke L.、Coates G.、Cox T.、Cunningham F.等人，2005年合奏。核酸研究。2005;33：D447–D453。 [PMC免费文章][公共医学][谷歌学者]

16Gentleman R.C.、Carey V.J.、Bates D.M.、Bolstad B.、Dettling M.、Dudoit S.、Ellis B.、Gautier L.、Ge Y.、Gentry J.等人，《生物导体：计算生物学和生物信息学的开放软件开发》。基因组生物学。2004;5：R80。 [PMC免费文章][公共医学][谷歌学者]

17Barrett T.、Suzek T.O.、Troup D.B.、Wilhite S.E.、Ngau W.C.、Ledoux P.、Rudnev D.、Lash A.E.、Fujibuchi W.、Edgar R.NCBI GEO：挖掘数百万表达谱-数据库和工具。核酸研究。2005;33：D562–D566。 [PMC免费文章][公共医学][谷歌学者]

18Hall J.L.、Grindle S.、Han X.、Fermin D.、Park S.、Chen Y.、Bache R.J.、Mariash A.、Guan Z.、Ormaza S.等。心室辅助装置机械支持前后人类心脏的基因组分析揭示了血管信号网络的变化。生理学。基因组学。2004;17:283–291.[公共医学][谷歌学者]

19Tusher V.G.，Tibshirani R.，Chu G.应用于电离辐射反应的微阵列显著性分析。程序。美国国家科学院。科学。美国。2001;98:5116–5121. [PMC免费文章][公共医学][谷歌学者]

20Al-Shahrour F.、Diaz-Uriarte R.、Dopazo J.FatiGO：一种网络工具，用于发现基因本体术语与基因组之间的重要关联。生物信息学。2004;20:578–580.[公共医学][谷歌学者]

21.Mootha V.K.、Lindgren C.M.、Eriksson K.F.、Subramanian A.、Sihag S.、Lehar J.、Puigserver P.、Carlsson E.、Ridderstrale M.、Laurila E.等。参与氧化磷酸化的PGC-1alpha应答基因在人类糖尿病中协调下调。自然遗传学。2003;34:267–273.[公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社