基于UniGene数据库的重组探针集生成
我们想首先描述生成基于UniGene的探针集定义的过程,因为UniGene数据库是使用最广泛的基因分类系统,大多数研究人员将首先将GeneChip结果映射到UniGene数据,以了解GeneChip数据的生物学意义。生成基于UniGene的探针集很复杂,因为UniGene簇通常包含可靠性和链方向未知的多个序列。
以下是UniGene探针集重组过程中的步骤。这些步骤按显示的顺序应用。
(i) 执行序列对齐。这一步包括两个部分:(a)将所有基因芯片探针序列映射到UniGene、dbSNP和相应物种的基因组序列中的单个序列。只有完美的匹配才能保留。(b) 将UniGene数据库中的所有序列与对应物种的最新基因组组装对齐。由于UniGene簇经常包含来自其他基因的序列,我们将在后面的步骤中使用基因组比对结果来提供一些容易自动化的清理。
(ii)我们要求探针集中的每个探针只能与相应的基因组序列完全匹配。这可能会排除与基因组中非转录区域匹配的探针,但该过滤器不依赖于基因组注释或cDNA/EST序列收集的完整性,因此,从长远来看应该更稳定。无处不在的非编码转录本也支持使用这种更具攻击性的策略(10). 考虑到该标准只消除了10%或更少的探针,我们认为每个探针集的统计能力的轻微下降对于提高最终结果的信心是值得的。
(iii)由于EST序列的错误率相对较高,我们需要一个探针来完美匹配基因组区域,该基因组区域可以与UniGene数据库中收集的mRNA/EST序列对齐。仅与EST序列完全匹配但与相应基因组序列不完全匹配的探针将不包括在最终探针集中。此规则的一个例外是外显子-外显子连接探针与同一UniGene簇中的mRNA参考序列完全匹配。我们将这种外显子-外显子连接探针添加回相应的探针集,并指定最低的探针对数。
(iv)为了确保探针对一个UniGene簇具有特异性,我们消除了具有多个匹配cDNA/EST序列的探针,这些序列可以分配给多个UniGene簇。我们之前对基因组序列比对的要求可以减少错误EST测序或污染EST序列导致的假非特异性探针。尽管此过滤器可能会由于UniGene聚类中的错误而删除良好的探针,但它将确保每个探针集与当前UniGene集群一致。
理论上,如果非预期转录物的表达水平不足以导致特定组织或样品中探针信号的显著干扰,那么具有与多个基因转录物杂交潜力的探针仍然有用。然而,尽管组织或样本依赖型探针集定义可以提高基因芯片探针的利用率,但组织/样本依赖型探头集定义的简单性和一致性在大多数情况下应该更有利。
在理想情况下,基因特异性探针组应仅包含其序列将存在于来自同一基因的所有剪接产物的共享序列上的探针,因为这样的探针组的信号水平不会受到不同组织或个体中的选择性剪接的影响。对于大多数基因来说,目前对潜在的选择性剪接产物的了解还远远不够。因此,我们选择汇集所有靶向相同基因的探针来定义基因特异性探针集。我们相信基于基因的探针集定义对于评估基因的整体转录活性是有用的,事实上大多数微阵列研究论文都声称这一点。我们的转录或外显子特异性探针集可以探索潜在的选择性剪接事件。由于一些研究人员更喜欢检查靶向转录物3′端的探针,我们还创建了在最多3′端包含不超过11个探针对的探针集。
(v) 除了具有已知mRNA/参考序列的基因外,我们要求每个探针集中的所有探针在基因组上沿同一方向对齐,因为代表同一基因的旧探针集有时可以针对同一转录物的不同链。此约束确保了在合并来自多个旧探测集的探测时,新定义的探测集的方向一致性。如果UniGene簇中没有用于确定基因组上转录方向的mRNA/参考序列,则与相同基因组区域但方向不同的完全匹配的探针被分为两个探针集。
(vi)我们还要求针对同一UniGene簇的探针在基因组序列上以相同方向连续排列。例如,如果代表UniGene簇的探针分布在不同的基因组区域或染色体上,则将使用最大的连续探针集来代表此UniGene集群。所有其他与针对不同UniGene簇的探针混合的探针将从最终探针集中删除。
此规则的一个例外是,当UniGene簇中的mRNA参考序列可以与不同的基因组位置对齐时,因为mRNA参考顺序可能比当前版本的基因组组装更可靠。
(vii)每个探头组应至少包含三对探头。无法由至少三个探测对表示的目标在最终探测集定义中被删除。这个阈值很大程度上是任意的,但具有三个探测对的探测集应该满足大多数探测级分析算法的最低要求。在我们新的UniGene探针集定义中,包含三个或四个探针对的探针集占所有探针集的10%以下。大多数探针集的大小是给定GeneChip上原始探针集大小的~1倍或2倍(例如~11或22),但由于之前描述的原始GeneChip探针集的冗余,一些探针集可以有几十个探针对。
Refseq、DoTS、Entrez基因、ENSEMBL基因、转录和外显子探针集的生成
为这些目标类型生成自定义探测集要容易得多,因为每个目标序列和方向都在相应的数据库中定义良好。在识别基因芯片上所有与相应目标序列完全匹配的探针后,我们删除对相应基因组序列进行多次完美匹配的探针,并且我们还需要每个包含三个以上探针的最终探针集。在相应的基因或转录定义中,3′聚焦探针集只包含最多的3′11个探针。
等位基因相关探针组的产生
为了减少不同样本中单核苷酸多态性(SNP)引起的噪声,我们还通过删除已知在完美匹配或错配探针的中心15 bp区域具有等位基因特异性碱基的所有探针对来生成探针集。当然,未知的高异质性SNP位点可能仍会对某些探针组造成高噪声。
最终探头组的命名
如果探针通过了我们的选择标准,则会根据相应数据库中的目标定义,将其添加到相同目标(基因、转录物或外显子)的初步探针池中。如上所述,在生成最终探针集之前,可以有其他标准,例如只保留最多的3′11探针或删除等位基因特异性探针。如果一个初始探测集只包含一个或两个探测,则它不会产生最终探测集。最终的探测集将在相关数据库中具有相应的目标名称。按照Affymetrix的命名法,我们在序列ID名称的末尾添加“_at”。因此,Hs.10000_at、Mm.1111_at、NM_12235_at、ENSG00003456_at等可以是相应自定义CDF文件中的探测集名称。
为探测集分配最佳匹配加入编号
由于许多基于非GenBank登录号的探针集ID(如UniGene ID和ENSEMBL转录ID)不是很稳定,我们还为所有基因和转录特定探针集(包括原始GeneChip探针集)指定了GenBank的登录号,通过识别最可靠的短序列的登录号,该序列与相应的探针集的探针匹配百分比最高。在给定探针集的最高探针命中率相同的序列中,序列选择的顺序为Refseq>cDNA>EST。如果仍然存在平局,则选择最短的序列。在许多情况下,上述过程仍然会导致多个序列,我们只需选择字母顺序最低的登录号作为探针集的指定最佳登录号。
上述所有过程都是在4×双opteron/8 GB内存集群和具有16 GB内存的双安腾Oracle服务器上实现的。我们通常每3-4个月生成一个新的CDF构建,每个构建需要约10天才能完成当前的设置。自去年年初以来,共生成了六个自定义CDF构建。
自定义CDF的使用
在我们的CDF下载网格上,可以根据物种、Affymetrix基因芯片类型、CDF文件类型和CDF文件格式轻松选择自定义CDF文件。以下是三个涵盖所有常见基因芯片探针级分析情况的示例。
示例1。在Affymetrix MAS5或独立dCHIP中使用自定义CDF:ASCII格式的CDF文件适用于Affymetrix MAS5和独立dCHIP程序。解压缩ASCII CDF包后,ASCII格式的自定义CDF文件可以与Affymetrix CDF文件完全相同的方式使用。请注意,dCHIP程序只接受Affymetrix CDF名称,因此必须将自定义CDF文件的名称更改为相应的Affymetix CDF文件名。
示例2。在R环境中使用自定义CDF,方法是直接在具有Internet链接的计算机上调用自定义CDF包。以下是一个示例会话:
图书馆
数据<-ReadAffy()
UMRepos<-getOption(“存储库2”)
选项('repositories2'=UMRepos)
结果<-rma(数据)
write.exprs(结果,文件=“output.txt”)
粗体斜体的字符串是用户需要在R会话中添加的额外命令。自定义CDF文件名“HS133A_HS_UG_5”可以用CDF下载页面上的任何自定义CDF文件名替换(“CDF文件名称”,CDF下载网格左起第四列)。
示例3。将相应的自定义CDF R包下载到用户的本地计算机上后,在R环境中使用自定义CDF。
请注意,LINUX/UNIX/MAC OS X有一个R软件包,Windows平台有另一个R程序包。下载正确的包后,需要执行以下操作:
在Linux/Unix/MAC OS X下,使用命令“R CMD INSTALL”?。tar.gz’。
在Windows下,选择菜单“软件包->从本地zip文件安装软件包”。
为了在安装后的数据分析中使用自定义CDF文件,应添加一行R命令来替换默认的Affymetrix CDF文件。以下是不同芯片和定制探针组组合的两个示例:
同样,粗体斜体部分中的CDF名称可以替换为您下载的任何自定义CDF的名称。对于给定的CDF版本,每个自定义CDF的标准名称位于CDF下载网格的第四列。