跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
国家生物技术。作者手稿;PMC 2012年2月3日提供。
以最终编辑形式发布为:
预防性维修识别码:PMC3272078项目
美国国立卫生研究院:美国国家卫生研究院352334
PMID:16964229

微阵列质量控制(MAQC)项目显示了基因表达测量的平台间和平台内再现性

MAQC财团*

关联数据

补充资料

摘要

在过去十年中,微阵列技术的引入对基因表达研究产生了深远的影响。使用不同的微阵列平台分析相同的RNA样本,获得了不同或完全矛盾的结果,这些研究的发表引发了人们对该技术可靠性的担忧。启动微阵列质量控制(MAQC)项目是为了解决这些问题以及其他性能和数据分析问题。使用多种基于微阵列和替代技术平台,在多个测试点生成来自两个不同参考RNA样品的四个滴定池的表达数据。在这里,我们描述了MAQC项目背后的实验设计和探针绘图工作。我们显示了不同测试点的平台内一致性以及在差异表达基因方面的高度平台间一致性。这项研究提供了一种资源,代表了在临床和监管环境中建立微阵列使用框架的重要第一步。

最近,药物基因组学和毒理基因组学被美国食品和药物管理局(FDA)和美国环境保护署(EPA)确定为推进个性化药物的关键机遇1,2和环境风险评估这些机构发布了指导文件,以鼓励科学进步,并促进在药物开发、医疗诊断和风险评估中使用这些数据(http://www.fda.gov/oc/initiatives/criticalpath/;http://www.fda.gov/cder/guidance/6400fnl.pdf;http://www.fda.gov/cdrh/oivd/guidance/1549.pdf;http://www.epa.gov/osa/genomics.htm)。然而,尽管DNA微阵列是实现这一目的的核心技术之一,但人们对其可靠性和一致性以及微阵列技术在临床和监管环境中的潜在应用提出了担忧。例如,一项被广泛引用的研究报告称,当分析同一组RNA样本时,来自三个商业微阵列平台的差异表达基因列表几乎没有重叠4在其他跨平台和/或跨实验室微阵列研究中也报告了类似的低重叠水平5——8.

尽管类似的结果继续出现在同行评议的期刊上9,10,对微阵列技术的重复性、再现性和可比性提出质疑11——13,最近也发表了几项研究,表明在不同的测试点和/或使用不同的平台生成的微阵列数据的再现性增加14——18因此,在将该技术应用于临床实践和监管决策之前,需要制定微阵列标准、质量衡量标准和数据分析方法共识2,19——21.

在这里,我们描述了MAQC项目,这是一项由FDA科学家发起和领导的社区范围的工作,涉及51个组织的137名参与者。在这个项目中,除了三种替代表达方法外,还从七个微阵列平台上的四个滴定池中的两个高质量、不同的RNA样品中测量基因表达水平。每个微阵列平台部署在三个独立的测试点,每个测试点检测五个重复。该实验设计和结果数据集提供了一个独特的机会来评估特定位点内基因表达微阵列数据的重复性、多个位点之间的重复性以及多个平台之间的可比性。对这些技术指标进行客观评估是了解微阵列技术在临床和监管环境中的适当使用的重要一步。本研究还解决了科学界在使用和分析微阵列数据方面的许多其他需求(参见补充数据在线)。

MAQC项目产生了丰富的数据集,在适当分析后,可以发现实验室和跨平台微阵列数据一致性方面的有希望的结果。在本文中,我们详细介绍了研究设计,描述了其实施,并总结了MAQC主要研究的关键发现。随附的一套文章22——26提供了其他分析和相关数据集。尽管本研究中使用的样本类型并不直接代表相关生物学研究,但该研究提供了对微阵列技术能力和局限性的技术见解。使用毒代基因组学研究,独立报道了跨实验室和平台间比较中类似水平的一致性26.

结果

实验设计

MAQC项目(http://www.fda.gov/nctr/science/centers/toxicoinformatics/maqc/)在多种基因表达平台和多个测试点重复分析了由两种RNA样本类型组成的四个样本池。使用的两种RNA样本类型是来自Stratagene的通用人类参考RNA(UHRR)和来自Ambion的人脑参考RNA(HBRR)。四个样本池包括两个参考RNA样本以及两个原始样本的混合物:样本A,100%UHRR;样本B,100%HBRR;样品C,75%UHRR:25%HBRR;样本D,25%UHRR75%HBRR。这种生物不同RNA来源和已知滴定差异的组合提供了一种基于检测到的差异表达基因评估每个平台相对准确性的方法。MAQC项目的一个独特之处是,在未来几年内,A型和B型样品都可以按MAQC项目使用的确切批次向社区出售。

测试了六种商用微阵列平台:应用生物系统(ABI);Affymetrix(AFX);安捷伦科技(双色AGL和单色AG1);GE Healthcare(GEH);Illumina(ILM)和Eppendorf(EPP)。此外,美国国家癌症研究所(NCI)的科学家使用从Operon获得的寡核苷酸生成了斑点微阵列。RNA样本类型也在三个备选基因表达平台上进行了测试:来自Applied Biosystems的TaqMan基因表达检测(TAQ TaqMans是Roche Molecular Systems,Inc.的注册商标);基因表达(GEX)的StaRT-PCR和胰腺组学(QGN)的QuantiGene分析。

每个微阵列平台提供商选择三个站点进行测试。在大多数情况下,四种样品类型中的每一种都在每个测试点进行了五次重复分析。六个微阵列供应商使用单色协议,其中一个标记的RNA样本与每个微阵列杂交(表1)。使用双色协议测试安捷伦双色和NCI微阵列,以便将两个不同标记的RNA样本同时杂交到同一微阵列。Eppendorf分析在一个玻璃载玻片上包含两个相同的微阵列,这些微阵列分别与两个样品杂交。虽然只使用了一种荧光染料,但Eppendorf数据以比率格式显示。

表1

MAQC主要研究中分析的基因表达平台和数据

制造商代码协议站台数量
探针
数量
试验场地
数量
样品
数量
复制
的总数
微阵列b条
应用生物系统ABI公司单色微阵列人类基因组调查芯片v2.032,8784558
昂飞AFX公司单色微阵列HG-U133 Plus 2.0基因芯片54,6754560
安捷伦航空地面照明双色微阵列c(c)全人类基因组寡核苷酸微阵列,G4112A43,93121056
AG1型单色微阵列全人类基因组寡核苷酸芯片G4112A43,9314556
埃彭多夫欧洲电力公司单色微阵列双芯片微阵列2944560
GE Healthcare公司GEH公司单色微阵列CodeLink人类全基因组,30002654,3594560
Illumina公司信息生命周期管理单色微阵列Human-6珠片,48K v1.047,2934559
NCI_珀龙NCI公司双色微阵列Operon人类寡核苷酸组v337,63224533
应用生物系统技术咨询师TaqMan分析>可用200000次分析1,004144不适用
泛经济学QGN公司QuantiGene测定约2600种分析可用24514不适用
基因表达GEX公司StaRT-PCR分析约1000个分析可用20714不适用
总计442
探针的全局定义用于根据基因表达平台包括单个探针、探针集或引物对。本表中列出的数字来源于产品文献,可能包括一些平台复制。所分析探针数量的备选数字如下所示补充数据表S5在线。
b条每种颜色方案的最大微阵列数量为60个(3个位点×4个样本类型×5个重复)。如文中所述,主要研究数据分析中包括替代杂交,但不包括异常杂交。本文仅分析了386个微阵列的数据。有关其他数据集的说明,请参见补充数据中的表S4在线。
c(c)尽管没有在本文中介绍,但安捷伦双色数据(56个微阵列)在其他地方进行了讨论24。在其余的图中,使用以下术语引用测试站点和样本类型:“platform code_test site_sample ID”。样品A=100%UHRR;样品B=100%HBRR;样品C=75%UHRR:25%HBRR;样品D=25%UHRR:75%HBRR。

每个微阵列提供商使用自己的软件为微阵列上的每个探针生成定量信号值和定性检测调用。对每个平台的定性调用的关注导致我们在每次计算中使用的基因数量可能不同。它还对数据分析产生了影响,因为一些平台(但不是全部)删除了可疑或低强度数据。此外,由于质量问题,从进一步分析中删除了11个杂交。表1注意到在每个微阵列平台的最终数据分析中使用的最终杂交数。更多详细信息见方法和补充数据表S1–S4在线。样品的预杂交和杂交后质量信息可用作补充表1在线。

由于协议、每个平台的数据点数量和数据预处理方法的固有差异,跨平台直接比较结果具有挑战性。只要有可能,所有平台都包括在任何比较中,但偶尔会将一个或两个平台的结果排除在分析之外,因为数据比较是站不住脚的,而且强制设计最终是没有信息的。尽管本文中提供了来自替代平台的一些数据,但在其他地方也包含了更深入的讨论22.

探针映射

微阵列实验通常依赖于单个探针的杂交强度测量来推断特定基因的转录物丰度水平。这种关系提出了几个难题,包括:哪个基因对应于哪个探针,探针的敏感性和特异性如何。以前的出版物表明,跨平台研究中的一些变异性是由于注释问题造成的,这使得很难协调用特定探针测量的基因27——30尽管人类基因组序列已经完成,但实际基因的最终清单尚未确定。所有标识符都是移动目标,甚至NCBI手写引用序列也经常被修改。另一个问题是,设计用于测量给定RNA目标的基因表达分析可能会在不知不觉中检测到多个交替剪接的转录物,这些转录物可能具有不同的功能和表达模式。因此,用基因表达平台检测到的基因或转录物的数量本质上难以定义和量化。

MAQC项目的一个独特优势是,每个基因表达技术中使用的探针的大部分序列信息都是由制造商提供的。我们绘制了探针图(请参见补充方法在线和补充说明在线)到RefSeq人类mRNA数据库31(http://www.ncbi.nlm.nih.gov/RefSeq网站)和到AceView数据库32(http://www.ncbi.nlm.nih.gov/IEB/Research/Acembly网站)是一个管理较少但更全面的数据库,其中包括所有RefSeq、GenBank和dbEST人类cDNA序列。尽管探针的总数在不同的平台上有所不同,但六个高密度微阵列平台检测了相似数量的Entrez基因(15429-16990),并且与AceView转录物对齐的探针百分比相似(68-84%)(见补充数据表S5在线)。我们发现2006年3月8日发布的24157个RefSeq NM登录中有23971个是由至少一个平台分析的(补充表2MAQC研究中使用的所有高密度微阵列平台对15615个加入进行了分析。由于选择性剪接,每个平台映射到每三个Entrez基因大约四个RefSeq转录物。

为了简化跨平台比较,我们将复杂的探针-目标关系浓缩为“单探针-单基因”列表。所有高密度微阵列平台上的15615个RefSeq条目代表12091个Entrez基因。对于每个基因,我们选择了一个RefSeq条目(补充表4在线),主要是TaqMan分析注释的,其次是大多数平台针对的。当一个平台包含多个匹配相同RefSeq条目的探针时,公共集合中只包含最接近3′端的探针(补充表3在线)。通过这种方式,我们为每个高密度平台选择了12091个探针,匹配12091个不同基因的一组12091个参考序列(补充表5在线)。

平台内数据的重复性和再现性

我们通过在两个水平(定量信号值和定性检测调用)上审查位点内重复性和位点间重复性,检查了每个平台内微阵列数据的一致性。在大多数计算中,只有在五个重复样本中至少三个重复样本(或通常检测到的基因)中检测出的基因被包括在内。这个过滤器解释了微阵列平台识别低于其质量阈值的基因的不同方式,并指导我们的研究远离不太自信、嘈杂的结果。对于高密度微阵列平台,每个站点上每个样本类型的一般检测基因数量从8000到12000不等,但使用相同平台的测试站点之间相对一致(图1).

保存图片、插图等的外部文件。对象名为nihms352334f1.jpg

测试部位内表达信号的重复性。对于单色平台,计算所有普遍检测到的基因在相同样本类型的重复位点之间的表达信号值的CV。这些复制CV的分布以一系列12个盒子和胡须图的形式呈现,每个微阵列平台:三个测试点的四种样本类型中的每一种都有一个。图中突出显示以区分样品复制品:样品A(白色)、样品B(浅蓝色)、样品C(浅紫色)和样品D(深蓝色)。显示三个试验点平台结果的十二个曲线图按以下顺序从左至右排列:A1、A2、A3、B1、B2、B3、C1、C2、C3、D1、D2和D3。对于双色NCI平台,同样计算相同样本类型的重复位点之间Cy3/Cy5表达比率的CV。这些复制CV的分布在两个NCI试验点的一系列八个盒子和晶须图中,从左到右顺序如下:A1、A2、B1、B2、C1、C2、D1和D2。中位数(间隙)、四分位范围以及10第个和90第个每个图中都显示了百分位值。只有在至少三个重复中检测到的12091个公共集的基因被纳入箱图和CV计算。该数字因平台/样品/试验场地而异,并记为带有次轴的线图在线补充数据中的表S6。平台和样本类型根据中给出的术语进行标记表1.

利用每个试验点每种样本类型的12091个常见基因中的一般检测子集,计算出站内重复物之间定量信号值的变异系数(CV)。在一系列方框图和胡须图中显示了重复CV测量值在检测到的一组基因中的分布图1大多数单色微阵列平台和测试点的重复变异系数中值为5-15%,尽管不同平台之间的重复变异结果分布不同。对于双色NCI微阵列,使用Cy3/Cy5比率计算复制CV。(在所有NCI杂交中,样本类型A用作Cy5参考。)这些值仅略大于相同样本类型的单色信号。

接下来,我们检查了定量信号的总变异系数,其中包括位点内重复性以及因位点间差异引起的变异。根据定义,总CV度量(n个≤15)将大于重复CV测量值(n个≤ 5). 总CV分布的中值和每个平台三个重复CV中值的平均值如所示图2总体而言,所有平台的总CV中值都非常一致,从10%到略高于20%不等,并不显著高于重复CV中值。一般来说,总CV中位数高达重复CV中位数的两倍,但这一结果并不意外,只是意味着在使用同一平台组合来自多个站点的数据时,应考虑站点相关的影响。

保存图片、插图等的外部文件。对象名为nihms352334f2.jpg

试验场地内和试验场地之间的信号变化。对于四种样本类型中的每一种,都显示了测试场地内信号的复制CV(蓝色条)和场地内和场地之间信号的总CV(红色条)。如中所示图1,在单个试验点的样本类型的至少三个重复中检测到的基因包含在重复CV计算中。这些基因列表交叉处的基因包含在总变异系数计算中。(因此,这些基因列表与图1.)每个平台和样本类型内的此类基因数量由线条连接的蓝色圆点表示,并在次轴上读取。它也被报告为在线补充数据表S6。根据每个制造商的默认设置执行站点内标准化,通过站点间缩放执行站点间标准化(见正文)。NCI平台被省略,因为在主要研究中只有两个试验点的数据可用,所以站点间再现性测量可能不具有代表性。平台和样品类型根据表1.

为了评估定性测量的差异,计算了每个平台上四种样本类型中每一种的12091个具有相同样本类型重复之间一致检测调用的共同基因的百分比(图3)。这些数字包括单个站点的所有样本复制(n个≤5)或所有样品在试验现场重复(n个≤ 15). 大多数单色试验点在其设施内对样品复制品的定性要求中证明了80-95%的一致性。对于所有三个测试点的定性调用的再现性,该值下降到70-85%的一致性。检测到更多呼叫的平台并不奇怪(图1)总体上一致性百分比较高。例如,NCI微阵列检测到了12091个常见基因中的几乎所有基因,并且在测试点之间的一致性百分比接近100%。检测到的基因数量较少的微阵列平台通常会降低一致性百分比。有趣的是,GE Healthcare平台检测到了大量基因(每次杂交约11000个),并且测试点之间的一致性约为85%。

保存图片、插图等的外部文件。对象名为nihms352334f3.jpg

测试点内部和测试点之间检测调用的一致性。对于12091个常见基因,每个平台内的检测调用被分类为“检测到”或“未检测到”对于每个平台内的每个样本类型,在给定位置的复制中,具有完全一致的调用的基因百分比作为“检测到”绘制为蓝色圆点,而在所有位置中具有完全一致调用的基因相应百分比作为“检出”绘制为蓝条。一个位点内具有完全一致调用(检测到和未检测到)的基因的总百分比绘制为黄色圆点,所有位点中具有完全一致的调用的相应基因百分比绘制为黄条的顶部。在所有测试点上,条形图被划分为完全检测到的基因(蓝色部分)和完全未检测出的基因(黄色部分)。预计检测到的基因在样本类型中并不一致。每个测试点的完美检测基因数量如下所示在线补充数据表S6如正文所述,单个平台确定基因数据足够可靠以进行检测的严格程度有不同的制造商默认值,导致一致性百分比发生改变。灵敏度/特异性设置的变化可能会改变分配给每个检测类别的条形图的比例。因为可靠性取决于特定于平台的详细信息,所以检测到的调用并不直接对应于相对丰富的调用,并且可能因平台而异。注意:由于一些平台删除了离群值杂交(n个≤5)和站点之间(n个≤15)变化以确定一致性。

平台间数据可比性

无法直接比较在不同平台上生成的表达式值,因为独特的标记方法和探针序列将导致探针杂交到同一目标的可变信号。或者,应该跨平台维护一对样本类型之间的相对表达式。为此,我们通过使用三种不同的指标(差异基因列表重叠、对数比压缩和对数比秩相关)审查样本类型B相对于样本类型A的表达值,来检查微阵列数据在平台之间的可比性。对于对数比压缩和秩相关,分析中只包括普通12091基因列表中的一般检测基因。对于基因列表重叠,考虑了所有12091个常见基因。

为每个测试站点生成差异表达基因列表,并与使用相同平台和使用不同平台的其他测试站点的列表进行比较。计算百分比分数,以指示每对测试站点列表之间的共同基因数量。每个比较的重叠百分比显示在图4注意,图形比较是不对称的,表明分析是在两个方向上进行的。也就是说,测试点X列表中测试点Y基因的百分比可能不同于测试点X基因在测试点Y列表中的百分比。对于除NCI测试站点外的所有测试站点,每个测试站点比较(双向)的基因列表重叠至少为60%,许多站点配对在平台之间达到80%或更多,在平台内达到90%。通常,NCI微阵列平台确定为差异表达的基因也在其他平台上确定,这表明该平台的假阳性率较低。然而,反过来并不一定正确,很可能是因为NCI平台中观察到更多的对数比压缩以及使用了严格的P(P)-值阈值。

保存图片、插图等的外部文件。对象名为nihms352334f4.jpg

基因列表的一致性。该图显示了在标记为X和Y的成对试验点中被识别为差异表达的基因的一致性。针对每个试验点,生成了样本A型重复与样本B型重复之间差异表达基因的列表(使用12091个具有≥两倍变化和P(P)<0.001阈值),并与其他测试点进行通用性比较。这些基因列表的大小报告为在线补充数据表S7。未执行与定性检测调用相关的筛选。矩阵中方框的颜色反映了测试点Y(在行中列出)列表上的基因重叠百分比,这些基因也存在于测试点X(在列中列出)的列表中。浅色正方形表示两个测试位点的基因列表之间有很高的重叠百分比。深色方块表示重叠百分比较低,这表明在Y位点识别的大多数基因没有在X位点识别。重叠百分比的数值表示为在线补充数据表S9注意:该图是不对称的,不是互补的。仅介绍了六个高密度微阵列平台。如文中所述,由于质量问题,这些计算中省略了一些平台的数据。平台和样品类型根据表1.

后缀_1、_2和_3表示测试场地位置。

每个微阵列平台都有一个定义的背景校正方法和信号检测的动态范围,这可能导致过度或低估对数比率和样本类型之间表达的折叠变化。为了检查对数比的压缩或膨胀水平,我们确定了成对测试点之间对数比估计的最佳拟合线。每个比较的斜率差异百分比显示在图5a.理想斜率为1将导致百分比差异为0;理想线斜率的负或正百分比差异表明一个试验点中的对数比相对于另一个试验点的压缩或膨胀。对于每个商业单色平台,在其三个测试点之间观察到良好的一致性。大多数跨平台测试站点的比较也显示出很少的压缩或膨胀。NCI微阵列的测试点1在平台内和平台间产生了与其他测试点一致的不同结果。

保存图片、插图等的外部文件。对象名为nihms352334f5.jpg

跨平台和测试站点的对数比协议。()对数比压缩/扩展。该图显示了使用a和B复制的对数比率差异表达式的平台/站点之间等效性的百分比差异(对应于使用正交回归的最佳拟合线的斜率值1)。黑点表示相等(斜率=1→百分比差异=0)。与理想线(aqua)斜率的正百分比差异表示测试点Y相对于测试点X的测井信号压缩。理想线(洋红)的负百分比差异表示膨胀。读作“试验点Y与试验点X的斜率等效性(m=1)有什么区别?”计算中只包括两个试验点在至少三个A型样品重复和三个B型样品重复中检测到的基因,每对的数量报告为在线补充数据表S8百分比差异的数值表示为在线补充数据表S10注:该图不对称,但近似互补。如文中所述,由于质量问题,这些计算中省略了一些平台的数据。平台和样品类型根据表1.后缀_1、_2和_3表示测试场地位置(b条)对数比的秩相关。当我们检查其等级时,该图显示了对数比率差异表达值的相关性(使用A与B复制)。较大的正对数比率值排名较高,而较大的负对数比率值则排名较低。阅读为“测试点Y和测试点X之间的秩对数比值的相关性是什么?”计算中只包括通常在样本类型A和B中以及由两个测试点检测到的基因,并且每对的数量报告为在线补充数据表S8。秩相关的数值表示为在线补充数据表S11注意:该图是对称的。如文中所述,由于质量问题,这些计算中省略了一些平台的数据。平台和样品类型根据表1.

后缀_1、_2和_3表示测试场地位置。

此外,还使用秩相关度量检验了跨平台结果的可比性。针对普遍检测到的常见基因,计算样本B重复和样本A重复之间观察到的差异表达的对数比率,然后在测试点之间和跨平台之间进行比较。对数比的秩相关性直观地显示在图5b观察到所有位点之间的一致性良好,即使是使用不同微阵列平台的位点。事实上,微阵列平台之间的中位数秩相关为0.87,最小秩相关值为0.69。

评估相对准确性

微阵列平台的相对准确性可以使用RNA样品的滴定混合物来评估23或用替代技术收集的基因丰度测量22.图5,以及补充数据表S12和S13在线,说明基于微阵列和替代基因表达技术之间的相对等级相关性和对数压缩/扩展值(B/A)。每个微阵列平台与TaqMan测定之间的进一步比较以散点图的形式呈现在图6.

保存图片、插图等的外部文件。对象名为nihms352334f6.jpg

微阵列和TaqMan数据之间的相关性。散点图比较了每个微阵列平台相对于TaqMan分析获得的值的对数比率差异表达值(使用A与B重复)。每个点代表在微阵列和TaqMan分析中测量的一个基因。斑点着色表示数据是在微阵列平台的测试点1(黑色)、测试点2(蓝色)还是测试点3(红色)生成的。只有在样本A型重复和样本B型重复中普遍检测到的基因才用于比较。每个测试点分析的探针的准确数量及其与TaqMan分析的相关性列在每个图的右下角。如文中所述,由于质量问题,这些计算中省略了一些平台的数据。平台和样品类型根据表1。所示线是理想的45°线。

将TaqMan分析中检测到的样本B型与样本A型表达的对数比率与微阵列分析中相同基因的对数比率进行比较。只有在TaqMan分析和微阵列上的样本A和B重复中普遍检测到的基因才包括在该分析中。对于那些检测到较少基因的微阵列平台,每个高密度平台与TaqMan分析数据的相对准确度通常较高,如与理想45°线的偏差数量和幅度所示图5a图6.

与其他平台的相关性

类似地,Affymetrix、Agilent和Illumina平台与基于约450–550个基因的比较的TaqMan分析显示出0.90或更高的相关性值,而GE Healthcare和NCI平台的平均相关性降低了0.84,但数据比较中包含的基因增加了近30%。在数据审查过程中,这些额外的基因未被确定为“未检测到”,但由于信号越低,差异越大,结果可能越不可信。因此,可比性度量中的许多差异可能反映了用于分配检测调用的算法。相对于其他替代平台StaRT-PCR和QuantiGene,观察到微阵列平台的类似相关值22.

讨论

MAQC项目的结果为评估微阵列技术作为一种工具的潜力提供了一个框架,可以为临床和监管目的提供可靠的基因表达数据。所有单色微阵列平台的定量信号的中位数变异系数为5-15%(图1)定性检测呼叫的一致率为80–95%(图3)样本重复之间。当包含来自使用相同平台的不同测试站点的数据时,这种差异会增加(图2和3)。)。然而,使用相同平台的测试位点之间的差异表达基因列表平均重叠约89%,在单色微阵列平台上重叠约74%(图4)。重要的是,微阵列之间的对数比率等级高度相关(最小值R(右)= 0.69;图5b)表明所有平台都检测到基因丰度的类似变化。这些结果表明,对于这些样本类型和这些实验室,微阵列结果通常在测试点内可重复,在测试点之间可重复,并且跨平台可比较,即使平台使用具有序列差异的探针以及独特的标记和表达检测协议。

在MAQC研究中,微阵列平台之间在性能的各个方面存在显著差异。一些平台总体上具有更好的站点内重复性(例如Illumina)、更好的站点间再现性(例如Affymetrix)或检测调用的一致性更高(例如GE Healthcare)。同样,一些平台与TaqMan分析更具可比性(例如,Applied Biosystems和Agilent单色),而其他平台则表现出信号压缩(例如NCI_Peron)。其中一些差异在视在功率分析中得到了体现(参见补充数据中的图SI在线)作为CV值较小的测试站点(图1)正如预期的那样,通常有更多的权力来区分群体之间的差异。其他差异可能与平台的信号-分析物响应特性有关22值得注意的是,453个微阵列杂交中有11个(2.4%)由于质量问题而从分析中删除(列为补充数据中的表SI在线)。如果没有应用此数据过滤器,某些平台的相对性能可能会发生改变。

每个微阵列平台在重复性、敏感性、特异性和比率压缩方面进行了不同的权衡。一个有趣的结果是,采用不同方法测量表达的平台通常会产生可比较的结果。例如,Affymetrix测试点和Illumina测试点的数据在检测到的基因数量和检测一致性方面非常相似,Affmetrix测试站使用每个靶点多个短寡核苷酸探针,序列完全匹配和不匹配,Illuminia测试点使用等离子蚀刻硅片,硅片中含有带有长寡核苷酸探针的珠子,基因列表重叠和比率压缩分析。换句话说,不管技术上的差异如何,生成的表达模式都反映了生物学。

一些结果受到数据分析和检测调用算法差异的影响。这种效果在NCI微阵列的双色结果中观察到的折叠式压缩中最为明显,其中通常包括低强度探针,导致超过95%的检测调用率。当背景基于“外来”或阴性对照序列时,NCI微阵列相对于其他平台的可比性提高。这种替代方法将检测调用率降低到60-70%,同时通常增加上调和下调基因的绝对倍变化(E.S.K.,未发表的数据)。有趣的是,NCI平台的场内重复性较低(图1),但与其他平台相比,在对数比方面显示出可比排名(图5b).

随附文章中提供了MAQC数据的其他分析。例如,微阵列平台检测到特定RNA混合物之间已知的基因丰度差异23并产生与其他基因表达平台类似的差异表达结果22——24当微阵列和其他方法分析来自同一基因的重叠序列时,基因表达结果的可比性增加22此外,一些微阵列平台中包含的外部RNA控制是技术性能的有用预测因子25.

在高通量生物学领域,直接比较不同的微阵列平台既不是一个新想法,也不是一个原创想法。然而,MAQC项目生成的数据集在大小和内容上都是独一无二的。主要研究比较了七种不同的微阵列平台,包括每个平台约60次杂交,使用特征明确的商用RNA样本类型。包括两个试点研究和毒理组学验证研究中使用的试剂261327个微阵列已用于该项目(参见补充数据表S4在线)。此外,MAQC项目中探针序列的可用性使我们能够以更高的科学严谨性进行平台间比较。我们进行了详细的探针定位,以确认身份并揭示基因表达平台之间基于序列或目标的潜在差异。该分析证实,绝大多数探针都是经过精心挑选的,质量很高。

本报告中的大多数结果基于一组12091个常见基因,这些基因在六个高密度微阵列平台上表示,但通常使用不同的探针序列进行检测。我们的探针选择程序可能在研究中引入了偏见,因为强加的标准既不能反映平台设计哲学,也不能解释非常丰富的潜在生物学。在微阵列平台上,每个靶点多个探针可能是一个非常理想的功能,因为单个探针可能无法捕获所有组织特异性效应。我们还发现了一些非基因特异性的探针,这表明了一种针对多基因家族的策略。

MAQC数据集捕获了站点内、站点间和平台间的差异。但是,它没有解决测试站点内的协议、时间或其他技术变量,因为所有测试站点都使用相同的协议,并且几乎在同一时间生成复制数据(数据过滤中注明的除外)。其他研究已经描述了这些变异源的影响和水平15'33此外,我们的分析不包括基于“生物学”的性能指标(例如,基因本体术语或路径)26虽然在本研究中观察到差异表达基因列表的一致性相对较高,但使用这些其他基因列表一致性方法可能会检测到更高水平的一致性34或者,如果样本类型更接近实际情况,则可以观察到较低的水平。

值得注意的是,本文在差异表达基因列表的对数比和重叠方面给出的结果是通过比较样本类型A和B得出的,这在MAQC项目中使用的四种样本类型中表现出最大的差异。在实际应用中,与样本类型A和B之间的差异相比,样本类型(例如,治疗动物和对照动物)之间的预期差异通常要小得多。因此,本文报道的微阵列数据的可比性并不一定意味着在毒物基因组学或药物基因组学应用中可以达到相同的一致性水平。这种差异可以从相对较低的功率和较小的基因列表重叠中看出(参见补充数据中的图S1-S2在线)比较样品类型C和D时,最大折叠变化为三。

MAQC数据集可用于比较归一化方法23和数据分析算法26(请参见补充数据中的图S2在线),类似于当前可用的网站(http://affycomp.biostat.jhsph.edu)这说明了不同的数据分析方法对表达结果的影响30——34。我们希望未来的研究将增加MAQC数据集。例如,微阵列提供商可以提交具有更新探针内容的新微阵列的基因表达结果,然后使用MAQC数据集确认与旧版本微阵列的一致性。为了平等地代表所有平台并及时呈现结果,本出版物仅分析了20个测试站点的386个微阵列杂交。然而,MAQC主要研究的其他数据集可用(如下所示补充数据表S1–S4在线)。虽然大多数站点都生成了质量结果,但使用同一平台的测试站点之间检测到了一些差异。因此,微阵列研究需要统一的指标和标准,这些指标和标准可用于确定次优结果和监测微阵列设施的性能。

以前的报告在很大程度上依赖于统计显著性(P(P)值),而不是在识别差异表达基因时实际测量的差异表达量(倍数变化或比率)。这种严格依赖P(P)仅数值就导致了站点和微阵列平台之间明显缺乏一致性20,26.我们分析MAQC人类数据集的结果(参见补充数据中的图S2在线)和大鼠毒性基因组学数据集26表明折页更改排序的直接方法加上非字符串P(P)cuttop可以成功地识别出可复制的基因列表,而仅通过t吨-由于方差(噪声)估计在t吨-统计测量。更稳健的方法,如使用微阵列显著性分析(SAM)中的测试统计进行排名35与我们的跨实验室和跨平台比较中的fold-change排名相比,没有产生更多可重复的结果。我们的结果与之前公布的数据一致20此外,当折叠改变时,标准化方法对基因列表再现性的影响变得最小,而不是P(P)值,用作基因选择的排序标准24,26.

目前正在进行两项微阵列参考材料倡议。由FDA药物评价和研究中心(CDER)领导的一个小组开发了两个混合组织RNA库,其中组织选择基因存在已知差异,可以用作大鼠参考材料36而外部RNA控制联盟(ERCC)正在测试可在处理前添加到每个RNA样本中的多聚腺苷化转录物,以监测分析的技术性能37MAQC项目通过建立几个商业上可用的人类参考RNA样本和一个附带的大型数据集来补充这些工作,科学界可以使用这些数据集来比较自己实验室产生的结果,以进行质量控制和性能验证。事实上,MAQC参考样品类型的商业可用性允许几个实验室在官方截止日期后生成并向MAQC项目提交额外的基因表达数据(列为补充数据表S4在线)。

对于许多临床实验室改进修正案(CLIA)分析,需要每年进行三次重复的站点间比较,如能力验证,并且在微阵列设施中也可能有助于监测随时间推移生成的数据集的可比性和一致性38例如,一个能力验证项目通过重复将相同两种RNA样品类型的三个重复品与Affymetrix微阵列杂交(L.H.R.和W.D.J.,未发表的结果),评估了18个不同实验室在9个月内的表现。本研究揭示了质量指标的范围以及协议差异对微阵列结果的影响。MAQC人类参考RNA样本类型可用于此类站点间能力验证程序。

总之,MAQC项目中评估的微阵列技术性能支持其在基础和应用研究中继续用于基因表达谱分析,并可能导致其用作临床诊断工具。ERCC等国际组织37,微阵列基因表达数据学会39MAQC项目为微阵列社区提供了数据报告的标准化、通用分析工具和有用的控制,有助于对这些基因表达平台的一致性和可靠性提供信心。

方法

探针映射

NCI使用的Affymetrix、Agilent、GE Healthcare、Illumina和Operon寡核苷酸以电子表格格式为其微阵列平台提供公开可用的探针序列(网站列于补充数据在线)。应用生物系统微阵列的探针序列可以通过Panther数据库单独获得(http://www.pantherdb.org网站)QuantiGene(Panomics)分析的预期区域序列可根据要求提供。Eppendorf微阵列的探针序列尚未公开,但已提供给MAQC项目进行机密分析。Gene Express为StaRT-PCR分析提供了注释和大致的正向和反向引物位置,这足以定位目标。对于TaqMan分析,Applied Biosystems提供了分析ID、扩增子大小、RefSeq上的分析位置和上下文序列(准确的25-nt序列,包括TaqMan-分析检测探针)。MAQC探针映射(补充方法在线和补充说明在线)使用了2006年3月8日RefSeq发布的包含24000份策划加入的条目,我们主观地添加了157份最近从NCBI策划中撤回或退出的条目。AceView的比较基于2005年8月的数据库32.

需要将探测序列与数据库条目精确匹配。只匹配转录物反链的探针以及匹配多个基因的探针均被排除在外。Affymetrix需要一个探针组中80%的探针(通常是11个探针中的9个)的精确匹配。基于这些严格标准的结果如下补充表2——5在线并总结为补充数据表S5在线。StaRT-PCR和TaqMan分析的计数基于Gene Express和Applied Biosystems提供的注释。在AceView分析中,该映射对低水平的非中心错配具有耐受性,但应用了严格的基因特异性过滤器,以便删除可能交叉杂交的探针,即使它们只有一个精确匹配。

RNA制备

根据试点项目I的160个微阵列的结果(数据未显示)测试并选择总RNA源。通用人类参考RNA(目录号740000)和人脑参考RNA(分类号6050)分别由Stratagene和Ambion慷慨捐赠。样品的四种滴定混合物是根据试点项目II(数据未显示)中254个微阵列的结果选择的,并按照其他说明进行制备23使用MAQC网站上提供的记录协议(MAQC_RNA_Preparation_SOP.doc)在一个地点同时混合滴定池(http://www.fda.gov/nctr/science/centers/toxicoinformatics/maqc/)。每个测试点收到四种样本类型的50微克等分样品,并在开始靶向制备之前使用生物分析仪(安捷伦)确认RNA质量。

目标制定和质量评估

每个测试点都提供了关于RNA样品处理、RNA参考样品质量评估、靶制剂和复制指南的说明(MAQC_Sample_Processing_Overview_SOP.doc),引用样本的标准化术语和报告质量评估数据的模板(MAQC_RNA_quality_Report_template.xls)。基因表达供应商慷慨地向测试点提供了所有试剂。每个微阵列测试点使用分光光度计评估cRNA产量,并使用生物分析仪(安捷伦)确定中位转录物大小。预杂交和杂交后质量指标如下所示补充表1在线。现场之间的这些质量指标存在一些统计显著差异(未显示数据)。

Affymetrix、Agilent、Applied Biosystems和Eppendorf测试点在处理前向样本中添加了平台特定的外部RNA控制25数据直接从每个测试点提交给FDA的国家毒理学研究中心(FDA/NCTR),并分发给11个官方分析点进行审查。基因表达测试点和数据分析中心列表如下补充数据表S1和S2在线。一家供应商的所有测试点使用相同的靶点制备协议,并在几乎相同的时间处理所有复制品,但有两个例外:(i)NCI测试点的微阵列载玻片在100%激光功率下进行扫描,但光电倍增管的设置因载玻片而异,(ii)稍后重复了一些异常杂交,如下所述。MAQC网站上提供了样品处理的确切协议(http://www.fda.gov/nctr/science/centers/toxicoinformatics/maqc/)并在中进行了简要描述补充数据在线。

数据过滤器

在2005年10月原始数据提交截止日期之后,重复进行或从分析中删除了离群杂交。由于协议问题,NCI和GE Healthcare平台各有一个站点重复了MAQC研究中的所有样本类型(NCI_2和GEH_2)。由于cRNA产量低,一个Illumina位点(ILM_2)在MAQC研究中重复了两个样本,而另一个Ill umina部位(ILM_1)由于同样的原因没有杂交一个样本复制。在7个试验点(ABI_2、ABI_3、AG1_1、AG1_、AG1\2、AG1_a、AGL_1和AGL_2)进行的11次杂交的数据质量不令人满意。更多详细信息如下补充数据表S3在线。

数据处理

用于背景减法、数据规范化和可选合并偏移值的特定平台方法如所述补充数据在线。每个测试点都向FDA/NCTR提交了数据(包括图像文件)。所有数据均已导入ArrayTrack数据库系统40,41并根据制造商建议的程序进行预处理和归一化。根据制造商的方案,对每个基因的质量进行审查,并标记检测调用。将统一格式的数据分发到所有测试站点和官方数据分析站点进行独立研究。

数据分析

根据每个杂交报告的定性检测调用,对12091个共有基因或该组的一个子集进行数据分析。每种样本类型的每个测试点中这些子集的大小报告为补充数据表S6在线。

信号重复性和再现性

站内复制之间信号或Cy3/Cy5值的变异系数(CV)(非对数转换)(n个≤5)是针对在试验场地内同一样本类型的至少三个重复中检测到的基因计算的。这些复制CV值的分布显示在图1。三个试验点的复制CV中位数包括在图2.A总简历(图2)计算了三个试验点的所有重复的信号值(n个≤15),使用通常检测到的基因列表的交集(即在所有三个位点的至少三个重复中检测到的基因)。全局缩放标准化本质上适用于来自GE Healthcare和安捷伦平台的数据,但不是applied Biosystems、Affymetrix(使用PLIER+16)和Illumina平台上数据提取和标准化的一部分。为了解释这些差异,Applied Biosystems、Affymetrix和Illumina为每个测试点提供了测量总CV时包含的缩放因子。

检测呼叫的一致性

使用制造商提供的特征质量指标对所有12091个常见基因进行分析。所有呼叫都被解析为“已检测”或“未检测”状态。有关每个平台确定定性呼叫的方法的详细信息,请参阅补充数据在线。通常,会提供有关已解析检测调用的一致性的结果。如果由于缺少微阵列而导致调用丢失,则不考虑检测值。否则,将考虑定性调用,包括缺少信号值的情况。

基因列表协议

使用通常的两组方法为每个测试点确定差异表达基因列表t吨-假设各组之间的方差相等,从而得出方差的合并估计值的测试。此计算基于对数信号。标准是P(P)值<0.001且平均差值大于或等于两倍。未进行与基因检测相关的过滤。对于每对测试点,确定了两个列表中的基因数量。重叠百分比(图4)被计算为共同基因数除以来自一个测试点的列表上的基因数。例如,测试站点Y相对于测试站点X的一致性得分等于两个列表上的基因数除以测试站点Y列表上的基因组数。

对数比可比性

每个基因的对数比率定义为所有样本B重复的对数信号平均值减去所有样本A重复的对数信息平均值。(该值等于所有样本A重复的信号几何平均值与所有样本B重复的信号的几何平均值之比的对数。)仅包括在至少三个样本A重复中检测到的基因和在两个试验点至少三个样品B重复中检测出的基因。检测压缩或膨胀(图5a),由于两个位点的潜在测量误差,使用正交回归计算每对测试位点的斜率(m)。该分析基于公式y=mx+b,其中y是试验场地y的对数比,X是试验场地X的对数比。由于理想坡度为1,因此与理想坡度的百分比差仅为m−1。还使用对数比的Spearman秩相关检验了两个试验点之间的可比性(图5b)。该值将基因在测试位点X秩顺序的对数比(折叠变化)值中的相对位置与其在测试位点Y秩顺序中的位置进行比较。所有现场的对数比与TaqMan分析生成的对数比的散点图如所示图6.

补充材料

补充方法

单击此处查看。(68K,pdf)

补充表1

单击此处查看。(46K,xls)

补充表2

单击此处查看。(250万,txt)

补充表3

单击此处查看。(3.1M,文本)

补充表4

单击此处查看。(160万,txt)

补充表5

单击此处查看。(110万,文本)

补充信息

单击此处查看。(663K,pdf格式)

补充说明

单击此处查看。(11K,pdf)

鸣谢

所有MAQC参与者都为MAQC项目的完成和分析免费捐赠了时间和试剂。来自美国国立卫生研究院(NIH)的参与者得到了马里兰州贝塞斯达NIH内部研究项目的支持。D.H.感谢Ian Korf对BLAST的讨论。本研究利用了大量计算资源,包括NIH的Biowulf PC/Linux集群的高性能计算能力(http://biowulf.nih.gov/)以及分析站点的资源。

作者

以下作者为项目领导做出了贡献:

勒明石1,劳拉·H·里德2温德尔·琼斯2,Richard Shippy,珍妮特·沃灵顿4,肖恩·贝克5,Patrick J Collins6弗朗索瓦斯·德·朗格维尔7欧内斯特·S·川崎8,凯萨琳·Y·李9、罗玉玲10,孙永明9,詹姆斯·C·威利11,罗伯特·塞特奎斯特12,加文·费舍尔13、伟达通1,Yvonne P Dragan1,大卫·J·迪克斯14,费利克斯·W·弗鲁厄15,Federico M Goodsaid15达米尔·赫尔曼16罗德里克·延森(Roderick V Jensen)17查尔斯·约翰逊18,爱德华·K·洛本霍夫19,Raj K Puri20、Uwe Scherf21,让·蒂里·米格16,查尔斯·王22、迈克·威尔逊12,18,Paul K Wolber6、Lu Zhang9,23小威廉·斯利克1、Leming Shi1,劳拉·H·里德2

项目负责人:勒明石1

稿件编写组长:劳拉·里德2

MAQC联合体:

勒明石1,劳拉·H·里德2,温德尔·D·琼斯2,Richard Shippy,珍妮特·沃林顿4,肖恩·贝克5,Patrick J Collins6弗朗索瓦斯·德·朗格维尔7欧内斯特·S·川崎8,凯萨琳·Y·李9,罗玉玲10孙永明9,詹姆斯·C·威利11,罗伯特·塞特奎斯特12,加文·费舍尔13,汤伟达1,Yvonne P Dragan1,大卫·J·迪克斯14,费利克斯·W·弗鲁厄15,Federico M Goodsaid15达米尔·赫尔曼16罗德里克·延森(Roderick V Jensen)17查尔斯·约翰逊18,爱德华·K·洛本霍夫19,Raj K Puri20、Uwe Scherf21,让·蒂里·米格16,查尔斯·王22、迈克·威尔逊12,18,Paul K Wolber6、Lu Zhang9,23、沙市阿穆尔15、鲍文军24,Catalin C Barbacioru9安妮·伯格斯特罗姆·卢卡斯6文森特·贝托利特7,塞西莉·博伊森25、巴德·布罗姆利25,唐娜·布朗26,阿兰·布鲁纳罗杰·卡纳斯9、小溪、梅根曹27托马斯·塞布拉28,James J Chen1、京城29、朱子明24尤金·丘丁5,约翰·科森6,J Christopher Corton14,丽莎·克罗纳30,克里斯托弗·戴维斯4蒂莫西·戴维森18格伦达·德伦斯塔尔6、邓旭涛22,大卫·多里斯12,Aron C Eklund17、范晓慧1、洪芳27斯蒂芬妮·富尔默·斯门泰克6詹姆斯·福斯科(James C Fuscoe)1,凯瑟琳·加拉赫31、伟功阁1、雷国1,徐国4珍妮特·海格32,保罗·K·哈杰33、京汉20、陶涵1、Heather C Harbottle34,斯蒂芬·C·哈里斯1,Eli Hatchwell35克雷格·A·豪泽36,苏珊·海丝特14、洪慧潇27,帕特里克·赫尔班19,斯科特·杰克逊28,Hanlee Ji37查尔斯·奈特38温斯顿·P·郭39,J Eugene LeClerc28,肖恩·利维40,李全珍41、刘春梅4、刘莹42,Michael J Lombardi17,马云清10斯科特·马格努森43博托尔·马卡索迪10,蒂姆·麦克丹尼尔4,楠梅1奥拉·米克尔博斯特44、白糖宁1娜塔莉亚·诺沃拉多夫斯卡娅13,迈克尔·S·奥尔15,Terry W Osborn38、亚当·帕佩罗17塔克·A·帕特森1罗杰·G·珀金斯27伊丽莎白·彼得斯38罗恩·彼得森45肯尼思·菲利普斯19,P Scott Pine15Lajos Pusztai46、冯倩27、任洪祖14米奇·罗森14,巴里·罗森茨威格15雷蒙德·萨马哈9,Mark Schena33、加里·普·施罗斯23斯维特兰娜·谢格罗娃6,戴夫·德·史密斯47,弗兰克·斯塔德勒45,苏振强1,孙红梅27佐尔坦·萨拉西48,Zivana Tezak21,丹妮尔·蒂里·米格16卡罗尔·汤普森15伊琳娜·蒂科诺娃32、亚龙·吐尔巴兹4比娜·瓦拉纳特14克里斯托夫·凡7,斯蒂芬·J·沃克49、Sue Jane Wang15,王永红8,Russ Wolfinger24,Alex Wong6、吴杰27、肖春林9、钱雪27,徐军22、文阳10、梁张29、盛忠50、宗亚萍51,小威廉·斯莱克1

科学管理(美国食品和药物管理局国家毒理学研究中心):施乐明(Leming Shi)、汤伟达(Weida Tong)、德拉根(Yvonne P.Dragan)、小威廉·斯利克尔(William Slikker,Jr.)。

附属公司:

1美国食品和药物管理局国家毒理学研究中心,美国阿肯色州杰斐逊NCTR路3900号,邮编:72079;2Expression Analysis,Inc.,2605 Meridian Parkway,Durham,North Carolina 27713,USA;GE Healthcare,7700 S.River Parkway,Suite 2603,Tempe,AZ 85284,USA;4Affymetrix,Inc.,3420 Central Expressway,Santa Clara,California 95051,USA;5Illumina,Inc.9885 Towne Centre Drive,San Diego,California 92121,USA;6安捷伦科技公司,美国加利福尼亚州圣克拉拉史蒂文斯溪大道5301号,邮编:95051;7Eppendorf Array Technologies,rue du Séminaire 20a,5000 Namur,Belgium;8NCI高级技术中心,8717 Grovemont Circle,Bethesda,Maryland 20892,USA;9应用生物系统公司,美国加利福尼亚州福斯特市林肯中心大道850号,邮编94404;10Panomics,Inc.,6519 Dumbarton Circle,Fremont,California 94555,USA;11俄亥俄医科大学,美国俄亥俄州托莱多阿灵顿大道3000号,邮编:43614;12Ambion,美国德克萨斯州奥斯汀市伍德沃德街2130号,应用生物系统公司,邮编78744;13Stratagene Corp.,11011 North Torrey Pines Road,La Jolla,California 92130,USA;140美国环境保护局研发办公室,地址:109 TW Alexander Drive,Research Triangle Park,North Carolina 27711;15美国食品和药物管理局药物评价与研究中心,美国马里兰州银泉新罕布什尔大道10903号,邮编:20993;16美国马里兰州贝塞斯达Rockville Pike 8600号国立卫生研究院国家医学图书馆国家生物技术信息中心,邮编:20894;17马萨诸塞大学波士顿分校,100 Morrissey Boulevard,Boston,Massachusetts 02125,USA;18Asuragen,Inc.,2150 Woodward,Austin,Texas 78744,USA;19Cogenics™,A Division of Clinical Data,Inc.,100 Perimeter Park Drive,Suite C,Morrisville,North Carolina 27560,USA;20美国食品和药物管理局生物评估与研究中心,地址:29 Lincoln Drive,Bethesda,Maryland 20892,USA;21美国食品和药物管理局设备和放射健康中心,美国马里兰州罗克维尔盖瑟路2098号,邮编:20850;22加州大学洛杉矶分校David Geffen医学院,转录基因组核心,Cedars-Sinai医学中心,8700 Beverly Boulevard,Los Angeles,California 90048,USA;23Solexa公司,地址:25861 Industrial Boulevard,Hayward,California 94545,USA;24SAS Institute,Inc.,100 SAS Campus Drive,Cary,North Carolina 27513,USA;25Vialogy Corp.,2400 Lincoln Avenue,Altadena,California 91001,USA;26Operon Biotechnologies,2211 Seminole Drive,Huntsville,Alabama 35805,USA;27Z-Tech公司,美国阿肯色州杰斐逊市NCTR路3900号,邮编:72079;28美国食品和药物管理局食品安全和应用营养中心,地址:8401 Muirkirk Road,Laurel,Maryland 20708,USA;29北京市昌平区生命科学园区18号凯德生物科技有限公司,邮编102206;30Biogen Idec,5200 Research Place,San Diego,California 92122,USA;31美国环境保护署,科学顾问办公室,1200 Pennsylvania Avenue,NW,Washington,DC 20460,USA;32耶鲁大学,W.M.Keck生物技术资源实验室,微阵列资源,300 George Street,New Haven,Connecticut 06511,USA;33TeleChem Arraylt,524 E.Weddell Drive,Sunnyvale,California 94089,USA;34美国食品和药物管理局兽医中心,美国马里兰州劳雷尔市穆尔柯克路8401号,邮编:20708;35美国纽约州伍德伯里Sunnyside大道500号冷泉港实验室,邮编:11797;36美国加利福尼亚州拉霍亚市托里松树北路10901号伯纳姆研究所,邮编:92037;37斯坦福大学医学院,318 Campus Drive,Stanford,California 94305,USA;38Gene Express,Inc.,975 Research Drive,Toledo,Ohio 43614,USA;39哈佛牙科医学院发育生物学系,188 Longwood Avenue,Boston,Massachusetts 02115,USA;40美国田纳西州纳什维尔21大道南465号范德比尔特大学,邮编37232;41德克萨斯大学西南医学中心,6000 Harry Hines Boulevard/ND6.504,Dallas,Texas 75390,USA;42德克萨斯大学达拉斯分校计算机科学系,MS EC31 Richardson,Texas 75083,USA;43GenUs BioSystems,Inc.,1808 Janke Drive Unit M,Northbrook,Illinois 60062,USA;44挪威微阵列联盟,Rikshospitalet-Radium医院健康中心,挪威奥斯陆N0310 Montebello;45诺华公司,美国马萨诸塞州剑桥市马萨诸塞大道250号,邮编:02139;46美国德克萨斯州休斯顿市Pressler街1155号1354单元乳腺肿瘤医学部MD Anderson癌症中心,邮编77230;47Luminex Corp.,12212 Technology Boulevard,Austin,Texas 78727,USA;48哈佛医学院,哈佛-麻省理工学院健康科学与技术部儿童医院信息学项目(HST时的芯片)美国马萨诸塞州波士顿02115;49维克森林大学医学院生理学和药理学系,美国北卡罗来纳州温斯顿塞勒姆医学中心大道,邮编:27157;50伊利诺伊大学厄巴纳-香槟分校生物工程系,1304 W.Springfield Avenue,Urbana,Illinois 61801,USA;51Full Moon Biosystems,Inc.,754 N.Pastoria Avenue,Sunnyvale,California 94085,USA。

脚注

注:补充信息可在Nature Biotechnology网站上获得。

免责声明

这项工作包括FDA、EPA和NIH的贡献,并由其审查。这项工作已被这些机构批准出版,但并不一定反映官方机构的政策。确定某些商业材料和设备,以便充分规定实验程序。在任何情况下,这种标识都不意味着FDA、EPA或NIH的推荐或认可,也不意味着所标识的物品一定是用于此目的的最佳物品。

竞争利益声明

作者声明了相互竞争的财务利益(参见自然生物技术网站获取详细信息)。

参考文献

1Lesko LJ,Woodcock J.《药物基因组学和药物遗传学的翻译:监管视角》。Nat.Rev.药物发现。2004;:763–769.[公共医学][谷歌学者]
2Frueh FW公司。微阵列数据质量对提交给美国食品药品监督管理局的基因组数据的影响。自然生物技术。2006;24:1105–1107.[公共医学][谷歌学者]
三。Dix DJ等。美国环保局基因组数据使用框架。自然生物技术。2006;24:1108–1111.[公共医学][谷歌学者]
4Tan PK等。商业微阵列平台的基因表达测量评估。核酸研究。2003;31:5676–5684. [PMC免费文章][公共医学][谷歌学者]
5Ramalho-Santos M,Yoon S,Matsuzaki Y,Mulligan RC,Melton DA。“干细胞”:胚胎和成人干细胞的转录图谱。科学。2002;298:597–600.[公共医学][谷歌学者]
6Ivanova NB等。干细胞分子特征。科学。2002;298:601–604.[公共医学][谷歌学者]
7Miller RM等。1-甲基-4-苯基-1,2,3,6-四氢吡啶致敏小鼠黑质中基因表达的失调。《神经科学杂志》。2004;24:7445–7454. [PMC免费文章][公共医学][谷歌学者]
8Fortunel NO等,评论“Sternness”:胚胎和成人干细胞的转录谱分析和“干细胞分子特征”科学。2003;302:393.作者回复393。[公共医学][谷歌学者]
9Miklos GL,Maleszka R.复杂疾病背景下的微阵列现实检查。自然生物技术。2004;22:615–621.[公共医学][谷歌学者]
10Frantz S.一系列问题。Nat.Rev.药物发现。2005;4:362–363.[公共医学][谷歌学者]
11马歇尔·E·从基因阵列中获取噪音。科学。2004;306:630–631.[公共医学][谷歌学者]
12Michiels S,Koscielny S,Hill C.用微阵列预测癌症结局:一种多重随机验证策略。柳叶刀。2005;365:488–492.[公共医学][谷歌学者]
13Ein-Dor L、Zuk O、Domany E。需要数千个样本来生成一个可靠的基因列表,以预测癌症的预后。程序。国家。阿卡德。科学。美国。2006;103:5923–5928。 [PMC免费文章][公共医学][谷歌学者]
14Petersen D等人。三个微阵列平台:分析它们在基因表达谱分析中的一致性。BMC基因组学。2005;6:63. [PMC免费文章][公共医学][谷歌学者]
15Dobbin KK等。使用寡核苷酸微阵列进行癌症基因表达分析的实验室间可比性研究。临床。癌症研究。2005;11:565–572.[公共医学][谷歌学者]
16Irizarry RA等。微阵列平台的多实验室比较。自然方法。2005;2:345–350.[公共医学][谷歌学者]
17Larkin JE、Frank BC、Gavras H、Sultana R、Quackenbush J.跨微阵列平台的独立性和再现性。自然方法。2005;2:337–344.[公共医学][谷歌学者]
18Kuo WP等。不同杂交技术中基因表达测量的序列导向比较。自然生物技术。2006;24:832–840.[公共医学][谷歌学者]
19Shi L等人QA/QC:微阵列社区和监管机构面临的挑战和陷阱。专家修订版分子诊断。2004;4:761–777.[公共医学][谷歌学者]
20Shi L,等。微阵列技术的跨平台可比性:平台内一致性和适当的数据分析程序至关重要。BMC生物信息学。2005;6补充2:S12。 [PMC免费文章][公共医学][谷歌学者]
21纪H,Davis RW。基因组学和微阵列的数据质量。自然生物技术。2006;24:1112–1113. [PMC免费文章][公共医学][谷歌学者]
22Canales RD等。用定量基因表达平台评估DNA微阵列结果。自然生物技术。2006;24:1115–1122.[公共医学][谷歌学者]
23Shippy R等人。使用RNA样品滴定来评估微阵列平台性能和标准化技术。自然生物技术。2006;24:1123–1131. [PMC免费文章][公共医学][谷歌学者]
24Patterson TA等人。微阵列质量控制(MAQC)项目中单色和双色平台的性能比较。自然生物技术。2006;24:1140–1150.[公共医学][谷歌学者]
25Tong W等。评估微阵列性能的外部RNA控制评估。自然生物技术。2006;24:1132–1139.[公共医学][谷歌学者]
26Guo L等。大鼠毒理基因组研究揭示了微阵列平台之间的分析一致性。自然生物技术。2006;24:1162–1169.[公共医学][谷歌学者]
27Mecham BH等。序列匹配探针在基于微阵列的基因表达测量中产生了更高的跨平台一致性和更可重复的生物学结果。核酸研究。2004;32:e74。 [PMC免费文章][公共医学][谷歌学者]
28Carter SL、Eklund AC、Mecham BH、Kohane IS、Szallasi Z。通过序列重叠与cDNA微阵列探针重新定义Affymetrix探针集可减少癌症相关基因表达测量中的跨平台不一致。BMC生物信息学。2005;6:107. [PMC免费文章][公共医学][谷歌学者]
29Draghici S,Khatri P,Eklund AC,Szallasi Z.DNA微阵列测量中的可靠性和再现性问题。趋势Genet。2006;22:101–109. [PMC免费文章][公共医学][谷歌学者]
30Irizarry RA、Wu Z、Jaffee HA。Affymetrix基因芯片表达测量值的比较。生物信息学。2006;22:789–794.[公共医学][谷歌学者]
31Pruitt KD、Tatusova T、Maglott DR.NCBI参考序列(RefSeq):基因组、转录物和蛋白质的精选非冗余序列数据库。核酸研究。2005;33:D501–D504。 [PMC免费文章][公共医学][谷歌学者]
32Thierry-Mieg D,J TM.AceView:一个全面的cDNA支持的基因和转录本注释。基因组生物学。2006;7补充1:S12。 [PMC免费文章][公共医学][谷歌学者]
33Bammler T等。实验室间和跨平台的全球基因表达分析标准化。自然方法。2005;2:351–356.[公共医学][谷歌学者]
34Harr B,Schlotterer C.通过已知操纵子中基因的共表达评估Affymetrix微阵列数据分析算法的比较。核酸研究。2006;34:e8。 [PMC免费文章][公共医学][谷歌学者]
35Tusher VG,Tibshirani R,Chu G.应用于电离辐射反应的微阵列显著性分析。程序。国家。阿卡德。科学。美国。2001;98:5116–5121. [PMC免费文章][公共医学][谷歌学者]
36Thompson KL等人。使用混合组织RNA设计对多种微阵列格式进行性能评估。核酸研究。2005;33:el87。 [PMC免费文章][公共医学][谷歌学者]
37Baker SC等人,《外部RNA控制联盟:进展报告》。自然方法。2005;2:731–734.[公共医学][谷歌学者]
38里德LH。能力测试程序在微阵列实验室中监测性能的价值。药物研发。2005;5:20–25. [谷歌学者]
39Ball CA等人,微阵列数据标准。科学。2002;298:539.[公共医学][谷歌学者]
40Tong W等人。ArrayTrack——支持美国食品和药物管理局国家毒理学研究中心的毒理基因组研究。环境。健康展望。2003;111:1819–1826. [PMC免费文章][公共医学][谷歌学者]
41Tong W等。用于微阵列数据管理和分析的公共毒物基因组软件的开发。穆塔特。物件。2004;549:241–253.[公共医学][谷歌学者]