跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
审查
2010年10月;11(10):733-9.
doi:10.1038/nrg2825。 Epub 2010年9月14日。

解决高吞吐量数据中批量效应的广泛而关键的影响

附属公司
审查

解决高吞吐量数据中批量效应的广泛而关键的影响

杰弗里·特里克等。 Nat Rev基因 2010年10月

摘要

高通量技术被广泛应用,例如用于检测遗传变异、基因和蛋白质表达以及表观遗传修饰。此类研究中一个经常被忽视的并发症是批次效应,这是因为测量受到实验室条件、试剂批次和人员差异的影响。当批量效应与感兴趣的结果相关并导致错误结论时,这将成为一个主要问题。利用已发表的研究和我们自己的分析,我们认为批量效应(以及其他技术和生物制品)是普遍存在的,需要解决。我们回顾了这样做的实验和计算方法。

PubMed免责声明

利益冲突声明

竞争利益声明

作者声明没有竞争性的经济利益。

数字

图1
图1。归一化和成批存活效应的演示
对于使用Affymetrix平台获得的已发布膀胱癌微阵列数据集,我们仅获得了正常样本的原始数据。这里,绿色和橙色代表两个不同的加工日期,|原始基因表达数据的方框图(以2为对数基数)。b条|使用RMA处理数据的方框图,这是一种广泛使用的Affymetrix数据预处理算法。RMA应用分位数归一化——这是一种迫使来自微阵列数据的原始信号强度在所有样本中的分布相同的技术。c(c)|例如,即使在正常化之后,也容易受到批量效应影响的基因。数百个基因表现出类似的行为,但为了清楚起见,没有显示出来。|归一化后的样本聚类。请注意,样本完全按处理日期聚类。
图2
图2。1000基因组项目第二代测序数据的批量效应
每一行都是在同一设施和同一平台中处理的不同HapMap样本。有关此处所示数据的描述,请参见补充信息SI(方框)。样品按加工日期排序,用水平线分隔不同的日期。我们发现16号染色体上有一个3.5 Mb的区域。每个特征的覆盖率数据在样本中进行了标准化:蓝色表示低于平均值的三个标准偏差,橙色表示高于平均值的3个标准偏差。可以观察到各种批量效应,最大的批量效应发生在第243天到251天之间(大橙色水平断裂)。
图3
图3。批量效应也会改变基因之间的相关性
我们将表1中第二个基因表达数据集中的每个基因归一化为每批中的平均值0,方差1。(由于样本量较小,2006年的批次被省略。)我们确定了所有显著的相关性(第页<0.05)。我们观察了在两个批次中表现出显著相关性的基因,并计算了两个批次之间相关性变化的次数。很大比例的显著相关性在批次间逆转了符号,表明基因之间的相关性结构在批次间发生了重大变化。为了确认这一现象是由于批次引起的,我们重复了该过程,以寻找在批次间改变符号的显著相关性,但批次标签是随机排列的。对于随机批次,显著相关性中改变符号的比例要小得多。这表明相关性模式因批次而异,这将影响基于等级的预测方法以及依赖基因间相关性来估计路径的系统生物学方法。
图4
图4。批量效应统计分析的关键步骤
第一步是探索性数据分析,以识别和量化潜在的批量效应和其他人工制品。第二步是使用已知或估计的人工制品替代品来调整下游分析。最后一步是进行诊断分析。

类似文章

  • 高维调查中统计设计和推断的挑战和方法。
    Gadbury GL、Garrett KA、Allison DB。 Gadbury GL等人。 方法分子生物学。2009;553:181-206. doi:10.1007/978-1-60327-563-79。 方法分子生物学。2009 PMID:19588106 免费PMC文章。 审查。
  • 下一代测序技术在功能基因组学中的应用。
    马萨诸塞州马拉市莫罗佐娃O。 Morozova O等人。 基因组学。2008年11月;92(5):255-64. doi:10.1016/j.ygeno.2008.07.001。Epub 2008年8月24日。 基因组学。2008 PMID:18703132 审查。
  • 后基因组微生物学中的二分法。
    Felis GE、Molenaar D、Dellaglio F、van Hylckama Vlieg JE。 Felis GE等人。 国家生物技术。2007年8月;25(8):848-9. doi:10.1038/nbt0807-848。 国家生物技术。2007 PMID:17687355 没有可用的摘要。
  • 生物数据报告和共享需要标准而非指南。
    勃艮第。 勃艮第。 国家生物技术。2006年11月;24(11):1369-73. doi:10.1038/nbt1106-1369。 国家生物技术。2006 PMID:17093486
  • 标准操作程序。
    [未列出作者] [未列出作者] 国家生物技术。2006年11月;24(11):1299. doi:10.1038/nbt1106-1299。 国家生物技术。2006 PMID:17093453

引用人

工具书类

    1. 尤登·WJ。持久的价值观。技术计量学。1972;14:1–11.
    1. Spielman RS等。常见的遗传变异解释了种族间基因表达的差异。自然遗传学。2007;39:226–231.-项目管理咨询公司-公共医学
    1. Petricoin EF等。利用血清中的蛋白质组模式识别卵巢癌。柳叶刀。2002;359:572–577.-公共医学
    1. Akey JM、Biswas S、Leek JT、Storey JD。关于人类基因表达研究的设计和分析。自然遗传学。2007;39:807–808. 作者回复808–809。-公共医学
    1. Baggerly KA、Edmonson SR、Morris JS、Coombes KR。卵巢癌检测的高分辨率血清蛋白质组模式。内分泌相关癌。2004;11:583–584. 作者回复585-587。-公共医学

出版物类型

MeSH术语

LinkOut-更多资源