公共科学图书馆一号。2007; 2(9):e898。
家政基因的循证选择
,#1 ,#2,三,4 ,1 ,2 ,2 ,1 ,4 ,三 ,2和1,*
亨德里克·德琼格
1荷兰格罗宁根大学格罗宁恩大学格罗宁根医学中心Beatrix儿童医院儿科肿瘤/血液科
鲁道夫·S·N·费尔曼
2荷兰格罗宁根大学格罗宁恩大学医学中心遗传学系
三荷兰格罗宁根格罗宁恩大学医学中心妇科
4荷兰格罗宁根大学格罗宁恩大学医学中心肿瘤医学系
Eveline S.J.M.de Bont公司
1荷兰格罗宁根大学格罗宁恩大学格罗宁根医学中心Beatrix儿童医院儿科肿瘤/血液科
罗伯特·M·W·霍夫斯特拉
2荷兰格罗宁根大学格罗宁恩大学医学中心遗传学系
弗兰斯·格本斯
2荷兰格罗宁根大学格罗宁恩大学医学中心遗传学系
威廉·坎普斯
1荷兰格罗宁根大学格罗宁恩大学格罗宁根医学中心Beatrix儿童医院儿科肿瘤/血液科
伊丽莎白·G·E·德·弗里斯
4荷兰格罗宁根大学格罗宁恩大学医学中心肿瘤医学系
Ate G.J.范德泽
三荷兰格罗宁根格罗宁恩大学医学中心妇科
杰拉德·J·te·梅尔曼
2荷兰格罗宁根大学格罗宁恩大学医学中心遗传学系
Arja ter Elst公司
1荷兰格罗宁根大学格罗宁恩大学格罗宁根医学中心Beatrix儿童医院儿科肿瘤/血液科
迈克尔·利希顿,学术编辑
1荷兰格罗宁根大学格罗宁恩大学格罗宁根医学中心Beatrix儿童医院儿科肿瘤/血液科
2荷兰格罗宁根大学格罗宁恩大学医学中心遗传学系
三荷兰格罗宁根格罗宁恩大学医学中心妇科
4荷兰格罗宁根大学格罗宁恩大学医学中心肿瘤医学系
美国国家癌症研究所
#贡献均等。
构思和设计实验:Ed At Hd RF Ed RH FG WK Av Gt。执行实验:Hd RF。分析数据:Ed At Hd RF Ed RH FG WK Av Gt。贡献的试剂/材料/分析工具:At Hd-RF Gt。撰写论文:Ed As Hd射频Ed RH.FG WK-Av Gt。
收稿日期:2007年7月12日;2007年8月27日接受。
这是一篇根据知识共享署名许可证条款分发的开放存取文章,该许可证允许在任何媒体上不受限制地使用、分发和复制,前提是原始作者和来源得到了适当的信任。
- 补充资料
表S1:13629个样本中所有13037个独特基因的CV。(72百万文档)
GUID:B8396E59-691B-41A5-BF7B-0696C51F124C
摘要
为了进行准确可靠的基因表达分析,需要根据家政基因(参考基因或内部控制基因)对基因表达数据进行标准化。众所周知,常用的家政基因(例如。行动委员会,间隙,HPRT1型、和企业对企业)在不同的实验条件下变化很大,因此它们用于归一化是有限的。我们对13629例患者进行了荟萃分析人类基因阵列样本,以确定最稳定的表达基因。这里我们展示了新的候选内务基因(例如。RPS13型,RPL27、RPS20和OAZ1型)在多种不同的细胞类型和不同的实验条件之间具有更强的稳定性。在最稳定表达的前50个基因中,没有一个常用的家政基因。此外,使用2543个不同的鼠标基因阵列样本我们能够证实另一种哺乳动物中候选新管家基因的稳定性增强。因此,识别出的新候选管家基因似乎是规范化基因表达数据的最合适选择。
引言
实时逆转录聚合酶链反应(RT-PCR)检测转录物丰度因其高灵敏度、特异性和宽量化范围而成为高通量和准确表达所选基因谱分析的首选方法。[1]RT-PCR是最常用的分子诊断方法,用于验证较小基因组的微阵列数据,并且在只有少量细胞可用时特别有用。[2]–[6]除了作为一种强大的技术外,RT-PCR还存在一些缺陷,其中最重要的问题是数据规范化不当。各种策略已被应用于控制基因表达结果。例如,在使用组织样本时,细胞数量的标准化是一个问题。当只有最小数量的RNA可用时,总RNA的量化是困难的。更重要的是,它测量样本的总RNA部分,该部分仅占相对较小百分比(<10%)的信使核糖核酸,主要由rRNA分子组成。使用18S或28S rRNA分子作为控制基因的一个缺点是上述mRNA和rRNA部分之间的不平衡。[7]此外,已有研究表明,某些生物因素和药物可能会影响rRNA转录。[8],[9]最后,这些方法仍然没有考虑酶反应效率的修正。目前,家政基因是使mRNA比例正常化的金标准。然而,已知常用家政基因的基因表达有相当大的差异,这会给实验带来噪音,最终可能导致错误的结果。[10]–[12]这甚至导致了通过使用控制基因集和使用统计算法计算归一化因子来控制不稳定性的策略。[1],[12],[13]为了确定最稳定表达的管家基因,我们使用了13629个已发表的人类基因阵列的大量表达数据,并调查了基因表达水平的丰度和稳定性。我们使用一组2543个已发表的小鼠基因阵列在小鼠中验证了人类结果。
结果和讨论
候选管家基因被定义为表达最稳定的基因,即变异系数(CV)较小且最大倍数变化<2的基因(MFC,数据集中观察到的最大值与最小值之比)。此外,低于最大表达水平减去2个标准差(SD)的平均表达水平是候选管家基因的先决条件。使用了13629个不同样本中13037个独特基因的表达水平。显示了已确定的前15个候选内务基因(表S1显示了所有13037个独特基因的CV)。所有15个基因的变异系数均低于4%,标准偏差低于0.49。此外,MFC在1.41之间(RPL27型)至1.99(RPS12型),反映了大型数据集中这些候选管家基因表达的微小差异。前15个基因中有13个编码参与蛋白质生物合成的核糖体蛋白质。表达式级别的分布如所示。
13629份人类样本中前15个候选看家基因(A)和12个常用看家基因的表达分布(B)。
表1
13629份样本中发现的前15个候选内务基因。
基因符号 | 名称 | 意思是 | 标准偏差 | 变异系数(%) | MFC公司 | 等级 |
RPS13型
| 核糖体蛋白S13 | 12.82 | 0.33 | 2.59 | 1.61 | 1 |
RPL27型
| 核糖体蛋白L27 | 12.70 | 0.35 | 2.73 | 1.41 | 2 |
RPS20型
| 核糖体蛋白S20 | 12.81 | 0.37 | 2.90 | 1.67 | 三 |
RPL30型
| 核糖体蛋白L30 | 13.08 | 0.42 | 3.22 | 1.99 | 4 |
RPL13A型
| 核糖体蛋白L13A | 13.01 | 0.43 | 3.29 | 1.83 | 5 |
RPL9型
| 核糖体蛋白L9 | 12.95 | 0.44 | 3.36 | 1.68 | 6 |
SRP14号机组
| 信号识别粒子14kDa | 11.45 | 0.40 | 3.46 | 1.48 | 7 |
RPL24型
| 核糖体蛋白L24 | 12.50 | 0.46 | 3.65 | 1.54 | 8 |
RPL22型
| 核糖体蛋白L22 | 11.94 | 0.44 | 3.68 | 1.91 | 9 |
零售价29
| 核糖体蛋白S29 | 12.86 | 0.47 | 3.69 | 1.93 | 10 |
RPS16型
| 核糖体蛋白S16 | 12.48 | 0.47 | 3.73 | 1.62 | 11 |
RPL4级
| 核糖体蛋白L4 | 12.43 | 0.47 | 3.76 | 1.63 | 12 |
RPL6型
| 核糖体蛋白L6 | 12.22 | 0.46 | 3.76 | 1.65 | 13 |
OAZ1型
| 鸟氨酸脱羧酶抗酶1 | 11.88 | 0.45 | 3.78 | 1.51 | 14 |
RPS12型
| 核糖体蛋白S12 | 12.90 | 0.49 | 3.82 | 1.99 | 15 |
接下来,我们研究了常用的持家基因(例如。行动委员会,间隙,HPRT1型和企业对企业). 那些常用的家政基因的表达水平波动很大(). MFC范围为1.91(行动委员会)至15.15(阿尔多阿). 此外,12种常用的家政基因中只有一种(行动委员会)变异系数低于5%的水平,反映了在我们的大数据集中那些常用家政基因的高度可变水平。值得注意的是,在已确定的前50个候选家政基因中,没有一个经典家政基因排名。常用家政基因表达水平的分布如图所示。
表2
在13629份样本中确定的12种常用家政基因的排名。
基因符号 | 姓名 | 意思是 | 标准偏差 | 变异系数(%) | MFC公司 | 等级 |
行动委员会
| β-肌动蛋白 | 13 | 0.63 | 4.88 | 1.91 | 57 |
间隙
| 甘油醛-3磷酸脱氢酶 | 12.83 | 0.74 | 5.75 | 6.37 | 139 |
LDHA公司
| 乳酸脱氢酶A | 12.09 | 0.72 | 5.92 | 2.21 | 168 |
企业对企业
| β-2-微球蛋白 | 12.75 | 0.76 | 5.97 | 4.01 | 176 |
PGAM1型
| 磷酸甘油酸变位酶 | 11.14 | 0.76 | 6.87 | 2.03 | 413 |
阿尔多阿
| 醛缩酶A | 11.94 | 0.92 | 7.74 | 15.15 | 767 |
PGK1系列
| 磷酸甘油酸激酶 | 10.08 | 0.82 | 8.17 | 2.19 | 996 |
HPRT1型
| 次黄嘌呤磷酸核糖基转移酶 | 9.29 | 0.92 | 9.94 | 2.48 | 2193 |
TUBA1号机组
| α微管蛋白 | 9.04 | 1.28 | 14.15 | 2.87 | 4921 |
VIM公司
| 波形蛋白 | 11.65 | 1.87 | 16.01 | 5.83 | 6016 |
PFKP公司
| 磷酸果糖激酶 | 8.89 | 1.59 | 17.93 | 6.25 | 7019 |
G6PD公司
| 葡萄糖-6磷酸脱氢酶 | 7.27 | 1.74 | 23.86 | 5.78 | 9707 |
为了证明使用这些新的候选管家基因的可行性,我们在前15个候选管家基因组引物中创建了5个引物(即。RPL27型,RPL30型,OAZ1型,RPL22型和零售价29). 我们用PCR检测了所需的产物长度和特异性;没有扩增出假基因(显示PCR结果)。
5个新候选管家基因的PCR结果。S表示样本,HL-60白血病细胞系的cDNA用于所有引物,B表示blanc(H2O) L表示100碱基对阶梯(发酵剂)。
为了验证已鉴定的新型候选管家基因的增强稳定性,我们使用了另一种哺乳动物模型系统,即小鼠。在一组2543个不同的小鼠样本中,使用了21377个独特基因的表达水平。人类数据集中确定的新候选管家基因在小鼠阵列中的表达也表现出稳定性(). 在小鼠表达阵列中,核糖体蛋白编码基因也是最稳定的表达基因。因此,已确定的候选管家基因在另一物种中的表达稳定性得到了证实。
表3
候选管家基因在老鼠。
新的候选管家基因 |
基因符号
|
标准偏差
|
变异系数(%)
|
MFC公司
|
转速29
| 0.26 | 1.92 | 1.26 |
RPL4级
| 0.39 | 2.95 | 1.34 |
OAZ1型
| 0.43 | 3.42 | 1.34 |
RPL13A型
| 0.50 | 3.89 | 1.36 |
RPL6型
| 0.50 | 3.90 | 1.30 |
SRP14号机组
| 0.56 | 5.22 | 1.40 |
RPL24型
| 0.63 | 6.10 | 1.59 |
RPL27型
| 0.74 | 6.16 | 1.53 |
RPS13型
| 0.73 | 6.34 | 1.50 |
RPL9型
| 0.57 | 6.41 | 1.56 |
RPL22型
| 0.76 | 6.42 | 1.46 |
RPS16型
| 0.80 | 6.46 | 1.49 |
RPS12型
| 0.83 | 7.01 | 1.49 |
RPS20型
| 1.01 | 8.61 | 1.57 |
RPL30型
| 0.87 | 8.97 | 3.80 |
我们的结果清楚地揭示了新的候选管家基因,与常用的管家基因(例如。行动委员会,间隙和高效放射治疗). 然而,根据普遍和稳定表达的定义,我们的结果表明,没有一个基因符合“真正的”管家基因的条件。间隙和行动委员会在高影响力期刊中,90%以上的病例被用作单一控制基因。[11]常用的控制基因是历史遗留下来的,多年来被认为是测量质变技术的良好参考,因为这些基因在几乎所有细胞中的表达水平相对较高。然而,RT-PCR的出现将重点放在了数量变化上,并要求重新评估这些历史家政基因的使用。在这里,我们首次通过对13000多个样本的荟萃分析,对候选管家基因进行全基因组评估。有趣的是,已确定的候选新家政基因在功能上没有太大差异;它们主要是参与蛋白质生物合成的核糖体蛋白质。因此,例如,对这种特定细胞过程进行修补的实验者会更好地使用我们分析中的其他候选管家基因OAZ1型。
通过荟萃分析,我们能够找到在组织类型和实验条件下表达差异水平远低于常用家政基因的候选家政基因。我们确定的候选管家基因可以应用于(几乎)所有未来的RT-PCR实验,而没有任何限制。
材料和方法
从Gene expression Omnibus下载了13629个与Affymetrix HG-E133A和HG-U133 Plus 2.0基因芯片杂交的公开样本的微阵列表达数据。[14]这组样本包括各种不同组织的基因表达数据(例如主要患者材料、细胞系、疾病组织以及正常组织、干细胞等)以及不同的实验条件(例如转染/转导细胞、细胞因子刺激、缺氧条件下的细胞、紫外线处理的细胞、化疗药物或非细胞毒性药物处理的细胞等)。将两个平台上可用的探针转换为官方基因符号,平均针对同一基因的多个探针的表达值。接下来,将分位数归一化应用于log2转换的表达值。[15]计算每个基因的表达CV。CV等于标准偏差除以平均值(以百分比表示)。CV被用作比较基因之间变异程度的统计数据,即使平均表达量彼此相差很大。[16]对所有基因的计算CV进行排名。此外,计算MFC以反映大型数据集中这些候选管家基因表达的微小变化。为了进行验证,从基因表达总览下载了2543个与Affymetrix mouse Genome 430 2.0基因芯片(Affymetix)杂交的公开可用小鼠样本。[14]同样,该验证集包括各种不同的小鼠组织和不同的实验条件。
总RNA用Absolutely RNA Miniprep Kit(荷兰阿姆斯特丹斯特拉赫纳)提取,并用随机六聚体和RevertAid反转录到cDNATM(TM)M-MuLV逆转录酶(发酵剂,加拿大安大略省伯灵顿市)符合制造商的协议。显示的引物序列RPL27型,RPL30型,OAZ1型,RPL22型和RPS29。所有引物使用相同的退火温度(即60°C)和循环次数(即25)。PCR产物在1.0%琼脂糖凝胶中通过电泳进行分析。
表4
5个候选管家基因的引物序列。
基因符号 | 福沃德 | 反向 | 碱基对 | T型 |
RPL27型
|
ATCGCCAAGATCAAGATATA公司
|
TCTGAAGACATCCTTATTGACG公司
| 123 | 60 |
RPL30型
|
acagcatgcggaaatactac公司
|
AAAGGAAATTTTGCAGGTTT公司
| 158 | 60 |
OAZ1型
|
GGATCTCAATAGCCACTGC公司
|
TACAGCAGTGGAGGGAGACC公司
| 150 | 60 |
RPL22型
|
TCGCTCACCTCCTTTCTAA公司
|
TCACGGTGATCTTTGCTCTTG
| 250 | 60 |
零售价29
|
GCACTGAGAGCAAGAGAGAGATG公司
|
共济失调
| 213 | 60 |
支持信息
表S1
13629个样本中所有13037个独特基因的CV。
(0.72 MB文件)
脚注
竞争利益:提交人声明,不存在相互竞争的利益。
基金:这项工作得到了荷兰癌症协会(grantnr 3661)对E.S.J.M.de B的资助,以及儿科肿瘤学基金会对H.J.M.der J和a ter E的资助。资助者在研究设计、数据收集和分析、决定出版或编写手稿方面没有任何作用。
工具书类
1Bustin SA。使用实时逆转录聚合酶链反应分析绝对量化mRNA。《分子内分泌杂志》。2000;25:169–193.[公共医学][谷歌学者] 2Chuaqui RF、Bonner RF、Best CJ、Gillespie JW、Flaig MJ等。微阵列实验的分析后随访和验证。自然遗传学。2002;(32补充):509–514。[公共医学][谷歌学者] 三。Fink L,Seeger W,Ermert L,Hanze J,Stahl U,等。激光辅助细胞采集后实时定量RT-PCR。自然医学。1998;4:1329–1333.[公共医学][谷歌学者] 4Giulietti A、Overbergh L、Valckx D、Decallonne B、Bouillon R等。实时定量PCR的概述:量化细胞因子基因表达的应用。方法。2001;25:386–401.[公共医学][谷歌学者] 5Heid CA、Stevens J、Livak KJ、Williams PM。实时定量PCR。基因组研究。1996;6:986–994.[公共医学][谷歌学者] 6Higuchi R,Fockler C,Dollinger G,Watson R.动力学PCR分析:DNA扩增反应的实时监测。生物技术(纽约)1993;11:1026–1030.[公共医学][谷歌学者] 7Solanas M,Moral R,Escrich E.使用核糖体RNA作为Northern blot分析负荷控制的不适用性,与大鼠乳腺肿瘤中信使和核糖体RNA含量的不平衡有关。分析生物化学。2001;288:99–102.[公共医学][谷歌学者] 8Johnson ML、Redmer DA、Reynolds LP。使用生物素化寡核苷酸(dT)探针和化学发光检测定量聚(A)RNA的线对线负荷。生物技术。1995;19:712–715.[公共医学][谷歌学者] 9Spanakis E.与使用普通组成转录物作为对照来解释基因表达的放射自显影数据有关的问题。核酸研究。1993;21:3809–3819. [PMC免费文章][公共医学][谷歌学者] 10Lee PD,Sladek R,Greenwood CM,Hudson TJ。控制基因和变异性:在不同哺乳动物表达研究中缺乏普遍存在的参考转录本。基因组研究。2002;12:292–297。 [PMC免费文章][公共医学][谷歌学者] 11Suzuki T,Higgins PJ,Crawford DR。RNA定量的控制选择。生物技术。2000;29:332–337.[公共医学][谷歌学者] 12Thellin O、Zorzi W、Lakaye B、De Borman BB、Coumans B等。内务基因作为内部标准:使用和限制。生物技术杂志。1999;75:291–295.[公共医学][谷歌学者] 13Vandesompele J、De Preter PK、Pattyn F、Poppe B、Van Roy RN等。通过多个内部控制基因的几何平均对实时定量RT-PCR数据进行精确归一化。基因组生物学。2002;三:1–11. [PMC免费文章][公共医学][谷歌学者] 14Edgar R,Domracev M,Lash AE。基因表达总览:NCBI基因表达和杂交阵列数据存储库。核酸研究。2002;30:207–210. [PMC免费文章][公共医学][谷歌学者] 15Bolstad BM、Irizarry RA、Astrand M、Speed TP。基于方差和偏差的高密度寡核苷酸阵列数据归一化方法的比较。生物信息学。2003;19:185–193.[公共医学][谷歌学者] 16Novak JP,Sladek R,Hudson TJ。大规模基因表达数据变异性的表征:对研究设计的启示。基因组学。2002;79:104–113.[公共医学][谷歌学者]