跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
《公共科学图书馆·生物》。2004年5月;2(5):e132。
2004年5月11日在线发布。 数字对象标识:10.1371/journal.pbio.0020132
预防性维修识别码:项目经理406393
PMID:15138501

转录组进化的中性模型

摘要

微阵列技术可以识别物种内部和物种之间的大量表达差异。虽然环境和生理刺激显然是许多基因表达水平变化的原因,但尚不清楚物种之间和物种内不同组织之间进化过程中固定的大多数基因表达变化是由达尔文选择还是随机过程引起的。我们发现:(1)物种间表达差异随时间近似线性累积;(2) 物种内个体间的基因表达差异与物种间的表达差异呈正相关;(3) 物种间的表达差异率在完整基因和表达假基因之间没有显著差异;(4) 一个物种大脑区域之间的表达差异自进化过程中出现以来,随着时间的推移而近似线性地累积。这些结果表明,在物种之间观察到的大多数表达差异是选择性中性或接近中性的,并且可能几乎没有或根本没有功能意义。因此,通过选择确定的物种之间的基因表达差异应基于假设功能中立的零假设。此外,有可能应用基于表达差异的分子钟来推断组织的进化历史。

对灵长类物种之间基因表达差异的分析表明,大多数灵长类动物是选择性中性的,可能很少或没有功能性后果

介绍

微阵列技术的进步使系统研究数千个转录物的表达水平成为可能。这被认为是理解基因组功能的一大进步,因为转录表达水平预计与生物功能相关。虽然这显然是许多基因的情况,这些基因会随着环境刺激(例如。,Spellman等人,1998年;Hughes等人,2000年;Miki等人,2001年)目前尚不清楚基因表达的进化变化是主要由达尔文选择还是随机过程决定的。事实上,自从查尔斯·达尔文提出生物因自然选择而适应其环境以来,自然选择在多大程度上影响了生物的特性,一直备受争议。在分子水平上,认为大多数变化是由于达尔文选择的观点受到了木村分子进化中性理论的挑战(木村1983). 该理论指出,物种内部和物种之间核苷酸和氨基酸序列的绝大多数差异没有或只有轻微的选择性作用。因此,它们在一个物种内的出现和物种间差异的固定主要是随机过程的结果。因此,今天人们认为,蛋白质编码外显子内绝大多数同义核苷酸的变化以及基因组非编码部分的变化是由突变过程和随机遗传漂变决定的(李1997). 事实上,即使在形态学的层面上,也有人认为许多特征不是自适应的,而是由物理约束或历史事故造成的(Gould和Lewontin 1979年). 然而,由于选择作用于表型水平,而变异是在基因型水平上产生的,因此选择引起的变化比例在表型水平上最大,在DNA序列水平上最小。作为一个推论,我们可以预计,在蛋白质组和转录组水平上,所选变化的比例将逐渐降低,因为这些变化的位置逐渐远离表型。因此,很大一部分转录组的变化可能是由历史事件而非选择性事件来解释的。

为了测试这种情况是否属实,我们研究了一个中性模型是否能够描述在灵长类和小鼠物种之间以及在一个物种的不同脑区之间观察到的转录组差异。

结果/讨论

物种间转录组进化

如果大多数进化变化是由历史偶然事件而非自然选择引起的,那么它们将主要作为时间的函数而不是有机体形态或行为变化的函数积累。因此,将中性模型应用于转录组进化,意味着转录组的变化率与时间成正比。特别是,如果我们假设突变引起转录物相对数量的变化,而不依赖于基因的绝对表达水平,那么表达水平对数的平方差预计会随着发散时间线性增加(兰德1976;Felsenstein 2004年). 为了研究这种情况是否属实,我们研究了六个人、三只黑猩猩前额叶皮层约12000个基因的基因表达水平的差异(泛三字节),一只猩猩(Pongo pygmaea),和一只猕猴(猕猴)使用寡核苷酸微阵列。为了排除DNA序列差异对杂交结果的影响,至少在人类和黑猩猩之间,分析中只使用与黑猩猩DNA序列完全匹配的寡核苷酸探针(参见材料和方法). 图1A、 我们根据1998年基因表达水平的对数之间的平均平方差绘制物种差异时间,这些基因的表达水平大到足以在所有灵长类样本中检测到。尽管猩猩和恒河猴的比较因核苷酸序列与阵列探针的差异而变得复杂,但结果表明,平方差异代表至少2000万年时间的近似线性函数。当我们将相同的分析应用于三个人、三只黑猩猩和一只猩猩肝脏的已发表基因表达数据时(Enard等人,2002年),我们再次观察到基因表达差异和物种分化时间之间的线性关系(图1B) ●●●●。

保存图片、插图等的外部文件。对象名称为pbio.0020132.g001.jpg
灵长类脑和肝转录组的时间变化

灵长类动物大脑(A)、肝脏(B)和大脑中基因的平均表达差异,以及六个人之间高(红色)和低(蓝色)变异基因的平均表现差异(C)。颜色:红色,与人类比较;蓝色,与黑猩猩之间的比较;紫色,人类和黑猩猩之间的比较;橙色,猩猩和恒河猴的比较;黑色,实验副本之间的比较。表达的垂直误差条表示通过10000次基因自举计算的95%置信区间。发散时间根据Glazko和Nei(2003年).

由于基于寡核苷酸的微阵列对DNA序列差异很敏感,而且猩猩和恒河猴的基因组序列尚不清楚,因此我们无法删除物种之间携带错配的寡核苷酸,因此我们使用了包含约28000个长度从500到1500个核苷酸的cDNA的阵列来分析基因六个人、五只黑猩猩、五只恒河猴和五只食蟹猕猴前额叶皮层的表达模式(猕猴)。由于探针长度更大,这些阵列对DNA序列差异的敏感性更低,因此可以用于比较人类和猕猴的基因表达(Ranz等人,2003年). 当我们绘制5829个基因的基因表达差异程度时,这些基因在所有样本中的表达都与物种差异时间有关,我们再次观察到,表达差异随着时间近似线性累积(图2).

保存图片、插图等的外部文件。对象名称为pbio.0020132.g002.jpg
cDNA阵列测量的脑转录组变化

中的颜色和符号图1除了橙色(表示黑猩猩和这两种猕猴之间的比较)和蓝色(表示猕猴和食蟹猕猴之间比较)。发散时间根据Hayasaka等人(1996年))和Glazko和Nei(2003年).

在最近一项关于人类、黑猩猩和猩猩大脑中基因表达的研究中,我们发现人类血统的表达变化率大于黑猩猩血统(Enard等人,2002年). 这与此处观察到的线性明显矛盾。然而,分析Enard等人(2002年))它基于不到5%的大脑中表达的所有基因,因为它仅限于人类和黑猩猩之间表达差异显著的基因。相反,我们在这里对几个灵长类物种中可检测到的所有基因进行转录组分析。然而,这两种猕猴的人类差异略高于黑猩猩,这可能反映了之前报道的人类进化谱系中基因表达差异率较高(Enard等人,2002年;Caceres等人,2003年;顾和顾2003). 然而,有必要进行额外的实验,以排除这是由实验伪影引起的可能性。

在灵长类动物中观察到的物种间表达差异的钟状积累与最近的观察一致,即基因表达的差异与物种间的系统发育关系一致果蝇属物种(Rifkin等人,2003年)这两个观测值都与中性模型的预测相符。然而,在某些选择场景下,积极选择的变化也会随着时间线性累积(Felsenstein 2004年). 因此,仅表达差异的线性累积并不排除选择。

除了进化变化的钟表式积累外,中立理论还指出,同样的力量决定了物种内部和物种之间的进化速度(木村1983). 因此,关于转录组进化的中性预测是,物种内差异较大的基因也更有可能在物种间发生变化。为了验证这一点,我们根据人类内部的变异,对六个人和三只黑猩猩中2926个可检测到表达水平的基因进行了排名,并分别计算了25%的人类变异最大和最小的基因的物种差异。图1C表明,人类之间变异较大的基因在物种之间的变化明显快于变异较小的基因。观察到的表达差异的大小可能受到DNA序列不匹配的影响,影响猩猩和恒河猴样品和阵列探针之间的杂交。然而,物种内具有高表达变异和低表达变异的基因之间的差异不太可能用杂交假象来解释,因为这需要两组基因之间的序列差异。

我们进一步考虑了人类和黑猩猩的平均多样性与2926个基因的物种差异之间的相关性。这种相关性非常显著(第页<0.001)通过排列测试测量(参见材料和方法). 由于在分析之前删除了所有携带人类和黑猩猩序列差异的阵列探针,所以这种相关性不受杂交伪影的影响。相关性的强度(τ=0.24)与人类和黑猩猩随机基因组DNA序列多样性和差异性的相关性(τ=0.179,第页= 0.028,n个=76),其中绝大多数是非编码的(Hellmann等人,2003年). 因此,尽管这两个指标没有直接的可比性,但人类和黑猩猩的大脑转录组和随机基因组DNA序列的种内多样性和种间差异之间的关联程度是相似的。

为了研究基因表达差异是否也随着时间的推移在另一组哺乳动物中积累,我们分析了三种小鼠。这种情况的一个优点是,与人类和类人猿的尸检材料相比,尸检人工制品对结果的影响较小。我们测定了六个杂种额叶皮层约9000个基因的基因表达水平差异小肌肉,三个远亲斯普雷图斯先生,和一个卡罗利先生。如所示图3A、 不同鼠种间转录组差异的平方随时间线性累积。为了测试物种内高变异和低变异基因的分化率是否不同,我们调查了在所有样本中检测到的2742个基因中25%的变异最高和最低小M,正如在灵长类动物身上所做的那样。图3B表明基因在体内变化更大小M与差异较小的基因相比,老鼠物种之间的差异更快。就灵长类物种而言M.斯普雷图斯卡罗利先生阵列寡核苷酸的mRNA可能部分影响物种间观察到的表达差异。然而,对于灵长类动物来说,物种内高表达和低表达差异基因之间的差异不太可能用杂交差异来解释,因为没有迹象表明物种内表达差异较大的基因在物种之间的DNA序列方面差异更快。多样性和分歧之间的相关性小MM.斯普雷图斯因为在这两个物种中检测到的基因都非常显著(τ=0.29,第页< 0.001,n个=3139),尽管在这种情况下我们不能校正DNA序列差异。最近在硬骨鱼类中也证实了物种内和物种间基因表达差异的相关性(Oleksiak等人,2002年). 因此,与中性模型一致,在三个脊椎动物类群中,物种内差异较大的基因往往在物种之间差异较大。

保存图片、插图等的外部文件。对象名称为pbio.0020132.g003.jpg
小鼠脑转录组随时间的变化

小鼠种内和种间的平均表达差异(A),以及小M个人(B)。颜色:红色,与之间的比较小家鼠;蓝色,介于和之间M.spretus;紫色,介于小MM.斯普雷图斯表达的垂直误差条表示由10000个基因自举计算的95%置信区间。发散时间根据她等人(1990年)).

中立性测试

测试物种间基因表达差异是否以与中性预期一致的速度累积的一种方法是将其与观察到的一类基因的表达差异进行比较,这类基因可以合理预期不是正选择或负选择的直接目标。由于表达的假基因不产生任何功能性基因产物,因此可以将其视为此类基因。因此,如果相当一部分完整基因积累表达差异的速度快于假基因,这将表明它们是正向选择的。这样的观察会使一个中立的模型不成立。

为了测试这一点,我们使用Affymetrix U95阵列集询问了大约40000个基因,研究了三个人和三只黑猩猩大脑四个区域的表达模式(Philipp Khaitovich,未发表的数据)。为了识别这些阵列上询问表达的假基因的所有探针集,我们将探针序列以及公布的人类假基因列表与人类基因组对齐(参见材料和方法). 共鉴定出889个与假基因重叠的探针组。其中33个被检测到(检测第页-值<0.05)。其中28个基因含有至少一种突变,导致人类和黑猩猩的功能丧失。因此,我们假设这些假基因在人类和黑猩猩的共同祖先中没有功能。最后,我们通过将这些探针组与人类基因组进行比对,检查它们是否可以与任何完整的基因杂交。这给我们留下了23个表达假基因。

我们比较了人类和黑猩猩大脑四个区域中23个假基因和12647个完整基因的平均表达水平之间的平方差分布。在每种情况下,只有在特定脑区检测到的基因被用于计算。在所有四个大脑区域中,完整基因之间的表达距离分布与Kolmogorov-Smirnov检验或Wilcoxon秩和检验中假基因之间的分布没有显著差异。如果超过5%(1/23)的基因的分布与假基因的分布完全不同,那么这些测试将具有重要意义。当将四个大脑区域的数据组合在一起时,两种分布之间没有明显的视觉差异(第页=0.16和第页分别=0.69)(图4A) ●●●●。

保存图片、插图等的外部文件。对象名称为pbio.0020132.g004.jpg
完整基因与假基因的比较

(A) 显示了人类和黑猩猩之间完整基因和假基因表达差异的分布。(B) 显示了人类和黑猩猩之间表达差异比率的分布,以及完整基因和假基因在人类内部的表达多样性。

因此,我们没有检测到任何比假基因在表达上分化更快的完整基因的显著过剩。这表明,正选择固定的物种之间的基因表达差异比例很小。有趣的是,也没有检测到过多的完整基因比假基因分化慢。这似乎出乎意料,因为许多完整基因的表达可能被认为是通过负选择稳定的,因此变化比假基因慢。这可能表明,净化选择也是影响基因表达的一种微弱力量。然而,需要注意的是,所分析的少量表达假基因限制了检测阳性和阴性选择的能力。有针对性地研究密切相关物种中表达的假基因将是一项有价值的工作。

阳性选择测试

表达差异的总体累积符合选择性中性模型,当然这并不意味着物种之间的所有表达差异都是选择性中性的。至于核苷酸的变化,基因表达的一些变化将产生表型后果,其中一些将由于正选择而变得固定。为了确定这种基因表达差异,我们建议使用物种间差异与物种内多样性的比率,类似于建议的数量遗传特征测试(查尔斯沃思1984;林奇和希尔1986;Turelli等人,1988年)并同意最近的建议Rifkin等人(2003年)Hsieh等人(2003年)). 然而,要做到这一点,每个被考虑的基因都有必要区分由个体之间的遗传差异引起的基因表达多样性和由环境因素引起的多样性。这一点至关重要,因为环境因素可能比遗传因素大得多。例如,在严格中立且无环境影响的情况下,我们预计多样性发散比等于物种发散时间与物种内取样个体的平均祖先发散时间之比。对于人类和黑猩猩来说,这大约是1:10(陈和李2001;Lander等人,2001年). 然而,观察到的比率约为1:3,这表明环境成分大约是遗传成分的三倍。研究具有不同遗传相关性的个体之间的基因表达差异,最终将有助于估计表达变异的遗传成分。

由于我们无法区分基因和环境对表达多样性的贡献,因此我们使用假基因来估计在没有选择的情况下观察到的差异与多样性比率的分布,并将这些比率与完整基因进行比较。未发现显著差异(Kolmogorov-Smirnov检验,第页= 0.388; Wilcoxon秩和检验,第页=0.134),且两种分布似乎围绕大致相同的值居中(图4B) ●●●●。注意,这一观察结果必须谨慎对待,因为它基于少量假基因,并且基因表达多样性仅从三个人身上计算得出。然而,这一结果表明,完整基因和表达的假基因的表达模式之间没有显著差异,因为如果5%或更多的基因具有与假基因中观察到的完全不同的差异与多样性比率,我们的测试将是显著的。

脑区转录组进化

在脊椎动物进化的不同时期出现了不同的脑解剖结构。这些时间点可以被视为过去数百万年前大脑区域之间的分歧时间(图5A) ●●●●。如果不同脑区之间的基因表达变化具有较大的随机成分,那么物种内不同脑区的基因表达差异可能被用作分子钟,以计时组织的差异。为了研究这种情况是否属实,我们比较了三只成年人类和三只成年雄性黑猩猩Brodmann’s 44区、前额叶皮层、前扣带回皮层、初级视觉皮层、尾状核和小脑的表达模式(Philipp Khaitovich,未发表的数据)。所有的比较都是在同一个人的大脑区域之间进行的。这有两个优点。首先,这种比较不受物种之间和内部核苷酸序列变化的影响。第二,当研究个体内的表达差异时,环境差异和死后变化几乎没有影响。图5B、 我们绘制了人类和黑猩猩六个脑区之间的平均平方距离,以及脊椎动物进化过程中这些脑区出现的时间(巴特勒和霍多斯1996;Nieuwenhuys等人,1998年)在所有人类和黑猩猩样本中分别检测到2297和2525个基因。可以看出,在超过5亿年的时间里,表达差异随着时间的推移近似呈线性增加。为了研究这一发现是否也适用于另一种哺乳动物,我们使用了1346个基因的公开表达数据,这些基因在小鼠的八个脑区都有可检测的表达(Su等人,2002年). 在这种情况下,转录组差异和进化分歧时间之间也存在近似线性关系(图5C) ●●●●。

保存图片、插图等的外部文件。对象名称为pbio.0020132.g005.jpg
脑区转录组变化与进化时间的关系

(A) 人类大脑六个区域的进化树示意图:B.44,Brodmann区域44;PFC,前额叶皮层;ACC,前扣带回皮质;PVC,初级视皮层;CN,尾状核;以及CB,小脑。数字表明大约以百万年为单位的发散时间(巴特勒和霍多斯1996;Nieuwenhuys等人,1998年).

(B) 人类(红色)和黑猩猩(蓝色)大脑区域的平均表达差异。

(C) 大脑区域的平均表达差异小M。表达的误差条表示根据基因10000次自举复制计算出的95%置信区间。

如果大脑区域之间的基因表达差异在很大程度上是适应性的,人们会认为它们与组织功能相关,而不是与进化分化时间相关。我们的数据表明,最近分化的组织具有非常相似的基因表达谱,而不考虑功能上的差异。例如,左半球布罗德曼44区(布罗卡区)的转录组与人类和黑猩猩的前额叶皮层的转录组非常相似,尽管已知它参与人类的语音处理,但它在黑猩猩中必须有另一种功能(Kandel等人,2000年). 如果差异的时间而不是功能差异的程度决定了转录组变化的幅度,这就是我们所期望的。因此,尽管大脑区域之间的一些表达差异肯定与功能差异相对应,但我们的研究结果表明,很大一部分差异是功能中性的。

一个值得注意的发现是,一个物种内部大脑区域之间表达差异的积累比物种之间大脑区域内表达差异的积累慢得多。事实上,2000万年来,灵长类物种之间积累的表达差异(参见图1A) 大约与5亿年来大脑区域中积累的脑区一样广泛(参见图5B) ●●●●。这可能是由于个体大脑区域之间的所有表达差异都是由携带相同基因组的细胞在发育过程中建立的调节网络的变化引起的。此外,大脑区域之间的表达差异反映了这些区域的不同细胞类型组成。相反,物种间转录组的差异是调节网络和组织细胞组成变化的结果,以及物种间影响启动子和决定转录水平的其他基因组元件的核苷酸序列差异。我们的结果表明,后一种变化比前一种更常见。

另一种可能的解释是,基因表达差异与大脑区域之间的进化发散时间之间的相关性可能是基因表达差异不与进化发散日期相关,而是与胎儿发育期间的发散时间相关。我们的观察结果是,发育分化时间和表达差异都与进化分化相关。发展和进化分歧时间之间的相关性以前曾被假设过(有关综述,请参阅古尔德1977). 事实上,基因表达分析现在提供了一种定量方法来解决这个问题,也可能提供一种工具来确定化石记录中无法识别的大脑区域的进化出现日期。

结论

我们表明,中性进化模型可以预测灵长类和小鼠大脑中转录组进化的主要特征。中性模型也与果蝇属(Rifkin等人,2003年)还有鱼(Oleksiak等人,2002年). 虽然可以找到解释部分甚至大部分观察结果的选择性场景,但所提供的综合证据使我们得出结论,中性模型是转录组进化最合适的零模型。这表明,物种内部和物种之间的大多数基因表达差异不是功能性适应,而是选择性中性或接近中性。目前的主要挑战是开发转录组进化的数学模型,以定量预测转录组的变化。这种模型,结合估计物种内基因表达正常变化以及遗传和环境因素对这种变化的相对贡献的实验数据,应该能够确定适应性基因表达变化。还需要进一步的研究来揭示蛋白质组进化是否也由很大程度上是选择性中性的变化所主导。

最后,基因表达差异可以作为确定组织差异的分子时钟的发现,为基于单个物种的基因表达测量重建器官和组织的进化历史开辟了前景。

材料和方法

组织样本和微阵列数据收集

对于灵长类样本,从6名45岁、45岁、63岁、65岁、70岁和70岁的男性尸体大脑样本中,从左半球对应于布罗德曼9区的前额叶皮层区域采集了大约200 mg的灰质;五只雄性黑猩猩,年龄分别为7岁、12岁、12年、12岁和40岁左右;一只16岁的雄性猩猩;五只大约10岁的雄性恒河猴;还有五只大约15岁的雄性食蟹猕猴。所有患者均无脑相关疾病史,无相关脑损伤而猝死。对于小鼠样本,从6只小鼠的额叶皮层区域采集了大约50毫克的灰质小M(其中三个之前在Enard等人,2002年),三个斯普雷图斯先生,和一个卡罗利先生个人。所有小鼠的体重均超过14周,且健康。根据制造商的说明,使用TRIzol试剂(美国加利福尼亚州圣地亚哥市GIBCO)分离总RNA,并使用Quiagen RNeasy试剂盒(美国加州巴伦西亚市Quiangen)按照“RNA净化”方案进行纯化。通过琼脂糖凝胶上显示的28S和18S核糖体RNA的比率,以及作为Affymetrix微阵列质量控制的GAPDH和β-actin基因mRNA的3′端和5′端探针之间的信号比率(美国加利福尼亚州圣克拉拉市Affymmetrix),RNA具有高质量和可比性。

对于Affymetrix微阵列,按照Affymetrix方案进行5μg RNA的标记、杂交、染色、洗涤步骤和阵列扫描。使用Affymetrix HG U95Av2阵列采集灵长类样本的表达数据,使用Affmetrix MG U74Av2阵列收集小鼠样本的表达信息。John Hogenesch提供了Affymetrix CEL文件,其中包含小鼠大脑不同区域的表达数据,包括杏仁核、大脑皮层、海马体、下丘脑、小脑、嗅球和脊髓的两个区域。

如其他地方所述,W.A.实验室制造了包含51000个cDNA的阵列,对应约40000个UniGene簇(Anonymous 2003)。按照以下说明进行标记、杂交、染色、清洗和阵列扫描Cortes-Canteli等人(2004))稍作修改。使用所有样品的混合物作为共同参考,用染料反转将所有样品杂交两次。所有主要表达式数据都已提交到Array Express数据库(http://www.ebi.ac.uk/arrayexpress/).

掩盖人类和黑猩猩之间的序列差异

为了排除人类和黑猩猩之间不完全匹配的所有寡核苷酸探针,我们对齐了所有Affymetrix靶序列(http://www.affmetrix.com/analysis/index.affx)首先是人类基因组(构建33),然后是黑猩猩基因组的草案版本(该组装由David Jaffe于2003年6月提供)。使用BLAT(肯特2002),我们将黑猩猩序列与包含16个寡核苷酸探针的Affymetrix靶序列进行匹配,并使用评分函数确定最佳命中率。然后将黑猩猩序列与人类基因组进行比对,以确定最佳匹配是否与Affymetrix目标序列与人类基因比对获得的匹配一致。为了确定插入和删除(indels),我们比较了Affymetrix目标序列与人类基因组和黑猩猩基因组的比对,并将indels结构相对于目标序列的差异确定为indels。然后,我们鉴定了目标序列中与黑猩猩序列完全匹配的所有寡核苷酸探针。这些探针用于分析,而其他探针被屏蔽。

微阵列数据分析

使用默认参数,使用Affymetrix microarray Suite v5.0分析Affymmetrix微阵列图像数据。使用阵列上的所有探针将阵列缩放到相同的平均强度。检测到的基因被定义为那些检测到的第页-值小于或等于0.05。为了计算表达式值,使用Bioconductor“affy”软件包处理数据(伊哈卡与绅士1996)使用分位数归一化过程(Bolstad等人,2003年). 使用TM4软件包分析cDNA阵列(赛义德等人,2003年). 检测到的基因被定义为斑点强度超过背景强度2倍以上的基因。使用LOWESS归一化算法将所有幻灯片归一化为通用参考。为了计算多样性和散度,将信号参考比测量值乘以每个基因的平均参考强度,转换为标准信号强度。离散度定义为两组样本平均表达(所有检测到的)基因之间的平方差。多样性被定义为一组样本内的表达差异。

相关性显著性检验

我们通过观察人类和黑猩猩的平均表达值之间的平方差,来测量人类与黑猩猩之间的差异。这种散度估计包括我们对两种平均值的估计中的误差,这与每个物种的方差成比例,因此与每个物种中的多样性成比例。因此,即使分歧和多样性之间不存在相关性,我们测量的分歧和多样性估计也会相互关联,而且分歧相对于多样性越小,相关性就越强,我们进行了一项随机化测试,在该测试中,我们计算了即使多样性和发散性之间不存在相关性,上述效应也会产生多少多样性和散度之间的相关性。保守地说,我们首先生成了一个分布,故意低估了人类和黑猩猩之间的真正差异。这是通过首先生成人类和黑猩猩之间预期观察到的基因表达差异(X)的分布来实现的,如果实际差异为零。然后使用此分布和观察到的差异分布(Z),我们生成了一个分布(Y),该分布与X的值相加将得到Z。为了低估散度,我们生成Y,假设X和Y的相关性为1。然后,我们按照以下方式生成随机样本:对于每个基因(g),我们从生成的分布中选择一个随机表达差异(d)。然后,我们从平均值为零、方差为人类基因g多样性的正态分布中提取了六个样本,从平均值是d、方差为黑猩猩基因g的多样性的正常分布中提取三个样本。对于这些表达值,我们计算了多样性和差异性之间的相关性。我们把整个过程重复了1000次。这些随机化都没有产生像观察到的那样强烈的相关性。为了确保整个测试是保守的,我们生成了三种类型的100个数据集,所有这些数据集都具有相似的多样性,但“真实”的散度分布为(1)零,(2)低估的散度,或(3)测量的散度。然后我们进行了上述整个测试,只做了一个随机测试。如果测试不保守,人们会认为数据集中的相关性高于50%的病例随机分组后的相关性。相反,随机分组后,98、98和99例患者的相关性更高,表明我们的测试确实是保守的。

表达假基因

我们检索了由Torrents等人(2003年)),Zhang等人(2003))和VEGA项目(网址:http://vega.sanger.ac.uk). 使用BLAT将这些序列以及Affymetrix靶序列映射到人类基因组(构建34)(肯特2002),使用以下参数确定最佳命中率:match,+1;失配,−3;间隙开放惩罚仅适用于间隙≤20,−5;和间隙延伸,−1。接下来,使用BLAT,我们确定了Affymetrix目标序列,其中最佳匹配序列与已知基因的基因组区域不重叠(http://genome.ucsc.edu). 因此,我们确定了889个与假基因重叠但与已知基因不重叠的探针集。结合在三个人和三只黑猩猩的四个大脑区域(前扣带皮层、布罗卡区、尾状核、小脑;菲利普·哈伊托维奇,未发表的数据)收集的基因表达数据,33个探针组在三只黑黑猩猩或三个人的至少一个大脑区域中检测到了表达水平。对于这些探针组,我们检查了在黑猩猩中是否至少存在一种已确定的人类假基因中断,这表明在黑猩猩出现人类分化时,假基因已经不起作用。这给我们留下了28个探针组,通过将这些探针组中的寡核苷酸探针与人类基因组对齐,检查它们与其他基因的交叉杂交。最后,在探针集中16个探针中,有7个以上的探针留下了23个与其他基因不完全匹配的表达假基因。

致谢

我们感谢M.Przeworski对手稿的有益讨论和批判性阅读,M.Leinweber对微阵列数据分析的帮助,以及Jun Li和M.Donaldson对置换测试的批判性见解。这项工作得到了联邦教育与福松部长和马克斯·普朗克学会的支持。

利益冲突。提交人声明,不存在利益冲突。

作者贡献。PK、GW、ML、WE和SP构思并设计了实验。PK进行了实验。PK、GW、ML、IH和BM对数据进行了分析。IH、UW、WA和SP提供了试剂/材料/分析工具。PK、ML和SP撰写了论文。

学术编辑:David Botstein,普林斯顿大学

工具书类

  • 【匿名】人类Unigeneset-RZPD3微阵列——代表51K人类unigene簇的微阵列。可用:网址:http://embl-h3r.embl.de通过互联网。20032004年2月11日查阅。[谷歌学者]
  • Bolstad BM、Irizarry RA、Astrand M、Speed TP。基于方差和偏差的高密度寡核苷酸阵列数据归一化方法的比较。生物信息学。2003;19:185–193.[公共医学][谷歌学者]
  • Butler AB,Hodos W.纽约:John Wiley and Sons;1996.比较脊椎动物神经解剖学:进化和适应;514页。[谷歌学者]
  • Caceres M、Lachuer J、Zapala MA、Redmond JC、Kudo L等。基因表达水平升高区分人类和非人类灵长类大脑。美国国家科学院程序。2003;100:13030–13035. [PMC免费文章][公共医学][谷歌学者]
  • Charlesworth B.研究单个字符进化模式的一些定量方法。古生物学。1984;10:308–318. [谷歌学者]
  • Chen FC、Li WH。人类和其他人种之间的基因组差异以及人类和黑猩猩共同祖先的有效种群规模。美国人类遗传学杂志。2001;68:444–456. [PMC免费文章][公共医学][谷歌学者]
  • Cortes-Canteli M,Wagner M,Ansorge W,Perez-Castillo A。微阵列分析支持CCAAT/增强子结合蛋白β在脑损伤中的作用。生物化学杂志。2004(印刷中)[公共医学][谷歌学者]
  • Enard W、Khaitovich P、Klose J、Zollner S、Heissig F等。灵长类动物基因表达模式的种内和种间变异。科学。2002;296:340–343.[公共医学][谷歌学者]
  • Felsenstein J.Sunderland(马萨诸塞州):西诺协会;2004.推断系统发育;664页。[谷歌学者]
  • Glazko GV,Nei M.灵长类物种主要谱系分化时间的估算。分子生物学进化。2003;20:424–434.[公共医学][谷歌学者]
  • Gould SJ,剑桥(马萨诸塞州):贝尔纳普出版社;1977年。个体发育和系统发育;501页。[谷歌学者]
  • Gould SJ,Lewontin钢筋混凝土。圣马可的拱肩和庞洛斯范式:对适应主义方案的批判。Proc R Soc Lond B生物科学。1979;205:581–598.[公共医学][谷歌学者]
  • Gu J,Gu X.从黑猩猩身上分离后,在人类大脑中诱导基因表达。趋势Genet。2003;19:63–65.[公共医学][谷歌学者]
  • Hayasaka K,Fujii K,Horai S.猕猴的分子系统发育:线粒体DNA 896碱基对区域核苷酸序列的含义。分子生物学进化。1996;13:1044–1053.[公共医学][谷歌学者]
  • Hellmann I,Ebersberger I,Ptak SE,Paabo S,Przeworski M。对人类多样性与重组率相关性的中性解释。美国人类遗传学杂志。2003;72:1527–1535. [PMC免费文章][公共医学][谷歌学者]
  • Hsieh WP,Chu TM,Wolfinger RD,Gibson G.灵长类数据的混合模型再分析表明,基于寡核苷酸的基因表达谱中存在组织和物种偏见。遗传学。2003;165:747–757. [PMC免费文章][公共医学][谷歌学者]
  • Hughes TR、Marton MJ、Jones AR、Roberts CJ、Stoughton R等。通过表达谱简编进行功能发现。单元格。2000;102:109–126.[公共医学][谷歌学者]
  • 伊哈卡·R,绅士·R:一种用于数据分析和图形的语言。J计算图形统计。1996;5:299–314. [谷歌学者]
  • Kandel ER、Schwartz JH、Jessell TM。纽约:McGraw-Hill;2000年,《神经科学原理》,第4版;1414页。[谷歌学者]
  • 肯特·WJ。BLAT-类似BLAST的对齐工具。基因组研究。2002;12:656–664. [PMC免费文章][公共医学][谷歌学者]
  • Kimura M.Cambridge(英国):剑桥大学出版社;1983年,分子进化的中性理论;367页。[谷歌学者]
  • Lande R.表型进化中的自然选择和随机遗传漂变。进化。1976;30:314–334.[公共医学][谷歌学者]
  • Lander ES、Linton LM、Birren B、Nusbaum C、Zody MC等。人类基因组的初步测序和分析。自然。2001;409:860–921.[公共医学][谷歌学者]
  • 李伟。桑德兰(马萨诸塞州):Sinauer Associates;1997年,分子进化;487页。[谷歌学者]
  • Lynch M,Hill工作组。中性突变的表型进化。进化。1986;40:915–935.[公共医学][谷歌学者]
  • Miki R、Kadota K、Bono H、Mizuno Y、Tomaru Y等。通过使用18816个全长富集小鼠cDNA阵列的RIKEN集进行表达谱分析,描绘体内发育和代谢途径。美国国家科学院程序。2001;98:2199–2204. [PMC免费文章][公共医学][谷歌学者]
  • Nieuwenhuys R、Donkelaar HJT、Nicholson C.纽约:Springer Verlag;脊椎动物的中枢神经系统;2219页。[谷歌学者]
  • Oleksiak MF、Churchill GA、Crawford DL。自然种群内和种群间基因表达的变异。自然遗传学。2002;32:261–266.[公共医学][谷歌学者]
  • Ranz JM、Castillo Davis CI、Meiklejohn CD、Hartl DL。性别相关基因的表达和进化果蝇属转录组。科学。2003;300:1742–1745.[公共医学][谷歌学者]
  • Rifkin SA,Kim J,White KP。黑腹果蝇亚群基因表达的进化。自然遗传学。2003;33:138–144.[公共医学][谷歌学者]
  • Saeed AI、Sharov V、White J、Li J、Liang W等。TM4:用于微阵列数据管理和分析的免费开源系统。生物技术。2003;34:374–378.[公共医学][谷歌学者]
  • She JX、Bonhome F、Boursot P、Thaler L、Catzeflis F。该属的分子系统发育穆斯电泳、scnDNA杂交和mtDNA RFLP数据的比较分析。生物J林恩社会。1990;41:83–103. [谷歌学者]
  • Spellman PT、Sherlock G、Zhang MQ、Iyer VR、Anders K等。利用微阵列杂交技术对酿酒酵母细胞周期调控基因的综合鉴定。分子生物学细胞。1998;9:3273–3297. [PMC免费文章][公共医学][谷歌学者]
  • 苏艾,库克议员,清佳,哈克Y,沃克JR,等。人类和小鼠转录组的大规模分析。美国国家科学院程序。2002;99:4465–4470. [PMC免费文章][公共医学][谷歌学者]
  • Torrents D,Suyama M,Zdobnov E,Bork P.人类假基因全基因组调查。基因组研究。2003;13:2559–2567. [PMC免费文章][公共医学][谷歌学者]
  • Turelli M,Gillespie JH,Lande R.宏观进化和微观进化中数量性状选择的速率检验。进化。1988;42:1085–1089.[公共医学][谷歌学者]
  • Zhang Z,Harrison PM,Liu Y,Gerstein M.《保存了数百万年的进化史:人类基因组中加工假基因的综合目录》。基因组研究。2003;13:2541–2558. [PMC免费文章][公共医学][谷歌学者]

文章来自PLOS生物学由以下人员提供多环芳烃