介绍ECM蛋白通常由多个蛋白结构域组成,其基因结构是通过外显子洗牌首次发现的(恩格尔,1996;帕蒂,1999年;Hohenester和Engel,2002年). ECM蛋白的生化分析始于脊椎动物。然而,随着cDNA和基因组序列的可用,越来越明显的是,许多ECM基因(如胶原蛋白和层粘连蛋白)非常古老,在过去十年中,随着许多后生动物基因组序列的测定,人们认识到许多ECM编码基因起源于后生动物进化的早期。特别是,不同双足类生物(哺乳动物、苍蝇、蠕虫、海胆和海鞘)的基因组揭示了所有双足类共有的一组ECM蛋白(Hynes和Zhao,2000年;Whittaker等人,2006年;赫胥黎-琼斯等人,2007年)这与所有这些生物体中普遍存在的ECM结构(如基底膜)一致。最近,非双壁类后生动物和基底后生动物的基因组(参见方框1和为了总结后生动物的系统发育),以及后生动物的单细胞亲缘关系,已经允许研究这组常见ECM蛋白的起源。此外,越来越多的基因组信息使得研究ECM蛋白在不同进化谱系中的精细化、多样化和专门化,以服务于不同的功能作用。在这篇简短的综述中,我将总结我们目前对ECM蛋白多样性和进化的理解,并尝试将它们与多细胞性的进化和后生动物的后续进化联系起来。
方框1。后生动物系统发育概述
出租车:
任何系统发育类群,如门、纲、属或种。
覆层:
共有一个共同祖先的一群生物。也适用于进化和分化相关的蛋白质组。
后生动物:
多细胞动物。
真后生动物:
所有后生动物,除了Porifera(海绵)、Placozoa和其他一些不知名的分类群。在后生动物中,有两个定义明确的双侧对称动物分支;原口目和后口目,被归为双耳目。原口目有两个亚类:蜕皮纲,包括节肢动物和线虫;包括软体动物、环节动物、扁虫和其他动物。Deuterostomes包括棘皮动物、半脊索动物、原脊索动物和脊索动物。真后生动物还包括另外两个分支:栉水母(梳水母)和水母纲(水螅类海葵、水母等),传统上被视为径向对称(但请参见Martindale等人,2002年;Ball等人,2004年). 它们有时被归入放射纲或腔肠纲;然而,ctenophores和cnidaria之间的系统发育关系尚不确定,目前还没有完整的基因组序列可用于ctenophos。主要的动植物系统发育划分概述于; 它们都出现在超过5.4亿年前的寒武纪之前。
所有的肺原虫都有上皮层,显示出顶端-基底极性,下面是基底膜。双胚层有三个胚层(外胚层、内胚层和中胚层),而辐射层有两个上皮层,其间和之间的间质细胞有限。有两个后生动物门(有时归入副生动物门)是后生动物的基础,没有任何明显的对称轴:Placozoa,它是扁平的双层生物,细胞类型非常有限(大约四种),没有明显的基底膜或ECM;和海绵,其中大多数细胞缺乏上皮组织。大多数海绵缺乏基底膜,但存在间质ECM。原生动物和真后生动物之间的确切进化关系尚未完全确定。大多数系统发育分析表明,Placosoa比Porifera更接近真后生动物,如(但请参见Schierwater等人,2009年)我们将看到,ECM蛋白补体的分析与此结论相符。
真核系统发育和ECM蛋白的出现。该图描绘了真核生物的主要分类划分(方框1),并基于已发布的系统发育分析(例如。,Philippe等人,2005年,2009;Shalchian-Tabrizi等人,2008年;Pick等人,2010年)以及全基因组序列分析(见正文)。有完整基因组序列的分类群用星号标记。该图表示关系的拓扑,分支长度并不是为了反映准确的进化距离。apusomonads与placosoa的关系尚不明确;它们在图表中的位置部分受到ECM相关基因分析的证据的影响(见正文)。带有ECM蛋白补体的分类群位于淡蓝色六边形内,这是所有双壁动物的典型特征。用绿色或蓝色文本突出显示的红豆杉具有一些双边ECM蛋白或其受体的同源物(见正文),但缺乏一套完整的同源物。这些生物体中已知ECM蛋白组的复杂性从左到右增加。相反,灰色梯形内的分类群没有证据表明后生动物ECM蛋白有任何可信的例子。相关基因/蛋白质或结构域的首次已知外观用红色标记。请注意,出现在给定特征起源右侧(即之后)的分类单元可能已丢失;例如,迄今为止测序的后鞭毛虫中没有整合素果蝇属(在这两种情况下,可能是由于基因丢失)。
后生动物ECM蛋白的主要特征和种类
根据定义,ECM是相对或完全不溶于水的蛋白质集合,形成基底膜、间质基质、肌腱、软骨、骨骼和牙齿等结构。组成这些不同ECM的蛋白质通常较大,具有多个特征域,专门用于ECM组装或向ECM招募细胞或其他蛋白质(如生长因子或细胞因子)所必需的蛋白质相互作用(Hynes,2009年;Hynes和Naba,2011年; 看见和用于说明域结构)。ECM蛋白经常通过酶和非酶反应交联,进一步导致其不溶性。ECM蛋白质的大尺寸、复杂性和不溶性使其分析具有挑战性,但完整基因组序列的可用性及其编码蛋白质的推断补充使得ECM蛋白质的库存相当可靠,并允许在物种之间进行比较分析。这些分析清楚地表明,所有的双纹纲分类群都有一组共同的ECM蛋白,在某些谱系中偶尔出现基因丢失的例子,以及基于这组共同蛋白的许多分类单元特异性修饰的例子。
基底膜工具箱。该图显示了后生动物基底膜核心蛋白的结构域,主要基于使用SMART和Pfam结构域定义的结构域预测。所有的双食道分支都在基因组中编码这组九种蛋白质。通常有两个不同的层粘连蛋白α亚基,层粘连素β和γ亚基各一个。每个子单元都有一个特征域组织。层粘连蛋白原聚体是一种αβγ三聚体(如左上角所示),通过每个亚基(红色)和二硫键(未示出)中的卷曲-线圈结构域结合。IV型胶原是由两个同源亚单位α1和α2组成的三聚体,通常在基因组中以头对头的方式相邻,两个基因之间只有一个启动子。C4结构域的特征对位于所有IV型胶原蛋白的C末端,胶原蛋白段(fuschia)被中断,从而具有灵活性。IV型胶原原聚体通过其N和C末端以及二硫键结合形成“鸡丝”网络,为基底膜提供结构强度。层粘连蛋白与胶原网络和巢蛋白结合。Perlecan是一种复杂的硫酸乙酰肝素蛋白聚糖,也被整合到基膜中。另外两种胶原蛋白,XV和XVIII型,也与脊椎动物基底膜有关,并且在所有的双侧壁分支中都存在一种同源物。这个“工具箱”在5亿多年的高度保存证明了基底膜的重要性。
ECM蛋白示例。(A) 所有双食道分支共有的蛋白质:聚合蛋白、狭缝和血小板反应蛋白。图中显示了脊椎动物蛋白质的结构域图。Agrin参与突触组织和轴突引导中的缝隙家族成员,尽管两者也参与其他过程。至少根据目前的基因预测,在所有的双食道分支中都发现了具有类似结构域排列的蛋白质,尽管偶尔会丢失结构域。凝血酶原响应蛋白的特征是C末端结构域集(括号内),它可以与多种额外的N末端结构域相关联(Bentley和Adams,2010年;亚当斯和劳勒,2011年). 所示的特定域集(包括TSPN、VWC和TSP1重复)是所谓的A型血小板反应蛋白。A型血小板反应蛋白仅见于后肠造口,但所有双侧食道都编码B型血小板反应素,缺乏TSPN、VWC和TSP1结构域,但通常有EGF重复,有时还有其他结构域。(B) 仅在脊索动物谱系中发现的蛋白质:腱连蛋白、纤连蛋白和VWF。这些蛋白质在后口类谱系中进化(见正文),并例证了不同种类的结构域洗牌。Tenascins由远古结构域(EGF、FN3和FBG)构建而成,这些结构域存在于后生动物(甚至低等生物)的许多蛋白质中。然而,tenascins中的一组特殊结构域首先出现在文昌鱼(文昌鱼)中,该家族在脊椎动物中扩展。纤维连接蛋白是由古老结构域(FN3)、新近结构域(F N2)和脊索特异结构域(F1)混合而成。唯一真正的纤维连接蛋白是脊椎动物特有的,并且在该亚门内高度保守且必不可少。VWF基于一种古老的基因结构(粘蛋白),通过插入三个VWA域(括号内)而改变,其中包含VWF在脊椎动物止血中的许多关键功能。所有这三种脊椎动物ECM蛋白都包含RGD基序(星号),它们是整合素结合的位点。
地下室膜工具箱基底膜是大多数后生动物的一个特征,可以说是组织和上皮组织的一个基本特征,为上皮细胞层的粘附和细胞基底-顶端极性的定义提供了场所(Fahey和Degnan,2010年). 最初对脊椎动物进行的研究,最近对无脊椎动物进行了研究,确定了基底膜的主要蛋白质成分(). 所有基底膜都由一组共同的相互作用蛋白质组成(尤尔琴科,2011年):交联IV型胶原的核心网络与层粘连蛋白(相关α、β和γ亚基的三聚体)相关;nidogen,层粘连蛋白结合糖蛋白;和perlecan,一种非常大且复杂的硫酸乙酰肝素蛋白多糖。引人注目的是,在两个模型原生动物的基因组中发现了编码这组长期存在于脊椎动物中的特征蛋白质的基因,秀丽隐杆线虫(Hutter等人,2000年)和黑腹果蝇(Hynes和Zhao,2000年)十年多前测序时。两种同源的小胶原蛋白XV和XVIII也被观察到与脊椎动物基底膜有关,尽管它们的功能过去和现在都不太清楚。在苍蝇和蠕虫基因组中也发现了编码胶原XV/XVIII同源物的基因。这组9–10个基因(2个层粘连蛋白α、1个层粘连蛋白β、1个层粘连蛋白γ、2个IV型胶原亚基、nidogen、perlecan和1–2个胶原XV/XVIII同源物;)基本上在每一个已测序的双侧体基因组中都有发现,我们称之为“基膜工具箱”(Whittaker等人,2006年). 与大多数ECM蛋白一样,基底膜蛋白的核心成分是由一组定义明确的蛋白质结构域构成的(;恩格尔,1996;Hohenester和Engel,2002年). 这组高度保守的基因在双食道动物基因组中已经存在了5亿多年。这种保守性表明了该工具箱及其组成蛋白质的各个域的本质。
纤维和其他胶原蛋白脊椎动物中最普遍和最早描述的胶原蛋白是那些具有长而不间断的胶原蛋白重复序列的胶原蛋白,通常长约1000个氨基酸。它们包含三肽单元Gly-X-Y的多个重复,其中X通常是脯氨酸,Y通常是羟脯氨酸。这种重复的氨基酸结构使胶原蛋白亚基能够组装成三螺旋原聚体。编码六个重复Gly-X-Y三肽的原始外显子(54 bp)经过复制和修饰(如缺失和融合),始终保持内含子的相同相位,因此编码胶原重复单位的外显子可以以不同的数量和其他结构域进行组装。在脊椎动物中,有超过40个胶原蛋白基因编码不同的胶原蛋白(里卡德·布卢姆,2011年). 哺乳动物原纤维胶原(11个基因)具有胶原重复序列,其两侧为N末端的特征性非胶原结构域和C末端的COLFI结构域。相反,IV型胶原蛋白基因编码中断的胶原蛋白重复序列和一对特征的C末端C4结构域(). 其他脊椎动物胶原蛋白在这些主题上存在差异,有不同的胶原蛋白重复序列,有中断也有中断,其间散布着其他ECM域,如FN3和VWA域(里卡德·布卢姆,2011年). 稍后我们将讨论胶原蛋白家族的分类特异性扩张(参见“分类特异性详细说明”)。
如前所述,IV型胶原蛋白起源于前寒武纪。纤维胶原也是如此。原纤维胶原聚集成间质结缔组织基质的特征性条纹胶原纤维,并为这些ECM提供结构强度。因此,它们在多细胞生物的完整性中起着至关重要的作用。海绵是最原始的后生动物门,海绵中含有纤维性胶原蛋白(方框1和). 三种原纤维胶原亚片(A、B和C)出现于真虫辐射之前,广泛分布于双侧壁,但并不普遍(Exposito等人,2008年,2010;Heino等人,2009年). 例如,果蝇属缺乏任何纤维胶原,这表明该谱系中相关基因的丢失。
蛋白聚糖类除了珍珠糖外,脊椎动物基因组还编码许多其他蛋白聚糖,哺乳动物中约有36种。其中许多人分为两大家族(Merline等人,2009年;谢弗和谢弗2010):一个由LRR结构域构建,另一个被称为hyalectans,包含N末端IgV和LINK结构域以及C末端EGF-CLEC-CCP结构域单元,侧翼有一个带有连接的糖胺聚糖的中央部分。此外,一个名为SPOCK或睾丸的小蛋白家族与ECM糖蛋白SPARC/骨连接蛋白有关。睾丸、LRR重复蛋白多糖和透明质细胞仅在脊索动物中有报道,稍后将讨论。蛋白质多糖的两个膜结合家族-合癸糖和球蛋白聚糖(Couchman,2010年)-像perlecan一样,遍布双侧(Ozbek等人,2010年).
ECM糖蛋白哺乳动物基因组编码约200种不同于胶原蛋白和蛋白聚糖的ECM糖蛋白(Hynes和Naba,2011年;Naba等人,2011年). 这些ECM糖蛋白也由50多种不同类型的结构域的特征阵列构建而成(和). 与胶原重复序列一样,这些结构域通常由单个外显子或外显子组编码,这些外显子在编码这些结构域的外显子单元的进化过程中允许洗牌,以构建多种ECM蛋白。虽然相同的结构域可以出现在许多不同的蛋白质中,包括ECM和非ECM蛋白质,但结构域的组成、顺序和数量是单个ECM蛋白质的特征;也就是说,它们是由域体系结构定义的。如图所示,其中层粘连蛋白亚基明显彼此相关,并与nidogen和perlecan共享结构域。正如我们将要讨论的那样,许多哺乳动物和脊椎动物ECM蛋白仅限于晚期进化的分类群。然而,它们中的一些在双耳动物中广泛存在,更多的例子显示在这些古老的ECM糖蛋白,就像基底膜工具箱中的糖蛋白一样(),自6亿年前双边分歧以来一直受到强烈的选择,必须具有基本功能。
ECM系统发育的挑战ECM蛋白进化的分析提出了一些挑战。如前所述,ECM蛋白质大而复杂,具有多个结构域,它们彼此之间以及与许多其他蛋白质共享。EGF、LRR、FN3和Ig等结构域广泛存在于后生动物基因组编码的许多蛋白质中,它们本身并不定义ECM蛋白质。因此,简单的基本局部比对搜索工具(BLAST)或结构域搜索为大多数ECM蛋白质产生了多个部分同源物,如果没有结构域组成分析的补充,可能会产生误导。诊断特定ECM蛋白的是结构域的模式或排列。然而,由于这些基因很大,有许多外显子,因此在基因组、EST、cDNA和推断蛋白质的当前数据库中,它们经常不完整或中断。因此,ECM蛋白的基因预测要比许多其他基因的预测困难得多。彻底的分析需要高质量的基因组或cDNA序列,通常还需要进一步的注释,以生成完整可靠的ECM蛋白预测。对于许多分类群来说,这只是最近才有可能实现的,但近年来基因组信息的爆炸性增长为ECM蛋白质的起源以及ECM本身的起源提供了线索。这些数据允许将ECM的比较基因组学扩展到双壳类以外。
基因组翻译起始因子(海葵;Putnam等人,2007年)和枕骨水螅(查普曼等人,2010年)揭示了蛇形目动物共享许多但不是在双耳动物中发现的整个核心ECM蛋白质组。其中一些蛋白质之前已经根据cDNA克隆进行了描述,但完整的基因组可以得出关于缺少什么以及存在什么的结论(以上一段中提到的限定条件为准)。对比分析Fahey和Degnan(2010)信息量特别大。他们清楚地表明向量猪笼草编码大多数基底膜工具箱的良好同源物:层粘连蛋白(1α、1β和1γ)、巢蛋白、珍珠糖和胶原蛋白(IV和XV/XVIII)。H.magnipapillata公司也编码这些蛋白质,而cnidaria编码所有三个纤维胶原分支的例子。它们还编码纤维蛋白和血小板反应蛋白的同源物()以及其他一些ECM蛋白。在尘螨中还保存着ECM蛋白的细胞受体:整合素,它结合许多ECM蛋白;dystroglycan,结合层粘连蛋白和agrin;和结合血小板反应蛋白的CD36,以及膜蛋白聚糖、syndecan和glypican(Hynes和Zhao,2000年;Huhtala等人,2005年;Ewan等人,2005年;Whittaker等人,2006年;Knack等人,2008年;Ozbek等人,2010年). 因此,所有真后生动物的基因组似乎都编码一组常见的ECM蛋白,尽管对栉水母的数据很少。单个分类群可能缺少这一组中的一些,但很明显,真虫的共同祖先拥有相当复杂的ECM蛋白库,在随后的进化过程中基本上是保守的。
基底后生动物细胞外基质的进化考虑到所有有壳动物中ECM蛋白核心组的这种强烈保守性,询问编码这些蛋白的基因在进化过程中何时出现,并试图将其出现与获得新的形态和发育特征联系起来,显然很有意义。最接近后生动物的分类群是Placozoa和Porifera(海绵)。这两个门的基因组最近已经完成:placosoan丝盘虫(Srivastava等人,2008年)和Demosmap大堡礁海绵(Srivastava等人,2010年). 这些基因组已被证明对ECM蛋白的起源有相当丰富的信息(另请参阅Fahey和Degnan,2010年和Ozbek等人,2010年). 如前所述,两种生物体都没有真正的基底膜。然而阿达伦锥虫基因组编码相当好的IV型胶原同源序列(两个亚基);层粘连蛋白α、β和γ亚基;以及巢蛋白和珍珠岩,基本上是除XV/XVIII型胶原蛋白外的整个基底膜工具包。这是一个令人惊讶的结果,因为据报道阿达伦锥虫它表明阿达伦锥虫含有构成基底膜的成分。也许在阿达伦锥虫生命周期中,基底膜被组装,或者可能需要一些其他蛋白质来进行组装,或者作为细胞表面受体。阿达伦锥虫确实编码潜在的层粘连蛋白受体,包括dystroglycan和整合素,尽管后者与双侧壁整合素亚类的同源性尚未被探索。确定基膜蛋白和这些潜在受体的生物合成模式和分布将很有意义阿达伦锥虫。
相比之下A.昆士兰基因组编码所有三种层粘连蛋白亚基的同源物,尽管结构域组成不完全匹配(Fahey和Degnan,2010年),但不编码基底膜工具箱中的任何其他蛋白质,这与海绵体内没有基底膜一致。由阿达伦锥虫与相比A.昆士兰与Placozoa与真后生动物更密切的进化关系一致,如图所示然而,应该注意的是,海绵是多种多样的,有四个不同的分支(Gazave等人,2010年)据报道,其中一种同型硬化症具有基底膜。事实上,IV型胶原蛋白cDNA已经从贾雷假皮质醇,一块同质硬化海绵(Boute等人,1996年). 因此,一些海绵可能会表达基底膜工具箱并组装基底膜,这是未来研究的一个明显主题。
这个阿达伦锥虫基因组还编码许多其他候选ECM糖蛋白,包括B型血小板反应蛋白的同源物(尽管在当前的基因组组装中,该基因可能与另一个融合)和与agrin的部分匹配。基因组包括许多已知ECM域的基因,这些基因以不寻常的组合形式存在于肺吸虫中。其中一些推测的蛋白质包括预测的跨膜结构域,实际上可能是表面糖蛋白,而不是真正的ECM蛋白质。与海绵相比,在阿达伦锥虫。然而,很明显,这个只有四种已知细胞类型的简单生物体精心培育了大量编码多个ECM域的基因。与迄今为止分析的海绵物种相比,Placosoa中ECM蛋白的表达似乎进一步发展。进一步比较分析阿达伦锥虫基因组和海绵的基因组应该进一步阐明这些简单后生动物细胞外结构域的不同组合的进化。
单细胞生物ECM结构域早期进化的迹象人们普遍认为,鞭毛虫是后生动物最接近的单细胞亲缘动物(King等人,2003年,2008). 它们的特征性细胞组织与海绵的滋养细胞choanocytes相似,在单个顶端鞭毛周围有一圈以肌动蛋白为基础的丝状伪足。的完整基因组海洋生物领鞭毛虫(King等人,2008年)和部分罗塞塔Salpingoeca(广泛研究所多细胞起源倡议;http://www.broadinstitute.org/annotation/genome/multicellarity_project/MultiHome.html)发现这两种长鞭毛虫编码一些以前被认为是后生动物特有的蛋白质。这些包括细胞-细胞粘附受体钙粘蛋白的同源物。某些整合素结构域在钩鞭毛虫中的存在也可能表明在ECM介导的粘附中起作用,但没有真正的整合素。有几个基因编码α整合素重复序列,但没有一个看起来像是完全发育的整合素亚基,也没有证据表明有任何β亚基(King等人,2008年). 此外,两个基因组都没有编码基底膜工具箱中的任何蛋白质。虽然有几种蛋白质包含一个或多个层粘连蛋白结构域,但在结构域组织的复杂性中,只有一种接近真虫(或Placozoan或海绵)层粘连蛋白质亚基。然而,它缺乏一些结构域,不是真正的同源物,也没有证据表明层粘连蛋白αβγ异源三聚体。此外,IV型胶原、nidogen和perlecan似乎都不存在(King等人,2008年; 未发布的数据)。这两种长鞭毛虫都编码几个带有胶原重复序列的蛋白质,其他的带有COLFI结构域,但到目前为止从未在同一个蛋白质中编码,这表明它们缺乏真正的原纤维胶原蛋白。这两种长鞭毛虫都编码具有多个胶原蛋白重复序列和VWA结构域的蛋白质。这在表面上让人联想到某些脊椎动物胶原蛋白,但领域结构中的匹配并不好(未公开的数据)。
因此,长鞭毛虫确实编码几个特征ECM结构域,但到目前为止,还没有发现与双鞭毛虫ECM蛋白的真正匹配(King等人,2008年;Ozbek等人,2010年; 未发布的数据)。这种不寻常的VWA胶原蛋白可能代表一种早期ECM蛋白,并且有人认为每个基因组中都编码一种类似纤维蛋白的蛋白(Ozbek等人,2010年). 然而,这些提议的类纤维蛋白仅由EGF重复序列组成,缺乏纤维蛋白的TGF-β结合TB结构域,并且具有跨膜结构域,因此它们与纤维蛋白的同源性根本不接近(未发表的数据)。纤维素酶和同源的潜在转化生长因子β结合蛋白(LTBPs)参与结合和调节TGF-β家族成员,但迄今为止,似乎起源于肺原虫(Robertson等人,2011年); placosoa、海绵和短鞭毛虫没有TB结构域。事实上,短颈支原体实际上并不编码很多ECM型蛋白和许多已知的ECM结构域,它们在保守的双侧壁ECM蛋白中发挥重要作用(比较和)似乎在基因组中缺失。Ig家族域也很少,只有几个其他ECM域的一个或两个拷贝,相比之下,所有这些都在阿达伦锥虫基因组(未公布的数据)。
总之,在这一点上,很明显,鞭毛虫基因组包含ECM蛋白质的一些典型结构域(LamNT、LamG、FN3、VWA、EGF、COLFI和胶原重复),但似乎没有将它们组装成后生动物ECM蛋白质中所见的结构域的特征排列。它们还缺少许多其他ECM域。大多数后鞭毛虫是单细胞的,尽管S.罗塞塔确实有殖民时期。因此,向多细胞性的转变似乎涉及到先前存在的结构域的大量洗牌(King等人,2008年)以及许多新事物的演变。
包含后生动物、鞭毛虫、真菌和其他一些单细胞亲缘物种的分类单元称为opisthokonts。虽然真菌不包含ECM蛋白(或整合素)的可靠同源物,但其他一些opisthokonts确实编码一些整合素亚基(Shalchian-Tabrizi等人,2008年;Sebé-Pedroós等人,2010年),但到目前为止还没有关于ECM蛋白的报告。一种额外的单细胞生物,编码整合素β亚基,但迄今为止没有α亚基(Thecamonas trahens公司以前被认为是Amastigomonas sp),是一种无睡眠状态(Sebé-Pedroós等人,2010年). 这一组的系统发育位置尚不确定,但共有的整合素亚基表明与这里讨论的其他单细胞生物有关系(比较). 在这些单细胞opisthokonts中存在功能未知的整合素同源物,这表明整合素可能在长鞭毛虫谱系中丢失。为什么这些单细胞生物编码整合素尚不清楚。一种可能性是整合素在吞噬作用中起作用,正如被认为是钩鞭毛虫中的钙粘蛋白一样(King等人,2008年). 观察这些单细胞分类群代表的整个基因组,并研究其整合素的表达和功能,以及是否存在ECM配体,将是一件非常有趣的事情。
特定于税收的详细说明至于大多数其他类别的基因和蛋白质,当人们登上生命之树时,“基质体”的复杂性稳步增加,基质体是一组对ECM起作用的蛋白质。这种增加包括几个不同的过程。通过现有基因的复制和分化以及添加新的结构域,包括在早期分类群基因组中根本没有观察到的结构域等,存在着基质体的分类单元特异性修饰的显著例子。在本节中,我们将考虑一些示例来说明这些过程。
基底膜。
如前所述,迄今为止研究的所有真虫基因组基本上都编码一组构成基底膜的蛋白质(). 这种核心基膜工具包存在于placozoa、cnidaria、原口目和无脊椎动物后口目中,变化很小,似乎足以组装所有这些生物体的所有基膜。然而,脊椎动物编码大多数这些蛋白质的多个副序列;只有perlecan仍然是脊椎动物基因组中唯一的基因/蛋白质。哺乳动物有多个层粘连蛋白亚基:三对IV型胶原亚基,包括胶原XV和胶原XVIII,以及两个巢蛋白。这种扩展与脊椎动物进化过程中发生的两次全基因组复制一致。这些Paralog在结构和表达模式上都经历了分歧。例如,在重复的层粘连蛋白亚基(6α、3β和3γ)中,一些亚基改变了结构域的模式并组装成不同形状的三聚层粘连素原聚体(尤尔琴科,2011年),并且三个IV型胶原基因对在发育过程中和在不同组织中差异表达。因此,脊椎动物组织的基底膜彼此不同,尽管我们还不清楚这种差异的全部含义,但很明显,这是脊椎动物复杂性增加的原因。
胶原蛋白。
胶原蛋白基因家族提供了许多分类单元特异性差异的例子,以满足特定目的。虽然原纤维胶原的三个分支在真虫分化之前就有一个古老的起源(Exposito等人,2008年,2010;Heino等人,2009年),各个世系以不同的方式扩展了这一集合。脊椎动物再次提供了一些主要的例子。三个分支中的每一个都已扩展(总共形成了11个纤维胶原基因),每个分支的个别成员已专门用于不同的功能;每个胶原分支中的一个选择性地表达在脊索、软骨和骨骼中(Wada等人,2006年). 脊椎动物基因组还编码带有额外ECM域的复杂胶原蛋白,如VWA和FN3。这些不是新开发的领域;两者都广泛存在于许多其他基因中(;Whittaker和Hynes,2002年)和VWA结构域确实发生在功能未知的胶原蛋白基因中H.magnipapillata公司(Zhang等人,2007年)如前所述,在短鞭毛虫中。有几种特殊的脊椎动物胶原蛋白包含VWA和FN3结构域。这些包括FACIT胶原蛋白,在胶原纤维上形成侧支;以及胶原蛋白VI和VII,它们聚集成短纤维,将基底膜连接到皮肤等部位的下层间质ECM(有关综述,请参阅里卡德·布卢姆,2011年). 这些额外结构域的加入赋予了这些胶原蛋白额外的相互作用能力,允许组装对生物体重要的高阶结构。
另一个例子来自海绵。它们编码一个短链胶原蛋白家族(~120 Gly-X-Y重复序列),称为海绵蛋白,形成外骨骼(常见于沐浴海绵的形式)。海绵有一个与IV型胶原蛋白远相关的C末端结构域,并且在共生动物/后生动物分裂之前似乎与这些基底膜胶原蛋白发生了分化(Aouacheria等人,2006年). 海绵蛋白的亲属在其他无脊椎动物中也有发现,尽管在蜕皮动物或脊椎动物中没有发现,海绵蛋白基因可能已经在这些谱系中丢失了。线虫,C、。
雅致就是这样的蜕皮激素。相反,这种蠕虫的基因组编码了大量(>160)胶原蛋白基因(Hutter等人,2000年;Myllyharju和Kivirikko,2004年). 它们编码短胶原蛋白链(~50个胶原蛋白Gly-X-Y重复序列),形成蠕虫的角质层,这种结构在每次幼虫蜕皮时都会发生重塑。不同组的角质层胶原蛋白基因在不同的时间表达。因此,这是一种线虫特异性的扩张,这种特殊胶原蛋白家族具有分类素特异性ECM功能,即角质层。相比之下,果蝇(也包括蜕皮激素类)具有基于几丁质的外骨骼,它们完全没有纤维胶原蛋白,也失去了这些基因。
双口目和脊椎动物。
胶原蛋白基因的结构由多个外显子组成,具有共同的密码子相位,允许外显子洗牌以产生上述不同的胶原蛋白。类似地,大多数ECM结构域被编码为外显子单位,这使得外显子改组能够开发出新的基因,用新的结构域结构编码ECM蛋白。新ECM基因和蛋白质结构进化的例子在脊椎动物的后肠口谱系中尤其普遍(). 虽然原口和后口分支的无脊椎动物具有相似的ECM蛋白质组(除了偶尔的胶原类的分类特异性扩增外),但脊椎动物具有显著扩增的ECM蛋白质,编码多种新颖的ECM蛋白质。因此,尽管后口海胆与苍蝇和线虫的原口分类群共享大多数ECM蛋白,但它们缺乏脊椎动物中发现的许多ECM基因(参见Whittaker等人,2006年;赫胥黎-琼斯等人,2007年; 和Ozbek等人,2010年更多完整列表)。我们已经提到了胶原蛋白基因数量的大幅增加,这是由于复制和分化(如原纤维胶原蛋白)以及新型结构域的发展。脊椎动物还编码几个蛋白多糖家族(LRR重复PGs、透明质蛋白和testican),所有这些都不存在于海胆基因组、原口动物和线虫中。透明质蛋白包括新的LINK结构域,这种蛋白在原口类或海胆中没有发现,在海胆中只有两次发现(然后在类似于海胆的环境中也没有发现)。该结构域与透明质酸(一种高分子量的糖胺聚糖)结合,并允许蛋白聚糖组装成多蛋白聚集体,这对软骨结构以及其他ECM都很重要。许多其他脊椎动物特异性ECM蛋白也可能参与定义脊椎动物的主要结构ECM的组装和功能。然而,也有许多新的脊椎动物ECM蛋白,其功能似乎与软骨、骨骼或牙齿没有明显联系。
Deuterostome系统发育和ECM蛋白的精细化。该图显示了根据中概述的相同原理进行的中肠口进化编码在所有双壳类植物基因组中的核心ECM蛋白组被用黑色框起来。这些蛋白质中的许多也存在于cnidaria中(见正文)。指出了后口类谱系的主要分类群及其目前所知的关系,并指出了具有代表性的动物。首次报道的特殊蛋白质的外观用红色标记。
海胆和其他无脊椎动物中缺失的ECM蛋白包括tenascin、fibronectin和von Willebrand因子(VWF;Whittaker等人,2006年). 所有这三种蛋白质都包含其他ECM蛋白质中未发现的结合域的新组合(),它们说明了许多其他脊椎动物特异性ECM蛋白的一些共同问题。Tenascins包括多个EGF和FN3域和一个C端FBG域。所有这些区域都起源于古代,但这种组合只在中肠口中发现。海胆基因组不编码tenascin,而是编码文昌鱼文昌鱼、披针鱼、头索动物;Putnam等人,2008年),肠蝉、和海鞘(海鞘、海鞘、被囊动物、尾索动物;Dehal等人,2002年)所有的脊椎动物都编码多个tenascin(塔克和奇奎特·埃里斯曼,2009年;Chiquet-Ehrismann和Tucker,2011年). 不同的脊椎动物腱蛋白在各种ECM中差异表达,包括在中枢神经系统(CNS)以及炎症和致癌过程中的ECM,鉴于它们与疾病状态的关系,显然在脊椎动物中发挥着重要作用(Chiquet-Ehrismann和Tucker,2011年). 纤维连接蛋白在后口谱系中出现得更晚。与tenascins相比,纤维连接蛋白确实包含新的结构域;虽然FN3结构域起源古老,但FN2和FN1结构域是最近发展起来的,主要局限于脊索动物。脊椎动物纤维连接蛋白的结构在整个脊椎动物亚门中高度保守,一旦组装,该基因似乎受到了强烈的选择,并且它对每个被测物种的生命都至关重要。海鞘确实编码纤维连接蛋白相关基因(塔克和奇奎特·埃里斯曼,2009年)具有所有三个纤维连接蛋白结构域(FN1、-2和-3),但缺乏纤维连接蛋白结构和功能的关键特征(结构域和基序),具有脊椎动物纤维连连接蛋白中未发现的其他结构域,最好将其视为原纤维粘连蛋白(未发表的数据)。VWF是我们将在本文中讨论的最后一种脊椎动物ECM蛋白。该基因在哺乳动物、鸟类、两栖动物和鱼类(可能还有其他脊椎动物)中保守。至于纤连蛋白,在腹水中似乎存在原VWF,其具有相似的结构域,但排列不同,并包括额外的结构域(未发表的数据)。VWF是止血的关键蛋白,在高剪切条件下(如小动脉中的剪切条件)负责血小板粘附(萨德勒,2009年;Bergmeier和Hynes,2012年). 因此,它的功能似乎只有在脊椎动物中才是必要的。其结构域表明,它与许多无脊椎动物中发现的粘蛋白有关;关键创新在于包含了一组三个VWA结构域,它们与血小板上的胶原(如某些整合素)和细胞表面受体GPIb/V/IX结合。
这三种蛋白质,以及胶原蛋白,例证了结构域洗牌的作用以及向ECM蛋白质添加新结构域以赋予新功能。对于VWF,根据我们对其在哺乳动物中止血作用的了解推断其新功能似乎是合理的。脊椎动物中的tenascins和fibronectin的进化选择了哪些新功能?它们可能是脊椎动物特有结构ECM(如软骨)发育所必需的(如一些胶原蛋白和蛋白聚糖),但tenascin和fibronectin在此类ECM中没有明显作用。另一种可能性是神经嵴迁移,这是脊椎动物发育的一个关键特征;tenascin C和纤维连接蛋白都在神经嵴中强烈表达,纤维连接到蛋白在这种迁移和体节凝集中起着重要作用(Hynes 1990年),另一种脊椎动物的突触形态。内皮内衬血管系统和高压循环的发育和功能也是脊椎动物的特化。纤维连接蛋白显然在那里起作用,而tenascin在脊椎动物中枢神经系统中表达(Chiquet-Ehrismann和Tucker,2011年)和许多其他ECM蛋白一样,包括泛泛泛蠕虫蛋白、层粘连蛋白、内脏蛋白、缝隙蛋白和聚合蛋白,以及后期进化蛋白(如卷轴蛋白和血小板反应蛋白-1)和脊椎动物特异性蛋白,如蛋白多糖和SCO-反应蛋白(Barros等人,2011年).
结束语最近完成的cnidaria基因组序列表明,已知的所有双栖分类群共有的一组ECM蛋白起源于6亿年前的真后生动物辐射之前,并且其中许多蛋白自那时以来一直保存下来,这表明ECM对后生动物生命的重要性。此外,基础后生动物的基因组序列表明,扁平动物具有许多相同的蛋白质,最显著的是包括基底膜工具箱。海绵中的ECM蛋白有一些比较简单的储备,而基因组信息可用的海绵样品缺少基底膜工具包。因此,就ECM含量而言,placosoa似乎比demospanes更接近于真虫,尽管关于其他海绵分支的信息将是未来感兴趣的。以后生动物ECM蛋白的核心作为参考点,人们可以问这些蛋白是什么时候在前后生动物有机体中出现的,以及如何在高阶分类群中扩展其功能。
后生动物-鞭毛虫最近的单细胞近亲基因组编码ECM蛋白的一些特征域,但似乎没有以后生动物ECM蛋白的典型组合和模式组织它们。鞭毛虫也缺乏ECM受体,如整合素。然而,尽管还没有检测到后生动物型ECM蛋白,但其他一些单细胞阿片细胞确实编码整合素。因此,ECM蛋白中复杂结构域的组装似乎伴随着多细胞性的获得,placosoa显示出新ECM蛋白的广泛精细化,其结构域组合在别处未见报道。ECM蛋白的核心组显示出多种分类单元特异性扩增以满足特定需求。这在导致脊索动物和脊椎动物的后口谱系中尤为明显。这些分类群通过基因复制和分化,以及新ECM蛋白的进化,包括旧结构域的新排列以及偶尔添加新结构域,极大地扩展了ECM蛋白的库。这组不同的ECM蛋白的进化是由其模块化蛋白质结构实现的,单个域编码为外显子单元,允许在进化过程中进行洗牌。