摘要

纤毛病是由纤毛或鞭毛的结构或功能缺陷引起的多效性疾病,反映了纤毛在发育过程中在干细胞、体器官和生殖细胞中的多重作用。高通量研究揭示了数百种与纤毛的组成、功能或生物发生有关的蛋白质。相应的基因可能是孤儿纤毛病的候选基因。为了研究睫状体基因,使用了模型生物,在模型生物中,可以通过遗传学来解决运动、感觉或发育功能的特定问题。在纤毛高通量研究过程中草履虫,我们面临着将我们的结果与其他模型生物的结果进行比较的问题。因此,我们开发了一个新的知识库Cildb,它整合了来自不同来源的睫状体数据。Cildb将18个物种之间的直系关系与高通量睫状体研究以及OMIM关于人类遗传病的数据联系起来。Cildb的web界面包括三个工具:用于复杂查询的BioMart、用于序列同源性搜索的BLAST和用于浏览与人类疾病OMIM信息相关的人类基因组的GBrowse。Cildb可用于种间比较,构建任何物种的候选纤毛蛋白质组,或识别候选纤毛病基因。

数据库URL:http://cildb.cgm.cnrs-gif.fr

介绍

纤毛病是一类归因于中心粒及其相关结构和/或衍生物、中心体和纤毛功能障碍的遗传性疾病(1–3). 事实上,中心粒是一个由三个微管组成的圆筒状圆柱体,它具有广泛的功能,可以分为两大类。首先,在细胞质中,一个复杂的蛋白质基质围绕着中心粒组装,从而形成中心体,这是一个与细胞形状、细胞极性和细胞分裂直接相关的微管组织平台。第二,当锚定在质膜中时,中心粒起着基础体的作用,并使轴丝成核,根据物种和/或细胞类型,轴丝可以是鞭毛或纤毛的骨干,无论它们是活动的还是不活动的,感觉纤毛还是初级纤毛(4–6). 最近的高通量研究表明,这些结构由数百种蛋白质组成。目前已知的纤毛病,如Kartagener、Bardet Biedl、Meckel Grüber、Alstrom、Joubert综合征、多囊肾病,起源于胚胎发育和成人器官中的纤毛功能障碍,并在患者中引发多种症状的组合,如多指、肥胖、不育、智力迟钝,肾多囊症、耳聋、视网膜缺陷、睫状体运动障碍、鼻窦炎、中耳炎、支气管扩张(7). 从中心粒/基底体和纤毛/鞭毛的蛋白质组成的高度复杂性来看,我们可以预计越来越多的已知疾病和孤儿疾病将被确定为纤毛病。

纤毛具有运动功能,参与液体运动(例如粘液、脑脊液)。它们也可以具有感觉功能(例如在嗅觉神经元、感光器中)。初级纤毛在发育中起着重要作用(8)也很可能用于组织维护和再生,因为它们存在于干细胞上(9). 睫状轴丝是一种在进化过程中高度保守的细胞骨架结构,由九对微管和一对中央微管(9+2型)组成的圆柱体组成,被质膜延伸物包裹。睫状膜包含离子通道、受体和其他信号蛋白,这些信号蛋白控制轴丝的运动弯曲,或感知化学或机械刺激并在内部传递信号(6). 不仅超微结构是保守的,而且核心蛋白质组成也是保守的,因此大多数蛋白质功能可以从一个物种外推到另一个物种,因此开发了纤毛功能的模型系统,例如隐杆线虫病,衣原体,果蝇、草履虫、四膜虫锥虫.

我们的实验室,利用草履虫属基因组序列(10)和草履虫DB模型生物数据库(11),专注于纤毛功能的运动和感觉方面草履虫属该模型的优点包括快速有效的RNAi和简单的依赖睫状体功能的游泳行为表型描述。我们对草履虫属纤毛:分离纤毛的蛋白质组学研究(参见补充数据)以及睫状体生物发生期间转录组变化的研究(Arnaiz等。,准备中)。我们面临的问题是,将我们的数据与以前对其他生物体中心粒和纤毛的研究进行比较。这促使我们建造Cildb(http://cildb.cgm.cnrs-gif.fr)这是一个通过直系学将18个物种的整个蛋白质组联系起来的知识库,并将相关蛋白质与睫状体研究以及人类遗传病OMIM数据库联系起来。Cildb是为查找纤毛和纤毛病信息而设计的,如图所示。此外,由于它包含每个物种的整个蛋白质组,Cildb具有更广泛的应用,例如将任何遗传疾病与模型生物联系起来。

目标和规范

目前有三个与中心体、基底体和纤毛/鞭毛相关的数据库,即中心体数据库[(12),http://centrosome.dacya.ucm.es网站/],Ciliome数据库[(13),网址:http://www.sfu.ca/~leroux/ciliome_database.htm]和纤毛蛋白质组[(14),http://v3.ciliaproteome.org/cgi-bin/index.php]。然而,自从基因组数据草履虫属未合并,无法使用序列信息进入这些数据库,无法获得每个原始研究的原始数据,并且物种之间的正态关系仅通过BLAST最佳互惠点击计算,这掩盖了多基因家族。总之,这导致我们设计了一个全新的工具,以浏览来自不同模式生物中非常不同方法(蛋白质组学、转录组学、比较基因组学、搜索启动子)的复杂数据。

一个专门研究细胞器(如中心粒或纤毛)的数据库必须开放给未来的发现和目前研究中尚未发现的新蛋白质的鉴定。因此,每个物种的整个蛋白质组都必须存在于数据库中。对不同物种进行的比较研究表明,必须使用考虑多基因家族的算法计算物种之间的亲缘关系(对于草履虫属基因组,但在所有基因组中都存在)。此外,允许使用任何物种作为入口蛋白质组进行查询似乎是值得的。这意味着必须对数据库中每个物种的成对组合进行正形计算。为了将研究与蛋白质组联系起来,最好是合并原始数据,并使用它们为查询中确定的睫状体蛋白质分配置信度严格值。包括OMIM数据库中的数据似乎也很有用,不仅是识别人类疾病相关基因的数据,还包括基因组上未精确定位的疾病信息,以及疾病间隔期内有许多候选基因的疾病信息。最后,似乎对Cildb中数据的访问应该是多功能的,不仅包括复杂的查询,还包括序列同源性搜索和人类基因组浏览器,该浏览器将轨迹与睫状体数据和OMIM信息结合起来,以便沿着染色体区域导航。

数据源和计算分析

其整个蛋白质组包含在Cildb中的物种

目前的Cildb版本将在未来定期更新,它包含来自18种物种基因组的全套预测蛋白质,其中9种是因为可以对纤毛、鞭毛或中心体进行高通量研究而选择的(秀丽隐杆线虫,莱茵衣藻,黑腹果蝇,智人,小家鼠,草履虫,褐家鼠,布氏锥虫,嗜热四膜虫)其中四种是因为这些生物是睫状体实验的良好模型,尽管尚未发表高通量研究(肠蝉,达尼奥雷里奥,蓝氏贾第鞭毛虫,恶性疟原虫)其中五个是因为它们没有纤毛和中间粒(拟南芥,盘状网柄菌,大肠杆菌,酿酒酵母,葡萄裂殖酵母)可用于基因组消减研究。序列信息可以从EnsEMBL门户(如果可用)检索,也可以从专用于该生物体的数据库检索(补充表S1).

Cildb中包含的纤毛研究

本版Cildb中包含的睫状体研究是中心体、基底体和纤毛/鞭毛的蛋白质组学沙门氏菌属,人类,大鼠,草履虫属,四膜虫锥虫,转录组分析与某些组织中纤毛的存在或纤毛的生物发生有关隐杆线虫病,衣原体草履虫属,比较基因组学人类,衣原体拟南芥,并在中搜索启动子中的基序隐杆线虫病果蝇属(图1,补充表S1).

矫正计算和Cildb睫状体研究的链接。所分析的18个物种以与蛋白质组大小成比例的圆弧表示,当存在纤毛研究时以红色表示(描绘为圆圈外的扁虱),当存在中心粒/纤毛时以橙色表示,但没有高通量研究,当不存在纤毛或中心粒时以蓝色表示(At:拟南芥;Ce:秀丽隐杆线虫;Ci:肠纤毛;Cr:莱茵衣原体;Dd:盘基网柄菌;Dm:黑腹果蝇;医生:Danio rerio;Ec:大肠杆菌;Gl:蓝氏贾第鞭毛虫;Hs:智人;Mm:小家鼠;Pf:恶性疟原虫;Pt:四脲草履虫;Rn:褐家鼠;Sc:酿酒酵母;Sp:葡萄裂殖酵母;Tb:布氏锥虫;Tt:嗜热四膜虫)。插图中解释了用于研究的扁虱的颜色,以区分蛋白质组、转录组和比较基因组研究。安徒生(35岁);Arnaiz【蛋白质组学的这篇文章,或Arnaiz等人(准备)用于转录组分析】;Avidor-Reiss(36);布莱克(37);Broadhead(38);陈(39);埃菲门科(40岁);凯勒(41);基尔本(42);劳伦松(43岁);李(16);刘(44);梅耶(45岁);奥斯特罗斯基(19);帕祖尔(26);史密斯(18岁);Stolc(46)。对于每个物种,通过BLASTp将整个蛋白质组与自身和所有其他物种进行比较,以应用我们的三种正形过滤器(Inparanoid、Inparaniod+过滤最佳点击数、BLASTp-截止值),如实验程序所述。高通量的睫状体研究随后被重新映射到这些蛋白质上,以便在直立性和睫状体特性之间建立联系。补充表S1中报告了Cildb的基因组版本和睫状体研究数据的来源。人类基因组也与出现遗传疾病的OMIM数据库相关联。
图1。

矫正计算和Cildb睫状体研究的链接。所分析的18个物种以与蛋白质组大小成比例的圆弧表示,当存在纤毛研究时以红色表示(描绘为圆圈外的扁虱),当存在中心粒/纤毛时以橙色表示,但没有高通量研究,当不存在纤毛或中心粒时以蓝色表示(位于:拟南芥; 总工程师:秀丽隐杆线虫; Ci(词):肠蝉; 贷款额:莱茵衣藻; 日期:盘状网柄菌; 深度:黑腹果蝇; 博士:达尼奥雷里奥; Ec公司:大肠杆菌; Gl(全球):蓝氏贾第鞭毛虫; Hs(小时):智人; 嗯:小家鼠; 预测值:恶性疟原虫; 零件:草履虫; 卢比:褐家鼠; 科学:酿酒酵母; 服务提供商:葡萄裂殖酵母; 交易对手:布氏锥虫; 时间:嗜热四膜虫). 插图中解释了用于研究的扁虱的颜色,以区分蛋白质组、转录组和比较基因组研究。安徒生(35);Arnaiz[蛋白质组学的这篇文章,或Arnaiz等。(准备中)用于转录组分析];Avidor-Reiss公司(36);布莱克(37);Broadhead公司(38);陈(39);埃菲门科(40);凯勒(41);基尔本(42);劳伦松(43);李(16);刘(44);梅耶尔(45);奥斯特罗斯基(19);帕佐(26);史密斯(18);斯托克(46). 对于每个物种,通过BLASTp将整个蛋白质组与自身和所有其他物种进行比较,以应用我们的三种正形过滤器(Inparanoid、Inparaniod+过滤最佳点击数、BLASTp-截止值),如实验程序所述。高通量的睫状体研究随后被重新映射到这些蛋白质上,以便在直立性和睫状体特性之间建立联系。Cildb的基因组版本和睫状体研究数据的来源于补充表S1人类基因组也与出现遗传疾病的OMIM数据库相关联。

矫正关系的确定

由于整个蛋白质组可能包含剪接变异体以及多基因家族中的一组类似同源同源序列,建立同源性的方法并不简单:蛋白质通常不能参与由最佳反向BLASTp点击确定的二元同源关系。Inparanoid程序(15)通过将一个物种中的蛋白质组与另一个物种的蛋白质组联系起来,克服了这个问题,前提是平行群之间的种内距离小于假定的直系群之间的物种间距离。因此,我们使用Inparanoid对18个蛋白质组之间的配对BLASTp比较的输出结果计算了上述18个基因组的预测蛋白质之间的同源性,包括自我比较,总共324个比较(图1),具有真核生物的默认Inparanoid参数。

偏执型偏执型的严格性是,如果基因注释不好(目前在基因截短、错误剪接模式、基因融合或分裂的基因组项目中出现),就会丢失一些直系关系,从而导致通过其他物种的直系学搜索给定蛋白质时出现过多的假阴性。因此,我们将使用手动验证的经验过滤器对线形进行分析的结果添加到该计算中。我们通过BLASTp对所有最佳点击对进行了Smith–Waterman比对,并将比对结果添加到Inparanoid结果中,这两种蛋白质的长度至少为52%,或者当两个参数的乘积大于2300时,比对结果具有至少30%的同一性(允许在较短长度或相反长度上进行更好的比对)。

基因组减法同源物的测定

出于某些目的,上述两种方法都过于严格:如果它们允许识别两个蛋白质组中可能的同源蛋白,则无法证明给定的蛋白质在物种中没有同源蛋白。比较基因组学通常依赖于几个物种中存在或不存在一组同源基因。在这种情况下,会使用不太严格的比较工具,并且截止值为1e(电子)− 10 (16)甚至更高(17)被雇佣。因此,我们还对BLAST得分进行了第三次低严格性计算。事实上,BLAST得分比e(电子)-在不同大小的蛋白质组之间进行比较时的值。同源检测的阈值根据经验固定为≥70,得分值通常对应于e(电子)-值约为1e(电子)−10.

重新绘制睫状体研究

为了鉴定中心体、中心粒、基底体和鞭毛/睫状体蛋白质,我们重新绘制了迄今为止有关相应物种整个蛋白质组的所有研究。这分两个步骤进行,从原始研究中检索蛋白质序列,并确定这些蛋白质与用于矫形学计算的最新蛋白质组版本的对应性。

我们从17篇文章中发表的21项研究开始,其中包括这一篇,共涉及9个物种(图1;补充表S1). 在大多数文章中,补充表给出了蛋白质加入号的列表,这允许检索序列(除了少数几个加入号不对应任何内容)。两项研究提供了从蛋白质组学中获得的肽列表,而不是(18)或者除了(19)蛋白质登录号列表。在这种情况下,我们将肽映射到当前版本的蛋白质组,并检索相应的蛋白质。从睫状体研究中回收的每个蛋白质都标记了与研究原始结果相对应的属性(蛋白质组学中的肽数量、转录组分析中的折叠变化或错误发现率、X盒的得分和距ATG的距离,e(电子)-比较基因组学中的价值)。总共回收了16038个蛋白质研究条目(补充表S1).

当任何给定研究中使用的基因组版本与我们用于正形学测定的版本不同时,我们使用BLASTp将蛋白质重新映射到用于正形测定的版本。事实上,基因组注释随着版本的变化而演变,一些基因模型出现而另一些消失,其他一些的结构被修改,导致相应的蛋白质序列发生重大变化。如果每个蛋白质的90%长度上至少有90%的一致性,我们认为该蛋白质是重新映射的。其余蛋白质通过对比对的目视检查进行验证或拒绝。在这个过程中,288个条目被删除,因为新的基因组版本中没有命中,243个条目被人类组织拒绝。剩余的15 443个蛋白质对应于新基因组版本中的19 051个条目(数字之间的差异源于不同基因组版本中对选择性剪接、旁系家族等的不同处理)。绝大多数条目(17348条)被自动重新映射,而其中1703条是通过人工管理恢复的(补充表S1).

除了纤毛研究中的蛋白质“标记”外,我们还将蛋白质组的所有蛋白质与氨基酸序列预测的一般属性联系起来,如分子量、等电点、信号肽的存在(20)和跨膜螺旋的数量(21).

OMIM数据集成

OMIM数据库(http://www.ncbi.nlm.nih.gov/sites/entrez?db=omim)收集有关人类遗传的所有信息,将已知的遗传疾病与其对应的基因联系起来。此外,OMIM数据库中还包含了定位于一条或多条染色体带的遗传病,以便提取染色体区域包含的候选基因。在Cildb中,我们以两种不同的方式使用此信息。首先,当存在直接链接时,我们用OMIM条目标记人类蛋白质。然后,OMIM信息将像其他属性一样进行处理。其次,当OMIM条目对应于几个基因时,我们将信息合并到一个不同的数据库中。然而,在Cildb的这一部分中,有与候选蛋白质疾病对一样多的条目(总共530 765条,远远大于46 591条人类蛋白质数量和11 152条Cildb中引用的OMIM条目数量)。可以进行搜索,以揭示疾病已在遗传上定位的遗传区域内存在的所有人类基因,并将其显示为任何期望的属性,包括矫正学和睫状体研究中的发生率。

Cildb架构

Cildb网站围绕三个主要工具组织,即BioMart、NCBI BLAST和GBrowse(图2). 每个工具都提供自己的界面和存储系统。

Cildb的结构模式和使用可能性。矫正学计算以及与睫状体研究和OMIM的联系是Cildb的中心。为了访问数据,提供了三种查询方式:使用关键字或蛋白质属性(正形学、睫状体研究等)的BioMart查询;序列的BLAST;使用GBrowse浏览人类染色体。Cildb的BioMart(22)工具允许用户使用过滤器系统构建复杂的查询,并显示数据库中预先计算的信息(PostgreSQL mart数据库)。结果是一个符合不同标准的蛋白质列表。列表中的每个蛋白质都链接到一个“蛋白质页面”,该页面描述了与该蛋白质相关的所有信息。表中的数据可以导出为xls或tsv文件,也可以导出相应的序列作为fasta文件。BLAST工具使用带有NCBI BLAST接口(23)的序列比对搜索,可以执行常规BLAST、PSI-BLAST和PHI-BLAST。用户可以在BLAST输出中选择蛋白质,并使用BioMart进行分析,或者转到他们的蛋白质页面。GBrowse工具(MySQL Bio::DB::SeqFeature::Store数据库)允许在人类染色体中导航,以查看基因和蛋白质及其与直系图、睫状体研究和OMIM条目的链接。用户还可以使用BioMart分析蛋白质或转到蛋白质页面。蛋白质页面本身包含了Cildb中包含的有关蛋白质的所有信息的摘要,内部链接指向直系图、BioMart接口、Cildb BLAST链接和GBrowse(人类蛋白质),外部链接指向登录ID的真正数据库、OMIM条目,到NCBI的BLAST和多个校准服务器。
图2。

Cildb的结构模式和使用可能性。矫正学计算以及与睫状体研究和OMIM的联系是Cildb的中心。为了访问数据,提供了三种查询方式:使用关键字或蛋白质属性(正形学、睫状体研究等)的BioMart查询;序列的BLAST;使用GBrowse浏览人类染色体。生物城(22)Cildb工具允许用户使用过滤器系统构建复杂的查询,并显示在数据库(PostgreSQL mart数据库)中预先计算的信息。结果是一个符合不同标准的蛋白质列表。列表中的每个蛋白质都链接到一个“蛋白质页面”,该页面描述了与该蛋白质相关的所有信息。表中的数据可以导出为xls或tsv文件,也可以导出相应的序列作为fasta文件。BLAST工具使用带有NCBI BLAST接口的按序列对齐搜索(23),可以执行常规BLAST、PSI-BLAST和PHI-BLAST。用户可以在BLAST输出中选择蛋白质,并使用BioMart进行分析,或者转到他们的蛋白质页面。GBrowse工具(MySQL Bio::DB::SeqFeature::Store数据库)允许在人类染色体中导航,以查看基因和蛋白质及其与直系图、睫状体研究和OMIM条目的链接。用户还可以使用BioMart分析蛋白质或转到蛋白质页面。蛋白质页面本身包含了Cildb中包含的有关蛋白质的所有信息的摘要,内部链接指向直系图、BioMart接口、Cildb BLAST链接和GBrowse(人类蛋白质),外部链接指向登录ID的真正数据库、OMIM条目,到NCBI的BLAST和多个校准服务器。

BioMart是一个数据管理系统,提供强大的复杂web查询界面(22). 还可以通过web服务API或用Perl编写的直接访问软件库来编程执行查询。数据被分成三个数据库(PostgreSQL),对应于正畸学的三个置信水平。根据18个物种,数据库包含18个数据集(或集市)。数据集是几个表的集合,这些表遵循BioMart命名约定(“dataset__content__type”)。

NCBI BLAST工具(常规、PSI或PHI BLAST)允许从蛋白质或DNA序列开始进行同源性搜索(23). 我们已经分别索引了每个物种的蛋白质组,以便可以查询任何给定的蛋白质组或Cildb中所有的蛋白质组。

通用基因组浏览器(GBrowse 1.69版),是GMOD项目中最受欢迎的浏览器(24)由web界面(Perl中的CGI)和BioPerl数据库(MySQL中的Bio::DB::SeqFeature::Store)组成,已在Cildb中为人类基因组实现。我们生成对应于每个轨迹的GFF3文件(通用文件格式版本3):人类蛋白质、Inparanoid同源基因和OMIM条目。OMIM轨迹使用字形“wave”(Bio::Graphics::glyph::wave)。

此外,Cildb包含蛋白质页面,可收集Cildb中存储的任何蛋白质的所有信息。这些页面是使用Perl中使用Template::Toolkit模块实现的模型-视图-控制器(MVC)系统构建的(25).

Cildb典型查询页面的屏幕截图,这里使用智人整体蛋白质组作为数据集,并显示可用于查询的过滤器类别。
图3。

Cildb典型查询页面的屏幕截图,此处使用智人整个蛋白质组作为数据集,并显示可用于查询的过滤器类别。

Cildb更新

在整理文献后,将定期更新Cildb,以纳入新的睫状体研究和相应物种的新蛋白质组。无论睫状体研究是否可用,我们还计划纳入对其系统发育位置感兴趣的物种的新蛋白质组。Cildb中已有的基因组也将定期更新。这意味着必须对主要基因组的释放进行偏执狂计算,同时将睫状体研究重新映射到蛋白质组。这个程序需要CPU密集型,也需要人工管理,因此我们计划每18个月进行一次更新。Cildb的下一个版本(V2.0)正处于早期准备阶段。

用户界面

Cildb可以从其18个物种中的任何一个物种中输入,并通过直系关系访问任何基因组中确定的属性,无论物种用户感兴趣的是什么。可以使用上述三种工具,即BioMart、BLAST和GBrowse。我们将在Cildb中介绍这些工具的使用。

复杂的BioMart查询被分解为四个步骤:选择数据集,过滤数据集以仅选择具有所需属性的蛋白质,选择与输出一起显示的属性,这些属性通常与查询和数据检索所用的属性不同。对于简单的关键字查询,我们添加了一个可以从每个Cildb页面访问的快速搜索框。

数据集集合:要选择数据集,需要两个操作。首先,用户必须根据数据库的预期用途选择正交/同源计算方法,即Inparanoid、Inparaniod加上筛选出的最佳点击数、filtered BLASTp。然后,必须在列出的18个物种中选择参考物种。

过滤器:过滤是利用这些特性进行的,这样就可以只提取具有所需特性的蛋白质。在BioMart页面上(图3),它们分为六类。属性:属性的选择决定了为查询检索的每个蛋白质显示的属性。属性是按物种组织的。在参考物种(查询开始时选择的数据集,列在第一行)中,发现了许多字段:蛋白质ID、同义词、描述、分子量、等电pH值、跨膜螺旋的存在、信号肽等。由于我们将人类蛋白质与人类遗传病的OMIM条目联系起来,如果给定物种的蛋白质具有OMIM中引用的人类同源序列,则可以在查询输出中显示为属性。在对该物种进行睫状体研究时,给出了每个相关蛋白质的详细原始研究结果。关于其他物种的属性反映了是否存在直系人种(根据数据集中最初选择的方法),以及当它们存在时,是否在该物种的睫状体研究中发现了它们。由于给定的蛋白质可能有几个直向同源物(即Inparanoid家族中的旁系同源物),从而产生无法在BioMart界面中显示的不同原始结果,因此没有提供直向同源物的纤毛研究的详细结果。为了更简单的搜索和发布,我们还将睫状体研究的原始结果分为低、中、高严格性,详细描述见补充表S1例如,在蛋白质组分析中,低严格性意味着通过质谱检测到的一个肽来识别蛋白质,中严格性至少由两个肽来确定,高严格性至少通过四个肽来确认。

  • –通用过滤器用于根据一般属性、ID号、同义词、参考物种或相关直系群中的关键词、分子量、等电pH值等来查找蛋白质。

  • –正交过滤器允许用户在任何物种组合中选择具有(或不具有)正交的蛋白质。

  • –有三种纤毛滤器可用于寻找在纤毛研究中鉴定的蛋白质或在纤毛研究中鉴定其直向同源物的蛋白质。这三种滤镜的不同之处在于,高级睫状体研究滤镜检查睫状体检查的原始结果,睫状体分析滤镜(all)根据预先计算的严格程度,使用布尔运算符“AND”进行多重选择,检查睫状物结果,而睫状体观察滤镜(any)使用布尔运算符‘OR’。

  • –OMIM过滤器允许选择其人类同源序列在OMIM中被索引的蛋白质。

每当需要序列信息来输出查询时,可以从属性页面中选择“序列”按钮。

数据检索:“计数”按钮显示蛋白质组中通过过滤器的蛋白质总数。“results”(结果)按钮可以访问匹配蛋白质的列表,其中显示了所有选定的属性。导航到过滤器或属性页面可以轻松优化搜索或显示。结果可以导出为文本或xls文件(或以fasta格式用于序列),以供进一步分析。Cildb结果和xls导出包含指向蛋白质页面的内部链接,其中显示了有关蛋白质的所有Cildb信息的摘要,以及内部和外部链接(图2).

进入Cildb的第二种方法是通过BLAST工具。这允许用户通过使用NCBI BLAST算法进行序列比对,从整个数据库或给定物种的Cildb中检索蛋白质。当在单个生物体上执行时,Cildb BLAST输出除了提供经典的对齐输出外,还提供到Cildb的蛋白质页面以及目标蛋白质的BioMart视图的链接,以通过其他标准过滤或使用Cildb属性显示。

最后,Cildb可以通过GBrowse进入人类基因组。除了显示基因和编码蛋白的轨迹外,浏览Cildb中的人类基因组还显示两种OMIM数据的轨迹,即对应基因和相关疾病(如果存在)的OMIM描述,以及OMIM条目在染色体上的总体定位(未精确分配给基因),而是一个染色体区域。一个特定的蛋白质是通过睫状体研究(直接或通过其直系同源物之一)确定的,还是具有类偏执型同源物的,在浏览器中显示为一个轨迹。

使用案例

Cildb的应用仅受用户需求和想象力的限制。首先,仅仅列出在具有多种属性的特定研究中发现的蛋白质,已经是该领域的一项重大改进。然而,该数据库的主要创新在于允许各种实验以任何组合寻找具有特定性质的特定蛋白质,无论是生物物理的,还是从描述符、正交关系、纤毛研究或与OMIM信息有关的。

纤毛蛋白质组学的比较草履虫属其他睫状体研究

我们在睫状体蛋白质组学方面的工作草履虫,显示在补充数据(补充图S1,补充表S2和S3)通过与以前对其他物种进行的其他睫状体研究进行比较来评估。该评估是使用Cildb的BioMart查询工具进行的(图4). 该图清楚地表明:(i)在每一物种中,通过睫状体蛋白质组学鉴定的大约一半的睫状体蛋白在其他物种中具有直系同源性。仅限草履虫属四膜虫在进化上比其他物种更接近,拥有更多的直系祖先。(ii)我们的草履虫属纤毛蛋白质组学比比较中的其他蛋白质组学更具特异性,尽管不如Pazour及其同事的蛋白质组学敏感(26)英寸衣原体事实上,在草履虫属纤毛制剂。另一方面,从纤毛蛋白质组开始草履虫属,四膜虫锥虫,相应的衣原体直系木已经由衣原体研究(26)(直方图中为深绿色),而衣原体参考文献鉴定的睫状体蛋白(26)在其他物种的睫状体蛋白质组中,以最高50%的比率鉴定出。睫状体蛋白质组研究的两两比较表明草履虫属睫状体研究排名仅次于年的研究衣原体在敏感性方面,可能是因为在草履虫属,相比之下衣原体其中纤毛的亚组分也通过质谱分析。

不同单细胞模型睫状体蛋白质组研究的比较。我们使用Cildb比较了沙门氏菌、草履虫、四膜虫和锥虫的纯化纤毛/鞭毛的蛋白质组学研究。每个研究的协议都是一样的:(i)使用“Inparanoid and filtered best hits”作为同源方法,在Cildb中构建BioMart“新查询”。(ii)选择进行睫状体研究的物种(例如衣原体)。(iii)过滤相关蛋白质组学研究中鉴定的具有中等严格性置信度的蛋白质(例如Pazour蛋白质组学)(两种或多种不同的肽)。(iv)选择“中等置信度所有物种的睫状体研究数量”作为属性。(v) 计算结果并将其显示为xls表。在每个图表的第一列中,总高度表示研究中确定的蛋白质数量,深蓝色蛋白质是至少在另一项研究中发现的纤毛蛋白质,淡蓝色蛋白质是仅在本研究中发现纤毛的蛋白质,灰色蛋白质是注释为核糖体蛋白质或组蛋白的蛋白质,代表睫状体制剂的可能污染物。(vi)使用与(iii)中相同的标准过滤蛋白质,以及在本次比较中使用的每个物种(其他原生生物加上人类)中是否存在“直系生物”。这表示与所检查物种相同的查询数量,并给出每个物种绿色条的高度(对应核糖体蛋白质和组蛋白的灰色部分)。(vii)如(vi)所示进行过滤,并查看通过纤毛蛋白质组学在目标物种中识别的蛋白质的结果[例如,本研究针对草履虫或Broadhead等人(38)针对锥虫],以深绿色表示,无论是否在其他物种中发现纤毛(中绿色)或非纤毛(浅绿色)。
图4。

不同单细胞模型睫状体蛋白质组研究的比较。使用Cildb,我们比较了沙门氏菌属,草履虫,四膜虫锥虫每个研究的协议都是一样的:(i)使用“Inparanoid and filtered best hits”作为同源方法,在Cildb中构建BioMart“新查询”。(ii)选择进行睫状体研究的物种(例如。衣原体). (iii)过滤相关蛋白质组学研究中鉴定的具有中等严格性置信度的蛋白质(例如Pazour蛋白质组学)(两种或多种不同的肽)。(iv)选择“中等置信度所有物种的睫状体研究数量”作为属性。(v) 计算结果并将其显示为xls表。在每个图表的第一列中,总高度表示研究中确定的蛋白质数量,深蓝色蛋白质是至少在另一项研究中发现的纤毛蛋白质,淡蓝色蛋白质是仅在本研究中发现纤毛的蛋白质,灰色蛋白质是注释为核糖体蛋白质或组蛋白的蛋白质,代表睫状体制剂的可能污染物。(vi)使用与(iii)中相同的标准过滤蛋白质,以及在本次比较中使用的每个物种(其他原生生物加上人类)中是否存在“直系生物”。这表示与所检查物种相同的查询数量,并给出每个物种绿色条的高度(对应核糖体蛋白质和组蛋白的灰色部分)。(vii)如(vi)所示进行过滤,并查看目标物种中纤毛蛋白质组学鉴定的蛋白质的结果[例如,本研究草履虫属或Broadhead等。(38)的锥虫],表示为深绿色,无论是否在其他物种(中绿色)中发现纤毛(浅绿色)。

构建新的睫状体蛋白质组

使用Cildb,人们可以识别出可能是纤毛成分的蛋白质,即使是在没有任何特定纤毛研究的物种中,例如。达尼奥雷里奥,蓝氏贾第鞭毛虫肠蝉只需在该物种中寻找其他物种中已被鉴定为纤毛蛋白的具有直系同源性的蛋白质。补充表S4给出了一个xls格式的Cildb输出示例,在本例中是一个975个蛋白质的列表达尼奥雷里奥至少有三个不同物种的直系同源物被鉴定为中等置信度的纤毛蛋白(参见补充表S1).

实时比较基因组学

比较基因组学通过考虑所有因素为中心粒/纤毛蛋白的鉴定提供了一个强有力的策略莱茵衣藻具有同源基因的蛋白质智人但不在拟南芥(从两个“睫状体基因组”之间的共同蛋白质补体中减去“非睫状体基因”)(16). 类似的实验现在可以在网上使用Cildb进行,任何物种组合都可以。为此,我们根据BLAST得分截止值70提供同源性(参见补充数据),正如上述研究中1e(电子)−10截止(16)而不是偏执狂正畸,以避免大量假阴性。参考文献中报告的实验的精确再现(16),使用Cildb如所示补充表S5a和S5b。这里的兴趣在于生物信息学使用Cildb的实验可以通过数据库中编译的“试验台”实验进行验证,只需查看已识别蛋白质的实验纤毛属性即可。尽管总体一致性良好,但原始实验和Cildb筛选之间出现了差异,但仔细检查发现,所有差异都源于连续基因组版本之间注释的演变:使用Cildb筛选发现的基因,但Li没有发现等。(16),对应于第3版中的基因模型,但不适用于第2版衣原体基因组;相反,没有在Cildb正畸学中发现但由Li鉴定的基因等。(16),都对应于最新版本的拟南芥基因组,但不在前一个基因组中(因此这些“非睫状体”蛋白质不能从当时的数据集中减去)。因此,Cildb在线使用的程序支持使用当前可用的18种物种的任意组合进行比较基因组学实验。

纤毛病变基因的鉴定

根据可使用Cildb在人类或模型生物中挖掘的全球分析,至少有1000种蛋白质可能是中心粒、基底体、纤毛和鞭毛的组成部分或参与其生物发生。其中一些蛋白质的功能障碍会导致严重的疾病,即纤毛病。最近的评论(27,28)列出了已知的纤毛病,还可以从文献中检索到其他一些纤毛病:CILD6由于TXNDC3型(29),CILD9基因突变DNAI2公司(30),CILD10突变KTU公司(31),以及CIL11和CIL12与RSPH4a型RSPH9型分别为(32). 总共有50个人类基因在发生突变时与纤毛病有关。其中八种疾病尚未从Cildb中检索到,因为Cildb所包含的OMIM版本尚未显示与这些疾病的联系。为了评估Cildb查找纤毛病变的兴趣,我们执行了一个BioMart查询,从智人,C.莱因哈迪四尿P.tetraurelia,筛选与人类疾病相关的蛋白质(OMIM MORBID部分2358个条目),并要求至少进行三次中等置信度的睫状体研究(图5). 与216种疾病相关的蛋白质出现在过滤输出中,包括42种指数纤毛病中的20种。这表示睫状体病变增加了5倍(比较216例中的20例和2358例中的42例)。此外,未在评论中列出的纤毛病CIL6也出现在本次搜索中。这可能表明,在本查询中发现的216种疾病中,许多可能是新的纤毛病相关疾病。没有发现的22种纤毛病变可能是因为并非所有的纤毛蛋白都在高通量研究中得到了鉴定。

用Cildb寻找新的睫状体病候选基因。从四脲草履虫(Paramecium tetraurelia)、智人(Homo sapiens)和莱茵衣原体(Chlamydomonas reinhardtii)这三个物种的蛋白质组开始,我们使用了相同的BioMart过滤器,“至少有3个中等置信度的睫状体证据”,“有一个与OMIM中报告的疾病相关的人类同源基因”。因此,我们提取了与人类疾病相关的OMIM条目,正如应用于每个物种的过滤器所揭示的那样。在OMIM基因图谱部分存在的2358种疾病中,216种通过了筛选,42种已知纤毛病变中有20种与OMIM中的疾病条目有关(表1)。2142种其他疾病包括剩下的22种已知的纤毛疾病。这并不奇怪,因为许多纤毛病基因并没有被高通量研究揭示出来。然而,纤毛病基因通过我们的过滤器高度富集(1/10对1/100)。通过对过滤器提供的其他疾病的详细检查,我们可以将其中11种疾病作为候选纤毛病变(见表1)。插图:使用的过滤器将OMIM条目与睫状体研究联系起来,但通过将其与人类基因联系起来。有三种配置可以提供这些链接。(i) 人类蛋白质直接与人类高通量研究有关。(ii)人类蛋白质通过与另一物种的纤毛蛋白的同源性显示出纤毛的证据。(iii)非人类蛋白质(sp2)可以通过与另一物种的直系学(sp3)获得睫状体证据,并通过与人类蛋白质的直系关系与OMIM联系。在某些情况下,尽管与Sp2有关,但人类和Sp3蛋白没有直接联系,因此人类蛋白本身不标记为睫状体,而相关的OMIM条目是。
图5。

用Cildb寻找新的睫状体病候选基因。从三个物种的蛋白质组开始,草履虫,智人莱茵衣藻,我们使用了相同的BioMart过滤器,“至少3个具有中等置信度的睫状体证据”,“有一个与OMIM报告的疾病相关的人类直系亲属”。因此,我们提取了与人类疾病相关的OMIM条目,正如应用于每个物种的过滤器所揭示的那样。在OMIM基因图谱部分的2358种疾病中,216种通过了筛选,42种已知纤毛病变中的20种与OMIM中的疾病条目相关(表1)已找到。2142种其他疾病包括剩下的22种已知的纤毛疾病。这并不奇怪,因为许多纤毛病基因并没有被高通量研究揭示出来。然而,纤毛病基因通过我们的过滤器高度富集(1/10对1/100)。通过对过滤器提供的其他疾病的详细检查,我们可以将其中11种疾病作为候选纤毛病变(参见表1). 插图:使用的过滤器将OMIM条目与睫状体研究联系起来,但通过将其与人类基因联系起来。有三种配置可以提供这些链接。(i) 人类蛋白质直接与人类高通量研究有关。(ii)人类蛋白质通过与另一物种的纤毛蛋白的同源性显示出纤毛的证据。(iii)非人类蛋白质(sp2)可以通过与另一物种的直系学(sp3)获得睫状体证据,并通过与人类蛋白质的直系关系与OMIM联系。在某些情况下,尽管与Sp2有关,但人类和Sp3蛋白没有直接联系,因此人类蛋白本身不标记为睫状体,而相关的OMIM条目是。

我们想知道过滤列表中的216种疾病中是否有一些可能是纤毛病,在检查了疾病描述中的症状类型和纤毛证据的种类后,其中11种疾病可以被认为是候选的新纤毛病:四种视网膜色素变性、一种神经病变、一种成神经细胞瘤、一种隐性耳聋、,青少年肌阵挛性癫痫、醛缩酶a缺乏症、散发性乳腺癌和脊髓性肌萎缩(参见表1). 现在可以根据睫状体的证据来检查每种疾病,以确定它是否真的是睫状体病。

表1。

与已知和候选纤毛病相关的人类基因

基因身份证件波段同义词MIM编号纤毛证据相关疾病状态
AHI1型ENSG00000135541号机组6季度23.3JBTS3、AHI1、ORF1、FLJ200696088941JBTS3(608629)、AHI1(608627)K(K)
AIPL1号机组ENSG00000129221号机组17页13.2AIPL1、LCA4604392LCA4(604393),AIPL1(604399)K(K)
ALMS1号机组ENSG00000116127号机组第13.1页ALMS1,KIAA03286068442ALMS1(203800)K(K)
ARL13B公司ENSG00000169379号机组第3季度11.2ARL13B、ARL2L1、DKFZp761H079、JBTS86089222JBTS8(612291)N个
ARL6号机组工程量00000113966第3季度11.2ARL6、BBS36088456BBS3(209900)K(K)
ARPKD(平均零售价)工程量00000170927第12.2页ARPKD、纤维囊蛋白、tigmin、PKHD1、TIGM1、聚乙烯、FCYT6067020PKHD1(263200),ARPKD(2632000)K(K)
英国广播公司1ENSG00000174483号机组11问题13.2BBS1、FLJ23590、DPP32099016BBS1(209900)K(K)
英国广播公司10工程量0000017994112季度21.2C12或58,FLJ23560,BBS106101480BBS10(209900)K(K)
英国广播公司11ENSG00000119401公司9季度33.1TRIM32、LGMD2H、HT2A、TATIP、BBS116022900BBS11(209900)K(K)
英国广播公司12ENSG00000181004号第4季度27FLJ35630、C4orf24、BBS12、FLJ415596106830BBS12(209900)K(K)
英国广播公司2ENSG00000125124号16季度12.2BBS2、BBS6061515BBS2(209900)K(K)
英国广播公司4ENSG00000140463号机组第15季度24.1英国广播公司46003744BBS4(209900)K(K)
英国广播公司5ENSG00000163093号机组第2季度31.1DKFZp762I194、BBS56036509BBS5(209900)K(K)
BBS6系列ENSG00000125863号机组20页12.2MKKS、BBS66048960BBS6(209900)K(K)
论坛7工程量00000138686第4季度27BBS2L1、BBS7、FLJ107156075905BBS7(209900)K(K)
论坛9ENSG00000122507号机组第7页14.3PTHB1、B1、BBS96079685BBS9(209900)K(K)
CCDC28B公司ENSG00000160050号第15.1页CCDC28B、MGC1203、RP4-622L5.56101620MGC1203(209900)N个
CC2D2A型ENSG0000048342号机组第4页15.33MKS6、NP_001073991.1、JBTS9、CC2D2A、KIAA13456120136MKS6(612284)、JBTS9(612285)N个
CEP290公司ENSG00000198707号文件12季度21.32MKS4、JBTS5、SLSN6、BBS14、rd16、NPHP6、FLJ13615、KIAA0373、3H11Ag、CEP290、LCA10610142JBTS5(610188)、MKS4(611134)、SLSN6(610189)、BBS14(209900)、LCA10(611755)、NPHP6K(K)
CRB1号机组ENSG00000134376号机组1季度31.3LCA8、RP12、CRB16042100LCA8(204000)、RP12(600105)、CRB1(604210)K(K)
CRX公司ENSG00000105392号机组19季度13.3CORD2、OTX3、CRD、LCA7、CRX6022250CORD2(120970)、LCA7(602225)、RP(268000)K(K)
DNAH11ENSG00000105877号机组第7页15.3DNHBL、DNAH11、DNAHBL、Dnahc11、CILD7、DPL116033397CID7(611884)K(K)
DNAH5型ENSG0000039139号第15.2页CID3、PCD、KTGNR、HL1、Dnahc5、DNAH56033358CID3(608644)K(K)
DNAI1公司ENSG00000122735号机组9页13.3DNAI1、PCD、CILD16043669CID1(244400)K(K)
DNAI2公司ENSG00000171595号机组17季度25.1DNAI2公司6054838CID9(612444)N个
GLIS2公司ENSG00000126603标准16页13.3GLIS2、NPHP76085390NPHP7(611498)K(K)
GUCY2D公司ENSG00000132518号机组17页13.1LCA1、GUCY2D、CYGD、CORD6、ROS-GC1、CORD5、GUC1A4、GUC2D、retGC、LCA、retGC-1600179LCA1(204000),有线6(601777)K(K)
IFT80型ENSG0000068885号机组第3季度25.33KIAA1374、WDR56、IFT8061117712电话:2(611263)K(K)
IMPDH1型ENSG00000106348号机组7季度32.1sWSS2608、IMPDH1、RP10、LCA111466901RP10(180105),LCA11(146690)K(K)
INVS公司ENSG00000119509号机组9季度31.1库存,NPHP22433050NPHP2(602088)K(K)
IQCB1型ENSG00000173226号机组第3季度13.33KIAA0036、IQCB1、NPHP56092371NPHP5(609254),SLN5(602254)K(K)
KTU公司ENSG00000165506号机组14季度21.3KTU,C14或104,FLJ105636125170CID10(612518)N个
LCA5型ENSG00000135338号第6季度14.1LCA5、C6或1526114082LCA5(604537)K(K)
MKS1型ENSG0000011143号机组17季度23.2FLJ20345、MKS、MKS16098834MKS1(249000),BBS13(209900)K(K)
NEK8公司ENSG00000160602号机组17季度11.2NEK8公司6097990NPHP9型N个
NPHP1型ENSG00000144061号机组2013年第2季度NPHP1、NPH1、JBTS46071004NPHP1(256100)、JBTS4(609583)、SLNS1(266900)K(K)
NPHP3核电站ENSG00000113971号机组第3季度22.1FLJ12592、NPH3、KIAA2000、NPHP3、FLJ30691、ACAD11、FLJ366966080021NPHP3(604387),SLNS3(606995)K(K)
NPHP4核电站ENSG00000131697号机组1第36.31页NPHP4、肾视网膜素、KIAA0673、SLSN46072156NPHP4(606996),SLSN4(606696)K(K)
OFD1公司ENSG0000046651号机组Xp22.2系列OFD1、CX或5、71-7A3001701OFD1(311200)K(K)
PKD1系列ENSG0000008710号机组16页13.3PBP、PKD16013130PKD1(173900)K(K)
PKD2系列ENSG00000118762号机组第4季度22.1PKD2、PKD4、PC21739101PKD2(173900)K(K)
RDH12型ENSG00000139988号机组14季度24.1FLJ30273、RDH12、SDR7C26088301LCA13(612712)K(K)
RPE65型ENSG00000116745号机组2012年1月31日RP20、RPE65、rd12、LCA21800691LCA2(204100)K(K)
RPGRIP1系统ENSG0000092200号14季度11.2RPGRIP1、LCA6、RGI1、RPGRIP6054461CORD9(608194),LCA6(605446)K(K)
固定夹1LENSG00000103494号机组16季度12.2MKS5、RPGRIP1L、JBTS7、NPHP8、CORS3、KIAA10056109370MKS5(611561)、JBTS7(611560)、NPHP8、CORS3K(K)
RSHL3、RSPH4aENSG00000111834号机组6季度22.1RSHL3、dJ412I7.1、FLJ3797461264710CID11(612649)N个
RSPH9型ENSG00000172426号机组第6页21.1C6orf206,MRPS18AL1,FLJ308456126488CID12(612650)N个
TMEM67型ENSG00000164953号机组8季度22.1MKS3、JBTS6、MGC26979、TMEM676098841MKS3(607361)、JBTS6(610688)K(K)
TTC8型ENSG00000165533号机组14季度32.11TTC8、BBS86081327BBS8(209900)K(K)
TXNDC3型ENSG00000086288标准第7页14.1SPTRX2、CID6、NME8、TXNDC3607421CILD6(610852)K(K)
阿尔多阿ENSG00000149925号机组16页第11.2页阿尔多阿103850ALD1(611881)C类
CCT5型ENSG00000150753号机组第15.2页邮编098,中央电视台56101505CCT5(256840)C类
EFHC1型ENSG0000096093号机组第12.2页EFHC1型6088159日本(607631)C类
NM23型ENSG0000011052第17季度21.33NM23-H2、NME1-NME2、NM23-H1、NME2、NM231564905挪威(256700)C类
PDE6A型ENSG00000132915号机组第5季度32PDEA、PDE6A180071RP43(180071)C类
PDE6B型ENSG00000133256号第16.3页RP40、CSNB3、PDE6B、PDEB、rd1180072RP40(180072)C类
PHB1级ENSG00000167085号机组第17季度21.33PHB、PHB11767054菲律宾比索(176705)C类
PMCA2型ENSG00000157087号机组第53页PMCA2、ATP2B21087335ATP2B2(601386)C类
RCNC2号机组工程量000000707292013年第16季度RCNC2、CNCG2、CNGC3L、GARP、CNGB1、GAR1、CNGB1B、RCNCb6007242RP45(268000)C类
TULP1公司ENSG00000112041号机组第61.31页RP14、大号1、大号16022804RP14(600132)C类
UBE1X公司ENSG00000130985号机组Xp11.3解决方案UBE1X、A1S9T、UBA1、UBE1、GXP13143704SMAX2(301830)C类
基因身份证件波段同义词MIM编号纤毛证据相关疾病状态
AHI1型ENSG00000135541号机组6季度23.3JBTS3、AHI1、ORF1、FLJ200696088941JBTS3(608629)、AHI1(608627)K(K)
AIPL1号机组ENSG00000129221号机组17页13.2AIPL1、LCA4604392LCA4(604393),AIPL1(604399)K(K)
ALMS1号机组ENSG00000116127号机组第13.1页ALMS1,KIAA03286068442ALMS1(203800)K(K)
ARL13B公司ENSG00000169379号机组第3季度11.2ARL13B、ARL2L1、DKFZp761H079、JBTS86089222JBTS8(612291)N个
ARL6号机组工程量00000113966第3季度11.2ARL6、BBS36088456BBS3(209900)K(K)
ARPKD(平均零售价)工程量00000170927第12.2页ARPKD、纤维囊蛋白、tigmin、PKHD1、TIGM1、聚乙烯、FCYT6067020PKHD1(263200),ARPKD(2632000)K(K)
英国广播公司1ENSG00000174483号机组第11季度13.2BBS1、FLJ23590、DPP32099016BBS1(209900)K(K)
英国广播公司10工程量0000017994112季度21.2C12或58,FLJ23560,BBS106101480BBS10(209900)K(K)
英国广播公司11ENSG00000119401公司9季度33.1TRIM32、LGMD2H、HT2A、TATIP、BBS116022900BBS11(209900)K(K)
英国广播公司12ENSG00000181004号第4季度27FLJ35630、C4orf24、BBS12、FLJ415596106830BBS12(209900)K(K)
英国广播公司2ENSG00000125124号16季度12.2BBS2、BBS6061515BBS2(209900)K(K)
英国广播公司4ENSG00000140463号机组第15季度24.1英国广播公司46003744BBS4(209900)K(K)
英国广播公司5ENSG00000163093号机组第2季度31.1DKFZp762I194、BBS56036509BBS5(209900)K(K)
BBS6系列ENSG00000125863号机组20页12.2MKKS、BBS66048960BBS6(209900)K(K)
论坛7工程量00000138686第4季度27BBS2L1、BBS7、FLJ107156075905BBS7(209900)K(K)
论坛9ENSG00000122507号机组第7页14.3PTHB1、B1、BBS96079685BBS9(209900)K(K)
CCDC28B公司ENSG00000160050号第15.1页CCDC28B、MGC1203、RP4-622L5.56101620MGC1203(209900)N个
CC2D2A型ENSG0000048342号机组第4页15.33MKS6、NP_001073991.1、JBTS9、CC2D2A、KIAA13456120136MKS6(612284)、JBTS9(612285)N个
CEP290公司ENSG00000198707号文件12季度21.32MKS4、JBTS5、SLSN6、BBS14、rd16、NPHP6、FLJ13615、KIAA0373、3H11Ag、CEP290、LCA10610142JBTS5(610188)、MKS4(611134)、SLSN6(610189)、BBS14(209900)、LCA10(611755)、NPHP6K(K)
CRB1号机组ENSG00000134376号机组1季度31.3LCA8、RP12、CRB16042100LCA8(204000)、RP12(600105)、CRB1(604210)K(K)
CRX公司ENSG00000105392号机组19季度13.3CORD2、OTX3、CRD、LCA7、CRX6022250CORD2(120970)、LCA7(602225)、RP(268000)K(K)
DNAH11ENSG00000105877号机组第7页15.3DNHBL、DNAH11、DNAHBL、Dnahc11、CILD7、DPL116033397CID7(611884)K(K)
DNAH5型ENSG0000039139号第15.2页CID3、PCD、KTGNR、HL1、Dnahc5、DNAH56033358CID3(608644)K(K)
DNAI1公司ENSG00000122735号机组9页13.3DNAI1、PCD、CILD16043669CID1(244400)K(K)
DNAI2公司ENSG00000171595号机组17季度25.1DNAI2公司6054838CID9(612444)N个
GLIS2公司ENSG00000126603标准16页13.3GLIS2、NPHP76085390NPHP7(611498)K(K)
GUCY2D公司ENSG00000132518号机组17页13.1LCA1、GUCY2D、CYGD、CORD6、ROS-GC1、CORD5、GUC1A4、GUC2D、retGC、LCA、retGC-1600179LCA1(204000),有线6(601777)K(K)
IFT80型ENSG0000068885号机组第3季度25.33KIAA1374、WDR56、IFT8061117712电话:2(611263)K(K)
IMPDH1型ENSG00000106348号机组7季度32.1sWSS2608、IMPDH1、RP10、LCA111466901RP10(180105),LCA11(146690)K(K)
INVS公司ENSG00000119509号机组9季度31.1库存,NPHP22433050NPHP2(602088)K(K)
IQCB1型ENSG00000173226号机组第3季度13.33KIAA0036、IQCB1、NPHP56092371NPHP5(609254),SLN5(602254)K(K)
KTU公司ENSG00000165506号机组14季度21.3KTU,C14或104,FLJ105636125170CID10(612518)N个
LCA5型ENSG00000135338号6季度14.1LCA5、C6或1526114082LCA5(604537)K(K)
MKS1型ENSG0000011143号机组17季度23.2FLJ20345、MKS、MKS16098834MKS1(249000),BBS13(209900)K(K)
NEK8公司ENSG00000160602号机组17季度11.2NEK8公司6097990NPHP9型N个
NPHP1型ENSG00000144061号机组2013年第2季度NPHP1、NPH1、JBTS46071004NPHP1(256100)、JBTS4(609583)、SLNS1(266900)K(K)
NPHP3核电站ENSG00000113971号机组第3季度22.1FLJ12592、NPH3、KIAA2000、NPHP3、FLJ30691、ACAD11、FLJ366966080021NPHP3(604387),SLNS3(606995)K(K)
NPHP4核电站ENSG00000131697号机组1第36.31页NPHP4、肾视网膜素、KIAA0673、SLSN46072156NPHP4(606996),SLSN4(606696)K(K)
OFD1公司ENSG0000046651号机组Xp22.2系列OFD1、CX或5、71-7A3001701OFD1(311200)K(K)
PKD1系列ENSG0000008710号机组16页13.3PBP、PKD16013130PKD1(173900)K(K)
PKD2系列ENSG00000118762号机组第4季度22.1PKD2、PKD4、PC21739101PKD2(173900)K(K)
RDH12型ENSG00000139988号机组14季度24.1FLJ30273、RDH12、SDR7C26088301LCA13(612712)K(K)
RPE65型ENSG00000116745号机组2012年1月31日RP20、RPE65、rd12、LCA21800691LCA2(204100)K(K)
RPGRIP1系统ENSG0000092200号14季度11.2RPGRIP1、LCA6、RGI1、RPGRIP6054461CORD9(608194),LCA6(605446)K(K)
固定夹1LENSG00000103494号机组16季度12.2MKS5、RPGRIP1L、JBTS7、NPHP8、CORS3、KIAA10056109370MKS5(611561)、JBTS7(611560)、NPHP8、CORS3K(K)
RSHL3、RSPH4aENSG00000111834号机组6季度22.1RSHL3、dJ412I7.1、FLJ3797461264710CID11(612649)N个
RSPH9型ENSG00000172426号机组第61.1页C6orf206,MRPS18AL1,FLJ308456126488CID12(612650)N个
TMEM67型ENSG00000164953号机组8季度22.1MKS3、JBTS6、MGC26979、TMEM676098841MKS3(607361)、JBTS6(610688)K(K)
TTC8型ENSG00000165533号机组14季度32.11TTC8、BBS86081327BBS8(209900)K(K)
TXNDC3型ENSG00000086288标准第7页14.1SPTRX2、CID6、NME8、TXNDC3607421CILD6(610852)K(K)
阿尔多阿ENSG00000149925号机组16页第11.2页阿尔多阿103850ALD1(611881)C类
CCT5型ENSG00000150753号机组第15.2页邮编098,中央电视台56101505CCT5(256840)C类
EFHC1型ENSG0000096093号机组第12.2页EFHC1型6088159日本(607631)C类
NM23型ENSG0000011052第17季度21.33NM23-H2、NME1-NME2、NM23-H1、NME2、NM231564905挪威(256700)C类
PDE6A型ENSG00000132915号机组第5季度32PDEA、PDE6A180071RP43(180071)C类
PDE6B型ENSG00000133256号第16.3页RP40、CSNB3、PDE6B、PDEB、rd1180072RP40(180072)C类
PHB1级ENSG00000167085号机组第17季度21.33PHB、PHB11767054菲律宾比索(176705)C类
PMCA2型ENSG00000157087号机组第53页PMCA2、ATP2B21087335ATP2B2(601386)C类
RCNC2号机组工程量000000707292013年第16季度RCNC2、CNCG2、CNGC3L、GARP、CNGB1、GAR1、CNGB1B、RCNCb6007242RP45(268000)C类
TULP1公司ENSG00000112041号机组第61.31页RP14、大号1、大号16022804RP14(600132)C类
UBE1X公司ENSG00000130985号机组Xp11.3解决方案UBE1X、A1S9T、UBA1、UBE1、GXP13143704SMAX2(301830)C类

该表列出了迄今为止确定的所有已知或推定的纤毛病变。除了常见的基因名称、ID、染色体位置、同义词和相应的MIM编号外,我们还添加了睫状体证据的数量(与基因相关的研究数量)和与基因缺陷相关的疾病(名称和MIM编号)。最后一列是我们研究中纤毛病的现状;K: OMIM中提及的已知纤毛病;N: OMIM中尚未提及或OMIM基因图谱部分中尚未列出的已知纤毛病,OMIM是一种将疾病与基因联系起来的工具;C: 候选的新型纤毛病。

表1。

与已知和候选纤毛病相关的人类基因

基因身份证件波段同义词MIM编号纤毛证据相关疾病状态
AHI1型ENSG00000135541号机组6季度23.3JBTS3、AHI1、ORF1、FLJ200696088941JBTS3(608629)、AHI1(608627)K(K)
AIPL1号机组ENSG00000129221号机组17页13.2AIPL1、LCA4604392LCA4(604393),AIPL1(604399)K(K)
ALMS1号机组ENSG00000116127号机组第13.1页ALMS1,KIAA03286068442ALMS1(203800)K(K)
ARL13B公司ENSG00000169379号机组第3季度11.2ARL13B、ARL2L1、DKFZp761H079、JBTS86089222JBTS8(612291)N个
ARL6号机组工程量00000113966第3季度11.2ARL6、BBS36088456BBS3(209900)K(K)
ARPKD(平均零售价)工程量00000170927第12.2页ARPKD、纤维囊蛋白、tigmin、PKHD1、TIGM1、聚乙烯、FCYT6067020PKHD1(263200),ARPKD(2632000)K(K)
英国广播公司1ENSG00000174483号机组11问题13.2BBS1、FLJ23590、DPP32099016BBS1(209900)K(K)
英国广播公司10工程量0000017994112季度21.2C12或58,FLJ23560,BBS106101480BBS10(209900)K(K)
英国广播公司11ENSG00000119401公司9季度33.1TRIM32、LGMD2H、HT2A、TATIP、BBS116022900BBS11(209900)K(K)
英国广播公司12ENSG00000181004号第4季度27FLJ35630、C4orf24、BBS12、FLJ415596106830BBS12(209900)K(K)
英国广播公司2ENSG00000125124号16季度12.2BBS2、BBS6061515BBS2(209900)K(K)
英国广播公司4ENSG00000140463号机组第15季度24.1英国广播公司46003744BBS4(209900)K(K)
英国广播公司5ENSG00000163093号机组第2季度31.1DKFZp762I194、BBS56036509BBS5(209900)K(K)
BBS6系列ENSG00000125863号机组20页12.2MKKS、BBS66048960BBS6(209900)K(K)
论坛7工程量00000138686第4季度27BBS2L1、BBS7、FLJ107156075905BBS7(209900)K(K)
论坛9ENSG00000122507号机组第7页14.3PTHB1、B1、BBS96079685BBS9(209900)K(K)
CCDC28B公司ENSG00000160050号第15.1页CCDC28B、MGC1203、RP4-622L5.56101620MGC1203(209900)N个
CC2D2A型ENSG0000048342号机组第4页15.33MKS6、NP_001073991.1、JBTS9、CC2D2A、KIAA13456120136MKS6(612284)、JBTS9(612285)N个
CEP290公司ENSG00000198707号文件12季度21.32MKS4、JBTS5、SLSN6、BBS14、rd16、NPHP6、FLJ13615、KIAA0373、3H11Ag、CEP290、LCA10610142JBTS5(610188)、MKS4(611134)、SLSN6(610189)、BBS14(209900)、LCA10(611755)、NPHP6K(K)
CRB1号机组ENSG00000134376号机组1季度31.3LCA8、RP12、CRB16042100LCA8(204000)、RP12(600105)、CRB1(604210)K(K)
CRX公司ENSG00000105392号机组19季度13.3CORD2、OTX3、CRD、LCA7、CRX6022250CORD2(120970)、LCA7(602225)、RP(268000)K(K)
DNAH11ENSG00000105877号机组第7页15.3DNHBL、DNAH11、DNAHBL、Dnahc11、CILD7、DPL116033397CID7(611884)K(K)
DNAH5型ENSG0000039139号第15.2页CID3、PCD、KTGNR、HL1、Dnahc5、DNAH56033358CID3(608644)K(K)
DNAI1公司ENSG00000122735号机组9页13.3DNAI1、PCD、CILD16043669CID1(244400)K(K)
DNAI2公司ENSG00000171595号机组17季度25.1DNAI2公司6054838CID9(612444)N个
GLIS2公司ENSG00000126603标准16页13.3GLIS2、NPHP76085390NPHP7(611498)K(K)
GUCY2D公司ENSG00000132518号机组17页13.1LCA1、GUCY2D、CYGD、CORD6、ROS-GC1、CORD5、GUC1A4、GUC2D、retGC、LCA、retGC-1600179LCA1(204000),有线6(601777)K(K)
IFT80型ENSG0000068885号机组第3季度25.33KIAA1374、WDR56、IFT8061117712电话:2(611263)K(K)
IMPDH1型ENSG00000106348号机组7季度32.1sWSS2608、IMPDH1、RP10、LCA111466901RP10(180105),LCA11(146690)K(K)
INVS公司ENSG00000119509号机组9季度31.1库存,NPHP22433050NPHP2(602088)K(K)
IQCB1型ENSG00000173226号机组第3季度13.33KIAA0036、IQCB1、NPHP56092371NPHP5(609254),SLN5(602254)K(K)
KTU公司ENSG00000165506号机组14季度21.3KTU,C14或104,FLJ105636125170CID10(612518)N个
LCA5型ENSG00000135338号第6季度14.1LCA5、C6或1526114082LCA5(604537)K(K)
MKS1型ENSG0000011143号机组17季度23.2FLJ20345、MKS、MKS16098834MKS1(249000),BBS13(209900)K(K)
NEK8公司ENSG00000160602号机组17季度11.2NEK8公司6097990NPHP9型N个
NPHP1型ENSG00000144061号机组2013年第2季度NPHP1、NPH1、JBTS46071004NPHP1(256100)、JBTS4(609583)、SLNS1(266900)K(K)
NPHP3核电站ENSG00000113971号机组第3季度22.1FLJ12592、NPH3、KIAA2000、NPHP3、FLJ30691、ACAD11、FLJ366966080021NPHP3(604387),SLNS3(606995)K(K)
NPHP4核电站ENSG00000131697号机组1第36.31页NPHP4、肾视网膜素、KIAA0673、SLSN46072156NPHP4(606996),SLSN4(606696)K(K)
OFD1公司ENSG0000046651号机组Xp22.2系列OFD1、CX或5、71-7A3001701OFD1(311200)K(K)
PKD1系列ENSG0000008710号机组16页13.3PBP、PKD16013130PKD1(173900)K(K)
PKD2系列ENSG00000118762号机组第4季度22.1PKD2、PKD4、PC21739101PKD2(173900)K(K)
RDH12型ENSG00000139988号机组14季度24.1FLJ30273、RDH12、SDR7C26088301LCA13(612712)K(K)
RPE65型ENSG00000116745号机组2012年1月31日RP20、RPE65、rd12、LCA21800691LCA2(204100)K(K)
RPGRIP1系统ENSG0000092200号14季度11.2RPGRIP1、LCA6、RGI1、RPGRIP6054461CORD9(608194),LCA6(605446)K(K)
固定夹1LENSG00000103494号机组16季度12.2MKS5、RPGRIP1L、JBTS7、NPHP8、CORS3、KIAA10056109370MKS5(611561)、JBTS7(611560)、NPHP8、CORS3K(K)
RSHL3、RSPH4aENSG00000111834号机组6季度22.1RSHL3、dJ412I7.1、FLJ3797461264710CID11(612649)N个
RSPH9型ENSG00000172426号机组第6页21.1C6orf206,MRPS18AL1,FLJ308456126488CID12(612650)N个
TMEM67型ENSG00000164953号机组8季度22.1MKS3、JBTS6、MGC26979、TMEM676098841MKS3(607361)、JBTS6(610688)K(K)
TTC8型ENSG00000165533号机组14季度32.11TTC8、BBS86081327BBS8(209900)K(K)
TXNDC3型ENSG00000086288标准第7页14.1SPTRX2、CID6、NME8、TXNDC3607421CILD6(610852)K(K)
阿尔多阿ENSG00000149925号机组16页第11.2页阿尔多阿103850ALD1(611881)C类
CCT5型ENSG00000150753号机组第15.2页邮编098,中央电视台56101505CCT5(256840)C类
EFHC1型ENSG0000096093号机组第12.2页EFHC1型6088159日本(607631)C类
NM23型ENSG0000011052第17季度21.33NM23-H2、NME1-NME2、NM23-H1、NME2、NM231564905挪威(256700)C类
PDE6A型ENSG00000132915号机组第5季度32PDEA、PDE6A180071RP43(180071)C类
PDE6B型ENSG00000133256号第16.3页RP40、CSNB3、PDE6B、PDEB、rd1180072RP40(180072)C类
PHB1级ENSG00000167085号机组第17季度21.33PHB、PHB11767054菲律宾比索(176705)C类
PMCA2型ENSG00000157087号机组第53页PMCA2、ATP2B21087335ATP2B2(601386)C类
RCNC2号机组工程量000000707292013年第16季度RCNC2、CNCG2、CNGC3L、GARP、CNGB1、GAR1、CNGB1B、RCNCb6007242RP45(268000)C类
TULP1公司ENSG00000112041号机组第61.31页RP14、大号1、大号16022804RP14(600132)C类
UBE1X公司ENSG00000130985号机组Xp11.3解决方案UBE1X、A1S9T、UBA1、UBE1、GXP13143704SMAX2(301830)C类
基因身份证件波段同义词MIM编号纤毛证据相关疾病状态
AHI1型ENSG00000135541号机组6季度23.3JBTS3、AHI1、ORF1、FLJ200696088941JBTS3(608629)、AHI1(608627)K(K)
AIPL1号机组ENSG00000129221号机组17页13.2AIPL1、LCA4604392LCA4(604393),AIPL1(604399)K(K)
ALMS1号机组ENSG00000116127号机组第13.1页ALMS1,KIAA03286068442ALMS1(203800)K(K)
ARL13B公司ENSG00000169379号机组第3季度11.2ARL13B、ARL2L1、DKFZp761H079、JBTS86089222JBTS8(612291)N个
ARL6号机组工程量00000113966第3季度11.2ARL6、BBS36088456BBS3(209900)K(K)
ARPKD(平均零售价)工程量00000170927第12.2页ARPKD、纤维囊蛋白、tigmin、PKHD1、TIGM1、聚乙烯、FCYT6067020PKHD1(263200),ARPKD(2632000)K(K)
英国广播公司1ENSG00000174483号机组第11季度13.2BBS1、FLJ23590、DPP32099016BBS1(209900)K(K)
英国广播公司10工程量0000017994112季度21.2C12或58,FLJ23560,BBS106101480BBS10(209900)K(K)
英国广播公司11ENSG00000119401公司9季度33.1TRIM32、LGMD2H、HT2A、TATIP、BBS116022900BBS11(209900)K(K)
英国广播公司12ENSG00000181004号第4季度27FLJ35630、C4orf24、BBS12、FLJ415596106830BBS12(209900)K(K)
英国广播公司2ENSG00000125124号16季度12.2BBS2、BBS6061515BBS2(209900)K(K)
英国广播公司4ENSG00000140463号机组第15季度24.1英国广播公司46003744BBS4(209900)K(K)
英国广播公司5ENSG00000163093号机组第2季度31.1DKFZp762I194、BBS56036509BBS5(209900)K(K)
BBS6系列ENSG00000125863号机组20页12.2MKKS、BBS66048960BBS6(209900)K(K)
论坛7工程量00000138686第4季度27BBS2L1、BBS7、FLJ107156075905BBS7(209900)K(K)
论坛9ENSG00000122507号机组第7页14.3PTHB1、B1、BBS96079685BBS9(209900)K(K)
CCDC28B公司ENSG00000160050号第15.1页CCDC28B、MGC1203、RP4-622L5.56101620MGC1203(209900)N个
CC2D2A型ENSG0000048342号机组第4页15.33MKS6、NP_001073991.1、JBTS9、CC2D2A、KIAA13456120136MKS6(612284)、JBTS9(612285)N个
CEP290公司ENSG00000198707号文件12季度21.32MKS4、JBTS5、SLSN6、BBS14、rd16、NPHP6、FLJ13615、KIAA0373、3H11Ag、CEP290、LCA10610142JBTS5(610188)、MKS4(611134)、SLSN6(610189)、BBS14(209900)、LCA10(611755)、NPHP6K(K)
CRB1号机组ENSG00000134376号机组1季度31.3LCA8、RP12、CRB16042100LCA8(204000)、RP12(600105)、CRB1(604210)K(K)
CRX公司ENSG00000105392号机组19季度13.3CORD2、OTX3、CRD、LCA7、CRX6022250CORD2(120970)、LCA7(602225)、RP(268000)K(K)
DNAH11ENSG00000105877号机组第7页15.3DNHBL、DNAH11、DNAHBL、Dnahc11、CILD7、DPL116033397CID7(611884)K(K)
DNAH5型ENSG0000039139号第15.2页CID3、PCD、KTGNR、HL1、Dnahc5、DNAH56033358CID3(608644)K(K)
DNAI1公司ENSG00000122735号机组9页13.3DNAI1、PCD、CILD16043669CID1(244400)K(K)
DNAI2公司ENSG00000171595号机组17季度25.1DNAI2公司6054838CID9(612444)N个
GLIS2公司ENSG00000126603标准16页13.3GLIS2、NPHP76085390NPHP7(611498)K(K)
GUCY2D公司ENSG00000132518号机组17页13.1LCA1、GUCY2D、CYGD、CORD6、ROS-GC1、CORD5、GUC1A4、GUC2D、retGC、LCA、retGC-1600179LCA1(204000),有线6(601777)K(K)
IFT80型ENSG0000068885号机组第3季度25.33KIAA1374、WDR56、IFT8061117712电话:2(611263)K(K)
IMPDH1型ENSG00000106348号机组7季度32.1sWSS2608、IMPDH1、RP10、LCA111466901RP10(180105),LCA11(146690)K(K)
INVS公司ENSG00000119509号机组9季度31.1库存,NPHP22433050NPHP2(602088)K(K)
IQCB1型ENSG00000173226号机组第3季度13.33KIAA0036、IQCB1、NPHP56092371NPHP5(609254),SLN5(602254)K(K)
KTU公司ENSG00000165506号机组14季度21.3KTU,C14或104,FLJ105636125170CID10(612518)N个
LCA5型ENSG00000135338号6季度14.1LCA5、C6或1526114082LCA5(604537)K(K)
MKS1型ENSG0000011143号机组17季度23.2FLJ20345、MKS、MKS16098834MKS1(249000),BBS13(209900)K(K)
NEK8公司ENSG00000160602号机组17季度11.2NEK8公司6097990NPHP9型N个
NPHP1型ENSG00000144061号机组2013年第2季度NPHP1、NPH1、JBTS46071004NPHP1(256100)、JBTS4(609583)、SLNS1(266900)K(K)
NPHP3核电站ENSG00000113971号机组第3季度22.1FLJ12592、NPH3、KIAA2000、NPHP3、FLJ30691、ACAD11、FLJ366966080021NPHP3(604387),SLNS3(606995)K(K)
NPHP4核电站ENSG00000131697号机组1第36.31页NPHP4、肾视网膜素、KIAA0673、SLSN46072156NPHP4(606996),SLSN4(606696)K(K)
OFD1公司ENSG0000046651号机组Xp22.2系列OFD1、CX或5、71-7A3001701OFD1(311200)K(K)
PKD1系列ENSG0000008710号机组16页13.3PBP、PKD16013130PKD1(173900)K(K)
PKD2系列ENSG00000118762号机组第4季度22.1PKD2、PKD4、PC21739101PKD2(173900)K(K)
RDH12型ENSG00000139988号机组14季度24.1FLJ30273、RDH12、SDR7C26088301LCA13(612712)K(K)
RPE65型ENSG00000116745号机组2012年1月31日RP20、RPE65、rd12、LCA21800691LCA2(204100)K(K)
RPGRIP1系统ENSG0000092200号14季度11.2RPGRIP1、LCA6、RGI1、RPGRIP6054461CORD9(608194),LCA6(605446)K(K)
固定夹1LENSG00000103494号机组16季度12.2MKS5、RPGRIP1L、JBTS7、NPHP8、CORS3、KIAA10056109370MKS5(611561)、JBTS7(611560)、NPHP8、CORS3K(K)
RSHL3、RSPH4aENSG00000111834号机组6季度22.1RSHL3、dJ412I7.1、FLJ3797461264710CID11(612649)N个
RSPH9型ENSG00000172426号机组第61.1页C6orf206,MRPS18AL1,FLJ308456126488CID12(612650)N个
TMEM67型ENSG00000164953号机组8季度22.1MKS3、JBTS6、MGC26979、TMEM676098841MKS3(607361)、JBTS6(610688)K(K)
TTC8型ENSG00000165533号机组14季度32.11TTC8、BBS86081327BBS8(209900)K(K)
TXNDC3型ENSG00000086288标准第7页14.1SPTRX2、CID6、NME8、TXNDC3607421CILD6(610852)K(K)
阿尔多阿ENSG00000149925号机组16页第11.2页阿尔多阿103850ALD1(611881)C类
CCT5型ENSG00000150753号机组第15.2页邮编098,中央电视台56101505CCT5(256840)C类
EFHC1型ENSG0000096093号机组第12.2页EFHC1型6088159日本(607631)C类
NM23型ENSG0000011052第17季度21.33NM23-H2、NME1-NME2、NM23-H1、NME2、NM231564905挪威(256700)C类
PDE6A型ENSG00000132915号机组第5季度32PDEA、PDE6A180071RP43(180071)C类
PDE6B型ENSG00000133256号第16.3页RP40、CSNB3、PDE6B、PDEB、rd1180072RP40(180072)C类
PHB1级ENSG00000167085号机组第17季度21.33PHB、PHB11767054菲律宾比索(176705)C类
PMCA2型ENSG00000157087号机组第53页PMCA2、ATP2B21087335ATP2B2(601386)C类
RCNC2号机组工程量000000707292013年第16季度RCNC2、CNCG2、CNGC3L、GARP、CNGB1、GAR1、CNGB1B、RCNCb6007242RP45(268000)C类
TULP1公司ENSG00000112041号机组第61.31页RP14、大号1、大号16022804RP14(600132)C类
UBE1X公司ENSG00000130985号机组Xp11.3解决方案UBE1X、A1S9T、UBA1、UBE1、GXP13143704SMAX2(301830)C类

该表列出了迄今为止确定的所有已知或推定的纤毛病变。除了常见的基因名称、ID、染色体位置、同义词和相应的MIM编号外,我们还添加了睫状体证据的数量(与基因相关的研究数量)和与基因缺陷相关的疾病(名称和MIM编号)。最后一列是我们研究中纤毛病的现状;K: OMIM中提及的已知纤毛病;N: OMIM中尚未提及或OMIM基因图谱部分中尚未列出的已知纤毛病,OMIM是一种将疾病与基因联系起来的工具;C: 候选的新型纤毛病。

最后,人类中存在数百种孤儿疾病,其症状可能会引起睫状体起源(耳聋、视网膜缺陷、肥胖、多指畸形、肾多囊症、精神发育迟滞),但染色体上的遗传位置只能通过与标记物的连锁来确定。在Cildb中,我们建立了一个特殊的部分,即“Hsapeens OMIM数据库”,其中可以显示人类蛋白质和OMIM条目,即使这些条目定位不准确。例如,睫状体病“老年-对数综合征3(SLSN3)”(OMIM 606995)定位于第3染色体q22区,因此包含831个基因。这些基因及其属性可以被显示出来,以帮助找到这种综合征的候选基因。

结论-未来的挑战

新的高通量睫状体数据的生成草履虫属促使我们构建Cildb,这是一个新的数据库,它集成了来自各种来源的异构信息。Cildb的多功能性使其成为一个有价值的知识库,允许从任何蛋白质组进行查询,并使用高通量睫状体研究和多标准查询的原始数据。Cildb还可以识别纤毛病基因,甚至可以帮助识别染色体上定位不准确的疾病候选基因。除了睫状体数据外,Cildb还包含易于检索的信息,这些信息与蛋白质的一般分析、比较基因组学以及与OMIM有关人类遗传疾病的数据的链接有关。

虽然更新Cildb需要计算机时间,但过程很简单。下一个挑战将是纳入本体感知表型描述所需的额外信息(33). 这将允许我们增加高通量RNAi研究或基因筛查,例如在鱼类中进行的研究达尼奥·雷里奥(34).

基金

CNRS和国家研究机构,拨款编号NT05-2_41522。开放存取费用的资金来源:CNRS。

利益冲突声明。未申报。

致谢

作者感谢Anne Laurençon花时间测试Cildb并参与其改进,感谢INRA MIGALE生物信息学平台提供计算资源。

工具书类

1
博尔南
M(M)
器官定位和细胞极性
自然修订版分子细胞生物学。
2008
,卷。 
9
(第
874
-
886
)
2
Dawe公司
人力资源
法尔
H(H)
海鸥
K(K)
动物细胞纤毛发生过程中的中心柄/基底体形态发生和迁移
细胞科学杂志。
2007
,卷。 
120
(第
7
-
15
)
马歇尔
WF公司
用于构建纤毛的基底体平台
货币。顶级开发人员生物。
2008
,体积。 
85
(第
1
-
22
)
4
巴苏
B类
布鲁克纳
M(M)
脊椎动物左右不对称中心的纤毛多功能细胞器
货币。顶级开发人员生物。
2008
,卷。 
85
(第
151
-
174
)
5
萨拉特
M(M)
哺乳动物睫状体搏动的调节
每年。生理学评论。
2007
,体积。 
69
(第
401
-
22
)
6
萨季尔
P(P)
克里斯滕森
标准时间
哺乳动物纤毛的结构和功能概述
每年。生理学评论。
2007
,卷。 
69
(第
377
-
400
)
7
沙尔马
N个
贝巴里
法国试验标准
约德
黑色
发育异常和疾病中的纤毛功能障碍
货币。顶级开发人员生物。
2008
,卷。 
85
(第
371
-
427
)
8
克里斯滕森
标准时间
佩德森
旧金山
萨季尔
P(P)
初级纤毛在发育和组织修复过程中协调细胞周期控制和迁移的信号通路
货币。顶级开发人员生物。
2008
,卷。 
85
(第
261
-
301
)
9
基普里洛夫
ZH
阿旺
A类
德普拉
R(右)
培养中的人类胚胎干细胞具有带有刺猬信号机制的初级纤毛
《细胞生物学杂志》。
2008
,体积。 
180
(第
897
-
904
)
10
奥里
J型
Jaillon公司
杜蕾特
L(左)
纤毛虫四脲草履虫揭示的全球全基因组重复趋势
自然
2006
,卷。 
444
(第
171
-
178
)
11
阿奈兹
凯恩
S公司
科恩
J型
草履虫DB:一种将四脲草履螨基因组序列与遗传数据整合在一起的群落资源
核酸研究。
2007
,卷。 
35
(第
D439号
-
D444号
)
12
Nogales-Cadenas公司
R(右)
阿巴斯卡尔
F类
迪兹-佩雷斯
J型
中心体数据库:人类中心体蛋白质数据库
核酸研究。
2009
,卷。 
37
(第
D175型
-
D180型
)
13
英格里斯
伪随机数
博罗埃维奇
灵魂
勒鲁
先生
拼接一个纤毛
趋势Genet。
2006
,卷。 
22
(第
491
-
500
)
14
盖尔曼
A类
戴维斯
受试者
卡萨尼斯
N个
睫状体蛋白质组数据库:用于纤毛遗传和功能解剖的综合社区资源
自然遗传学。
2006
,卷。 
38
(第
961
-
962
)
15
O’B;瑞恩
KP公司
雷姆
M(M)
松哈默
E.LL公司
Inparanoid:真核生物同源基因的综合数据库
核酸研究。
2005
,体积。 
33
(第
D476号
-
D80型
)
16
接线盒
格尔德斯
吉咪
海克拉夫特
CJ
比较基因组学确定包含BBS5人类疾病基因的鞭毛和基底体蛋白质组
单元格
2004
,卷。 
117
(第
541
-
552
)
17
雷特
书信电报
左侧
费希尔
微软
强调负面:使用负面蛋白质组数据库进行蛋白质组比较
Fly(奥斯汀)
2007
,卷。 
1
(第
164
-
171
)
18
史密斯
JC公司
诺西
J·GB
加格
J型
利用整个翻译基因组进行MS/MS蛋白质组分析的稳健方法:嗜热四膜虫纤毛组的验证
蛋白质组研究杂志。
2005
,卷。 
4
(第
909
-
919
)
19
奥斯特罗斯基
LE公司
布莱克本
K(K)
Radde公司
公里
人类纤毛的蛋白质组学分析:新成分的鉴定
分子细胞蛋白质组学
2002
,卷。 
1
(第
451
-
465
)
20
埃马努埃尔松
布鲁纳克
S公司
冯·海因
G公司
使用TargetP、SignalP和相关工具定位细胞中的蛋白质
《国家协议》。
2007
,卷。 
2
(第
953
-
971
)
21
莫勒
S公司
克郎宁
医学博士
阿普维勒
R(右)
膜跨越区域预测方法的评价
生物信息学
2001
,卷。 
17
(第
646
-
653
)
22
斯梅德利
海德尔
S公司
球鞋
B类
BioMart生物查询变得简单
BMC基因组学
2009
,卷。 
10
第页。 
22
 
23
阿尔特舒尔
旧金山
马登
TL公司
Schäffer公司
AA公司
缺口BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序
核酸研究。
1997
,体积。 
25
(第
3389
-
3402
)
24
斯坦因
劳埃德
蒙加尔
C类
S公司
通用基因组浏览器:模型生物系统数据库的构建块
基因组研究。
2002
,卷。 
12
(第
1599
-
1610
)
25
Perl模板工具包
 
26
帕佐尔
GJ公司
阿格林
N个
莱兹克
J型
真核纤毛的蛋白质组学分析
《细胞生物学杂志》。
2005
,卷。 
170
(第
103
-
113
)
27
亚当斯
M(M)
史密斯
洛根
现金流量
纤毛病的分子病理学、细胞生物学和遗传学研究进展
医学遗传学杂志。
2008
,卷。 
45
(第
257
-
267
)
28
格尔德斯
吉咪
戴维斯
受试者
卡萨尼斯
N个
脊椎动物初级纤毛在发育、体内平衡和疾病中的作用
单元格
2009
,卷。 
137
(第
32
-
45
)
29
迪里耶
B类
迪凯努瓦
P(P)
埃斯屈迪耶
电子
硫氧还蛋白家族成员中的一个常见变异体与无义突变共同导致原发性睫状体运动障碍
程序。美国国家科学院。科学。美国
2007
,卷。 
104
(第
3336
-
3341
)
30
原木
新技术
奥尔布里希
H(H)
芬斯克
L(左)
DNAI2突变导致原发性纤毛运动障碍伴外动力蛋白臂缺陷
Am.J.Hum.基因
2008
,卷。 
83
(第
547
-
558
)
31
奥姆兰
H(H)
小林寺
奥尔布里希
H(H)
Ktu/PF13是轴突动力蛋白细胞质预组装所必需的
自然
2008
,卷。 
456
(第
611
-
616
)
32
卡斯特曼
VH公司
罗米奥
L(左)
乔达里
R(右)
放射状辐条头部蛋白基因RSPH9和RSPH4A突变导致原发性纤毛运动障碍伴中央微管对异常
Am.J.Hum.遗传学。
2009
,卷。 
84
(第
197
-
209
)
33
华盛顿
荷兰
海德尔
妈妈
蒙加尔
希杰
使用基于个体学的表型注释将人类疾病与动物模型联系起来
2009
 
公共科学图书馆生物.,7,e1000247
34
C类
马利基
J型
斑马鱼前肾纤毛的遗传缺陷
机械。开发。
2007
,卷。 
124
(第
605
-
616
)
35
安徒生
JS公司
威尔金森
希杰
市长
T型
用蛋白质相关分析法研究人中心体的蛋白质组学特征
自然
2003
,卷。 
426
(第
570
-
574
)
36
Avidor-Reiss公司
T型
梅尔
调幅
昆达克坚
电子
解码纤毛功能:定义分隔纤毛生物发生所需的特殊基因
单元格
2004
,卷。 
117
(第
527
-
539
)
37
布莱克
运行经验
佩雷斯
每个
博罗埃维奇
灵魂
纤毛(一种感觉细胞器)的功能基因组学
货币。生物。
2005
,卷。 
15
(第
935
-
941
)
38
Broadhead公司
R(右)
Dawe公司
人力资源
法尔
H(H)
血液锥虫的存活需要鞭毛运动
自然
2006
,卷。 
440
(第
224
-
227
)
39
N个
马赫
A类
布莱克
运行经验
通过比较基因组学鉴定秀丽隐杆线虫纤毛和纤毛病基因
基因组生物学。
2006
,卷。 
7
第页。 
126兰特
 
40
叶菲缅科
电子
泡泡
K(K)
马克
HY公司
中xbx基因的分析C类
雅致。开发
2005
,卷。 
132
(第
1923
-
1934
)
41
凯勒
信用证
罗米恩
欧洲药典
萨莫拉
分离的中心衣原体的蛋白质组分析揭示了睫状体疾病基因的同源性
货币。生物。
2005
,卷。 
15
(第
1090
-
1098
)
42
基尔本
皮尔逊
CG公司
罗米恩
欧洲药典
新的四膜虫基底体蛋白组分鉴定基底体结构域
《细胞生物学杂志》。
2007
,体积。 
178
(第
905
-
912
)
43
劳伦松
A类
迪布吕耶
R(右)
叶菲缅科
电子
果蝇新的调节因子X(RFX)靶基因的比较基因组学鉴定
基因组生物学。
2007
,体积。 
8
第页。 
195兰特
 
44
线路接口单元
棕褐色
G公司
勒文科娃
N个
小鼠光感受器感觉纤毛复合体的蛋白质组
分子细胞蛋白质组学
2007
,卷。 
6
(第
1299
-
317
)
45
迈耶
U型
Ungerer公司
N个
克里马克
大鼠嗅觉感觉纤毛膜的蛋白质组学分析
化学。Senses公司
2008
,卷。 
33
(第
145
-
162
)
46
斯托克
V(V)
萨曼塔
MP公司
通普拉西特
W公司
鞭毛再生的全基因组转录分析莱茵衣藻确定睫状体疾病基因的同源序列
程序。国家。阿卡德。科学。美国
2005
,卷。 
102
(第
3703
-
3707
)
这是根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/2.5)它允许在任何媒体上无限制地进行非商业性使用、分发和复制,前提是正确引用了原始作品。

补充数据