Linking Human Diseases to Animal Models Using Ontology-Based Phenotype Annotation

Nicole L. Washington; Melissa A. Haendel; Christopher J. Mungall; Michael Ashburner; Monte Westerfield; Suzanna E. Lewis

doi:10.1371/journal.pbio.1000247

《公共科学图书馆·生物》。2009年11月；7（11）：e1000247。

2009年11月24日在线发布。数字对象标识：10.1371/期刊.pbio.1000247

预防性维修识别码：PMC2774506型

PMID：19956802

使用基于本体的表型注释将人类疾病与动物模型联系起来

妮科尔·华盛顿,^#¹ 梅丽莎·海德尔,^#^2,^¤,^* 克里斯托弗·蒙格尔,¹ 迈克尔·阿什伯恩,^三蒙特韦斯特菲尔德,²和苏珊娜·刘易斯¹

Kenneth H.Buetow，学术编辑

作者信息文章注释版权和许可信息 PMC免责声明

关联数据

补充资料: 表S1：斑马鱼之间的比较什哈以及所有目前注释过的斑马鱼基因。报告是中报告内容的扩展列表表5，包括每个指标（simIC、simJ、avgICCS和maxIC）的等级和分数，以及给出maxIC分数的表型。已知的通路基因以黄色突出显示，文本中报告的其他基因以蓝色突出显示。只计算前1000个等级。
（0.79百万像素）
pbio.1000247.s001.xls号（767K）
GUID:158533AC-4CE3-4FD3-BBA1-2D45C4B14A30
表S2：人类之间的比较ATP2A1型和斑马鱼基因。报告了前250个基因（按simJ），以及每个指标的排名和得分（simIC、simJ、avgICCS和maxIC）。此外，使用本体标识符报告maxIC表型。请参见材料和方法获取本体前缀列表。已知序列正交图以黄色突出显示，并在中列出表6，如果存在。排名1的基因列于表7.
（0.08 MB XLS）
pbio.1000247.s002.xls公司（82K）
GUID:E3ED2F86-FCC8-4596-9504-4159EC9BB0D0
表S3：人类之间的比较EPB41型和斑马鱼基因。报告了前250个基因（按simJ），以及每个指标的排名和得分（simIC、simJ、avgICCS和maxIC）。此外，使用本体标识符报告maxIC表型。请参见材料和方法获取本体前缀列表。已知序列正交图以黄色突出显示，并在中列出表6，如果存在。排名1的基因列在表7.
（0.08 MB XLS）
pbio.1000247.s003.xls号（82K）
GUID:AA349380-154D-4C0D-AABB-08D06C2C7DD6
表S4：人类之间的比较外景2和斑马鱼基因。报告了前250个基因（按simJ），以及每个指标的排名和得分（simIC、simJ、avgICCS和maxIC）。此外，使用本体标识符报告maxIC表型。请参见材料和方法获取本体前缀列表。已知序列正交图以黄色突出显示，并在中列出表6，如果存在。排名1的基因列于表7.
（0.09百万像素）
pbio.1000247.s004.xls号（84K）
GUID:8CBDB430-6526-4B46-8F1A-DC610D2418DE
表S5：人类之间的比较眼睛A1和斑马鱼基因。报告了前250个基因（按simJ），以及每个指标的排名和得分（simIC、simJ、avgICCS和maxIC）。此外，使用本体标识符报告maxIC表型。请参见材料和方法获取本体前缀列表。已知序列正交图以黄色突出显示，并在中列出表6，如果存在。排名1的基因列于表7.
（0.09 MB XLS）
pbio.1000247.s005.xls公司（8.5万）
GUID:810B280C-9D36-4C5C-B78A-76572E3CD57F
表S6：人类之间的比较二月份和斑马鱼基因。报告了前250个基因（按simJ），以及每个指标的排名和得分（simIC、simJ、avgICCS和maxIC）。此外，使用本体标识符报告maxIC表型。请参见材料和方法获取本体前缀列表。已知序列正交图以黄色突出显示，并在中列出表6，如果存在。排名1的基因列于表7.
（0.08 MB XLS）
电话：100247.s006.xls（82K）
GUID:4EC1655F-053D-4283-B664-402E64E830B7
表S7：人类之间的比较PAX2和斑马鱼基因。报告了前250个基因（按simJ），以及每个指标的排名和得分（simIC、simJ、avgICCS和maxIC）。此外，使用本体标识符报告maxIC表型。请参见材料和方法获取本体前缀列表。已知序列正交图以黄色突出显示，并在中列出表6，如果存在。排名1的基因列于表7.
（0.09百万像素）
pbio.1000247.s007.xls公司（87K）
指南：0D703FA8-04D9-4FC8-8D12-8B3BE479F757
表S8：人类之间的比较SHH公司和斑马鱼基因。报告了前250个基因（按simJ），以及每个指标的排名和得分（simIC、simJ、avgICCS和maxIC）。此外，使用本体标识符报告maxIC表型。请参见材料和方法获取本体前缀列表。已知序列正交图以黄色突出显示，并在中列出表6，如果存在。排名1的基因列于表7.
（0.09 MB XLS）
pbio.1000247.s008.xls公司（8.4万）
GUID:16CDC5C5-ACAF-453C-9996-D6D72B3C0958
表S9：人类之间的比较SOX10标准和斑马鱼基因。报告了前250个基因（按simJ），以及每个指标的排名和得分（simIC、simJ、avgICCS和maxIC）。此外，使用本体标识符报告maxIC表型。请参见材料和方法获取本体前缀列表。已知序列正交图以黄色突出显示，并在中列出表6，如果存在。排名1的基因列于表7.
（0.09 MB XLS）
pbio.1000247.s009.xls号（8.6万）
指南：E327111B-9BC9-4D08-9D60-BCE6E3DF571C
表S10：人类之间的比较SOX9标准和斑马鱼基因。报告了前250个基因（按simJ），以及每个指标的排名和得分（simIC、simJ、avgICCS和maxIC）。此外，使用本体标识符报告maxIC表型。请参见材料和方法获取本体前缀列表。已知序列正交图以黄色突出显示，并在中列出表6，如果存在。排名1的基因列于表7.
（0.09 MB XLS）
pbio.1000247.s010.xls号（8.6万）
GUID:860852B0-D6F8-4F47-AE6C-B3D77F88D333
表S11：人与人之间的比较TNNT2公司和斑马鱼基因。报告了前250个基因（按simJ），以及每个指标的排名和得分（simIC、simJ、avgICCS和maxIC）。此外，使用本体标识符报告maxIC表型。请参见材料和方法获取本体前缀列表。已知序列正交图以黄色突出显示，并在中列出表6，如果存在。排名1的基因列于表7.
（0.08 MB XLS）
pbio.1000247.s011.xls号（81K）
GUID:0B2D2830-7455-4206-8247-370F71A99A16
表S12：人类之间的比较TTN公司和斑马鱼基因。报告了前250个基因（按simJ），以及每个指标的排名和得分（simIC、simJ、avgICCS和maxIC）。此外，使用本体标识符报告maxIC表型。请参见材料和方法获取本体前缀列表。已知序列正交图以黄色突出显示，并在中列出表6，如果存在。排名1的基因列于表7.
（0.09 MB XLS）
pbio.1000247.s012.xls号（8.4万）
GUID:32E5980A-6E2A-41F4-8586-E4BC55BF3ECB
表S13：人类之间的比较ATP2A1型和小鼠基因。报告了前250个基因（按simJ），以及每个指标的排名和得分（simIC、simJ、avgICCS和maxIC）。此外，使用本体标识符报告maxIC表型。请参见材料和方法获取本体前缀列表。已知序列正交图以黄色突出显示，并在中列出表6，如果存在。排名1的基因列于表7.
（0.08 MB XLS）
pbio.1000247.s013.xls号（7.7万）
GUID:F9DEA963-90E6-4A31-879C-301BEF80614D
表S14：人类之间的比较EPB41型以及小鼠基因。报告了前250个基因（按simJ），以及每个指标的排名和得分（simIC、simJ、avgICCS和maxIC）。此外，使用本体标识符来报告maxIC表型。请参见材料和方法获取本体前缀列表。已知序列正交图以黄色突出显示，并在中列出表6，如果存在。排名1的基因列于表7.
（0.08 MB XLS）
pbio.1000247.s014.xls号（79K）
GUID:A66A6986-8FA8-4AA5-91E3-4192D9754D71
表S15：人类之间的比较外景2和小鼠基因。报告了前250个基因（按simJ），以及每个指标的排名和得分（simIC、simJ、avgICCS和maxIC）。此外，使用本体标识符报告maxIC表型。请参见材料和方法获取本体前缀列表。已知序列正交图以黄色突出显示，并在中列出表6，如果存在。排名1的基因列于表7.
（0.08 MB XLS）
电话：100247.s015.xls（78K）
GUID:156501D8-A32F-4F76-BFD2-88967765DBF4
表S16：人类之间的比较眼睛A1和小鼠基因。报告了前250个基因（按simJ），以及每个指标的排名和得分（simIC、simJ、avgICCS和maxIC）。此外，使用本体标识符来报告maxIC表型。请参见材料和方法获取本体前缀列表。已知序列正交图以黄色突出显示，并在中列出表6，如果存在。排名1的基因列于表7.
（0.09 MB XLS）
pbio.1000247.s016.xls号（8.4万）
GUID:A517E6A6-2559-43D2-8593-505F9E34975D
表S17：人类之间的比较二月份以及小鼠基因。报告了前250个基因（按simJ），以及每个指标的排名和得分（simIC、simJ、avgICCS和maxIC）。此外，使用本体标识符来报告maxIC表型。请参见材料和方法获取本体前缀列表。已知序列正交图以黄色突出显示，并在中列出表6，如果存在。排名1的基因列于表7.
（0.08 MB XLS）
pbio.1000247.s017.xls号（78K）
GUID:5A147A85-EAF4-4A91-AB3B-893FE12CF4F3
表S18：人类之间的比较PAX2和小鼠基因。报告了前250个基因（按simJ），以及每个指标的排名和得分（simIC、simJ、avgICCS和maxIC）。此外，使用本体标识符报告maxIC表型。请参见材料和方法获取本体前缀列表。已知序列正交图以黄色突出显示，并在中列出表6，如果存在。排名1的基因列于表7.
（0.08 MB XLS）
pbio.1000247.s018.xls公司（83K）
GUID:B029D93E-241B-4D70-A7DC-34B2033F896F
表S19：人类之间的比较SHH公司和小鼠基因。报告了前250个基因（按simJ），以及每个指标的排名和得分（simIC、simJ、avgICCS和maxIC）。此外，使用本体标识符报告maxIC表型。请参见材料和方法获取本体前缀列表。已知序列正交测井以黄色突出显示，并在中列出表6，如果存在。排名1的基因列于表7.
（0.08 MB XLS）
pbio.1000247.s019.xls公司（82K）
GUID:DFCAD02A-D854-420F-8027-CD8F5462559E
表S20：人类之间的比较SOX10标准和小鼠基因。报告了前250个基因（按simJ），以及每个指标的排名和得分（simIC、simJ、avgICCS和maxIC）。此外，使用本体标识符报告maxIC表型。请参见材料和方法以获取本体前缀的列表。已知序列正交图以黄色突出显示，并在中列出表6，如果存在。排名1的基因列于表7.
（0.08 MB XLS）
pbio.1000247.s020.xls号（83K）
GUID:10CA9293-DEBA-4528-9AF3-84A1AE2DD0AC
表S21：人类之间的比较SOX9标准和小鼠基因。报告了前250个基因（按simJ），以及每个指标的排名和得分（simIC、simJ、avgICCS和maxIC）。此外，使用本体标识符报告maxIC表型。请参见材料和方法获取本体前缀列表。已知序列正交图以黄色突出显示，并在中列出表6，如果存在。排名1的基因列于表7.
（0.09 MB XLS）
pbio.1000247.s021.xls号（8.5万）
GUID:DC26A85A-5C83-4CB7-AF4F-EDC7528822CD
表S22：人类之间的比较TNNT2公司和小鼠基因。报告了前250个基因（按simJ），以及每个指标的排名和得分（simIC、simJ、avgICCS和maxIC）。此外，使用本体标识符来报告maxIC表型。请参见材料和方法获取本体前缀列表。已知序列正交图以黄色突出显示，并在中列出表6，如果存在。排名1的基因列于表7.
（0.08 MB XLS）
pbio.1000247.s022.xls公司（79K）
GUID:0548CDEA-2BF1-4EA9-95B1-DD5F2CC19885
表S23：人类之间的比较TTN公司和小鼠基因。报告了前250个基因（按simJ），以及每个指标的排名和得分（simIC、simJ、avgICCS和maxIC）。此外，使用本体标识符来报告maxIC表型。请参见材料和方法获取本体前缀列表。已知序列正交测井以黄色突出显示，并在中列出表6，如果存在。排名1的基因列于表7.
（0.08 MB XLS）
pbio.1000247.s023.xls公司（81K）
GUID:B2359384-6B36-47C9-B48E-13826AD092B5
表S24：斑马鱼之间的比较腐乳以及所有目前注释过的斑马鱼基因。报告了每个指标（simIC、simJ、avgICCS和maxIC）的等级和分数以及给出maxIC分数的表型。已知嘘路径基因以黄色突出显示。只计算前1000名的排名。
（0.25 MB XLS）
pbio.1000247.s024.xls公司（243000）
GUID:BC74DFB0-8143-4960-8238-557126FA39F0
表S25：斑马鱼之间的比较文件以及所有目前注释过的斑马鱼基因。报告了每个指标（simIC、simJ、avgICCS和maxIC）的等级和分数以及给出maxIC分数的表型。已知嘘路径基因以黄色突出显示。只计算前1000名的排名。
（0.27百万像素XLS）
pbio.1000247.s025.xls公司（267000）
GUID:84C422F3-070A-4D05-A326-06922BA89AF8

通过本体论量化表型之间相似性的新方法可用于仅基于表型搜索候选基因、通路成员和人类疾病模型。

摘要

研究遗传改变和疾病的科学家和临床医生传统上用自然语言描述表型。这些自由文本描述中的巨大差异阻碍了识别人类疾病候选基因和模型的重要任务，并表明需要一种易于计算的方法来挖掘突变表型的数据资源。在这项研究中，我们测试了疾病表型的本体论注释将有助于发现物种内和物种间新的基因型-表型关系的假设。为了使用本体描述表型，我们使用了实体质量（EQ）方法，其中受影响的实体（E）及其如何受影响（Q）是使用各种本体的术语记录的。使用这种EQ方法，我们注释了在线孟德尔人类遗传（OMIM）中描述的11种基因相关人类疾病的表型。这些人类注释被加载到我们的本体论数据库（OBD）中，以及来自各种模型生物数据库的其他基于本体论的突变体表型描述。用这种EQ方法记录的表型可以根据本体中的术语层次和注释频率进行计算比较。我们利用四个相似性指标来比较表型，并开发了同源和相似解剖结构的本体论来比较物种之间的表型。使用这些工具，我们证明，通过记录的表型的相似性，我们可以识别同一基因的其他等位基因、信号通路的其他成员以及物种间的同源基因和通路成员。我们得出的结论是，基于EQ的表型注释，结合跨物种本体论和各种相似性指标，可以通过比较表型来识别基因之间有生物学意义的相似性单独地这种注释和搜索方法为识别人类疾病的候选基因和动物模型提供了一种新颖有效的手段，这可能缩短识别和理解人类疾病遗传基础的漫长道路。

作者摘要

果蝇、小鼠和斑马鱼等模型生物对于研究基因功能很有用，因为它们很容易在实验室中生长、解剖和进行基因操作。通过检测这些生物体中的突变，人们可以确定导致人类疾病的候选基因，并开发模型以更好地了解人类疾病和基因功能。然而，分析的一个基本障碍是，当遗传基础未知时，缺乏描述和比较突变动物和人类疾病表型的计算方法。我们在这里描述了一种使用本体记录和量化表型之间相似性的新方法。我们通过使用斑马鱼Hedgehog信号通路一个成员的注释突变表型来测试我们的方法，以识别具有类似记录表型的其他通路成员。我们还将人类疾病表型与模型生物突变产生的表型进行了比较，并表明通过该方法可以识别同源基因和生物相关基因。鉴于人类疾病的遗传基础通常是未知的，该方法通过计算识别物种内和跨物种的相似表型，为识别候选基因、通路成员和疾病模型提供了一种方法。

介绍

我们对基因功能的理解通常是通过比较突变的表型结果与单个生物体中典型的“野生型”，以及不同生物体中同源基因突变之间的表型结果来获得的。特别是，模型生物对人类的基因功能提供了很好的见解。随着在模型生物中进行大规模诱变筛选，自动化这些跨物种比较的重要性和必要性变得至关重要。然而，分析的一个基本障碍是缺乏一种可计算的方法来描述表型，这种方法适用于生物知识和物种的多个领域（例如，参见[1]). 不仅每个模型生物都有自己的词汇来描述突变的表型结果，而且这些词汇通常与生物的特定解剖或生理学相联系。通常，这些描述都被记录为自由文本，尽管表达力非常好，但自由文本仍然难以与计算方法进行可靠的比较。例如，计算机程序将无法识别以下事实：PAX6导致“小眼”小鼠、人类“不透明角膜”、斑马鱼“视网膜畸形”和“无眼”的突变果蝇(图1).

保存图片、插图等的外部文件。对象名称为pbio.1000247.g001.jpg

在单独的窗口中打开

图1

表型的表示。

野生型表型（顶部）和PAX6人类、小鼠、斑马鱼和苍蝇的直系突变（底部）可以用EQ方法描述。异常表型的EQ注释列在每个生物体的每组图像下面。请注意，解剖实体来自ssAO，质量来自PATO本体。这些PAX6表型在文本上描述如下。人类突变可能导致无虹膜（无虹膜）、角膜混浊（无虹斑相关角膜病）、白内障（晶状体混浊）、青光眼和长期视网膜变性。对于小鼠来说，突变体表现出极端的小眼畸形，伴有晶状体/角膜混浊和虹膜异常，角膜和晶状体之间仍然附着着一大块持久性上皮细胞。斑马鱼的突变体表现出可变和可修改的表型，包括眼睛尺寸减小、晶状体尺寸减小和视网膜畸形。果蝇依（a）PAX6ortholog）突变导致眼睛发育障碍。所示基因型为E15小鼠第6页^14Neu/14Neu [68]，5天斑马鱼pax6b型^{tq253a/tq253a} [69]，人类PAX6^+/ ⁻ [70]、和果蝇等等^−/− [71].

目前的方法学传统上根据突变动物模型和人类基因之间的序列同源性来鉴定动物模型。例如，Schuhmacher等人最近开发了一种人类先天性水痘综合征（OMIM:#218040）的小鼠模型，这是一种神经-心-面-皮肤发育综合征，由基因突变引起H-RAS公司基因[2].鼠标H-Ras公司与先天性水痘患者一样，该基因在同源位置发生突变，由此产生的表型重现了该疾病。偶尔，自发模型可以通过观察人类疾病的症状来识别，例如肥胖的澳大利亚人小鼠出现肥胖、2型糖尿病和男性不育。这种表型与人类阿尔斯特罗姆综合征相似，该综合征是由基因突变引起的ALMS1号机组基因[3].测序和进一步表征肥胖的澳大利亚人发现了报警1、和肥胖的澳大利亚人正在成为了解阿尔斯特罗姆综合征和纤毛缩小功能的良好动物模型报警1 [4]这些识别疾病动物模型的例子依赖于人类疾病遗传基础的知识，但还有许多人类疾病尚不清楚。如果研究人员能够直接比较人类模型生物，甚至祖先的表型，他们将有一种机制来更快地确定候选基因和疾病模型。

模型生物群落受益于集中收集的精心策划的研究，科学家可以在其中搜索广泛交叉引用的基因表达、表型和基因组数据，称为“模型生物数据库”（MODs）。人类生物学领域的研究受到影响，因为人类研究社区没有同等的资源，连接这些不同的数据集需要搜索许多独立的资源。然而，对于人类表型数据，有几个有价值的数据资源，包括人类在线孟德尔遗传（OMIM）[5]由国家生物技术信息中心（NCBI）发布。OMIM包含19000多个记录，分为基因和表型/疾病。大约53%的基因记录有详细的等位基因变体描述和/或一般临床症状，而43%的表型/疾病记录有已知的分子基础。OMIM是一种基于文本的资源，当Entrez在表1显示。对于一个想知道哪些人类突变可能导致骨骼增大的研究人员来说，或者对于一个挖掘OMIM数据的计算机脚本来说，自由文本注释无法提供查询所需的严格性。虽然成功挖掘了与表型相关的基因的文献[6]，它不提供直接比较表型的机制。

表1

OMIM查询结果。

OMIM查询	记录数量
“大骨头”	264
“大骨头”	785
“放大的骨头”	87
“增大的骨骼”	156
“大骨头”	16
“巨大的骨头”	4
“巨大的骨头”	28
“增生骨”	12
“增生骨”	40
“骨质增生”	134
“骨骼增长加快”	612

在单独的窗口中打开

基于OMIM文本的短语“大骨骼”变体查询

生物学家最具革命性的工具之一是使用BLAST等算法比较序列的能力[7]，它允许定量评估一个或多个序列之间的相似性。然而，疾病的遗传基础通常是未知的，在这种情况下，序列比较工具对识别序列突变毫无用处。如果表型描述基于共同控制的词汇本体论-它们的结构可以编写算法来计算比较表型。使用本体的好处之一是能够使用称为推理器的通用逻辑推理工具（例如，请参见[8]). 推理员可以协助进行查询回答和分析。例如，考虑两个不同的查询，一个是查找ZFA：肠道另一个是寻找在ZFA：上皮（我们编写以本体名称为前缀的本体术语；请参见材料和方法以供进一步解释）。我们希望这两个搜索都将注释返回到ZFA：肠上皮因为肠道是第_部分肠道和肠上皮是a上皮类型(图2). 与BLAST算法中使用的核酸和氨基酸字母和距离矩阵类似，本体术语及其相互关系可用于分组和比较表型和基因表达数据，并可用于跨物种表型分析。

保存图片、插图等的外部文件。对象名称为pbio.1000247.g002.jpg

在单独的窗口中打开

图2

本体包含推理。

此示例显示了术语“肠上皮”与ZFA本体中其他解剖实体的关系。带“i”的灰色箭头表示是a关系，带“p”的蓝色箭头表示第_部分关系。数字表示节点的IC，这是该描述被用于注释基因、等位基因或基因型（统称为特征）的概率的负对数。随着术语变得更通用，从下到上阅读，它们的IC分数更低，因为更通用的术语包含对更具体术语的注释。

表型可以定义为特定环境中给定基因型的结果（有关综述，请参阅[9])并且可以使用本体来描述，以便于比较。个体表型特征的描述可以使用二分“EQ”（实体+质量）方法进行记录，其中承载实体（如解剖部分、细胞过程等）通过质量（如较小、温度升高、圆形、长度缩短等）进行描述。只要源本体足够丰富，EQ方法就足以描述许多表型。实体术语可以是来自任何解剖本体的结构，也可以是来自基因本体（GO）的生物过程、细胞成分或分子功能[10]质量术语来自表型和特征本体（PATO），该本体旨在与物种特定解剖本体或其他跨物种实体本体结合使用（例如，参见，[11]–[13]). 例如果蝇“眼睛发红”表型可以用PATO中的“红色”和苍蝇解剖本体（FBbt）中的“眼睛”两个术语描述为情商陈述情商 = FBbt：眼睛+PATO：红色EQ方法已扩展到包括相关质量和附加实体，并使用后合成方法描述更细粒度的实体。除了GO之外，许多MOD已经利用社区特定解剖本体来注释基因表达和/或表型数据[14],[15]，这些方法在别处有详细描述[16],[17]本体论推理也可以应用于EQ描述，就像单个本体一样，因为它们也表示图结构中的节点。例如，查询颅软骨位置应返回具有表型的基因型ZFA:角质玻璃+PATO：腹部定位错误类似地，对角质透明软骨（如颅骨软骨）的上层结构的查询也应返回这些基因型(图3).

保存图片、插图等的外部文件。对象名称为pbio.1000247.g003.jpg

在单独的窗口中打开

图3

包含推理EQ描述。

显示了EQ描述与其贡献本体（侧翼面板）之间的关系。实体来自蓝色的ZFA本体，质量来自绿色的PATO。完整的EQ层次结构（所有可能的EQ组合）ZFA：角透明软骨+PATO：腹侧定位错误和ZFA：颅软骨+PATO：位置图中显示了包含多个本体术语的图节点。关系如所示图2。与中的单个本体一样图2可以计算情商节点的IC得分，其中较一般的情商节点得分低于较具体的情商。

任何情商描述都可以与其他情商描述和数据相结合，例如来自其他数据库或本体的基因型、环境和阶段标识符，以充分表达个人或群体的表型状态。例如，可以记录斑马鱼表型EQ=ZFA：中间翅片折叠+PATO：衰减处于胚胎期ZFS:26-省略具有基因型fbn2b型^{第1层/第1层}（AB）（定义见斑马鱼信息网ZFIN）。通过这种方法，可以使用多个本体以高度表达和精细详细的方式记录表型，同时保持正确的逻辑和可计算性。

现有的计算工具不足以以通用、物种中性的方式存储和分析基于本体的表型注释数据。特别是，缺乏识别候选基因和疾病动物模型所需的跨物种比较工具。已经使用GO开发和测试了许多现有算法，以度量注释的语义相似性，并为分析提供了良好的起点（例如，请参阅[18]–[21]). 目前尚不清楚这些算法在使用本体组合分析数据集时的效果如何。此外，由于各种解剖本体论之间没有联系，因此不可能进行跨物种比较。施利克和阿尔布雷希特[22]提出了一种基于信息内容（IC）的方法来分析用多个本体构建的表型图谱，尽管他们只使用物种中性GO的注释来测试结果。他们的FunSimMat工具需要一个特定的蛋白质列表进行比较，因此无法全面搜索表型相似的基因。Phenomic数据库[23]是一种跨物种资源，它汇集了来自不同资源的注释，并挖掘自由文本表型，以提供表型相关基因的“现象簇”。然而，他们的分析没有利用源本体中的关系。尽管已知的相互作用蛋白聚集在一起，但他们注意到，其产生的“现象簇”往往具有物种特异性，这在很大程度上是由于注释中使用的社区特定术语，而不一定是由于潜在的生物学。这些现有方法不足以满足我们的需求，因为它们要么基于自由文本，要么使用有限的本体集进行注释，还因为它们缺乏一个框架来集成和比较生物体之间的解剖实体。他们还缺乏确定相似性计算重要性的指标。最后，除了查询方面外，没有一个包括用于从头记录表型的物种中性方法。

通过使用这种EQ方法注释表型，再加上适当的计算分析工具，我们有了一个独特的机会，可以以严格而富有启发性的方式标准化和查询表型数据。在这项研究中，我们检验了一个假设，即疾病表型的EQ注释将有助于发现物种内和物种间新的基因型-表型关系。我们用Phenote软件从自由文本OMIM描述中EQ注释了11个人类疾病基因[24]为跨物种比较提供数据集。我们将这些注释与小鼠和斑马鱼直系同源物的注释进行了比较，这需要开发跨物种统一本体论（UBERON），以在不同的解剖本体论之间提供桥梁。我们还开发了新的和扩展的现有指标，用于测量基因之间的表型相似性。我们通过分析已知的信号通路和遗传相互作用来评估它们的相对性能，并表明这些数据可以通过表型进行查询和比较单独地确定具有生物学意义的相似性。此外，这些注释为更好地理解现有疾病表型提供了资源。我们的结论是，这种方法可以促进发现物种内部和物种之间新的基因型-表型关联。

结果

OMIM基因的选择、注释和分析

尽管许多MOD使用EQ方法收集表型数据，但人类疾病基因不存在此类注释。因为我们需要EQ风格的人类疾病注释进行比较，所以我们继续注释OMIM中的一小组基因记录：ATP2A1型,EPB41型,外景2,眼睛A1,不合格证书,PAX2,嘘,SOX9标准,SOX10标准,TTN公司、和TNNT2公司。之所以选择这11个基因，是因为它们已知是多种人类疾病的病因，并且在苍蝇、小鼠和/或鱼类中具有已知的突变同源基因，并具有可用于比较分析的相应EQ描述。

具体来说，我们的管理过程涉及将OMIM文本描述转换为基因型和表型之间的关联，其中表型是使用EQ描述描述的。具体的本体是根据其在社区范围内的接受和使用，以及其物种特异性和粒度来选择的。为了从OMIM中注释人类疾病基因及其产生的表型，我们使用了成人大体解剖基本解剖模型（FMA）[25])以及用于开发解剖结构的人类发育解剖学本体（EHDAA）。此外，我们还使用了细胞类型（CL）的细胞本体[26])CHEBI用于化学品[27]GO代表亚细胞成分和生物过程，PATO代表这些不同实体的质量来源。

自由文本表型或疾病描述被翻译成一个或多个个体EQ表型描述，因此单个基因型（即一个或更多变异等位基因加上已知的遗传背景）可以与多个EQ描述相关联。在下面的章节中，我们将“表型特征”作为个体基因型情商描述的总结。例如，图1显示眼睛表型的表型特征PAX6小鼠、人类、斑马鱼和果蝇的同源突变（另请参见表2). 需要注意的一件重要事情是，任何呈现表型的特定个体有机体可能只表现出特定基因型完整表型特征的EQ描述的子集。这个PAX6和直视情商的描述是基于对个体眼睛在特定发育阶段的粗略观察。这些基因型具有在图1（其他发育阶段的不同解剖结构，等等），这将有助于形成完整的表型特征。或者，其他PAX6基因型可能具有不同（或相似）的表型特征。因此，随着观察次数的增加，每个基因型的表型特征都会随着时间而增加，并且这些信息很容易与等位基因或基因水平相关联，以进行比较。

表2

表型轮廓提取示例的自由文本。

EQ描述
实体	质量
GO：声音的感觉	PATO：中断
FMA:External_ear（外部事件）	PATO：结构
FMA：米德尔·阿尔	PATO：结构
FMA：内部	PATO：结构
EHDAA：鳃弓	PATO：结构、腔体
EHDAA：鳃弓	PATO：囊性
FMA：肾脏	PATO：尺寸减小
GO：儿童发展	PATO：被捕
FMA：肾脏	PATO：缺席
GO：声音的感觉	PATO：中断

在单独的窗口中打开

以下自由文本描述了鳃肌筋膜综合征I（OMIM#113650）用多种EQ表型描述注释表型：“感音神经性、传导性或混合性听力损失，外耳、中耳和内耳的结构缺陷，鳃瘘或囊肿，以及从轻度发育不全到完全缺失的肾脏异常。”EHDAA，人类发育解剖学；FMA，解剖学基础模型；GO，基因本体论；PATO，质量本体。

对于11个选定的人类疾病基因，馆长将每个OMIM基因记录体内包含的表型的一般描述注释为一个通用OMIM基因组标识符（即OMIM:601653）。此外，对特定等位基因的任何提及都是针对等位基因变体ID（即OMIM:601653.0001）。因此，一般OMIM ID代表所有非指示等位基因，而不是所有等位基因的一般表型描述。11个基因中的5个由三位策展人独立记录，以测试注释一致性（将在别处发布）。共收集了包含709个不同描述的1848个注释，用于所有11个基因，共114个等位基因(表3). 一些描述经常是相同的，例如EQ描述 = FMA：腭裂+PATO：腭裂用于注释3个基因的25个基因型。在这709个描述中，487个使用FMA，110个使用GO，4个使用CL本体来描述实体。

表3

EQ标记OMIM基因的表型谱统计。

基因	基因型数量	注释的数量	独特的情商
ATP2A1型	5	16	三
EPB41型	5	18	8
外景2	5	35	7
眼睛A1	20	567	137
二月份	14	37	9
PAX2	17	178	87
SHH公司	23	215	31
SOX9标准	14	329	164
SOX10标准	19	298	155
TNNT2公司	10	36	7
TTN公司	27	143	59

在单独的窗口中打开

对于每个OMIM基因，列出了注释的等位基因数量和EQ注释的总数。在这些注释总数中，还列出了在集合中唯一的注释数。这组注释为中所示的分析提供了基础图5。注释为一式三份的基因显示在大胆的.

表型剖面的比较分析

我们加载了所有注释和源本体(表4)到单个OBD实例中[28]简言之，这是一个信息系统，允许使用多个本体构建复杂的描述，并对这些描述和使用它们的注释进行逻辑推理。OBD还具有分析功能，支持基于相似实体的共享属性（如表型特征）对相似实体（如基因、等位基因和基因型）进行比较。比较步骤需要推理步骤。

表4

注释源。

来源	使用的本体	基因数量	唯一描述的数量
奥米姆¹	EDHAA、FMA、GO、SO、ChEBI、PATO	11	709
MGI公司²	议员、GO、PATO	10,579	5,266
ZFIN公司^三	ZFA、ZFS、GO、PATO	2, 911	5,157
谷氨酸脱羧酶⁴	MP、DO	2,674	1,792

在单独的窗口中打开

数据由来自各种来源的注释和本体组成。列出了每个数据源注释中使用的本体，以及注释的基因数量和独特表型描述（EQ）的数量。使用预先协调的本体MP和DO对MGI和GAD进行注释。

¹本研究。

² http://mgi.org.

^三 http://www.zfin.org.

⁴ 网址：http://www.gad.org.

OBD为用于注释基因、等位基因或基因型的每个术语或EQ描述指定IC分数。IC分数是一种衡量术语或描述信息量的方法，它基于本体中带有术语和深度的注释的频率。因此，IC分数将根据注释的背景集而变化。OBD使用推理机计算IC分数，这样注释“向上传播图形”，因此更通用的术语得到更低的IC分数。例如，图2显示了斑马鱼解剖（ZFA）本体中的节点，每个节点都有一个IC分数。本体中更深层次的术语更具区别性和信息性（例如ZFA：肠上皮得分较高，IC=12.4）。，ZFA：解剖结构，IC=2.72)，因为所有肠上皮表型也是解剖结构表型。OBD以与其他术语相同的方式处理表型EQ描述，并且以相同的方式为这些节点分配IC分数。与术语一样，推理器可以计算注释频率，以便更通用的EQ描述，例如ZFA：颅软骨+PATO：位置IC分数低于更具体、使用频率更低的描述，因此信息更丰富，例如ZFA：角透明软骨+PATO：腹侧错位(图3).

OBD可以利用每个节点的IC得分计算任意两对注释或表型轮廓之间的各种相似性度量。我们使用OBD中计算的三个基于IC的度量来执行本文的分析：基于信息含量的相似性（simIC）、公共子消费者的信息含量（ICCS）和最大信息含量对（maxIC）。我们的分析中还包括了一个非基于IC的度量，即Jaccard相似系数（simJ）。这些指标详见[28]和[18]和在材料和方法第节。图4显示了这些不同的指标是如何从一组被比较的基因型中产生的，以及表型谱是如何被提升到等位基因和基因以在这些水平上进行比较的例子。simIC度量使用推理器量化两个表型轮廓之间的相似性，以确定基于包含层次结构共享的EQ表型描述。如果两个表型图谱非常相似，我们预计它们的图谱会更快收敛，并共享非常特定的表型描述（即IC分数较高）；相反，不同的特征只会共享一些非常普遍的共同表型描述（即IC分数较低）。每个包含情商的情商也有一个IC，共同产生的情商集的平均值提供了ICCS分数。在这组包含两个表型特征的情商中，一个具有最高的IC，是所有配对中的最大IC。simJ度量不使用IC，而是基于层次结构的所有公共节点与非公共节点的计数之比。

保存图片、插图等的外部文件。对象名称为pbio.1000247.g004.jpg

在单独的窗口中打开

图4

表型图谱比较和表型提升。

注释到一个基因型的多个情商描述包含一个表型特征，并且可以使用包含逻辑对这些特征进行比较。标记为基因型的表型会传播到其等位基因，然后再传播到用向上箭头表示的基因。分析相同类型的任意两个节点之间的相似性，例如基因A-vs-B、等位基因A3-vs-B1、基因型A1/A1-vs-A3/A3或A3/A3-vs-B1/B1。基因型显示为圆形方框，等位基因显示为圆形，基因显示为方形。基因型A1/A1的表型图谱以紫色详细显示，基因型A3/A3以蓝色详细显示，B1/B1以红色详细显示。A1/A1-vs-A3/A3和基因A-vs-B之间的常见包含表型以白色方框列出。原始表型描述与其共同包含的表型描述之间的箭头表示。一些个体表型描述可以有两个常见的亚类。对于每个表型描述（EQ），显示计算的IC。在比较两个项目时，确定了四个分数：maxIC，普通包含EQ的最大IC分数，可能是直接表型（A1/A1-vs-A3/A3）或推断表型（基因a-vs-gene B），用红色圈起来；平均ICCS，所有常见的包含IC得分的平均值；simIC，相似度得分，用于计算EQ描述（包括包含描述）的IC值总和与总集合（并集）IC值总和的比率；simJ，使用Jaccard算法计算的非基于IC的相似性得分，该算法是所有公共节点数与非公共节点数的比率。这些分数也用于等位基因A3-vs-B1和A3/A3-vs-B1/B1之间的比较，尽管没有显示完整的情况。

我们可以直接比较同一类型的任何两个项目，例如两个基因型、两个等位基因或两个基因，方法是将携带特定等位基因的基因型的注释提升到等位基因本身或受影响的基因。图4说明了两种表型在基因型和基因水平上的比较，以及在这些不同水平上的相似性度量的计算。这两个配置文件共有四个共同的子类；一些注释有一个不同基因型的单一共同亚群；其他则映射到两个不同的常见消费群体。在这个例子中，基因型A1/A1和A3/A3对ZFA：角透明软骨+PATO：腹侧定位错误IC=12.5，因此是常见的包含注释之一，在本例中，也是得分最高的常见包含注释或maxIC。详见图3,ZFA：角透明软骨+PATO：腹侧定位错误和ZFA：咽弓软骨+PATO：定位错误表型共享共同的父代ZFA：颅软骨+PATO：定位错误因此，包含基因型A1/A1和A3/A3的常见表型包括这两种亲本情商描述。A1/A1和A3/A3的表型分别提升为等位基因A1和A3，进而提升为基因A。在本例中，当在基因水平进行比较时，得分最高的常见亚群（具有maxIC的表型）为GO：神经嵴细胞迁移+PATO：持续时间。解剖学术语注释的常见子集合位于更通用的节点，因为它们在本体中的收敛点(图2和和3三).

等位基因变异的表型比较

评估EQ注释和表型比较方法效果的第一个测试是根据表型描述正确识别同一基因的等位基因。我们使用OBD中的四个评分指标（simIC、ICCS、simJ和maxIC）比较了11个OMIM基因中每一个注释的所有成对等位基因组合的表型特征。我们的假设是，同一基因（即基因内）的等位基因之间的相似度得分将显著高于这些等位基因之一和其他基因（即遗传间）的等位数之间的相似性得分。我们的这部分分析只包括单基因表型谱；不包括双基因型（例如，OMIM:600725.0011/OMIM:603073在SHH公司和邮政编码2).

图5总结了结果，表明基因内等位基因变体无一例外地在表型上更相似(第页<0.0001（双尾）t吨-测试），而不是使用四个指标中的任何一个对其他基因。检查遗传变异之间相似性的另一种方法是使用每个等位基因查询所有其他等位基因，以确定哪个其他等位蛋白最相似。在分析中的所有118个等位基因中，所有基因在同一基因中都具有最相似的表型基因型。总之，这些结果支持我们的假设，即基于情商的表型描述捕获了同一基因的等位基因之间的相似性，并且这些基于本体论的相似性度量在检索相关等位基因和量化其表型相似性方面是有效的。

保存图片、插图等的外部文件。对象名称为pbio.1000247.g005.jpg

在单独的窗口中打开

图5

基因间和基因内表型谱的相似性度量分析。

四个面板中的每一个都显示了四个相似性测量值中的一个，将注释的11个OMIM基因中的每个基因的相同基因（内部，黑色）的等位基因得分与所有其他基因的等位蛋白得分（内部，灰色）进行比较。右侧图形的灰色部分显示了每个相似性度量的所有11个OMIM基因比较的平均值。指标包括（如中所述图4)：（A）模拟IC、（B）模拟J、（C）ICCS和（D）最大IC。对于每个指标，相似度值都显著较高(第页<0.0001），用于基因内比较和基因间比较。使用双尾学生的t吨-测试，用于每个基因的所有四个指标的成对比较（内部与内部）。误差线是平均值的标准误差。

表型查询法检索通路基因

信号通路的成员经常表现出类似的突变表型，因此我们预测，基于某个通路成员突变引起的表型的查询将检索该通路的其他已知成员。我们在特征鲜明的刺猬咬牙路径上测试了这一假设，该路径调节动物的模式和中线发育[29]ZFIN有超过2900个基因，其突变表型用EQ方法注释[13]包括ZFIN中确定的64个已知刺猬途径成员中的20个[30]实体术语通常来自斑马鱼特有的解剖本体论以及GO，质量术语来自PATO。来自ZFIN的注释（总共17494条，5157条唯一描述）与源本体一起加载(表4).

我们向OBD查询了与斑马鱼突变表型相似的突变表型基因什哈基因（ZDB-gene-980526-166）。图6根据KEGG的斑马鱼刺猬信号通路图说明了这些结果[31]根据目前的知识，添加了一些额外的基因[30].表5列出了刺猬通路的成员，以及与之显著相似的其他表型什哈，按照他们的simIC排名的顺序，以及他们的排名和四个指标的得分。simIC评分最相似的11个基因中有6个是刺猬信号通路的成员，其中7个由simJ评分，5个由ICCS评分，前8个由maxIC评分的基因中有3个（许多基因并列第九位，参见表S1). 这组最相似的基因什哈共包含23个基因，其中11个为已知通路成员。假设超几何分布，在2908个基因中随机检索前23个基因中20个突变路径成员中的11个的概率非常低(第页<E-19）。三个已知的通路成员，bmp2b型,hhip（hhip）、和腐乳，未被确定为前10名中最相似的。腐乳与simIC相比，这2908个基因中排名最低的是628个（参见表S1其他指标）。为了进一步测试相似性算法，我们进行了反向查询，以确定是否有任何刺猬路径成员与腐乳。最相似的途径成员腐乳是hhip（hhip）（simIC排名第3）。

保存图片、插图等的外部文件。对象名称为pbio.1000247.g006.jpg

在单独的窗口中打开

图6

类似斑马鱼突变表型的相似性搜索什哈检索许多已知的通路成员。

根据KEGG的图表[31]，双灰线代表质膜，虚线代表核膜。显示了所有已知的shha通路成员；那些记录了变异情商注释的是黄色的。在前23个最相似的基因中检索到的路径成员用红色方框表示。ZFIN中的已知通路成员以其当前命名法显示，但不包括那些没有信息的命名法，这些命名法与其KEGG参考基因家族命名法一起列出，并大写。斑马鱼（Fu）中尚未识别的KEGG参考通路成员变灰。

表5

斑马鱼与斑马鱼表型相似的基因什哈.

基因	模拟集成电路	simJ（模拟J）	ICCS系统	最大集成电路	刺猬路径中的角色	裁判
*显示1* ^一	1	1	38	43	调节脂质的分泌嘘从中线开始。	[72]
*gli2a基因* ^一	2	三	1	1	锌指转录因子靶点嘘发送信号。	[73]
*拉玛1*	三	2	35	127	基底膜蛋白对眼/体轴发育很重要。	[74]
斯莫 ^一	4	4	2	1	膜蛋白结合嘘受体ptc1型.	[75]
*浮渣2* ^一	5	18	118	43	可能在以下时间内行动嘘质膜上的信号转导。	[76]
*prdm1a型* ^一	6	10	31	43	Zinc-finger域转录因子嘘发送信号。	[77]
达摩	7	5	56	57	配对型同源结构域蛋白，具有背部组织者诱导活性，受wnt公司发送信号。	[78]
*gli1型* ^一	8	6	21	57	锌指转录因子靶点嘘发送信号。	[79]
*外部3*	9	7	75	127	参与硫酸乙酰肝素生物合成的糖基转移酶，需要通过机器人2.	[80]
*分机2*	10	11	133	127	参与硫酸乙酰肝素生物合成的糖基转移酶，是肢体发育所必需的。	[81],[82]
*hdac1型* ^一	11	8	4	7	需要转录调节器嘘介导表达合并2在后脑腹侧。	[83]
*ndr2型* ^一	14	9	36	57	腹侧神经管中刺猬信号上游的TGFbeta家族成员（又名独眼龙）。	[84]
千年	15	14	6	9	的Glypican成分wnt公司/PCP途径。	[85]
文件	16	48	94	43	未映射；与其他几个通路成员在大规模筛查中确定；影响脊索、体节形成和图案。	[40]
*vangl2型*	20	17	5	9	调制wnt公司/原肠胚形成期间的PCP信号通路。	[36]
*wnt11号机组* ^一	22	21	8	32	细胞外富含半胱氨酸的糖蛋白gli2/3型诱导中胚层发育。	[86]
*wnt5b型* ^一	29	33	三	32	后分割期间会聚伸展运动所需的胞外富含半胱氨酸的糖蛋白。	[87]
*机器人2*	44	50	17	1	前脑中线嗅轴突引导信号(嘘作为轴突导向配体通过机器人-相关蛋白银行/现金鼠标中）。	[88],[89]
乔	50	81	7	9	未映射；与其他几个通路成员在大规模筛查中确定；影响体节图案和色素细胞。	[40]
bmp2b型 ^一	71	72	62	103	的下游目标gli2型基因抑制。	[90]
*冠心病*	78	44	16	1	负调节器bmp格式信号，通常与嘘在脊索（小鸡）。	[91],[92]
*待定24*	141	395	10	7	一种T盒转录因子，在节前中胚层（PSM）中表达，参与PSM成熟，与槽口.	[93]
ptc2型 ^一	154	102	24	43	膜受体嘘.	[94]
*cdh2*	171	126	9	21	神经管中表达的一种细胞粘附分子，是神经管闭合所必需的，由ndr1/2号机组.	[95]
ptc1型 ^一	188	140	33	43	膜受体嘘.	[96]
*箔条1b*	194	148	25	1	需要的染色质组装因子嘘和hdac1型zf视网膜细胞周期退出和分化所需的活动。	[97]
*plxna3型*	212	285	22	1	一种膜蛋白，信号蛋白受体，调节脊髓内运动轴突导向(嘘作为轴突导向配体）。	[98],[99]
国家发展报告1 ^一	224	262	20	9	腹侧神经管中刺猬信号上游的TGFbeta家族成员（也称为“斜视”）。	[95]
hhip（hhip） ^一	325	300	262	321	绑定嘘在膜中并调节与斯莫.	[75]
腐乳 ^一	628	553	257	395	信号转导小时信号。	[100]

在单独的窗口中打开

列出了排名前23位的所有基因，按simIC的等级排序，以及按所有指标排列的等级，并简要描述了基因产物的假定功能，特别是与刺猬途径有关的功能。已知刺猬路径成员用^一每个分数（simIC、simJ、ICCS和maxIC）的排名由其在排序列表中的位置决定，并列排名代表共享分数；排名第二低的分数位于他们在列表中的位置。前23个最相似的基因集包括每个指标的前10个，但maxIC除外，其中前8个基因因许多联系而被包括在内。根据超几何分布，在2908个基因中前23个中检索到20个通路成员中的11个的可能性非常低(第页<E-19）。进入前23名的基因大胆的中列出了完整的结果表表S1.

有趣的是发现具有高度相似表型的额外斑马鱼突变体（例如，拉玛1,佛法,非关税壁垒、和文件)，但它们尚未与刺猬路径联系起来，要么因为它们尚未绘制地图，要么尚未在该角色中进行测试。这些结果表明，可以使用EQ方法和OBD中可用的相似算法来识别同一物种中已知的和潜在的新路径成员。

种间直方图的表型比较

这项研究的主要目标之一是直接比较不同物种的表型，特别是人类与模型系统的表型。这一目标提出了两个挑战；首先，我们需要包括来自其他来源的更多注释，特别是来自MGI的鼠标注释[32],[33]和人类基因关联数据库（GAD）中的疾病关联[34]然而，这些注释既没有使用PATO也没有使用解剖本体进行描述。MGI注释使用哺乳动物表型（MP）本体，GAD使用文本描述符。为了整合这些有价值的数据，我们首先创建了MP术语到EQ描述的等价映射[17]我们还将GAD描述符映射到了疾病本体（DO）术语，并创建了DO术语到FMA的映射。这些注释及其源本体被加载到OBD中(表4). 进行跨物种比较的第二个挑战是，每个感兴趣的物种都有自己独特的解剖学本体。这意味着没有自动化的方法来确定斑马鱼ZFA：颅神经VII表型实际上与人类有关FMA：面神经表型。在最初的测试中，直系图在表型特征匹配方面得分很低，这可能是意料之中的（未公布的数据）。OBD中的大多数注释（85%）是使用这些物种特定的解剖本体进行的，并且没有跨物种链接它们的方法，只能使用物种中性本体，如GO、CL和PATO进行比较。我们认识到，通过在不同有机体解剖本体中的解剖结构之间提供链接，可以极大地增强比较，从而使搜索算法能够识别不同有机体的表型特征中的共性。因此，我们将UBERON添加到OBD中，OBD是一个多物种本体，它概括了物种中心解剖本体中表示的结构类型，并提供了这些术语和UBERON术语之间的链接（参见方法)[16]例如，图7显示了小鼠MA的表型注释：耳蜗、斑马鱼ZFA：黄斑和人类FMA：耳廓可以通过UBERON中的公共超类ear进行关联。

保存图片、插图等的外部文件。对象名称为pbio.1000247.g007.jpg

在单独的窗口中打开

图7

UBERON链接了多个物种特定的解剖学本体。

选定人类、斑马鱼和鼠标的实体眼睛A1如实心方块所示，使用物种特定解剖本体（分别为FMA、ZFA和MA）注释表型。轮廓方框表示包含注释的实体，颜色编码与源本体匹配。注释可以通过UBERON与常见的包含节点相关联。在本例中，每个带注释的实体都可以通过UBERON:ear（黑色）链接。

我们的最终假设是，序列直向同源物将表现出类似的突变表型，因此仅表型描述就足以鉴定直向同源物和通路成员。为了测试这一点，我们使用OMIM注释的11个人类疾病基因的表型图谱和我们的四个评分指标，查询了斑马鱼和小鼠的完整表型集。表6显示了小鼠和斑马鱼直系同源物在所有四个指标上与人类疾病基因相比的得分和等级。斑马鱼和小鼠的全套返回基因使用所有四个指标，可在表S2–S23型在人类斑马鱼的比较中，11个同源基因中有7个以任何指标返回到最相似的100个中，其中5个以两个或更多指标返回到前10个中。三种斑马鱼基因，乘客2a,sox10型、和土耳其国家航空公司，被发现与他们的人类直系图最相似（ICCS和maxIC指标排名1，以及simICsox10型). 人-鼠比较显示出较少的同源性发现，10个同源性中只有5个（没有对小鼠进行注释Tnnt2型（在分析时可用）通过任何指标在最相似的100个基因中进行鉴定。在这五家公司中，有四家公司以两个或更多指标跻身前十。两个小鼠基因，电子病历4.1和埃亚1，在两个指标上与人类直系图最为相似。在某些情况下，通过不同的度量标准，同源基因的排名非常相似。例如，人和老鼠的比较EPB41型在ICCS和maxIC中，鼠标直方图排名第一，simJ度量排名第六，simIC度量排名第三。在其他情况下，不同指标的排名差异更大。例如，鼠标Pax2（帕克斯）在simJ指标中仅排名第45位，但在simIC和ICCS指标中排名前10位最相似的基因。

表6

利用人类疾病基因进行表型相似性搜索的正交排序。

		鼠标				斑马鱼
		模拟集成电路	模拟J	ICCS系统	最大IC	模拟集成电路	simJ（模拟J）	ICCS系统	最大IC
*ATP2A1型*	等级	法国试验标准	法国试验标准	法国试验标准	法国试验标准	法国试验标准	法国试验标准	法国试验标准	法国试验标准
	分数	0.005	0.054	0.844	1.52	0.025	0.086	1.99	4.2
*EPB41型*	等级	三	6	1	1	180	130	185	134
	分数	0.09	0.197	5.39	10.41	0.017	0.121	1.55	2.88
*外景2*	等级	法国试验标准	法国试验标准	法国试验标准	法国试验标准	法国试验标准	法国试验标准	法国试验标准	法国试验标准
	分数	0.017	0.101	2.08	3.63	0.009	0.07	1.29	2.71
*眼睛A1*	等级	1	1	5	26	4	5	2	22
	分数	0.075	0.159	5.43	10.56	0.029	0.085	4.4	10.27
*二月份*	等级	法国试验标准	法国试验标准	法国试验标准	法国试验标准	法国试验标准	法国试验标准	法国试验标准	法国试验标准
	分数	0.034	0.119	3.14	9.83	0.005	0.066	0.63	1.67
*PAX2*	等级	7	45	三	31	9	16	1	1
	分数	0.077	0.168	4.83	9.09	0.039	0.096	4.6	12.73
*SHH公司*	等级	法国试验标准	法国试验标准	法国试验标准	法国试验标准	15	16	63	18
	分数	0.062	0.116	4.69	10.93	0.04	0.119	3.26	6.89
*SOX9标准*	等级	三	2	4	11	7	8	2	2
	分数	0.066	0.132	5.07	11.15	0.025	0.079	4.08	12.15
*SOX10标准*	等级	法国试验标准	法国试验标准	法国试验标准	法国试验标准	1	2	1	1
	分数	0.098	0.077	4.23	9.62	0.06	0.126	5.38	12.73
*TNNT2公司*	等级	—	—	—	—	117	210	161	22
	分数	—	—	—	—	0.018	0.093	4.66	2.16
*TTN公司*	等级	23	31	35	6	2	2	1	1
	分数	0.05	0.131	4.31	10.73	0.038	0.116	4.92	12.73

在单独的窗口中打开

报告了每个人-鼠或人-斑马鱼正交对数对的四个相似性度量。排名显示了使用前250个最相似基因（simJ）中的每个相似性度量返回的正态分布，这些基因分别与针对所有小鼠或斑马鱼基因查询的人类基因相似。“NF”表示在前250个基因中没有发现直系基因。直系图排在前10位的情况有大胆的.人类之间没有比较TNNT2公司和鼠标Tnnt2型因为加载OBD时没有可用的鼠标注释。在存在两个斑马鱼旁系的情况下，使用“a”基因进行比较：乘客2a,什哈、和索克斯9a.

由于四个指标中表型最相似的基因通常不是序列正交，我们进一步研究了哪些基因最相似。表7列出了四个指标中与11个人类疾病基因表型最相似的小鼠和斑马鱼基因（秩1）。一般来说，在直方图的第一位排序中，似乎没有明显偏向于一个指标。在小鼠中，每个度量值返回一个最相似的正交对数，simIC返回一个正交对数，斑马鱼中的maxIC和ICCS返回三个正交对数。一些最相似的基因与直系同源基因属于同一家族（例如，小鼠电子版4.1,电子版4.2、和电子版4.9; 和斑马鱼索克斯9a和索10). 其他类似基因可能参与同一途径，例如小鼠嘘和Cdon公司一些返回的基因已知在类似的位置发挥作用，例如atp2a1蛋白和瑞尔1b都是肌浆网钙通道。这些结果表明，当与物种中性本体（PATO、GO、CL和ChEBI）和物种中性链接本体（UBERON）相结合时，用物种特定本体（FMA、ZFA和MP）描述表型的EQ方法，可用于使用OBD中可用的相似性算法成功查询跨物种的相似表型。

表7

与人类疾病基因表型最相似的基因。

	鼠标				斑马鱼
基因	模拟集成电路	simJ（模拟J）	ICCS系统	最大IC	模拟集成电路	simJ（模拟J）	ICCS系统	最大IC
ATP2A1型	Jph1号机组	Slc25a5系列	Aldh2，Cisd1号机组	Jph1号机组	瑞尔1b	瑞尔1b	瑞拉1B	瑞尔1b
EPB41型	电子版4.9	Mnek1a公司	*电子版4.1*	*电子版4.1* 、Epb4.2、Epb4.9、Trf	形状记忆合金5	盖塔1	直接转矩控制	dtl、kiaa1279、sass6、stil
外景2	Hoxd8型	Hoxd8型	Hoxc4型	Sp7、Crtap	联合国t30212	unm t30539型	unm t30611、unm t304、41、unm t 30362、unm t130361、un t30442、unn t30604、unm t30748	dla、blo、exp、stb、unm tz227c、unm tg310a
眼睛A1	*埃亚1*	*埃亚1*	Tbx1型	Trps1、Gja1、Msx2	雷亚	fgf8a型	雷亚	axin1，chm，害羞
二月份	抗体cg2	抗体cg2	抗体cg2	Anapc2、Usp8	塔尔1	阿布哈德11	基塔	塔尔1
PAX2	24卢比	马夫	米特夫	米特夫	兰姆1	腐乳	*乘客2a*	*乘客2a* ，flr，axin1
SHH公司	Cdon公司	Ctnbip1型	Alx1型	57英尺	雷亚	fgf8a型	sox9a公司	sox9a、tfap2a、，
SOX9标准	Fgfr2型	孤独受体2	优先级x1	Ror2、Fgfr3	fgf8a型	cdc16	fgf8a型	整数
SOX10标准	内皮素受体	内皮素受体	内皮素受体	Ret公司	*sox10型*	mib公司	*sox10型*	*sox10型* 、pbx4、ache、tfap2a、tcf7l2、银屑病
TNNT2公司	Hdac9型	Hdac9型	红外4	Hdac9型+20平	cx36.7码	cx36.7码	vmhc公司	acvr1、ttna
TTN公司	我的2	Scn5a	Mybpc3型	Myl2，Nkx2–5	cx36.7码	cx36.7	*土耳其国家航空公司*	*土耳其国家航空公司* ，mef2ca，疼痛，嘿

在单独的窗口中打开

使用四种不同的相似性度量标准（如表6). 热门的序列正交图大胆的对于maxIC，通常会与最高级别的人平起平坐，但以下情况除外Tnnt2型与小鼠相比，有20个基因被列为最相似的。完整清单见表S2–S23。

讨论

评估方法

这是首次系统记录和计算比较表型描述，目的是为发现物种内和物种间的基因型-表型关系提供新工具。我们逐步测试了我们的方法，结果表明：首先，等位基因变体与同一基因的其他等位基因变体在表型上最相似；其次，我们可以根据突变表型的相似性检索已知的通路成员；第三，我们可以识别跨物种的同源基因。总之，这些测试表明，结构化表型描述的自动相似性分析可以成功地识别具有重要且信息丰富的生物学相关性的基因集。具体来说，EQ表型描述与基于IC的相似性度量和生物体之间的解剖绘图相结合，为精确记录观察到的表型和随后的计算比较提供了必要的资源，而这些都不受研究群体之间术语差异的限制。

等位基因的表型相似性

在将表型相似性指标应用于我们的数据时，我们首先比较了11个人类基因的等位基因，发现四个指标（simJ、simIC、ICCS和maxIC）都将同一基因的其他等位基因列为最相似的(图5). 平均而言，同一基因的等位基因的相似性是不同基因等位基因相似性的2倍。这些结果表明，基于情商的表型描述以及基于这些描述计算的相似性分数足以检索相关等位基因并测量其相对表型相似性。

信号通路成员的表型相似性

我们的第二项测试是确定是否可以根据其他已知通路成员具有相似的突变表型来检索这些成员。使用斑马鱼的查询什哈基因返回了20个EQ注释的已知通路成员中的16个，在所有指标的前10%中（选择其他基因，如表5，所有结果表S1). 此外，在所有指标的23个最相似基因的组合列表中，20个带注释的突变路径成员中有11个被识别。随机检索这些信息的机会极低。此外，根据目前的文献，发现的其他基因显示出在刺猬途径中发挥作用的强大潜力，并为进一步研究提供了有趣的候选基因。

例如，拉玛1是一种对正常晶状体发育至关重要的层粘连蛋白，simIC评分非常相似（排名3）。在撰写本文时，拉玛1尚未明确链接到什哈在斑马鱼身上。然而，从那以后，人们发现老鼠嘘直接绑定到层粘连蛋白而且那个嘘- 层粘连蛋白复合物在中枢神经系统发育过程中诱导外生发层颗粒细胞前体细胞增殖[35]。最近，拉玛1也被证明在基因上与vangl2型在斑马鱼中，另一种基因的得分与什哈（按maxIC排名第3）。vangl2型已知在斑马鱼原肠胚形成过程中在非经典Wnt/PCP信号通路中发挥作用[36].hdac1型（maxIC排名2）已被证明调节规范和非规范Wnt途径[37]尤其是CNS中少突胶质细胞的规格。达摩（simJ排名5）是一种背向转录因子，已被证明可以抑制已知的通路成员bmp2b型直接地[38]。表达研究也表明达摩在flh（飞行高度）（ICCS排名23）表达，减少非关税壁垒（ICCS和maxIC排名11）沿背中线[39]表明这些基因可能是达摩.

返回的路径成员与什哈需要进一步调查。例如，腐乳是排名最低的路径成员，原因有很多腐乳排名与不同什哈首先，只有少数情商描述可用于腐乳突变体（共7个，来自一个基因型）和许多可用于什哈突变株（9个基因型共77个）。虽然一些什哈情商的描述并不是唯一的，在这两个基因之间仍然有大量不常见的注释（参见讨论（见下文）。第二个原因腐乳评分不同是因为记录的表型不同。腐乳对内耳、晶状体和晶状体发育进行了注释，而什哈除了胸鳍、体节、大脑和肌肉等许多其他结构的发育术语外，还有视网膜发育术语的注释。因为对的注释太少腐乳这是一个很好的测试，用于测试研究人员在试图确定交互作用或进一步遗传研究的候选对象时可能进行的搜索。我们执行了反向搜索（结果为表S24)，其中我们寻找与腐乳看看如何什哈路径成员排名。我们发现了hhip公司是第三个最相似的基因腐乳simIC（第二个是maxIC），因为两者都被注释为透镜和内耳术语。hhip（hhip）和腐乳都是hedgehog通路的负调控因子。基辅11是一名驱动蛋白家族成员，排名第六，与腐乳（第七）simIC（simJ）。尽管基辅11未经测试调节刺猬路径，事实上，另一个家庭成员，kif7（cos2），直接与交互腐乳建议在基夫7和基辅11基于他们的表型特征。所以尽管如此腐乳排名与什哈，反向搜索结果加强了其在刺猬路径中的成员资格，可能是在一组表型不同的路径成员中。

一些基因与什哈例如，在基因组上是未映射的文件在大规模筛选中鉴定了这些突变体，其中描述了三个表型组：运动性、器官和中胚层[40].什哈(苏)在所有三组中都被确认，而文件属于中胚层组和运动组。属于中胚层表型组的其他基因表5包括拉玛1(平衡),ndr2(cyc公司),wnt11b号(表面贴装),显示1(反对的论点),gli2a基因(约特),prm1a型(ubo公司),达摩(妈妈),浮渣2(你),乔,待定24(fss公司)、和冠心病(din（数字）).文件在前20个最相似的基因中得分什哈根据其simIC分数。反向搜索，使用文件作为对所有斑马鱼基因的质疑(表S25)，显示了完整膜蛋白浮渣2作为最相似的刺猬路径成员（maxIC排名1，simIC排名8）。最相似的基因（按所有指标）是铜1/2，已知其可促进小窝蛋白-1在人类中[41].洞穴蛋白-1已知具有约束力嘘用于细胞内运输和与打补丁的质膜富含胆固醇的微区[42],[43]这些多重整合膜蛋白表现出很强的表型相似性文件建议可能的角色文件在hedgehog途径中，可能作为另一种膜蛋白，或作为一种相互作用蛋白。使用这些注释方法和相似性算法发现表型相似但基因组未映射的突变非常有希望，因为这表明，当表型的遗传基础未知时，相互搜索可以提供识别候选基因的方法。

直系木的表型相似性

该方法的最终目标之一是找到与遗传基础未知的人类疾病相似的模式生物表型，从而提供候选的同源基因或通路成员。因此，我们对该方法的最后一项测试是确定我们是否可以通过单独比较表型来识别跨物种的同源基因。我们发现该功能需要UBERON本体，该本体通过解剖同源性、功能类比和结构相似性对相应的解剖实体进行分组，因此允许跨生物体进行解剖查询[16]一旦UBERON被包括在搜索算法中，我们就可以识别许多同源基因和通路成员(表6和和7，7）。然而，与人类疾病基因表型最相似的小鼠和斑马鱼基因不一定是序列同源基因。

对与人类疾病基因最相似的基因的研究被证明是非常有趣的(表7). 例如，与人类最相似的前三个基因EPB41型simIC、ICCS和maxIC在鼠标中(电子版4.9，ICCS=6.01；电子版4.1，ICCS=5.94；和电子版4.2，ICCS=5.69）均为Epb家族成员（见表S13对于所有类似于EPB41型按每个指标）。这三个基因得分非常相似，因为它们具有高度特异性的球形红细胞表型。电子版4.1与人类疾病椭圆细胞增多症（EL1；OMIM#611804）相关，而Epb4.2与球形细胞增多症相关（SPH1；OMIM#182900）。这两种人类疾病的共同原因是红细胞的细胞骨架支架不稳定。电子版4.9这些突变与MGI中的SPH1或EL1无关，尽管它们可能是很好的模型，因为它们也表现出球形红细胞和异常红细胞溶解（MGI:2447353）。

另一个值得注意的表型比较是与小鼠的比较Cdon公司，在与人类最相似的四个基因中返回SHH公司通过所有四个度量（simJ＝0.24，第二；simIC=0.12，首先；ICCS=4.99，第三；maxIC=0.65，第四）。Cdon公司编码一种Ig/纤维连接蛋白重复序列蛋白，该蛋白已被证明与嘘并积极调节嘘输入信号嘘小鼠的表达域[44].Cdon公司和SHH公司突变导致类似的表型，如前颌骨形态、嘴唇形态和侧脑室质量。Cdon公司尚未添加到KEGG和斑马鱼cdon公司此时没有注释表型。根据这些结果，鼠标Cdon公司和斑马鱼cdon公司突变体可能有助于进一步分析刺猬途径，并可能提供其他疾病模型。

在所有四个指标中，唯一确定相同基因最相似的是人类第2页a1和斑马鱼瑞尔1b这些基因共有三种最特异的表型，即金属离子跨膜转运活性（IC=11.99）、肌浆网质量（IC=10.54）和肌肉收缩（IC=5.97）。ATP2A1型是一种钙转运ATP酶，可恢复钙²⁺骨骼肌兴奋后的体内平衡。人类基因突变导致Brody肌病（OMIM#601003），其特征是运动期间肌肉松弛受损[45]斑马鱼瑞尔1b肌浆网中的钙释放通道参与骨骼肌纤维收缩[46].瑞利1人类的（OMIM#180901）突变会导致先天性肌病和多小核心疾病（MmD），其特征是肌肉中的无定形核心，与斑马鱼相似瑞尔1b突变体。因此，因为ATP2A1型和瑞利1斑马鱼需要暂时协调钙浓度瑞尔1b突变体可能为Brody肌病和MmD提供有用的模型。

在某些情况下，例如对于人-鼠标SOX10标准，在simJ排名的前250名中，直系血型表现相似，但未返回(表6). 尽管人类疾病等位基因和小鼠突变体都被合理地专门注释为神经嵴、胃肠道和色素沉着术语，但序列同源序列的排名并不高。这种低相似性的原因是因为simJ和simIC用许多独特的注释来惩罚表型图谱SOX10标准使用maxIC和ICCS试图通过检查常见注释来克服这一缺陷。在本研究中，我们使用simJ返回250个最相似的表型特征，然后对数据进行排序以检查其他指标。未来可能会在相似性算法中加入maxIC和ICCS来克服这一不足。序列直系图排名不总是很高的另一个原因是，可用于直系图的一些表型数据并不十分丰富。例如，ZFIN的一些表型注释是在EQ方法实施之前进行的，导致了相当通用的EQ描述。simJ没有在人类和斑马鱼之间的前250个最相似的基因中返回其中两个带有通用注释的基因(atp2a1蛋白和粪便). 我们预计，随着使用EQ方法积累更多数据，通用节点的注释在总注释中所占的百分比将越来越小。

通过这种相似性算法识别出的基因是进一步研究生物功能、阐明途径和鉴定疾病动物模型的良好候选基因。虽然一些疾病模型可能已经存在，但对于同一种疾病，拥有多种动物模型的重要性不应低估。同一基因或相关通路成员的不同突变可能表现出不同的表型后果，例如不同发育阶段的致死性。最重要的是，我们的结果表明，相互搜索将起作用，我们将能够识别人类基因未知的人类疾病（或疾病途径）的动物模型。为了实现这一点，我们打算使用EQ方法在OMIM表型概要上注释OMIM的其余部分，并用其他疾病数据补充数据库，以提供必要的表型进行比较。由于动物模型中的突变基因更容易获得或识别，我们的方法可能会加快识别人类疾病的遗传基础。

相似性度量

我们使用三个基于IC的指标来比较表型特征：simIC、ICCS和一对的maxIC。我们的分析中还包括了一个基于非IC的指标，即雅卡德指数（simJ）[18]在这些指标中，ICCS尚未在之前的研究中进行评估。据我们所知，这是首次尝试使用这些指标中的任何一个来使用复合情商描述来评分相似度。

所有度量都与推理器一起工作，因此描述不一定要精确匹配才能被视为相似。simJ度量通过计算所有包含描述的并集上的通用包含描述总数来奖励更具体的匹配。这意味着simJ在本体结构中可能存在偏见。如果我们将GO与FMA进行比较，我们可以看到这一点，具有可比特异性的术语通常位于FMA的更深处是a由于在FMA中使用高级抽象术语而形成的层次结构。基于IC的度量试图通过将重要性与术语用法相关联来克服本体结构中的偏差。诸如“器官”之类的高级术语被频繁使用（回想一下，我们使用推理器来计算间接注释），而诸如“透镜”之类的更具体的术语被使用的频率较低。透镜表型的这种匹配被认为比器官表型的匹配更重要。这种方法的一个危险是，注释集可能有偏差，因此得分低于预期。

我们预计基于IC的指标在进行种间比较时会表现得更好，因为我们在UBERON上有一个相当好的注释样本分布。仍然存在一些偏差，斑马鱼非常适合某些类型的研究，而老鼠适合其他类型的研究。文献和注释将反映这些差异。例如，许多斑马鱼注释是针对早期发育过程和结构的，因为该模型非常适合发育研究。在比较不同物种的基因表达或功能时，这是一个普遍存在的问题。然而，在种间比较的背景下，评估基于IC的指标与simJ相比要困难得多。如果我们假设直系学导致相似的表型，我们可以在表6评估指标。虽然这项研究的结果表明，衍生的基于IC的指标maxIC和ICCS可以克服一些这些偏见（更多的直系图返回为最相似的基因），但我们的11个人类基因的数据集并没有构成足够大的样本来统计比较不同的指标。未来，我们的目标是创建一套“金标准”的基因型-表型注释，将文献或实验偏见降至最低，并由不同的馆长独立注释，以消除委托和遗漏的错误。这将允许对这些相似性度量的敏感性和特异性进行统计测试。然而，我们的结果最终证明，人们可以使用基于个体学的度量来比较生物体的表型，以找到具有生物学意义的结果。此外，重要的是使用多种指标来分析和排序基因之间的总体相似性。

限制和可扩展性

这种方法的主要局限性是从需要领域专家的角度以及所涉及的时间来看，文献的管理成本。有几个自然语言处理工作，以促进部分信息提取，以协助馆长识别文献中的相关材料。例如，Textpresso[47]能够为重要的生物学相关术语标记全文文献文章。在工作流中添加PATO或其他质量本体可以大大提高馆长注释文献的速度。然而，由于已发布报告中的术语不准确或不充分，自动化工具将出现错误，并需要管理人员进行审查。这在人类形态异常领域尤其适用，但最近一群临床医生努力将用于描述人类表型的术语标准化[48]将对进一步的自动化分析非常有帮助。此外，将这些标准化术语与人类表型本体（HPO）的发展相协调[49]在创建OMIM时，临床概要将是必要的。在我们注释时，HPO尚不可用，如果它的开发与OMIM和临床形态学异常组相协调，并遵循OBO Foundry原则以实现最大互操作性，则在未来的跨物种表型研究中尤其有价值[50].

正如我们对策展再现性的评估（将在其他地方发表）所证明的那样，本体论的发展也是一个必须考虑的因素。构建和维护本体论需要付出相当大的努力，它们之间的关系必须通过与馆长的协作交互来告知和指导。一些领域，例如在GO中最少表示的行为，仍然无法用本体表示。这些不足正在得到解决[51],[52]本体的组合特性使得新的本体很容易在可用时添加到分析中。另一个恰当的例子是当前旨在使用本体进行图像注释的努力（例如，请参见，[53]和[54])其中，不仅可以轻松定位部分定义了本体术语的图像，而且可以随着本体随时间的变化更新图像本身的术语标记。

斑马鱼的一些关键玩家什哈我们的分析中没有包括搜索，因为它们是基于吗啉基因敲除而非传统突变体。同样，来自所检查的人类疾病基因的11个直向同源物中的5个的吗啉代表型数据也不包括在直向同源物分析中(什哈,索克斯9a,sox10型,tnnt2型、和土耳其国家航空公司). 未来对数据库结构的增强将适应各种减少基因功能的机制，如基因特异性吗啉酸、siRNAs或化学品，这将大大扩展可用的数据集进行比较。数据库，如PharmGKB和比较毒理学数据库（CTD），两者都将药物和/或毒物的作用与特定的基因功能障碍和/或疾病状态相关联[55],[56]，并将其与特定等位基因变体关联（仅PharmGKB），也可以集成到系统中以提供额外的参考数据。

为了在实验室中优先研究具有明确表型的突变候选基因，需要考虑一些信息组合。首先，我们在这里提出，即发现具有类似表型的生物体，其中候选基因可能更容易识别。然而，染色体位置和基因表达等附加信息也经常用于排序候选基因的优先级。由于该方法的目的是提高识别候选基因的效率，因此将映射和表达数据纳入工作流可以进一步细化搜索结果。MOD已经在使用解剖本体论和GO细胞成分本体论来注释基因表达和表型，在没有表型注释到其表达的解剖结构的情况下，此信息可能特别有用。此外，最近的文献表明，许多形态进化与顺调控区的突变有关（有关综述，请参阅[57],[58]). 如果表型属于不同的类别，例如形态学、行为学或生理学，那么看看表型相似的基因组是否与特定的基因组或生物相关现象相关是很有意思的。这类上下文信息可以从外部数据库（基因组、蛋白质结合结果、共同表达等）中挖掘出来，不仅有助于候选基因的优先排序，还可以提供关于基因进化的分子基础的见解。

我们考虑的另一个生物学上有趣的问题是斑马鱼的副志是否会有与哺乳动物的正志互补的表型组合。斑马鱼的一个有趣的特征是它们具有全基因组复制，这是硬骨鱼大约3.5亿年前的辐射，现代斑马鱼基因组中仍存在一些重复的基因[59]斑马鱼中单一哺乳动物基因的两个同源基因的出现为研究这些同源基因突变的表型相似或互补的程度提供了一个独特的机会。众所周知，许多旁系同源物已经分化，从而在其表达模式和/或功能上变得互补或扩展，而其他旁系同源物则是多余的或无功能的[60],[61]在许多情况下，通过突变分析只研究了一对平行记录中的一个，而使用吗啉敲除试剂研究了另一个。因此，将来将击倒表型纳入我们的数据集也将有助于分析Paralog之间的表型相似性。

Phenoscape是一个与这项工作相关并加以扩展的项目[62]该项目使用本体论和EQ方法记录大型鱼类分支进化上可变的形态特征。这个小组在比较形态学群落注释进化表型方面非常成功。目的是利用这些显式记录的特征状态来查询MOD的相似表型，从而获得进化变化的候选基因。有趣的是，利用相关物种的表型相似性作为本文所述方法的附加成分。这两种方法可以很好地相互通知，从而更好地了解信号通路和解剖形态的进化。

在本研究中，我们表明，通过使用本体进行表型注释，可以精确记录和量化相似的表型。使用EQ方法注释表型不仅有助于使用比较表型所需的通用语言，还将有助于识别物种内和物种间具有相似表型的基因型，为人类疾病、进化变化和通路特征提供候选基因。

材料和方法

OMIM统计

OMIM记录的自由文本查询统计数据于2009年2月6日获得(表1). 通过在OMIM中查询任何基因记录（*或+），使用过滤器选择具有等位基因变体描述和/或临床症状的记录，获得具有相关表型的OMIM基因记录数量的统计数据。具有已知分子遗传基础的OMIM表型/疾病记录的百分比统计数据来源于http://www.ncbi.nlm.nih.gov/Omim/mimstats.html用“表型描述，分子基础已知”的记录数除以表型记录总数（统计数据截至2009年8月10日）。

注释用基因/记录的选择

OMIM中的人类基因首先由具有已知和描述的突变同源物的人进行排序达尼奥雷里奥和黑腹果蝇然后对OMIM中的等位基因进行最详细的描述。我们从OMIM记录中选择了以下11个基因进行注释：ATP2A1型(108730),EPB41型(130500),外景2(608210),眼睛A1(601653),二月份(177000),第2页(167409),SHH公司(600725),SOX9标准(608160),SOX10标准(602229),TNNT2公司（191045），以及TTN公司(188840).眼睛A1,PAX2,SOX9标准,SOX10标准、和TTN公司由三位独立策展人选择进行记录，以测试注释的一致性（将在其他地方发表）。当OMIM基因记录引用疾病记录时，注释者将尽可能多地捕获有关该疾病的一般表型信息。

注释软件和存储

我们编写以本体名称为前缀的本体术语；本文开头提供了缩写。我们使用ZFA：肠道代替采埃孚航空：0000112为了清晰起见。实际的可计算解析表单将使用数字ID。

所有OMIM注释均使用Phenote创建[24]软件，使用“人工”配置。这包括以下本体：CL、CHEBI、FMA、GO和EDHAA用于实体选择，PATO用于质量选择。所有注释均按照OMIM记录中所列原始出版物的PubMed标识符（PMID）指定的出处进行记录。在注释期间，每日更新本体论，并在分析之前对过时术语的注释进行核对。本文分析的注释和参考本体可以在稳定的URL中找到：http://obo.svn.sourceforge.net/viewvc/obo/phenotype-commons/annotations/OMIM/archive/2009/.

其他注释源

从MGI检索其他表型注释以进行跨物种比较[33]、ZFIN[13]、GAD[63]，NCBI基因[64]和同系物[65]2008年9月。分析中使用的本体从海外建筑运营管理局铸造库下载[66]2008年8月：BP-XP-UBERON（2008年12月）、ChEBI、CL、DO、DO-XP-FMA、EDHAA、FMA、GO-BP、GO-CC、GO-MF、MA、MP-XP、PATO、SO、UBERON、ZFA和ZFS。为了将跨物种注释链接到特定物种的解剖本体（ssAO），我们创建了一个“Uber-ontology”UBERON，以填补通用解剖参考本体（CARO）之间的空白[67]和ssAO。UBERON的第一个版本是通过对齐现有的ssAO和解剖参考本体自动生成的，然后部分手动管理。引用的本体包括：FMA、MA、EHDAA、ZFA、TAO、NIF、GAID、CL、XAO、MAT、FBbt、AAO、BILA、WBbt和CARO。有关更多详细信息，请参阅[17]和[16]。所有本体都加载到OBD中，以及中列出的源注释表4.

推理

推理是在注释、本体和本体映射的组合集上执行的。我们使用OBD RuleBasedReasoner计算传递关系的闭包，并计算EQ描述之间的推断包含关系[28].

分析

使用OBD系统进行表型分析[28]它实现了许多相似性度量，如下所述。所有的相似性度量都是基于推理图的，并且注释被传播到包容层次。

大多数这些指标使用术语或EQ表型的IC（方程式1）（统称为描述），这是该描述被用于注释基因、等位基因或基因型（统称特征）的概率的负对数。

其中描述的概率是用该描述注释的特征数与数据库中特征总数的比值（方程式2）：

在这里不能_描述表示进行推理后，描述适用的特征数量。这意味着非常一般的描述，例如“解剖结构的形态学”，包含了许多更具体的描述，适用于更多的特征，因此IC较低。

最大IC

最大IC是通过获取一对特征共享的所有描述并找到IC最高的描述来获得的。这可能是一个精确的匹配，也可能是推理者推断的包含描述。maxIC分数的一个特征是，它可以隐藏不在maxIC集合中的注释的贡献。该分数等于Resnick相似性的“最大”变体，如[18].

ICCS系统

该度量试图将一个特征中直接注释的每个描述与另一个特征中直接注释的描述相匹配。每个直接注释的描述d日_我与所有描述进行比较d’₁,d’₂，…在正在比较的其他功能中。找到了最具体（得分最高）的共同包含描述，其中唯一的一组称为共同包含描述。ICCS是这个独特集合中所有常见用户的平均IC。

该测量值如所示图4中间的三联画显示了常见的消费者。ICCS度量如所述[28]据我们所知，之前没有描述过。它可以被视为平均和最大Resnick度量的组合，如[18].

模拟集成电路

给定两个表型特征，例如两个基因或两个基因型的表型特征，或由两个管理者注释同一基因型生成的两个特征，我们可以计算（a）共同持有的表型EQ描述（交集）和（b）的IC得分之和表型EQ描述的组合总集合（联合）。查看这两个总和（共享的总和与总体的总和）的比率，我们可以获得两个表型特征相似程度的度量，完全相同的表型得分为1。simIC度量如（方程式3）所示。

在这里一^第页表示可应用于的总描述集第页，包括包含说明。例如，给定两种基因型，第页和q个simIC是通过将所有公共描述的IC之和除以并集中所有描述之和得到的。这里，描述包括配置文件中使用的实际描述，以及推理器确定的所有包含描述。此度量惩罚具有不同注释的节点。

simJ（模拟J）

我们使用了一个额外的相似性度量simJ，它没有使用IC度量。两个概要文件之间的simJ是公共描述数量与两个概要中描述数量之间的比率。这也称为“雅卡指数”或“雅卡相似系数”[18]simJ（方程式4）是标准化simTO的变体：

基因比较

注意，对于两个基因之间的比较，对杂合子和纯合子基因型的所有注释首先传播到单个（或两个，如果已知）等位基因，然后传播到其基因亲本。在计算总分时，将每个查询中使用的基因型注释从背景集中排除(图5).

斑马鱼之间的比较腐乳以及所有目前已注释的斑马鱼基因。报告了每个指标（simIC、simJ、avgICCS和maxIC）的等级和分数以及给出maxIC分数的表型。已知嘘路径基因以黄色突出显示。只计算前1000名的排名。

（0.25 MB XLS）

单击此处查看其他数据文件。^{（243K，xls）}

表S25

斑马鱼之间的比较文件以及所有目前注释过的斑马鱼基因。报告了每个指标（simIC、simJ、avgICCS和maxIC）的等级和分数，以及给出maxIC分数的表型。已知嘘路径基因以黄色突出显示。只计算前1000名的排名。

（0.27 MB XLS）

单击此处查看其他数据文件。^{（267K，xls）}

致谢

我们感谢Yvonne Bradford、Amy Singer和Erik Segerdell的注释工作；Robert Bruggner对OBD系统的贡献；以及Favor博士、van Heyningen博士、Collinson博士、Singh博士和Dahm博士第6页突变图像。我们感谢美国遗传学会允许Pax6突变小鼠图像的复制[67]。我们也非常感谢匿名评审员的宝贵意见。

缩写

ATP2A1型	ATP酶
钙（2+）	运输，快速开关1
切比	生物感兴趣的化学实体本体
氯	细胞类型本体
CTD公司	比较毒理学数据库
执行	疾病本体论
EHDAA公司	人类发育解剖学，抽象版
ENVO公司	环境本体
EPB41型	红细胞膜蛋白带4.1
外景2	外泌菌素2
眼睛A1	眼睛缺失1基因
FB公司	FlyBase飞基
固定基地旅	FlyBase解剖本体
二月份	铁螯合酶
飞行管理局	解剖学基础模型
谷氨酸脱羧酶	基因关联数据库
GC公司	遗传上下文本体
GO（开始）	基因本体论
高性能操作	人类表型本体
ICCS系统	普通用户的信息内容
LBNL公司	劳伦斯伯克利国家实验室
MGI公司	小鼠基因组信息学
百万美元	多发性微小核病
MP公司	哺乳动物表型本体
美国国立生物技术信息中心	国家生物技术信息中心
车载诊断系统	打开生物医学数据库
OBOF公司	开放生物医学本体格式
奥米姆	人类的在线孟德尔遗传
OWL公司	Web本体语言
OWL-DL公司	OWL描述逻辑
PATO公司	表型与特质本体论
PAX2	配对盒基因2
药学GKB	药物遗传学和药物基因组学知识库
PMID（项目管理标识）	PubMed标识符
休息	状态迁移
SHH公司	声波刺猬
simJ（模拟J）	杰卡德相似系数
SOX9标准	SRY-box 9基因
SOX10标准	SRY-box 10基因
ssAO	物种特有的解剖学本体
TNNT2公司	肌钙蛋白T 2
TTN公司	提坦
ZFA公司	斑马鱼解剖学
ZFIN公司	斑马鱼信息网
采埃孚集团	斑马鱼阶段本体

脚注

提交人声明，不存在相互竞争的利益。

这项工作得到了美国国立卫生研究院（NIH）生物医学信息科学与技术倡议的支持(http://www.bisti.nih.gov网站)授予U54 HG004028作为国家生物医学本体研究中心的一部分(http://www.biontology.org)和NIH HG002659。资助者在研究设计、数据收集和分析、出版决定或手稿准备方面没有任何作用。

工具书类

1Holloway E.从基因型到表型：连接生物信息学和医学信息学本体论。复合功能基因组学。2002;三:447–450. [PMC免费文章][公共医学][谷歌学者]

2Schuhmacher A.J、Guerra C、Sauzeau V、Canamero M、Bustelo X.R等。先天性水痘综合征小鼠模型揭示了血管紧张素Ⅱ介导的高血压状态。临床投资杂志。2008;118:2169–2179. [PMC免费文章][公共医学][谷歌学者]

三。Collin G.B、Marshall J.D、Ikeda A、So W.V、Russell-Eggitt I等。ALMS1突变导致阿尔斯特罗姆综合征肥胖、2型糖尿病和神经感觉退化。自然遗传学。2002;31:74–78.[公共医学][谷歌学者]

4Arsov T、Silva D.G、O'Bryan M.K、Sainsbury A、Lee N.J等。肥胖澳大利亚人-一种新的阿尔斯特罗姆综合征小鼠，显示ALMS1在肥胖、糖尿病和精子生成中的关键作用。摩尔内分泌。2006;20:1610–1622.[公共医学][谷歌学者]

5Hamosh A、Scott A.F、Amberger J.S、Bocchini C.A、McKusick V.A.《人类孟德尔在线遗传》（OMIM），人类基因和遗传疾病的知识库。核酸研究。2005;33：D514–D517。 [PMC免费文章][公共医学][谷歌学者]

6Korbel J.O、Doerks T、Jensen L.J、Perez Iratxeta C、Kaczanowski S等。通过基因组和文献挖掘将基因与表型系统关联。《公共科学图书馆·生物》。2005;三：e134。数字对象标识：10.1371/日志.pbio.0030134.[PMC免费文章][公共医学][谷歌学者]

7Altschul S.F、Gish W、Miller W、Myers E.W、Lipman D.J.基本局部对齐搜索工具。分子生物学杂志。1990;215:403–410.[公共医学][谷歌学者]

8Day-Richter J、Harris M.A、Haendel M、Lewis S.OBO-Edit——生物学家的本体论编辑。生物信息学。2007;23:2198–2200.[公共医学][谷歌学者]

9卢瑟福S.L.从基因型到表型：缓冲机制和遗传信息的存储。生物论文。2000;22:1095–1105.[公共医学][谷歌学者]

102008年，T.G.O.联合会基因本体项目。核酸研究。2008;36：D440–D444。 [PMC免费文章][公共医学][谷歌学者]

11Mabee P.M、Arratia G、Coburn M、Haendel M、Hilton E.J等。利用本体论将进化形态学与基因组学联系起来：一项来自鲤形目（包括斑马鱼）的案例研究。实验动物学杂志B分子发展演变。2007;308:655–668.[公共医学][谷歌学者]

12Mabee P.M、Ashburner M、Cronk Q、Gkoutos G.V、Haendel M等。表型本体：基因组学与进化之间的桥梁。经济发展趋势。2007;22:345–350.[公共医学][谷歌学者]

13.Sprague J、Bayraktaroglu L、Bradford Y、Conlin T、Dunn N等。斑马鱼信息网络：斑马鱼模型生物数据库为基因型和表型提供了扩展支持。核酸研究。2008;36：D768–D772。 [PMC免费文章][公共医学][谷歌学者]

14Bard J.B.解剖学：解剖学与生物信息学的交叉。J Anat杂志。2005;206:1–16. [PMC免费文章][公共医学][谷歌学者]

15Beck T、Morgan H、Blake A、Wells S、Hancock J.M等。本体论在注释和分析大规模原始小鼠表型数据中的实际应用。BMC生物信息学。2009;10（补充5）：S2。 [PMC免费文章][公共医学][谷歌学者]

16Haendel M、Gkoutos G.V、Lewis S、Mungall C，编辑。纽约州布法罗：自然学报；2009年，《Uberon：走向一个全面的多物种解剖本体论》。[谷歌学者]

17Mungall C、Gkoutos G.V、Smith C、Haendel M、Ashburner M等。整合多个物种的表型本体。提交给基因组生物学2009 [PMC免费文章][公共医学][谷歌学者]

18Mistry M，Pavlidis P.基因本体论术语重叠作为基因功能相似性的衡量标准。BMC生物信息学。2008;9:327. [PMC免费文章][公共医学][谷歌学者]

19王建中，杜忠，巴亚塔库尔R，于培生，陈春芳。一种度量GO术语语义相似度的新方法。生物信息学。2007;23:1274–1281.[公共医学][谷歌学者]

20Resnik P.分类学中的语义相似性：一种基于信息的度量方法及其在自然语言歧义问题中的应用。人工智能研究杂志。1999;11:95–130. [谷歌学者]

21Pesquita C、Faria D、Falcao A.O、Lord P、Couto F.M。生物医学本体论中的语义相似性。公共科学图书馆计算生物学。2009;5：e1000443。数字对象标识：10.1371/日记.pcbi.1000443.[PMC免费文章][公共医学][谷歌学者]

22Schlicker A，Albrecht M.FunSimMat：综合功能相似性数据库。核酸研究。2008;36：D434–D439。 [PMC免费文章][公共医学][谷歌学者]

23Groth P，Pavlova N，Kalev I，Tonov S，Georgiev G等。表型数据库：一种新的跨物种基因型/表型资源。核酸研究。2007;35：D696–D699。 [PMC免费文章][公共医学][谷歌学者]

24苯酚。2009网址：http://www.pheone.org.

25Cook D.L、Mejino J.L、Rosse C.解剖学的基本模型：多尺度生理功能符号表示的模板。IEEE Eng-Med Biol Soc.确认程序。2004;7:5415–5418.[公共医学][谷歌学者]

26Bard J、Rhee S.Y、Ashburner M.细胞类型本体论。基因组生物学。2005;6：R21。 [PMC免费文章][公共医学][谷歌学者]

27Degtyarenko K、de Matos P、Ennis M、Hastings J、Zbinden M等。ChEBI：生物感兴趣的化学实体的数据库和本体。核酸研究。2008;36：D344–D350。 [PMC免费文章][公共医学][谷歌学者]

28基于本体的数据库（OBD）：用于复杂生物注释的高级查询和分析的信息系统。2009http://www.berkeleybop.org/obd.

29Nusslein-Volhard C，Wieschaus E.影响果蝇片段数量和极性的突变。自然。1980;287:795–801.[公共医学][谷歌学者]

30Bergeron S.A、Milla L.A、Villegas R、Shen M.C、Burgess S.M等。表达谱分析在斑马鱼胚胎发育过程中识别新的Hh/Gli调节基因。基因组学。2008;91:165–177. [PMC免费文章][公共医学][谷歌学者]

31Kanehisa M、Araki M、Goto S、Hattori M、Hirakawa M等，KEGG将基因组与生命和环境联系起来。核酸研究。2008;36：D480–D484。 [PMC免费文章][公共医学][谷歌学者]

32Bult C.J、Eppig J.T、Kadin J.A、Richardson J.E、Blake J.A。小鼠基因组数据库（MGD）：小鼠生物学和模型系统。核酸研究。2008;36：D724–D728。 [PMC免费文章][公共医学][谷歌学者]

33.小鼠基因组数据库。2008http://www.informatics.jax.org.

34Becker K.G、Barnes K.C、Bright T.J、Wang S.A.遗传关联数据库。自然遗传学。2004;36:431–432.[公共医学][谷歌学者]

35Blaess S、Graus-Porta D、Belvindrah R、Radakovits R、Pons S等。β1-整合素对小脑颗粒细胞前体增殖至关重要。神经科学杂志。2004;24:3402–3412. [PMC免费文章][公共医学][谷歌学者]

36Heisenberg C.P，Tada M.Wnt信号：梵高的一幅动态画面浮现。当前生物量。2002;12：R126–R128。[公共医学][谷歌学者]

37Nambiar R.M、Ignatius M.S、Henion P.D.斑马鱼colgate/hdac1在轴向伸展期间的非规范Wnt通路和Wnt依赖性分支运动神经元迁移中发挥作用。机械开发。2007;124:682–698. [PMC免费文章][公共医学][谷歌学者]

38Leung T、Bischof J、Soll I、Niessing D、Zhang D等。bozozok直接抑制斑马鱼bmp2b转录并介导bmp2b表达的最早背腹不对称性。发展。2003;130:3639–3649.[公共医学][谷歌学者]

39Koos D.S，Ho R.K。nieuwkoid/dharma同源盒基因对斑马鱼前胃腺的bmp2b抑制至关重要。开发生物。1999;215:190–207.[公共医学][谷歌学者]

40Haffter P、Granato M、Brand M、Mullins M.C、Hammerschmidt M等。斑马鱼Danio rerio发育中具有独特和基本功能的基因的鉴定。发展。1996;123:1–36.[公共医学][谷歌学者]

41Styers M.L、O’Connor A.K、Grabski R、Cormet-Boyaka E、Sztul E.β-COP的耗竭揭示了COP-I在分泌室划分和小窝蛋白-1生物合成运输中的作用。美国生理学杂志《细胞生理学》。2008;294：C1485–C1498。[公共医学][谷歌学者]

42Mao H，Diehl A.M，Li Y.X.声波刺猬配体与小窝蛋白-1合作进行细胞内转运。实验室投资。2009;89:290–300. [PMC免费文章][公共医学][谷歌学者]

43Karpen H.E、Bukowski J.T、Hughes T、Gratton J.P、Sessa W.C等。声波刺猬受体补丁与质膜富含胆固醇的微域中的小窝蛋白-1相关。生物化学杂志。2001;276:19503–19511.[公共医学][谷歌学者]

44Tenzen T、Allen B.L、Cole F、Kang J.S、Krauss R.S等。细胞表面膜蛋白Cdo和Boc是小鼠Hedgehog信号通路和反馈网络的成分和靶点。开发单元。2006;10:647–656.[公共医学][谷歌学者]

45Brody I.A.运动诱发的肌肉挛缩：一种可归因于放松因子降低的综合征。N英格兰医学杂志。1969;281:187–192.[公共医学][谷歌学者]

46Hirata H、Watanabe T、Hatakeyama J、Sprague S.M、Saint-Amant L等。斑马鱼相对放松的突变体具有ryanodine受体缺陷，表现为游动缓慢，并提供了一种多微小核疾病模型。发展。2007;134:2771–2781.[公共医学][谷歌学者]

47Muller H.M，Rangarajan A，Teal T.K，Sternberg P.W.Textpresso for neuroscience:搜索数千篇神经科学研究论文的全文。神经信息学。2008;6:195–204. [PMC免费文章][公共医学][谷歌学者]

48Allanson J.E、Biesecker L.G、Carey J.C、Hennekam R.C。形态学要素：导论。美国医学遗传学杂志。2009;149安:2–5. [PMC免费文章][公共医学][谷歌学者]

49Robinson P.N、Kohler S、Bauer S、Seelow D、Horn D等。人类表型本体：注释和分析人类遗传病的工具。美国人类遗传学杂志。2008;83:610–615. [PMC免费文章][公共医学][谷歌学者]

50Smith B、Ashburner M、Rosse C、Bard J、Bug W等。海外建筑运营管理局铸造厂：支持生物医学数据集成的本体论协调进化。国家生物技术。2007;25:1251–1255. [PMC免费文章][公共医学][谷歌学者]

51Beck T、Hancock J.M、Mallon A.M.Buffalo，纽约：《自然学报》；2009年，开发哺乳动物行为本体。[谷歌学者]

52.米德福德体育行为本体论。生物信息学。2004;20:3700–3701.[公共医学][谷歌学者]

53Marton M.E、Tran J、Wong W.W、Sargis J、Fong L等。以单元为中心的数据库项目：构建用于管理和共享3D成像数据的社区资源的更新。结构生物学杂志。2008;161:220–231. [PMC免费文章][公共医学][谷歌学者]

54斑马鱼图集。2009http://zfatlas.psu.edu/

55Davis A.P、Murphy C.G、Rosenstein M.C、Wiegers T.C、Mattingly C.J。比较毒理学数据库有助于识别和理解化学遗传疾病的关联：砷作为案例研究。BMC医学基因组学。2008;1:48. [PMC免费文章][公共医学][谷歌学者]

56Gong L、Owen R.P、Gor W、Altman R.B、Klein T.E.PharmGKB：药物基因组数据和知识的综合资源。当前协议生物信息学。2008;第14章：单元14 17 [PMC免费文章][公共医学][谷歌学者]

57.Prud’homme B、Gompel N、Carroll S.B.监管演变的新兴原则。美国国家科学院院刊。2007;104（补充1）：8605–8612。 [PMC免费文章][公共医学][谷歌学者]

58Stern D.L，Orgogozo V.进化的位点：遗传进化的可预测性如何？进化。2008;62:2155–2177. [PMC免费文章][公共医学][谷歌学者]

59Postlethwait J，Amores A，Cresko W，Singer A，Yan Y.L.亚功能划分，硬骨鱼辐射和人类基因组注释。趋势Genet。2004;20:481–490.[公共医学][谷歌学者]

60Maconochie M，Nonchev S，Morrison A，Krumlauf R.Paralogous Hox基因：功能和调节。年度版次Genet。1996;30:529–556.[公共医学][谷歌学者]

61Postlethwait J.H.斑马鱼基因组：综述和msx基因案例研究。基因组动力学。2006;2:183–197.[公共医学][谷歌学者]

62现象景观。2009https://www.phenoscape.org/wiki/Main_Page网站.

63遗传关联数据库。2008http://geneticassociaondb.nih.gov/

64.Maglott D、Ostell J、Pruitt K.D、Tatusova T.Entrez基因：NCBI以基因为中心的信息。核酸研究。2005;33：D54–D58。 [PMC免费文章][公共医学][谷歌学者]

65同源基因。2008http://www.ncbi.nlm.nih.gov/同源基因.

66奥博铸造厂。2007.http://www.obofoundry.org.

67Haendel M、Neuhaus F、Osumi-Sutherland D.Burger A、Davidson D、Baldock R编辑。CARO-通用解剖学参考本体。生物信息学的解剖本体论、原理和实践。2008年，第327-350页。

68Favor J、Gloeckner C.J、Neuhauser-Klaus A、Pretsch W、Sandulache R等。小鼠小肌肉中Pax6活性水平与眼睛发育程度的关系。遗传学。2008;179:1345–1355. [PMC免费文章][公共医学][谷歌学者]

69Kleinjan D.A、Bancewicz R.M、Gautier P、Dahm R、Schonthaler H.B等。斑马鱼pax6重复基因的顺调控分化亚功能化。公共科学图书馆-遗传学。2008;4：e29。数字对象标识：10.1371/journal.pgen.0040029.[PMC免费文章][公共医学][谷歌学者]

70人类PAX6。2009http://www.abdn.ac.uk/ims/staff/details.php？id=M.Collinson.

71辛格·A·代顿，俄亥俄州：代顿大学生物系；2009.果蝇^−/−.[谷歌学者]

72Nakano Y、Kim H.R、Kawakami A、Roy S、Schier A.F等。变色龙突变对调度1的失活破坏了斑马鱼胚胎中的刺猬信号。开发生物。2004;269:381–392.[公共医学][谷歌学者]

73Karlstrom R.O，Talbot W.S，Schier A.F.斑马鱼you-too的比较同步克隆：刺猬靶基因gli2的突变影响腹侧前脑模式。基因发育。1999;13:388–393. [PMC免费文章][公共医学][谷歌学者]

74Semina E.V、Bosenko D.V、Zinkevich N.C、Soules K.A、Hyde D.R等。层粘连蛋白α1的突变导致斑马鱼出现复杂的、与晶状体无关的眼部表型。开发生物。2006;299:63–77.[公共医学][谷歌学者]

75Ochi H、Pearson B.J、Chung P.T、Hammerschmidt M、Westerfield M.Hhip通过隔离Hedgehog和调节Smoothened的定位来调节斑马鱼肌肉的发育。开发生物。2006;297:127–140.[公共医学][谷歌学者]

76Hollway G.E、Maule J、Gautier P、Evans T.M、Keenan D.G等。Scube2在斑马鱼胚胎中调节刺猬信号。开发生物。2006;294:104–118.[公共医学][谷歌学者]

77Roy S，Wolff C，Ingham P.W.。u-boot突变确定了一个Hedgehog调节的肌原开关，用于斑马鱼胚胎中的纤维类型多样化。基因发育。2001;15:1563–1576. [PMC免费文章][公共医学][谷歌学者]

78Ryu S.L、Fujii R、Yamanaka Y、Shimizu T、Yabe T等。Wnt途径对达摩/波佐佐克的调节。开发生物。2001;231:397–409.[公共医学][谷歌学者]

79Karlstrom R.O、Tyurina O.V、Kawakami A、Nishioka N、Talbot W.S等。斑马鱼gli1和gli2的遗传分析揭示了脊椎动物发育对gli基因的不同需求。发展。2003;130:1549–1564.[公共医学][谷歌学者]

80Lee J.S、von der Hardt S、Rusch M.A、Stringer S.E、Stickney H.L等。视束中的轴突分类需要通过ext2（达克尔）和extl3（拳击手）合成HSPG。神经元。2004;44:947–960.[公共医学][谷歌学者]

81Bornemann D.J、Duncan J.E、Staatz W、Selleck S、Warrior R.果蝇硫酸乙酰肝素合成的减少会干扰无翅、刺猬和十诫麻痹信号通路。发展。2004;131:1927–1938.[公共医学][谷歌学者]

82.Norton W.H、Ledin J、Grandel H、Neumann C.J.斑马鱼Ext2和Extl3合成的HSPG是肢体发育期间Fgf10信号传递所必需的。发展。2005;132:4963–4973.[公共医学][谷歌学者]

83.Cunliffe V.T，Casaccia-Bonnefil P.组蛋白脱乙酰酶1对斑马鱼中枢神经系统中少突胶质细胞的规范至关重要。机械开发。2006;123:24–30.[公共医学][谷歌学者]

84Muller F、Albert S、Blader P、Fischer N、Hallonet M等。在中枢神经系统腹中线诱发声波刺猬时，节点相关信号环的直接作用。发展。2000;127:3889–3897.[公共医学][谷歌学者]

85Caneparo L，Huang Y.L，Staudt N，Tada M，Ahrendt R，et al.Dickkopf-1通过与Dally-like同源物Knypek相互作用，协调调节Wnt/beta-catenin和Wnt/PCP活性，调节原肠胚形成运动。基因发育。2007;21:465–480. [PMC免费文章][公共医学][谷歌学者]

86Mullor J.L、Dahmane N、Sun T、Ruiz i Altaba A.Wnt信号是Gli功能的靶点和介质。当前生物量。2001;11:769–773.[公共医学][谷歌学者]

87Rauch G-J、Hammerschmidt M、Blader P、Schauerte H.E、Strahle U等。斑马鱼胚胎的尾巴形成需要WNT5。冷泉Harb Symb Quant生物。1997;62:227–233.[公共医学][谷歌学者]

88Miyasaka N、Sato Y、Yeo S.Y、Hutson L.D、Chien C.B等。在斑马鱼嗅觉系统中建立精确的肾小球图需要Robo2。发展。2005;132:1283–1293.[公共医学][谷歌学者]

89Okada A、Charron F、Morin S、Shin D.S、Wong K等。Boc是声波刺猬在连合轴突引导下的受体。自然。2006;444:369–373.[公共医学][谷歌学者]

90Ke Z，Kondrichin I，Gong Z，Korzh V。斑马鱼两个Gli2基因的联合活性在斑马鱼神经发育过程中对刺猬信号传导起着重要作用。分子细胞神经科学。2008;37:388–401.[公共医学][谷歌学者]

91Smith A，Avaron F，Guay D，Padhi B.K，Akimenko M.A.斑马鱼鳍再生过程中BMP信号的抑制会干扰鳍生长和成核细胞分化和功能。开发生物学。2006;299:438–454.[公共医学][谷歌学者]

92.Patten I，Placzek M.体内底板诱导过程中Shh和BMP信号传导的对立活性。当前生物量。2002;12:47–52.[公共医学][谷歌学者]

93Nikaido M、Kawakami A、Sawada A、Furutani-Seiki M、Takeda H等。编码T-box蛋白的Tbx24在斑马鱼体细胞分段突变融合体细胞中发生突变。自然遗传学。2002;31:195–199.[公共医学][谷歌学者]

94Lewis K.E、Concordet J.P、Ingham P.W.斑马鱼Danio rerio中第二个补丁基因的特征以及补丁基因对刺猬信号的差异反应。开发生物。1999;208:14–29.[公共医学][谷歌学者]

95Aquilina-Beck A、Ilagan K、Liu Q、Liang J.O。斑马鱼的前神经管闭合需要结节信号。BMC开发生物。2007;7:126. [PMC免费文章][公共医学][谷歌学者]

96Marigo V，Davey R.A，Zuo Y，Cunningham J.M，Tabin C.J.补丁是刺猬受体的生化证据。自然。1996;384:176–179.[公共医学][谷歌学者]

97Fischer S、Prykhozhij S、Rau M.J、Neumann C.J.斑马鱼caf-1b突变导致器官发生过程中S期阻滞、分化缺陷和p53介导的凋亡。细胞周期。2007;6:2962–2969.[公共医学][谷歌学者]

98Palaisa K.A，Granato M.斑马鱼侧链突变体的分析揭示了Plexin A3在脊髓内运动轴突导向中的新作用。发展。2007;134:3251–3257.[公共医学][谷歌学者]

99脊椎动物生长锥的Bovolenta P.形态蛋白信号：少数病例还是一般策略？神经生物学杂志。2005;64:405–416.[公共医学][谷歌学者]

100Svard J、Heby-Henricson K、Persson-Lek M、Rozell B、Lauth M等。融合抑制因子的基因消除揭示了哺乳动物刺猬信号通路中的重要阻遏物功能。开发单元。2006;10:187–197.[公共医学][谷歌学者]

文章来自PLOS生物学由以下人员提供多环芳烃

使用基于本体的表型注释将人类疾病与动物模型联系起来

妮科尔·华盛顿

梅丽莎·海德尔

克里斯托弗·蒙格尔

迈克尔·阿什伯恩

蒙特·韦斯特菲尔德

苏珊娜·刘易斯

关联数据

摘要

作者摘要

介绍

表1

结果

OMIM基因的选择、注释和分析

表2

表3

表型剖面的比较分析

表4

等位基因变异的表型比较

表型查询法检索通路基因

表5

种间直方图的表型比较

表6

表7

讨论

评估方法

等位基因的表型相似性

信号通路成员的表型相似性

直系木的表型相似性

相似性度量

限制和可扩展性

材料和方法

OMIM统计

注释用基因/记录的选择

注释软件和存储

其他注释源

推理

分析

最大IC

ICCS系统

模拟集成电路

simJ（模拟J）

基因比较

支持信息

表S1

表S2

表S3

表S4

表S5

表S6

表S7

表S8

表S9

表S10

表S11

表S12

表S13

表S14

表S15

表S16

表S17

表S18

表S19

表S20

表S21

表S22

表S23

表S24

表S25

致谢

缩写

脚注

工具书类