跳到主要内容

BioVenn–使用面积比例维恩图比较和可视化生物列表的web应用程序

摘要

背景

在许多基因组学项目中,产生了许多包含生物标识符的列表。通常,看到不同列表之间的重叠是有用的,这使研究人员能够快速观察他们正在分析的数据集之间的相似性和差异。可视化数据集之间重叠和差异的最常用方法之一是维恩图:由两个或多个圆组成的图,其中每个圆对应一个数据集,圆之间的重叠对应数据集之间的重叠。当维恩图是“面积比例图”时尤其有用,即圆和重叠的大小与数据集的大小相对应。目前还没有可用的程序可以创建连接到广泛生物数据库的面积-比例维恩图。

结果

我们设计了一个名为BioVenn的web应用程序,使用面积比例维恩图总结两个或三个标识符列表之间的重叠。用户只需在文本框中输入这些标识符列表,然后按下提交按钮。颜色和文本大小等参数可以通过网络界面轻松调整。文本的位置可以通过“拖放”原则进行调整。输出的维恩图可以显示为嵌入在web应用程序中的SVG或PNG图像,也可以显示为独立的SVG和PNG图像。后一个选项对于批查询很有用。除了维恩图之外,BioVenn还为每个结果子集输出标识符列表。如果标识符被识别为属于某个受支持的生物数据库,则输出链接到该数据库。最后,BioVenn可以将Affymetrix和EntrezGene标识符映射到集成基因。

结论

BioVenn是一个易于使用的web应用程序,可以从生物标识符列表中生成面积-比例维恩图。它支持当前可用的最常用生物数据库中的广泛标识符。它在万维网上的实现使它可以在任何有互联网连接的计算机上使用,独立于操作系统,无需在本地安装程序。BioVenn可在http://www.cmbi.ru.nl/cdd/biovenn/

背景

在许多基因组学项目和处理大量生物数据的其他项目中,产生了包含生物标识符的各种列表,对应于例如在不同处理下调节的基因集。通常,看到这些列表之间的重叠是很有用的。这使研究人员能够快速观察他们正在分析的数据集之间的相似性和差异。可视化数据集之间重叠和差异的最流行方法之一是维恩图,由其发明人约翰·维恩命名[1]. 存在大量不同类型的维恩图,最常见的是用于可视化三个数据集之间重叠的三圈维恩图。在这样的图中,圆的大小可以用来表示相应数据集的大小。这称为面积比例维恩图[2]. 维恩图最近被用于可视化基因列表[,4]. 然而,这些应用程序生成具有相等大小圆圈的图表。

有一些可用的计算机程序可以生成面积比例维恩图,或者作为矩形[5]或作为多边形[6]. 这些程序的缺点是需要在本地下载和运行,从而限制了广泛社区对它们的使用。还有谷歌图表API[7],它可以生成圆形的面积比例维恩图,但只能有三个数字作为输入,并且不能进行任何计算来获得这三个数字。目前还没有可用的web应用程序可以生成连接到广泛生物数据库的圆形、面积比例维恩图,并可以将不同类型的ID映射到基因。在本文中,我们展示了一个名为BioVenn的web应用程序,它可以通过输入两个或三个生物ID列表来生成圆形的面积比例维恩图。BioVenn可以识别为属于某个数据库的ID链接到该数据库。BioVenn目前支持Affymetrix的交叉引用[8],中心距[9]、合奏[10]、EntrezGene[11]、基因本体[12]、InterPro[13],IPI[14],KEGG通道[15],KOG公司[16]、PhyloPat[17]和RefSeq[18]. BioVenn基于以前的版本[19],已在多份科学出版物中使用,以可视化集合及其重叠区域[20——22].

方法

维恩图的构造

计算维恩图比例(包括圆圈之间的重叠)的PHP脚本是使用Wolfram MathWorld网站上的信息编写的[23,24]. 它计算每对圆(X-Y、X-Z和Y-Z)的中心之间的距离,同时考虑每个圆的大小和两个圆之间重叠的大小。然后通过调整三个圆之间的角度将三个圆放在一起(图。1)对于相同大小的圆,为60°。

图1
图1

三圈BioVenn图的构造.生成三圈BioVenn图的方法。考虑到圆的大小和重叠,计算每对圆的中心之间的距离。利用这些距离将每对圆放在一起。然后将三个圆放在一起,生成一个不仅有两个圆重叠而且有三个圆重叠的三圆图。

输入页面

输入页面(图。2)提供了一些参数,以便轻松输入数据,以及一些格式选项。可以输入标题和副标题,以及它们的字体类型和字体大小。每个ID集都可以指定自己的名称,这样用户可以立即看到输出的哪个部分对应于哪个输入列表。用户还可以选择打印维恩图中的ID编号,可以是绝对编号,也可以是总编号的百分比。使用包含十八种颜色的下拉菜单,可以为所有这些文本参数指定自己的颜色。

图2
图2

BioVenn输入页面BioVenn输入页面,包含三个Affymetrix探针标识符列表的示例。

输入页面的第二部分为三个ID集中的每个ID集提供了两个输入选项:一个复制粘贴输入字段和一个文件输入字段。BioVenn将自动删除任何重复的ID。集合1、2和3的默认颜色为红色、绿色和蓝色,但用户也可以使用下拉菜单选择不同的颜色。如果三个ID集输入字段中的一个为空,BioVenn将生成仅包含两个圆的图表。

在输入页面的下部,用户可以选择背景颜色,或选择背景透明度。用户还可以更改输出SVG图像的总宽度和高度。“Create Embedded SVG”按钮生成嵌入HTML页面的SVG图像,而“Create SVG Only”按钮直接将SVG图像发送到浏览器。后一个选项对于批查询特别有用。用户可以选择将维恩图显示为(不可点击的)PNG图像,而不是SVG。“重置”按钮将所有参数恢复到当前图像,“完全重置”按钮将它们恢复到默认值。最后,还有一个链接,指向由少量Affymetrix ID生成的示例,供那些希望立即看到样本Venn图的人使用。此链接还显示了如何通过在URL中输入ID列表(加上标题和其他参数)来创建维恩图,例如。http://www.cmbi.ru.nl/cdd/biovenn/index.php?set_xurl=id1+id2+id3&set_y_url=id3+id4+id5&set_z_url=id5+id6+id1&title=BioVenn&subtitle=示例+图表.ID在可能的情况下会自动识别,但用户也可以从下拉列表中选择使用哪种类型的ID作为输入。BioVenn为物种提供了从Affymetrix ID和EntrezGene ID到Ensemble Gene ID(版本50)的可选映射智人,小M褐鼠对于希望从表达数据进行基于基因的比较的研究人员来说。

结果与讨论

输出维恩图

BioVenn输出(图。)由两个或三个圆组成的SVG或PNG图像组成,其中每个圆代表一个用作输入的ID集。圆圈的大小与该特定集合中唯一ID的数量相对应。每两个圆的重叠也对应于属于这些圆所表示的两个集合的ID数。也显示了所有三个圆之间的重叠(XYZ重叠[2,25]. 然而,在许多情况下,创建正确的两个圆重叠也会得到正确的三个圆重叠。在SVG图像中,标题、数字和百分比(如果启用)的位置可以通过拖放进行调整。当使用一个较新的SVG插件时,用户有一些额外的选项,例如放大和缩小或移动图表。

图3
图3

BioVenn图示例PubMed对术语“生物信息学”、“基因组学”和“系统生物学”进行比较后得出的BioVenn图。

图像统计

在SVG或PNG图像下方,显示属于当前显示图像的数字(图。4). 单击其中一个数字将打开一个弹出窗口,其中包含相应的ID列表。如果ID类型被识别为(或由用户定义为)Affymetrix、COG、Ensembl、EntrezGene、Gene Ontology、InterPro、IPI、KEGG Pathway、KOG、PhyloPat或RefSeq ID,则该ID将链接到数据库页面,其中包含有关该ID的更多信息。

图4
图4

当前图像统计图像统计页面属于图3中的示例。

结论

BioVenn是一个易于使用的web应用程序,可以从生物标识符列表中生成面积-比例维恩图。它支持当前可用的最常用生物数据库中的广泛标识符。它在万维网上的实现使得它可以在任何具有互联网连接的计算机上使用,不依赖于操作系统,也不需要在本地安装程序。

可用性和要求

BioVenn免费提供http://www.cmbi.ru.nl/cdd/biovenn/并且已经在Internet Explorer和Mozilla Firefox中进行了广泛的测试。对于不支持本机SVG的浏览器,可以从以下位置下载免费的SVG插件http://www.adobe.com/svg/viewer/install/mainframed.html(Adobe SVG Viewer)或http://www.examotion.com/index.php?id=product_player_download(RENESIS球员)。

缩写

中心距:

蛋白质的同源群簇

IPI:

国际蛋白质指数

KEGG公司:

京都基因和基因组百科全书

KOG公司:

蛋白质的真核同源群

SVG(高级副总裁):

可缩放矢量图形。

工具书类

  1. 文恩J:关于命题和推理的图解和机械表示。哲学杂志和科学杂志。1880, 9 (59): 1-18.

    第条 谷歌学者 

  2. Chow S,Ruskey F:绘制面积比例维恩图和欧拉图。图形绘制。2004年,柏林/海德堡:施普林格,2912:466-477。

    第章 谷歌学者 

  3. 威尼斯。用于将列表与维恩图进行比较的交互式工具。[http://bioinfogp.cnb.csic.es/tools/venny/]

  4. Pirooznia M、Nagarajan V、Deng Y:GeneVenn–一个使用维恩图比较基因列表的web应用程序。生物信息。2007, 1 (10): 420-422.

    第条 公共医学 公共医学中心 谷歌学者 

  5. 绘制维恩。[http://apollo.cs.uvic.ca/euler/DrawVenn/]

  6. Kestler HA,Muller A,Gress TM,Buchholz M:广义维恩图:一种可视化复杂遗传集关系的新方法。生物信息学。2005, 21 (8): 1592-1595.

    第条 公共医学 中国科学院 谷歌学者 

  7. 谷歌图表API。[http://code.google.com/apis/chart]

  8. Yap G:Affymetrix,Inc.药物基因组学。2002, 3 (5): 709-711.

    第条 公共医学 谷歌学者 

  9. Tatusov RL、Galperin MY、Natale DA、Koonin EV:COG数据库:蛋白质功能和进化的基因组尺度分析工具。《核酸研究》2000,28(1):33-36。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  10. Flicek P、Aken BL、Beal K、Ballester B、Caccamo M、Chen Y、Clarke L、Coates G、Cunningham F、Cutts T:合奏2008。《核酸研究》2008,D707-714。36数据库

  11. Maglott D,Ostell J,Pruitt KD,Tatusova T:Entrez基因:NCBI的基因中心信息。核酸研究。2007,D26-31。35数据库

  12. Ashburner M、Ball CA、Blake JA、Botstein D、Butler H、Cherry JM、Davis AP、Dolinski K、Dwight SS、Eppig JT:基因本体:生物学统一工具。基因本体联盟。自然遗传学。2000, 25 (1): 25-29.

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  13. Apweiler R、Attwood TK、Bairoch A、Bateman A、Birney E、Biswas M、Bucher P、Cerutti L、Corpet F、Croning MD:The InterPro数据库,蛋白质家族、结构域和功能位点的综合文档资源。《核酸研究》2001,29(1):37-40。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  14. Kersey PJ、Duarte J、Williams A、Karavidopoulou Y、Birney E、Apweiler R:国际蛋白质指数:蛋白质组学实验的综合数据库。蛋白质组学。2004, 4 (7): 1985-1988.

    第条 公共医学 中国科学院 谷歌学者 

  15. Ogata H、Goto S、Sato K、Fujibuchi W、Bono H、Kanehisa M:KEGG:《京都基因和基因组百科全书》。《核酸研究》1999,27(1):29-34。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  16. Tatusov RL、Fedorova ND、Jackson JD、Jacobs AR、Kiryutin B、Koonin EV、Krylov DM、Mazumder R、Mekhedov SL、Nikolskaya AN:COG数据库:更新版本包括真核生物。BMC生物信息学。2003, 4: 41-

    第条 公共医学 公共医学中心 谷歌学者 

  17. Hulsen T,de Vlieg J,Groenen PM:PhyloPat:真核基因的系统发育模式分析。BMC生物信息学。2006, 7: 398-

    第条 公共医学 公共医学中心 谷歌学者 

  18. Pruitt KD、Tatusova T、Maglott DR:NCBI参考序列(RefSeq):基因组、转录物和蛋白质的精选非冗余序列数据库。《核酸研究》,2007年,D61-65。35数据库

  19. 维恩图.tk[网址:http://www.venndiagram.tk]

  20. Nordstrom A、Want E、Northen T、Lehtio J、Siuzdak G:用于揭示代谢组学复杂性的多重电离质谱策略。分析化学。2008, 80 (2): 421-429.

    第条 公共医学 谷歌学者 

  21. Alexandersson E、Gustavsson N、Bernfur K、Kjellbom P、Larsson C:质膜蛋白质组学。植物蛋白质组学。编辑:Šamaj J,Thelen JJ。2007年,施普林格-柏林-海德堡,186-206年。

    第章 谷歌学者 

  22. Nitterus K、Astrom M、Gunnarsson B:商业性采伐迹地伐木残留物会影响地甲虫的多样性和群落组成(鞘翅目:甲虫科)。斯堪的纳维亚森林研究杂志。2007, 22 (3): 231-240.

    第条 谷歌学者 

  23. “Circle Circle Intersection”,来自MathWorld——Wolfram网络资源。[http://mathworld.wolfram.com/Circle-CircleIntersection.html]

  24. “维恩图”摘自MathWorld–Wolfram Web资源。[http://mathworld.wolfram.com/VennDiagram.html]

  25. Chow S,Rodgers P:用三个圆构建面积-比例文氏图和欧拉图。欧拉图表研讨会。2005

    谷歌学者 

下载参考资料

致谢

这项工作是荷兰生物信息中心(NBIC)BioRange项目SP3.2.2的一部分。

作者信息

作者和附属机构

作者

通讯作者

与的通信蒂姆·赫尔森

其他信息

作者的贡献

TH参与了研究的设计,构建了应用程序,并起草了手稿

JdV参与了研究设计

WA参与了研究设计并帮助起草了手稿

作者提交的原始图像文件

权利和权限

本文由BioMed Central Ltd.授权发布。这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

转载和许可

关于本文

引用这篇文章

Hulsen,T.、de Vlieg,J.和Alkema,W.BioVenn–使用面积比例维恩图比较和可视化生物列表的web应用程序。BMC基因组学 9, 488 (2008). https://doi.org/10.1186/1471-2164-9-488

下载引文

  • 收到以下为:

  • 认可的以下为:

  • 出版以下为:

  • 内政部以下为:https://doi.org/10.1186/1471-2164-9-488

关键词