Integrating diverse databases into an unified analysis framework: a Galaxy approach

Blankenberg, Daniel; on behalf of The Galaxy Team; Coraor, Nathan; on behalf of The Galaxy Team; Von Kuster, Gregory; on behalf of The Galaxy Team; Taylor, James; on behalf of The Galaxy Team; Nekrutenko, Anton; on behalf of The Galaxy Team

doi:10.1093/database/bar011

摘要

最近的技术进步使人们能够为模型生物和非模型生物生成大量数据。然而，在过去，为基因组数据提供服务的中央存储库数量相对较少，已经建立了越来越多的独特的专业数据存储库和资源。在这里，我们描述了一种通用方法，该方法将各种数据资源集成到统一的分析框架Galaxy中(http://usegalaxy.org). 这种方法允许简化外部数据资源与Galaxy用户可用的数据分析工具的耦合，同时利用外部数据资源的本地数据挖掘设施。

数据库URL:http://usegalaxy.org

介绍

无论是模型生物还是非模型生物，基因组数据的生成速度都在快速增长。这为生物医学研究创造了令人兴奋的机会，但也带来了一系列独特的挑战，例如需要将生物医学科学家及其数据与计算工具联系起来，并允许研究人员将外部来源的额外数据交互集成到其分析中[有关优秀的综述，请参阅参考文献(1)]. 事实上，因为与序列数据生成相关的成本正在迅速降低，并且因为存在许多优秀的解决方案来管理这些数据，例如InterMine(2)、生物城(三)，UCSC表格浏览器(4)因此，专业利基数据仓库变得越来越多也就不足为奇了。

所有公众都可以轻松、自由地获取这些数据。然而，对于大多数实验生物学家来说，在获取这些丰富的信息和将其转化为有用的生物学知识之间存在空白。生物学家必须解决的第一个问题是基因组数据集的巨大规模。这些数据集通常包含具有信息价值的整个基因组：一些数据集包含特定基因组元素的信息，例如特定人类转录因子结合位点的全基因组位置，而其他数据集，例如多谱全基因组比对，可以包含几个不同有机体的信息。其中一些数据集很容易占据数百GB的空间，导致许多数据集尽管免费且随时可用，但由于与存储大量信息相关的后勤问题，实验社区没有充分利用这些数据集。即使最初的障碍可以克服，实验生物学家也没有多少选择来操作这些数据。例如，现代电子表格应用程序无法加载包含所有所谓人类多态性的文件。遇到的另一个问题是数据集成和格式不兼容问题。除了简单地拥有不同类型的数据（例如序列、比对和基因组间隔）之外，对于每种不同的数据类型，似乎都有无尽的数据格式。这通常会导致创建自定义一次性脚本。这些小脚本通常由单个实验室开发，可能只执行简单的功能，例如预解析文件，虽然这些脚本可能很简单，但事实证明，在不可用时，它们确实会阻碍研究的再现性。在预处理脚本可用的情况下，生物信息工具通常带有令人困惑的或仅限于命令行的界面。所有这些接口都是不同的，它们通常不是设计为一起工作的：很少有情况下，一个工具的输出可以直接作为输入输入到另一个工具。此外，几乎有太多的工具，这使得实验生物学家很难知道从哪里开始，或者哪种工具最适合特定的分析。这些问题有效地阻止了许多生物学家利用现有的基因组分析软件。因此，具有多种工具的统一分析框架能够与异构数据源无缝集成，这对生物医学研究界非常有益。在这里，我们描述了使用Galaxy实现这样一个解决方案(http://usegalaxy.org;5–8).

作为（i）公开可用的web服务提供(http://usegalaxy.org)提供分析基因组、比较基因组和功能基因组数据的工具，以及（ii）免费下载的软件包(http://getgalaxy.org)可以部署在单个实验室或云资源上(9)Galaxy试图为用户分布的两端服务：实验生物学家和生物信息学家。Galaxy不仅仅是为了访问数据，也不意味着取代数据仓库，因为关注此问题的组织能够更有效地解决存储和查询其特定数据和模式的问题。相反，Galaxy提供了一个软件框架，允许简化外部数据资源与Galaxys用户可用的数据分析工具的耦合，同时利用外部数据资源的本地数据挖掘设施。此解决方案与从特定数据资源返回的数据类型无关，这些数据本身可能是先前分析的结果。通过向Galaxy提供数据资源，用户可以简单地“将结果发送到Galaxy”，而不必被迫下载潜在的千兆字节数据。一旦用户访问了数据并将其放入历史记录中，就可以立即进行分析。Galaxy包含一百多个分析工具，专注于提供社区公认为“最佳”的工具，大大减少了为特定分析寻找合适工具的困难。Galaxy能够自动确定数据格式，数据集只能用作能够接受特定格式作为输入的生物信息工具的输入。在数据是正确类型（例如对齐），但工具只接受特定格式（例如工具需要FASTA格式，但用户的数据是MAF格式）的情况下，Galaxy有一组隐式数据类型转换器，可以将数据转换为工具所需的格式，而无需用户进行任何额外干预。此外，Galaxy允许用户不仅共享和发布数据和结果（数据库），还可以共享和发布整个分析步骤（用户历史记录）、完整的实验协议（页面）和可定制的即插即用多对多分析管道（工作流）。

这里描述的协议允许用户在数据资源或Galaxy服务器上开始分析。这里没有完全描述的单独协议用于集成命令行分析工具，并将数据集从Galaxy发送到外部web应用程序。此外，Galaxy Upload工具包含在标准的Galaxys发行版中，它可以通过在表单字段中输入文本或提供URL列表，将数据作为文件从用户的计算机上传。

目前，一些数据库资源已与公共Galaxy服务器集成(http://usegalaxy.org)和作为可下载包的一部分；这些资源的完整列表包括UCSC表浏览器(图1)、BioMart中央门户、InterMine、EpiGraph(10)，欧洲路径数据库(11)和HbVar(12). 向Galaxy中添加新的数据资源非常简单，无需更改Galaxy的源代码；在大多数情况下，定义一个简单的XML配置文件并指示Galaxy加载新定义的文件就足以通知Galaxy's外部数据资源。对于数据提供商正在使用其中一个已经是Galaxy软件的代码库的情况，在设置和配置其数据资源后，将新资源添加到现有Galaxys的过程实例（Galaxy实例：每次出现独立的Galaxys服务器）所需的时间和精力最少。当数据提供商使用不支持Galaxy的代码托管其资源时，时间长短取决于数据提供商修改和配置自己的代码库所需的步骤；然而，配置Galaxy实例所需的时间仍然相似。

UCSC表格浏览器工具。UCSC表浏览器工具显示了其本机界面，因为它似乎已集成到Galaxy（A）中。显示了一个简化的XML配置文件（B），它向Galaxy描述了如何与数据资源通信。高级配置选项用于自定义数据集属性和增强用户体验。文件格式和基因组构建的值取自数据源提供的参数，并可供Galaxy访问。此外，当用户从Galaxy内部开始时，此配置会自动选择“将输出发送到Galaxy”选项。只需在tool_conf.xml文件中添加一行蓝色轮廓的内容，即可通知Galaxy加载工具（C）。

图1。

UCSC表格浏览器工具。UCSC表浏览器工具显示了其本机界面，因为它似乎已集成到Galaxy中(A类). 简化的XML配置文件(B类)它向Galaxy描述了如何与数据资源通信。高级配置选项用于自定义数据集属性和增强用户体验。文件格式和基因组构建的值取自数据源提供的参数，并可供Galaxy访问。此外，当用户从Galaxy内部开始时，此配置会自动选择“将输出发送到Galaxy”选项。只需在tool_conf.xml文件中添加一行蓝色轮廓的内容，即可通知Galaxy加载该工具(C类).

新标签中打开下载幻灯片

方法

根据数据集的可用性，Galaxy使用两个简单的默认协议与外部数据资源通信：（i）同步和（ii）异步。在同步协议中，用户配置了所需的选项后，可以立即从外部数据资源中获得所请求的数据集。当数据集不能立即从外部数据资源中获得时，异步方法也可用。虽然大多数资源都使用同步方法，但在数据资源的用户交互结束与请求数据可用性之间有很长时间的情况下，异步协议得到了有效的使用。同步或异步协议的选择完全基于数据资源的技术要求，不会改变用户与数据资源或Galaxy的交互。这些协议中任一协议的每个单独实现都被称为数据源工具银河系内部。这两种方法都允许用户在生成或传输数据时继续使用Galaxy。虽然使用这些协议可以防止用户将任何文件下载到计算机上，但用户可以交互分析其数据集，并可以随时选择下载数据。

用户视角

UCSC表浏览器是实现同步协议的工具示例。尽管本例使用同步协议，但从用户的角度来看，如果数据提供者选择使用异步协议，则将数据发送到Galaxy所需的步骤不会改变。在这个特定的示例中，用户可以从Galaxy界面（例如位于http://usegalaxy.org)并选择UCSC主表浏览器工具，或者可以从UCSC表浏览器界面开始(图1A和2). 当用户在UCSC表格浏览器中开始时，他们需要选择一个复选框，“将输出发送到Galaxy”，该复选框会通知外部资源结果应返回到Galaxy；此复选框位于Table Browser界面的第一页，当用户在Galaxy中启动时，默认情况下会自动选中此复选框。在确保选择了将结果发送到Galaxy的选项后，用户可以在本机表浏览器界面中自定义其查询的参数，就像Galaxy不是一个因素一样。当用户准备从表浏览器中检索数据时，他们使用“获取输出”按钮，该按钮显示一个附加页面，允许选择其他数据格式选项。

UCSC表浏览器作为同步数据资源示例。此处以UCSC表浏览器为例，概述了典型的同步数据资源工具。基于UCSC表浏览器工具的XML配置文件（图1），Galaxy创建了一个新工具作为链接（用红色圈出），该链接引用了Get data工具部分（a）下的数据资源。描述了生成的链路（B）的示例及其组成参数；工具XML配置中提供的几个参数自定义了外部资源的初始接口。通过访问链接，用户在其web浏览器中被转发到本地UCSC表浏览器界面（C）。一旦用户对其查询配置感到满意并选择了所需的格式选项（D），UCSC表浏览器就会生成一个表单（E；为了简单起见，一些参数已从原始HTML中删除），其中包含一个指向Galaxy服务器的操作。当Galaxy收到帖子（F）时，将在用户历史记录中创建一个新的数据集。Galaxy收集请求中提供的参数，并在后台执行一个进程，将这些参数重新提交到表浏览器中提供的URL参数指定的位置；表浏览器的响应是Galaxy将用于填充新数据集的内容。

图2。

UCSC表浏览器作为同步数据资源示例。这里显示了一个典型的同步数据资源工具的概述，以UCSC表浏览器为例。基于UCSC表浏览器工具的XML配置文件(图1)，Galaxy创建了一个新工具作为链接（用红色勾勒），该链接引用了“获取数据工具”部分下的数据资源(A类). 链接示例(B类)所生成的与组成它的参数一起描述；工具XML配置中提供的几个参数自定义了外部资源的初始接口。通过访问链接，用户在其web浏览器中被转发到本地UCSC表浏览器界面(C类). 一旦用户对其查询配置感到满意并选择了所需的格式选项(D类)，UCSC表浏览器生成表单(E类; 为了简单起见，一些参数已从原始HTML中删除，并有一个指向Galaxy服务器的操作。当Galaxy收到邮件时(F类)，将在用户历史记录中创建一个新的数据集。Galaxy收集请求中提供的参数，并在后台执行一个进程，将这些参数重新提交到表浏览器中提供的URL参数指定的位置；来自表浏览器的响应是Galaxy将用于填充新数据集的内容。

新标签中打开下载幻灯片

此时，与Table Browser界面中的标准用户体验略有偏差，通常会有一个按钮允许用户将数据集下载到他们的计算机上（例如“get-BED”），而有一个标签为“Send query to Galaxy”的按钮(图2D）将用户及其数据集定向到Galaxy服务器。用户现在可以交互分析其数据集，而无需将副本下载到计算机上，但他们可以随时下载原始数据、中间分析步骤或最终结果。

尽管UCSC表浏览器要求用户声明，他们希望在选择最终格式选项之前将查询结果返回给Galaxy，但事实并非如此。例如，支持将数据集返回Galaxy的Intermine服务器将选项放在“导出”菜单的结果页面上。Galaxy对用户界面的细节没有任何要求，我们认为每个数据资源的开发人员最有能力根据各自的要求和规范做出这些决定。

同步数据资源

同步数据连接协议应用于用户请求的数据实时可用的情况。本协议概述从用户在Galaxy服务器上启动的情况开始，但适用于用户从外部数据库资源启动的情况，在这种情况下，默认参数值用于指示目标Galaxys实例。图2以UCSC表格浏览器工具为例，提供了此过程的概述。首先，用户从Galaxy的工具菜单中选择数据源工具，该菜单位于web界面的左侧窗格中。这导致Galaxy将用户发送到外部数据资源的URL（在单个数据源工具配置XML文件中指定为“inputs-action”属性）以及此请求中的参数Galaxy_URL。GALAXY_URL参数的值包含GALAXY希望稍后发送响应的URL。只要用户导航外部资源，外部站点就有责任跟踪此URL。当用户从外部数据资源开始时，将使用由外部资源定义的默认GALAXY_URL，并通常引用主公共GALAXY服务器。正是依赖于此可配置参数，才允许位于世界各地不同URL的许多Galaxy实例与同一数据资源交互，而无需集中式Galaxys服务器。

当用户导航外部数据资源时，它的行为与请求不是来自Galaxy时完全一样。当参数提交通常会将数据返回给用户时，外部数据资源必须将这些参数发布到GALAXY_URL参数中发送的URL，另外还提供一个参数URL，其中包含从外部资源请求数据的位置。通常，这要求通常生成数据的表单的action属性指向GALAXY_URL参数提供的值，并将通常的非GALAXY交互式表单操作目标作为URL参数发送。通过依赖用户在自己的浏览器中访问的表单或链接，本地安装的Galaxy实例可以与外部数据资源连接，而无需额外的防火墙配置。例如，默认情况下，新安装的个人Galaxy实例绑定到端口8080上的localhost，这是Galaxy_URL参数的基础。当用户提交表单时，请求将从他们自己的浏览器中发出。只要用户能够从当前网络连接访问远程主机，他们就可以从该外部资源将数据集加载到本地Galaxy实例中。

当Galaxy收到参数时，它将在后台运行URL检索过程，将参数提交给外部资源，该资源位于提供的URL参数的值处。来自外部数据资源的响应应该包含所需的数据内容，Galaxy将保存在用户的当前工作区（称为用户的历史记录）中。对于生产服务器，可以将此后台进程分派给具有外部资源网络访问权限的计算节点；这些计算节点不需要公共IP地址，可以充分利用例如网络地址转换（NAT），因为数据连接是由节点发起的。

异步数据资源

当用户请求的数据无法实时使用时，应使用异步协议，因为例如，外部数据源需要执行后台进程来生成数据。此过程的操作类似于同步协议，例外情况是外部资源稍后必须将数据的位置通知Galaxy。

遵循与同步数据协议中相同的步骤，但不是用户请求的数据在外部资源提供的URL参数中可用，而是发生了一系列不同的通信事件。代替同步协议中的最后一步，Galaxy将创建一个新的Galaxy_URL参数，该参数将唯一标识要使用未生成的数据填充的目标数据集，并将此信息和用户特定参数发送回位于提供的URL参数处的外部资源（在同步协议中，此URL将包含用于填充Galaxy数据集的数据）。这将导致外部数据资源执行生成数据内容所需的后台进程。此时，Galaxy已经创建了一个数据集对象来存储数据内容，并正在等待来自外部资源的数据就绪通知。这种方法避免了Galaxy连续轮询资源的需要。进程间通信通过非常简单的文本输出进行。正确执行的命令可以写入任何类型的文本消息；如果文本以OK结束，则视为成功提交。未以OK结尾的消息将被视为错误。不需要解释任何消息，因为它们主要用于信息和调试目的。

当外部资源生成的数据准备就绪时，该资源必须连接到最近提供的GALAXY_URL中指定的URL，并提供STATUS和URL参数。然后，Galaxy将发出后台请求，以获取存储在URL中指定位置的数据。参数STATUS和URL都必须存在。如果STATUS与OK不同，则用户的数据集将被标记为失败，并且不会检索数据。在发生错误的情况下，外部数据资源可能会包含更详细的STATUS值，因为该值将被存储并显示给用户，作为失败的原因。

高级数据资源配置

虽然到目前为止描述的步骤完全足以将数据内容导入Galaxy，但为了最大限度地提高可用性，通常需要有关数据的附加信息，如数据格式、源基因组构建、数据集名称和其他自由形式的信息。Galaxy能够解析外部资源为此信息提供的参数。默认情况下，Galaxy将为此分别使用data_type、dbkey、name和info参数中提供的值(表1). 外部资源不需要使用这些确切的参数名，因为数据源工具配置文件可以提供可用于此目的的参数名和值转换。Name translations函数用于提供外部资源以不同名称命名的参数，作为具有特殊功能的参数之一。值转换为Galaxy提供的特定参数值与外部数据资源提供的值不同；例如，这对于非标准基因组构建别名之间的映射很有用。

表1。

新标签中打开

数据资源可以提供参数来自定义如何将数据集添加到用户的历史记录中

参数名称	用法
姓名	外部资源可以为检索到的数据集提供描述性名称。如果未提供，则使用基于XML工具配置中提供的名称的默认名称。
信息	资源可用于提供有关数据集的附加信息的自由格式文本字符串。
数据类型	返回到Galaxy的数据类型。例如bed、sam、gff和maf。
数据库键	如果数据属于单个参考基因组，则此字符串用于存储此信息。例如hg18、mm9和canFam2。
统一资源定位地址	用户的历史记录将填充一个新的数据集，其中包含通过将所有提供的参数提交到此URL返回的结果。

参数名称	用法
姓名	外部资源可以为检索到的数据集提供描述性名称。如果未提供，则使用基于XML工具配置中提供的名称的默认名称。
信息	资源可用于提供有关数据集的附加信息的自由格式文本字符串。
数据类型	返回到Galaxy的数据类型。例如bed、sam、gff和maf。
数据库键	如果数据属于单个参考基因组，则此字符串用于存储此信息。例如hg18、mm9和canFam2。
统一资源定位地址	用户的历史记录将填充一个新的数据集，其中包含通过将所有提供的参数提交到此URL返回的结果。

表1。

新标签中打开

数据资源可以提供参数来自定义如何将数据集添加到用户的历史记录中

参数名称	用法
姓名	外部资源可以为检索到的数据集提供描述性名称。如果未提供，则使用基于XML工具配置中提供的名称的默认名称。
信息	资源可用于提供有关数据集的附加信息的自由格式文本字符串。
数据类型	返回到Galaxy的数据类型。例如bed、sam、gff和maf。
数据库键	如果数据属于单个参考基因组，则此字符串用于存储此信息。例如hg18、mm9和canFam2。
统一资源定位地址	用户的历史记录将填充一个新的数据集，其中包含通过将所有提供的参数提交到此URL返回的结果。

参数名称	用法
姓名	外部资源可以为检索到的数据集提供描述性名称。如果未提供，则使用基于XML工具配置中提供的名称的默认名称。
信息	资源可用于提供有关数据集的附加信息的自由格式文本字符串。
数据类型	返回到Galaxy的数据类型。例如bed、sam、gff和maf。
数据库键	如果数据属于单个参考基因组，则此字符串用于存储此信息。例如hg18、mm9和canFam2。
统一资源定位地址	用户的历史记录将填充一个新的数据集，其中包含通过将所有提供的参数提交到此URL返回的结果。

此时，值得讨论不同提供商之间的数据差异。这些差异不仅包括前面提到的基因组构建标识符（dbkey），还包括染色体名称和坐标系。虽然坐标系之间的差异可以通过坚持标准格式（例如BED、GTF、SAM/BAM、MAF等）来解决，但正确处理其他差异并不是那么简单。基因组构建中发现的差异的一个例子是最新的人类参考，可能被称为GRCh37、hg19或其他。同样，染色体可以被称为例如chr1、chrX、chrM等或1、x、MT等。当试图处理来自使用不同命名系统的提供商的数据集时，这些问题带来了重大挑战。虽然Galaxy可以提供工具，允许用户手动修改数据集，甚至自动（见下一段）修改数据内容，但我们认为采用一套标准命名规则符合社区的最大利益。即使不考虑Galaxy，如果数据提供商同意使用相同的命名约定，社区也会得到很好的服务。

默认情况下，在后台运行标准的Galaxy命令行可执行文件（data_source.py），以从外部数据资源获取数据内容。这个可执行文件可以在每个资源的基础上替换为实现者想要的任何程序或脚本。当外部资源提供的数据在被下游分析接受之前需要以某种方式进行转换，并且不需要用户执行单独的格式化工具时，这一点尤其有用。当外部资源最初提供例如描述多个文件位置的XML文件时，也可以使用自定义可执行文件。

其他方法

根据我们的经验，通过提供这两个简单的协议，大多数外部数据资源可以无缝集成到Galaxy中。然而，将外部数据资源集成到Galaxy中并不限于此处描述的两个标准协议。

如果上述协议不适用于特定的外部数据资源，则可以将该资源集成为标准的Galaxy工具。虽然详尽定义通用Galaxy工具超出了本手稿的范围，但简而言之，Galaxys工具由任何命令行可访问的可执行文件和描述要创建的输入参数和输出数据集的工具配置文件组成；看见图3简单的基于EFetch的NCBI示例(13)不使用标准Galaxy协议的序列检索工具。此外，Galaxy还提供了数据库功能，提供对静态数据集的预缓存访问，这些数据集最初可能只能作为数据提供程序中的文件使用。图4显示了一个例子，其中1000个基因组计划试点数据(14)从FTP服务器直接加载到Galaxy。使用Galaxy数据库还可以在用户将数据集导入历史记录时防止磁盘上的数据集重复。尽管特定导入数据集的每个副本都共享对磁盘上同一文件的引用，但用户可以根据需要自由修改其副本的元数据和属性。

一个简单的NCBI序列检索工具。这个最小的工具界面（A：Galaxy工具描述和B：Galax生成的用户界面）由一个文本框组成，允许用户手动输入登录号和一个选择列表，允许用户指定要搜索的目标序列数据库。当用户执行此工具时，Galaxy运行一个简单的脚本（C），该脚本获取用户提供的登录号的FASTA序列数据（D）。添加了颜色匹配的方框，以指示面板各个元素的相互关系。

图3。

一个简单的NCBI序列检索工具。这个最小的工具界面(A类：Galaxy工具说明和B类：Galaxy生成的用户界面）由一个文本框和一个选择列表组成，前者允许用户手动输入登录号，后者允许用户指定要搜索的目标序列数据库。当用户执行此工具时，一个简单的脚本(C类)由获取FASTA序列数据的Galaxy运行(D类)用于用户提供的登录号。添加了颜色匹配的方框，以指示面板各个元素的相互关系。

新标签中打开下载幻灯片

一个包含1000基因组项目试验数据的银河图书馆。这些数据从1000 Genomes项目FTP服务器直接加载到Galaxy数据库中。当用户从库导入数据集时，不会复制磁盘上的基础文件。尽管特定导入数据集的每个副本都共享对磁盘上同一文件的引用，但用户可以根据需要自由修改其副本的元数据和属性。

图4。

A类包含1000基因组项目试点数据的银河图书馆。这些数据从1000 Genomes项目FTP服务器直接加载到Galaxy数据库中。当用户从库导入数据集时，不会复制磁盘上的基础文件。尽管特定导入数据集的每个副本都共享对磁盘上同一文件的引用，但用户可以根据自己的意愿自由修改其副本的元数据和属性。

新标签中打开下载幻灯片

结论

Galaxy是一个强大的平台，为生物医学研究人员提供了对数据资源的集成访问，是分析工具和可视化资源的最佳实践集合。虽然非监督整合已被证明是一个有效的初始分析步骤，但监督整合为生物理解提供了最大的进步(1). 使用Galaxy，研究人员可以使用外部资源提供的本地数据挖掘工具直接查询数据提供者。通过依赖外部资源提供查询界面，将配置Galaxy与外部资源通信所需的时间降至最低，同时将数据访问的完全控制权授予资源管理员；例如，对外部资源接口所做的更改会立即反映出来，而无需在Galaxy实例中进行额外的工作。

我们提出了两个标准化协议，简化了向Galaxy中添加外部数据提供程序的过程：同步和异步。这些协议广泛地处理数据集可用性的两种常见情况：实时或延迟。提供的设施允许外部资源指定所请求数据的元数据，如格式和参考基因组。虽然这两个协议能够覆盖大多数外部数据提供者，但我们简要介绍了替代方案。如果外部数据集仅作为文件可用，则可以使用Galaxy数据库；使用Galaxy库还有一个额外的好处，就是可以防止在Galaxys服务器上复制主数据集文件内容。还简要介绍了使用标准Galaxy工具访问远程资源的示例，作为查询非Galaxy-aware的外部资源的一种方法。除了这份手稿之外，还有一个循序渐进的示例教程，标题为数据源，可从Galaxy wiki获得（可在http://getgalaxy.org).

致谢

银河队（埃妮斯·阿夫根、阿南达大师、丹农·贝克、丹·布兰肯伯格、拉姆克里什纳·查克拉巴蒂、戴夫·克莱门茨、内特·科拉尔、杰里米·戈克斯、詹妮弗·杰克逊、谢尔盖·科萨科夫斯基·庞德、格雷格·冯·库斯特、罗斯·拉扎罗斯、坎威·李、安东·内克鲁滕科、詹姆斯·泰勒和凯利·文森特）的努力对实现这项工作起到了重要作用。

基金

贝克曼基金会青年研究员奖（授予A.N.）；国家科学基金（DBI 0543285）和国家卫生研究院（HG004909 to A.N.and J.T.）；美国国立卫生研究院（HG005133和HG005542 to J.T.和A.N.）；宾夕法尼亚州立大学和哈克生命科学研究院（转A.N.）；埃默里大学。额外资金部分来自宾夕法尼亚州卫生部使用烟草结算基金提供的拨款。国防部明确表示不承担任何分析、解释或结论的责任。开放存取费用资助：宾夕法尼亚州立大学。

利益冲突。未声明。

工具书类

1

霍金斯

研发

,

荣誉

GC公司

,

任

B类

.

下一代基因组学：一种综合方法

,

Nat.Rev.基因。

,

2010

，卷。

11

（第

476

-

86

)

2

Lyne公司

R（右）

,

史密斯

R（右）

,

卢瑟福

K（K）

等

FlyMine：果蝇和按蚊基因组学综合数据库

,

基因组生物学。

,

2007

，卷。

8

第页。

129兰特

三

海德尔

S公司

,

球鞋

B类

,

斯梅德利

D类

等

BioMart Central Portal–统一访问生物数据

,

核酸研究。

,

2009

，卷。

37

（第

第23周

-

第27周

)

4

卡鲁契克

D类

,

韩礼士

AS公司

,

愤怒

TS公司

等

UCSC表浏览器数据检索工具

,

核酸研究。

,

2004

，卷。

32

（第

D493号

-

D496号

)

5

Goecks，J.、Nekrutenko，A.、Taylor，J.和银河队。（2010）《银河系：支持生命科学中可访问、可复制和透明的计算研究的综合方法》。基因组生物学.,11，R86

6

布兰肯伯格

D类

,

冯·库斯特

G公司

,

科罗尔

N个

等

Galaxy：面向实验人员的基于网络的基因组分析工具

,

货币。协议。分子生物学。

,

2010

，卷。

19

第19单元

（第

10.1

-

10.21

)

谷歌学者

OpenURL占位符文本

书目数据库

7

泰勒

J

,

申克

我

,

布兰肯伯格

D类

,

内克鲁滕科

A类

.

“使用Galaxy执行大规模交互式数据分析”

,

货币。保护。生物信息。

,

2007

，卷。

19

（第

10.5.1

-

10.5.25

)

谷歌学者

OpenURL占位符文本

书目数据库

8

布兰肯伯格

D类

,

泰勒

J

,

申克

我

等

ENCODE数据协同分析框架：使大规模分析对生物学家友好

,

基因组研究。

,

2007

，卷。

17

（第

960

-

964

)

9

阿夫根

E类

,

贝克

D类

,

科罗尔

N个

等

Galaxy CloudMan:交付云计算集群

,

BMC生物信息学

,

2010

，卷。

11

补充12

第页

S4系列

10

博克

C类

,

冯·库斯特

G公司

,

哈拉切夫

K（K）

等

使用EpiGRAPH和Galaxy对（Epi-）基因组数据进行网络分析

,

方法分子生物学。

,

2010

，卷。

628

（第

275

-

296

)

11

金雷切亚

C类

,

布雷斯特利

J

,

Brunk酒

英国石油公司

等

EuPathDB：真核病原体数据库的门户

,

核酸研究。

,

2010

，卷。

38

（第

D415号

-

D419号

)

12

贾尔丁

B类

,

范巴尔

S公司

,

Kaimakis公司

P（P）

等

人类血红蛋白变异和地中海贫血变异的HbVar数据库：2007年更新

,

哼，变种。

,

2007

，卷。

28

第页。

206

13

赛耶斯

电子战

,

巴雷特

吨

,

本森

陆军部

等

国家生物技术信息中心的数据库资源

,

核酸研究。

,

2010

，卷。

38

（第

D5型

-

第16天

)

14

1000基因组项目联盟；Durbin，R.M.，Abecasis，G.R.Altshuler，D.L.等人（2010）人口规模测序的人类基因组变异图。自然,467, 1061–1073

这是根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/2.5)它允许在任何媒体上无限制地进行非商业性使用、分发和复制，前提是正确引用了原始作品。

下载所有幻灯片

月份：	总浏览次数：
2016年12月	6
2017年1月	2
2017年2月	5
2017年3月	1
2017年4月	1
2017年5月	6
2017年6月	2
2017年7月	1
2017年8月	7
2017年9月	1
2017年10月	11
2017年11月	8
2017年12月	15
2018年1月	7
2018年2月	13
2018年3月	18
2018年4月	16
2018年5月	20
2018年6月	22
2018年7月	19
2018年8月	17
2018年9月	12
2018年10月	7
2018年11月	17
2018年12月	14
2019年1月	8
2019年2月	12
2019年3月	14
2019年4月	27
2019年5月	18
2019年6月	18
2019年7月	18
2019年8月	14
2019年9月	28
2019年10月	21
2019年11月	17
2019年12月	16
2020年1月	20
2020年2月	16
2020年3月	8
2020年4月	20
2020年5月	6
2020年6月	15
2020年7月	15
2020年8月	19
2020年9月	7
2020年10月	17
2020年11月	14
2020年12月	16
2021年1月	14
2021年2月	13
2021年3月	30
2021年4月	25
2021年5月	32
2021年6月	12
2021年7月	26
2021年8月	37
2021年9月	67
2021年10月	76
2021年11月	28
2021年12月	48
2022年1月	46
2022年2月	35
2022年3月	33
2022年4月	42
2022年5月	25
2022年6月	47
2022年7月	32
2022年8月	17
2022年9月	47
2022年10月	29
2022年11月	22
2022年12月	17
2023年1月	26
2023年2月	11
2023年3月	29
2023年4月	29
2023年5月	45
2023年6月	51
2023年7月	48
2023年8月	42
2023年9月	44
2023年10月	26
2023年11月	32
2023年12月	32
2024年1月	39
2024年2月	42
2024年3月	32
2024年4月	38
2024年5月	49
2024年6月	1

文章内容

将各种数据库集成到统一的分析框架中：银河方法

摘要

介绍

方法

用户视角

同步数据资源

异步数据资源

高级数据资源配置

其他方法

结论

致谢

基金

工具书类

引文

意见

海拔高度

电子邮件警报

通过引用文章

最新

阅读次数最多

被引用次数最多

文章内容

将各种数据库集成到统一的分析框架中：银河方法

摘要

介绍

方法

用户视角

同步数据资源

异步数据资源

高级数据资源配置

其他方法

结论

致谢

基金

工具书类

引文

意见

海拔高度

电子邮件警报

通过引用文章

最新

阅读次数最多

被引用次数最多

此功能仅对订阅服务器可用