跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2011年4月29日:bar011。
doi:10.1093/database/bar011。 2011年印刷。

将各种数据库集成到统一的分析框架中:银河方法

附属公司

将各种数据库集成到统一的分析框架中:银河方法

丹尼尔·布兰肯伯格等。 数据库(牛津). .

摘要

最近的技术进步使人们能够为模型生物和非模型生物生成大量数据。然而,在过去,为基因组数据提供服务的中央存储库数量相对较少,已经建立了越来越多的独特的专业数据存储库和资源。在这里,我们描述了一种通用方法,该方法将各种数据资源集成到统一的分析框架Galaxy中(http://usegalaxy.org). 这种方法允许简化外部数据资源与Galaxy用户可用的数据分析工具的耦合,同时利用外部数据资源的本地数据挖掘设施。数据库URL:http://usegalaxy.org。

PubMed免责声明

数字

图1。
图1。
UCSC表格浏览器工具。UCSC表浏览器工具显示了其本机界面,因为它似乎已集成到Galaxy中(). 简化的XML配置文件(B类)它向Galaxy描述了如何与数据资源通信。高级配置选项用于自定义数据集属性和增强用户体验。文件格式和基因组构建的值取自数据源提供的参数,并可供Galaxy访问。此外,当用户从Galaxy内部开始时,此配置会自动选择“将输出发送到Galaxy”选项。只需在tool_conf.xml文件中添加一行蓝色轮廓的内容,即可通知Galaxy加载该工具(C类).
图2。
图2。
UCSC表浏览器作为同步数据资源示例。此处以UCSC表浏览器为例,概述了典型的同步数据资源工具。基于UCSC表浏览器工具的XML配置文件(图1),Galaxy创建了一个新工具作为链接(用红色圈出),该链接引用Get data工具部分下的数据资源(). 链接示例(B类)与构成它的参数一起描述所生成的;工具XML配置中提供的几个参数自定义了外部资源的初始接口。通过访问链接,用户在其web浏览器中被转发到本地UCSC表浏览器界面(C类). 一旦用户对其查询配置感到满意并选择了所需的格式选项(D类),UCSC表浏览器生成表单(E类; 为了简单起见,一些参数已从原始HTML中删除,并有一个指向Galaxy服务器的操作。当Galaxy收到邮件时(F类),将在用户历史记录中创建一个新的数据集。Galaxy收集请求中提供的参数,并在后台执行一个进程,将这些参数重新提交到表浏览器中提供的URL参数指定的位置;表浏览器的响应是Galaxy将用于填充新数据集的内容。
图3。
图3。
一个简单的NCBI序列检索工具。这个最小的工具界面(:Galaxy工具说明和B类:Galaxy生成的用户界面)由一个文本框和一个选择列表组成,前者允许用户手动输入登录号,后者允许用户指定要搜索的目标序列数据库。当用户执行此工具时,一个简单的脚本(C类)由获取FASTA序列数据的Galaxy运行(D类)用于用户提供的登录号。添加了颜色匹配框,以指示面板中各种元素的相互关联性。
图4。
图4。
包含1000基因组项目试点数据的银河图书馆。这些数据从1000 Genomes项目FTP服务器直接加载到Galaxy数据库中。当用户从库导入数据集时,不会复制磁盘上的基础文件。尽管特定导入数据集的每个副本都共享对磁盘上同一文件的引用,但用户可以根据需要自由修改其副本的元数据和属性。

类似文章

引用人

工具书类

    1. Hawkins RD,Hon GC,Ren B.下一代基因组学:综合方法。Nat.Rev.基因。2010;11:476–86.-项目管理咨询公司-公共医学
    1. Lyne R、Smith R、Rutherford K等。FlyMine:果蝇和按蚊基因组学的综合数据库。基因组生物学。2007;8:R129。-项目管理咨询公司-公共医学
    1. Haider S、Ballester B、Smedley D等。生物商业中心门户——统一访问生物数据。核酸研究2009;37:W23–W27。-项目管理咨询公司-公共医学
    1. Karolchik D、Hinrichs AS、Furey TS等。UCSC表浏览器数据检索工具。核酸研究2004;32:D493–D496。-项目管理咨询公司-公共医学
    1. Goecks,J.、Nekrutenko,A.、Taylor,J.和银河队。(2010)银河系:支持生命科学中无障碍、可复制和透明计算研究的综合方法。基因组生物学。,11,R86。-项目管理咨询公司-公共医学

出版物类型