跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
生物信息学。2013年6月1日;29(11): 1477–1480.
2013年5月2日在线发布。 数字对象标识:10.1093/生物信息学/btt162
预防性维修识别码:项目经理3661054
PMID:23645815

RegaDB:社区驱动的传染病数据管理和分析

摘要

总结:RegaDB是一个免费、开源的传染病数据管理和分析环境。RegaDB允许临床医生存储、管理和分析患者数据,包括病毒基因序列。此外,RegaDB为研究人员提供了一种以统一格式收集数据的机制,并为他们提供了一个画布,让临床医生和病毒学家可以通过用户友好的界面使用新开发的生物信息学工具。

可用性和实施:源代码、二进制文件和文档可在上获得http://rega.kuleuven.be/cev/regadb.RegaDB是用Java编程语言编写的,使用面向web服务的体系结构。

联系人: eb.nevueluk.ager@nibil.reteip

1简介

传染病研究的进展需要临床和病毒学数据的有效合作和交换。研究人员需要访问大量数据来测试假设或通过数据挖掘提取有价值的信息(斯洛特等。, 2008,2009). 为此,RegaDB被开发为一个免费、开源的传染病数据管理和分析环境(利宾等。, 2007).

RegaDB在Windows、Linux或Mac OS X上运行。该系统可以安装在医院或研究所内,以便数据留在临床环境中。RegaDB遵循生物信息学分析集成环境的理念,例如遗传数据环境(德奥利维拉等。, 2003)、ViroLab(阿塞尔等。, 2009)和慷慨(德拉蒙德等。, 2011). 区别在于RegaDB使用关系数据库,可以本地或远程访问。这使得RegaDB可以用于一个地区的临床管理和/或研究,或用于不同研究所之间的长期数据共享合作。

2数据库结构和工具

RegaDB的数据库实施了数据抽象范式(图1). 这种方法确保了灵活性,因为在大多数情况下,可以根据需要方便地扩展数据库,而无需升级其模式(Imbrechts公司等。, 2009). 所有抽象数据实体都连接到一个中央患者实体,包括属性、测试、事件、治疗和病毒分离物。属性用信息注释患者,这些信息通常具有临床或流行病学性质,例如性别或传播风险组。RegaDB将测试作为在给定时刻获得的值来实施,即只有一个日期与之关联。结果可以是体内体外测量、预约以及从web服务获得的计算结果。一般测试用于存储从患者样本中提取的数据,例如细胞计数和病毒载量。测试还可以与病毒分离物(例如分型和分型结果)、药物(例如治疗药物监测)或分离物和药物的组合(例如表型和基因型耐药性解释)联系起来。事件涵盖患者病史中的特定时间间隔,即具有开始和结束日期,例如AIDS定义的疾病或妊娠。系统中可用的属性、测试和事件的默认列表可以通过用户界面进行扩展。通过这种方式,RegaDB可以根据用户的需求或研究兴趣进行定制。属性、测试和事件用数据类型(数字、字符串、标称值等)进行注释,这允许用户界面和数据访问层保持数据完整性。治疗实体允许用户存储患者的用药历史。单一疗法包括开始日期、停止日期和药物组合,即方案,用户可以从通用和商业药物名称列表中选择。当治疗有停止日期时,临床医生可以指出终止或改变治疗的原因,例如耐药性、副作用或依从性问题。

保存图片、插图等的外部文件。对象名称为btt162f1p.jpg

RegaDB数据库实体和功能概述

病毒分离物包含一个或多个核苷酸序列,允许从一个病毒基因组中提取的多个序列组合在一起。将隔离物添加到RegaDB后,通过调用实现BLAST搜索过程的web服务来确定相应的病原体(阿尔特舒尔等。, 1990). 当RegaDB支持病原体时,加载适当的参考序列,并使用该序列执行密码正确对齐,同时进行帧移位检测和校正。比对过程发现由组成分离物的序列编码的蛋白质读取帧。这些信息以及所有检测到的点突变、插入和删除都存储在数据库中。对齐web服务在C++中实现Needleman–Wunsch算法(Needleman和Wunsch,1970年)有效地分析大序列。根据web服务返回的病原体检测结果,病毒分离物被定向到键入web服务(Alcantara面料等。, 2009;德奥利维拉等。, 2005)和/或阻力解释web服务(Liu和Shafer,2006年).表1显示了可用于支持病原体的参考序列和生物信息学工具的详细信息。RegaDB支持将网上发布的生物信息学工具作为web服务使用。

所有数据都可以通过基于web的界面进行查看和编辑。患者临床病史的关键参数在患者图表中以时间线的形式显示,时间线上标注有病毒载量、CD4计数、治疗方案和病毒分离时间点。RegaDB可以通过替换用户设计的RTF模板中的变量,将患者详细信息导出到报告文档中。

一些工具已经可用或正在开发中,其中一些由用户提供。耐药性解释可以根据几种算法进行。对于HIV,各种版本的斯坦福算法(HIVdb,Liu和Shafer,2006年)、Rega算法(范·拉伊特姆等。, 2002)和ANRS算法(梅纳德等。, 2002)已实现。对于每种算法,都有一个累积的概述,通过该概述,可以将患者中检测到的阻力转发到最后一个样本。病毒分离物的进化被制成表格,与来自同一患者的先前分离物相比,氨基酸发生了变化。另一个工具允许绘制由一组与查询序列具有预定义相似性的序列构建的系统发育树。为了确保序列数据库的质量,开发了一种工具,可以通过检测异常的患者内或患者间进化距离来标记潜在污染、采样或数据输入错误、超级感染或传播链。

属性与中央存储库同步,以确保不同RegaDB实例之间的兼容性。中央存储库包含标准化数据字段和相应值的集合,如人口统计信息(原产国、传播风险组等)、测试结果(病毒载量、细胞计数等)和药物名称(通用和商用)。此外,该存储库还提供了对耐药算法最新版本的访问。兼容性功能允许在新内容可用时,以最小的工作量更新系统。

3研究人员的机会

当RegaDB开发开始时,有几个定制的数据库可用,允许用户输入不明确的数据表示,例如,同一种药物的不同表示。然而,为了促进有效的数据交换并使聚合查询的执行成为可能,数据必须以结构化格式提供。通过提供对显式数据类型的支持并通过用户界面强制执行这些数据类型,RegaDB绕过了许多可能使数据交换复杂化的困难。

RegaDB允许以XML格式从本地数据源(医院、研究所)导出数据,这些导出可以组合到研究数据库中。

其他数据库中的数据可以通过通用导入工具导入。RegaDB还提供了一个编程接口,可用于开发自定义导入程序,以支持更复杂的数据源。目前正在开发一种将HICEP(HICDEP.org)格式编码的数据直接导入RegaDB的程序。

研究数据库通常通过互联网访问;因此,身份验证是一个重要的安全方面。默认情况下,RegaDB支持基于密码的身份验证。身份验证模块抽象允许直接实现替代身份验证后台(OpenId、Kerberos等),这使得RegaDB可以连接到现有的用户管理系统。应用程序只允许注册用户访问系统。一旦被授予访问系统的权限,用户只能访问属于连接到用户配置文件的数据集的患者信息。数据集的所有者可以配置用户对此数据集的访问权限,并在完成某个分析或分配后撤销访问权限。

研究人员可以使用可视化查询工具查询RegaDB,该工具允许用户定义由用户界面引导的复杂查询。每次数据更新可用时,都可以保存并重新运行查询定义。支持通过用户界面使用预定义的基于SQL的查询的工作正在进行中。查询结果可以导出为CSV和/或FASTA文件。可以通过配置查询来执行python后处理脚本来设置分析工作流。如果脚本以图形格式生成统计数据,则在执行查询后,这将在查询用户界面中可视化。

当研究人员将其工具作为web服务提供时,可以轻松地将其集成到RegaDB中,从而降低了临床医生和病毒学家使用此类工具的门槛。

RegaDB已用于多个合作项目,包括Virolab EC项目(Virolab.org)。来自多家欧洲医院的数据存储在一个RegaDB实例中,生成了一个包含8000个以上序列的组合数据集。在该项目的最后阶段,我们能够将我们的努力与另一个EC项目EUResist(EUResist.org)结合起来,形成一个包含55000个以上序列的组合数据库。

RegaDB实用性的另一个例子是南部非洲治疗和抵抗网络(SATuRN)内使用的协作数据库。该网络有24个成员机构在南部非洲工作,该地区是艾滋病毒疫情的中心。目前,有超过10家机构使用SATuRN RegaDB进行患者数据管理、数据管理和研究。在SATuRN下,收集了7000多个基因型的治疗和监测数据。使用内置的自定义报告和查询功能,可以选择、分析特定属性的数据并用于回答特定的临床和研究问题(德奥利维拉等。, 2010;摩纳娑等。, 2012). 此外,SATuRN项目的成员最近出版了一本书(罗索等。, 2013)包含一系列用于培训的案例研究。1450多名医生和护士通过会议、研讨会和在线网络教程接受了培训。

4可用性和使用

RegaDB是一种软件应用程序,可以从互联网下载并安装在医疗保健或研究机构。文档、源文件和二进制文件位于http://rega.kuleuven.be/cev/regadb。由于其模块化和灵活的设计,RegaDB可以在许多不同的环境和设置中使用,从在临床环境中管理患者数据到建立大规模研究合作。目前,所有RegaDB实例都是私有实例,只能由受限制的用户群访问。其中一些实例可以在互联网上访问;其他的只能从研究所的内部网访问。

当前版本的软件已用于存储HIV-1、HIV-2、HTLV的基因数据(阿劳霍等。, 2012)以及HCV分离株和相关的患者和临床信息。

鸣谢

作者感谢鲁汶艾滋病参考实验室,该实验室通过健康保险系统内的基金、IRD和mybiodata公司的“SPIRALES”计划获得了比利时社会事务部的支持。

基金:这项工作得到了法兰德斯基金会(FWO)的支持[授予K.T.和J.S。,2009年6月11日;,1.5.236.11牛;,G.A029.11号;]; 鲁汶大学研究基金[OT/08/047;,PDMK/10/204号至K.T.】;佛兰德斯科学技术促进创新研究所(IWT)【授予G.B.博士学位】;大学间吸引极项目,比利时州,比利时科学政策[IAP-VI第6/41页;]; Virolab项目[欧盟IST STREP项目027446]. 导致这些结果的研究得到了欧洲共同体第七框架计划的资助(FP7/2007-2013;) 在“合作艾滋病毒和抗-HIV药物耐药性网络(CHAIN)”项目下-赠款协议n°223131.

利益冲突:未声明。

参考文献

  • Alcantara LCJ等人。重组和非重组病毒序列的准确、高通量基因分型的标准化框架。核酸研究。2009;37:W634–W642。 [PMC免费文章][公共医学][谷歌学者]
  • Altschul SF等。基本局部对齐搜索工具。分子生物学杂志。1990;215:403–410.[公共医学][谷歌学者]
  • Araujo TH等人。用于序列管理和数据挖掘的公共HTLV-1分子流行病学数据库。公共科学图书馆一号。2012;7:e42123。 [PMC免费文章][公共医学][谷歌学者]
  • Assel M等人。一个允许对集成生物医学数据库进行临床研究的协作环境。健康技术研究。通知。2009;147:51–61.[公共医学][谷歌学者]
  • de Oliveira T等人。一个基于集成遗传数据环境(GDE)的Linux界面,用于分析HIV-1和其他微生物序列。生物信息学。2003;19:153–154.[公共医学][谷歌学者]
  • de Oliveira T等人。用于分析HIV-1和其他微生物序列的自动基因分型系统。生物信息学。2005;21:3797–3800.[公共医学][谷歌学者]
  • de Oliveira T等人。南非艾滋病毒耐药性公共数据库。自然。2010;464:673. [PMC免费文章][公共医学][谷歌学者]
  • Drummond AJ等人。2011慷慨v5.4。http://www.geneous.com(英文)(2013年4月27日,上次访问日期)[谷歌学者]
  • Imbrechts S等人。将RegaDB数据和分析管理软件环境扩展到HIV-1、HIV-2和HCV。Rev.抗病毒治疗。2009;1:104–105. [谷歌学者]
  • Libin P等人。RegaDB:一个开源、社区驱动的HIV数据和分析管理环境。Rev.抗病毒治疗。2007;2:82–83. [谷歌学者]
  • Liu TF,Shafer RW。HIV 1型基因型耐药性测试解释的网络资源。临床。传染病。2006;42:1608–1618. [PMC免费文章][公共医学][谷歌学者]
  • Manasa J等人,《南非的主要耐药性——十年调查数据》。艾滋病研究。嗯。逆转录病毒。2012;28:558–565. [PMC免费文章][公共医学][谷歌学者]
  • Meynard JL等。治疗失败后选择抗逆转录病毒治疗的表型或基因型耐药性检测:一项随机试验。艾滋病。2002;16:727–736.[公共医学][谷歌学者]
  • Needleman SB,Wunsch CD。一种适用于搜索两种蛋白质氨基酸序列相似性的通用方法。分子生物学杂志。1970;48:443–453.[公共医学][谷歌学者]
  • Rossouw T等人。HIV&TB:耐药性和临床管理案例手册。南非开普敦:MRC出版社;2013[谷歌学者]
  • Slot PMA等。Virolab:病毒性疾病治疗中的协同决策支持系统。Rev.抗病毒治疗。2008;:4–7. [谷歌学者]
  • Sloot PMA等人,《HIV决策支持:从分子到人》。菲尔翻译。R.Soc.A.公司。2009;367:2691–2703.[公共医学][谷歌学者]
  • Van Laethem K等人。一种显著预测HIV-1感染患者治疗反应的基因型耐药性解释算法。抗病毒治疗。2002;7:123–129.[公共医学][谷歌学者]

文章来自生物信息学由以下人员提供牛津大学出版社