注释过程始于通过关键字搜索确定某一疾病的可能研究。这项搜索产生了一个研究列表,其中在描述或样本描述中的某个地方有关键词。然后,解说员逐一研究,查阅当地数据库中的可用信息,并遵循出版物链接及其各自的补充。在浏览完所有这些信息后,注释者通常对他们随后将要查看的样本类型有一个很好的想法。有了这些信息,他们在每次研究中逐个样本进行。
大部分注释是由一名研究生和三名生物系高年级学生完成的。一名高年级生物学学生和一名医生进行了初步的试点注释。从该试点注释中,我们获得了一组用于大规模注释的可行变量。在单独的报告中[20]我们提供了有关注释质量的更多详细信息。
导入和结构化
结构化注释的第一步是通过解析SOFT文件将大部分GEO导入关系数据库[21]. 虽然这些文件都具有相同的格式和词汇结构,但其中包含的单个研究和示例注释在深度和呈现方式上存在很大差异。我们开发了一个工具,可以轻松导入这些文件。我们将节名称映射到一个一致的方案中,并过滤掉注释不良的节。我们发现许多注释不好的例子。一些样本只包含了必需的生物体和源域,但遗漏了其他基本信息。大约25%的进口样本的描述少于30个字符,许多样本只包含诸如“NA”、“null”、器官或隐秘标识符之类的单词。
我们的数据库有一个简单的结构,仅捕获基本信息,如标题、描述和用于样本和研究的有机体。对于所有流行的表达式数据库(如ArrayExpress或CIBEX),此信息都是相同的,并且可以调整导入程序以从这些源中提取数据。
我们创建了一个自定义的web前端,它显示了最一致的字段,并链接回原始的GEO条目。该网络平台随后被扩展为统一样本注释的平台。此外,我们使用AceView重新公布了45个本地可用微阵列平台中大多数平台的探针到基因映射[22]作为通用参考。我们已经创建了一个自动微阵列注释工具,其中包括一个即将发布的最新高质量基因翻译数据库。
注释系统
其中一个主要困难是找到合适的变量,这些变量是经常可用的且唯一标识的概念,同时保持变量的数量较低。一个简明复杂的医学术语必须清楚地分为不同的术语和预定义的选项,使非专业注释员能够理解现有的描述并正确地标记所描述的样本。
注释系统的基本思想是将变量自由附加到样本,允许任何变量用于任何样本。如有必要,还可以创建和分配新变量。然而,在最初的试点研究之后,通过专家的讨论和评估,为每种疾病建立了一组预定义的变量和预定义的值范围。这鼓励了变量和值的一致使用,同时也为捕获看似重要的附加信息提供了一些自由。为了进一步提高注释器之间的一致性,新创建的变量和未重新定义的值对所有注释器都是可见的,尽管与预定义的变量相比显示得不那么明显,以避免界面混乱。这有助于我们保持一致的命名方案,即使是对于不太重要的变量,以防此信息也可用。当我们将注释工作扩展到涵盖更多疾病时,这个有指导但灵活的系统被证明是非常有用的。
为了方便对常用值进行更快的注释,可以稍后将新值添加到预定义值集中,然后直接显示。预定义变量被分为“基本”、“患者”、“治疗”和“样本”类别。变量根据出现的个别疾病进行分类。到目前为止,我们为乳腺癌、结肠癌、胰岛素依赖型糖尿病、类风湿关节炎和系统性红斑狼疮创建了这些变量集和注释样本。
使用文本格式定义新变量和可能值。审查后,通过在文本文件上运行脚本,将这些变量添加到活动变量列表中。通过这种方式,还可以使用表中所示的变量定义格式创建由现有变量组成的新注释表单1.
注解工具
我们构建了一个基于web的注释平台,以便在表达式数据库中协作创建示例注释。图2显示了该平台的几个有用功能。在左侧,屏幕截图显示了研究视图。所有样本和研究都链接回原始存储库中的原始条目。我们的数据库包含研究和样本的标题和摘要,通常是相应出版物的标题和文摘。出版物本身可以通过PubMed数据库链接获得。以前的研究注释称为GEO数据集(GDS),提供了一组样本。不幸的是,这些注释仅在20%的情况下可用,并且只在一个变量中提供了组差异。注释者在一项研究中查找相似样本的另一种方法是搜索样本标题、描述、来源、GDS注释文本或我们系统中以前的注释。可以选择多个样本进行多样本注释。在多样本注释表单(未显示)中,一次对所有选定样本执行选定注释。它包含每个示例的摘要以及与单个示例注释相同的注释界面。此外,一个示例中的所有注释都可以复制到web应用程序中的另一个示例中。在研究视图页面的最底部(屏幕截图中未显示),一个大的文本区域捕获了注释者想要收集的任何其他有用信息。
图的右侧2显示了示例注释界面:在显示每个示例的本地信息后(未在屏幕截图中显示),一个包含所有预定义变量和值的表单会提示进行注释。对于同一用户,已经填写的变量不再显示。在带有预定义变量和值的初始部分下面,注释器可以找到一个功能强大的自由形式注释工具,它允许用户查找和分配以前使用过的任何变量,无论它最初是否预定义。它还允许注释器创建新变量或为不允许自由文本的变量分配新值。事实证明,在新疾病注释的试点阶段,当尚不确定可获得的信息时,该功能是有用的。下面显示了现有的注释,其中显示了变量名、赋值、注释作者以及变量用于每个变量赋值的次数。如果带注释的值是某个变量的预定义值之一,它将以绿色突出显示。
注释的内部格式是形式的元组列表(样本id,变量id,价值)在可用于检查一致注释的关系数据库中,提取具有特定属性的样本及其相关基因表达值。