Towards large-scale sample annotation in gene expression repositories

Pitzer, Erik; Lacson, Ronilda; Hinske, Christian; Kim, Jihoon; Galante, Pedro AF; Ohno-Machado, Lucila

doi:10.1186/1471-2105-10-S9-S9

第10卷增补9

2009年AMIA转化生物信息学峰会会议记录

诉讼
开放式访问
出版：2009年9月17日

基因表达库中的大规模样本注释

BMC生物信息学 体积 10，物品编号：第9部分(2009)引用这篇文章

摘要

背景

如果生物医学研究数据的大型存储库可以聚合以进行有效的查询和分析，那么它们对转化研究人员最有用。然而，数据存储库中很少存在描述重要样本细节的不一致或不存在的注释，例如组织或细胞系名称、组织病理学类型和受试者特征（如人口统计学、治疗和生存率），这使得数据难以聚合。

结果

我们创建了一个灵活的软件工具，允许使用受控词汇表对样本进行有效注释，并报告了它在12500多个样本注释中的使用情况。

结论

虽然数据量非常大，而且似乎注释得很差，但仍有大量信息可以获取。一致的基于工具的重新解释为大规模解释和分析提供了许多新的可能性，否则将是不可能的。

背景

定量基因表达实验为阐明生物途径和理解疾病提供了关键信息。随着时间的推移，从基于杂交的方法、Northern印迹法、实时聚合酶链反应、高通量微阵列和基因表达的系列分析（SAGE），到现代基于合成的测序方法（454、ABI/SOLiD、Illumina/Selexa），已经发展了许多方法。微阵列是大规模测量基因表达的一种流行技术。已经建立了大量公共存储库，以获取世界各地研究人员生成的有关基因表达的丰富信息：国家生物技术信息中心的基因表达总览（GEO）[1]，欧洲生物信息学研究所的ArrayExpress[2]和日本信息生物学中心DNA数据库基因表达数据库（CIBEX）[三]. 然而，为了使这些测量对原始研究人员以外的任何人都有用，需要一些基本信息。首先，为了使结果具有可重复性，需要对过程进行清楚的描述：这包括对样品制备、微阵列平台和报告（探针）序列的描述。第二个基本信息是对数据处理方法的描述，从原始图像到表达式级别。这两个步骤在过去都经过了严格的标准化工作[4–6]. 虽然比较测量值仍然具有挑战性，但另一个基本信息却很少受到关注：描述样本来源和特征的临床数据，这些数据通常很稀疏、不一致或根本不存在。

由于大型微阵列存储库的公开可用性和测量值的合理标准化，出现了许多“元分析”和元分析系统[7,8]. 这些方法通常合并了从先前研究中获得的差异表达基因列表。虽然这导致了对先前结果的强调和验证，但新的见解并不常见。为了从以前的实验中获得真正新的结果原始测量值几乎是不可避免的。

然而，分析原始数据具有挑战性，因为它需要（1）所有相关平台的一致和高质量探针注释，（2）适当的跨平台规范化方法，以及（3）详细的样本注释。只有少数人能够报告这种方法的成功[9]. 虽然将报告序列映射到基因不再构成问题，但由于手头有高质量的基因转录本和几个更新的重新映射，由于许多不同的因素起作用，标准化更加困难[10]. 此外，流行的大型收藏中的样本注释在研究中几乎没有结构化或一致性，并且往往缺乏重要的细节。

我们解决了在大量现有研究中使用一致的变量集注释基因表达样本的问题。虽然这似乎是一项艰巨的任务，但样本之间有足够的相似性，可以同时注释许多样本。此外，我们假设，接受过适当培训的非专业人士有可能获得高质量的注释。

以前的手动或自动注释尝试依赖或试图依赖领域专家进行注释[11]，这既昂贵又耗时。然而，之前也有证据表明，使用学生进行注释是聘请专家的一个值得选择的方法[12]学生们自己也很快成为了诠释某种疾病的专家。我们相信，学生们能够熟练地注释特定领域中的一组特定变量。

过去，几个小组提出了用于微阵列实验的注释工具[13–18]. 这些方法尝试要么自动标准化现有信息，要么创建协作平台以及受控词汇表或本体，以手动创建一致且可重用的示例注释。虽然已经有一些小规模自动术语规范化的成功案例[11]，尝试自动管理最大的公共存储库GEO，但收效甚微，尤其是在期待详细的临床注释时[19]. 目前存在于大型存储库中的信息和无指导注释的巨大多样性要求从这些以前的方法中汲取最佳思想，并将它们组合成一个新的工具。

结果和讨论

我们的数据库目前包含来自GEO的45个最流行的平台、2445项研究和58432个样本。我们还导入了总计16亿个原始测量值，可在跨平台探针注释和跨平台规范化工具的帮助下用于新的分析。

我们能够有效地注释超过12500个样本。这些样本中有一半以上被至少两个不同的注释器冗余注释。在一名全职和一名兼职注释员工作的四周内，以及随后与四名全职注释员一起工作的五周内，总共完成了近50万个可变任务。平均而言，每个样本都收到了32条注释。

最常见的可用变量是24602个赋值的“组织”，其次是12098个注释的“疾病状态”，9792个注释的‘样本类型’，以及11925个注释的《细胞系》。有关基因改造的信息也可以在11135条注释中找到。其他常见变量包括“治疗”、“时间序列”、“性别”、“患者年龄”、“淋巴扩散”、“雌激素受体状态”和“肿瘤类型”。

结论

现有的方法有助于对现有基因表达数据进行高效、丰富的注释，因此可以实现许多进一步处理的可能性。一个明显的用例是对现有样本进行重新分组以执行新的事实上的研究。另一个可能的扩展是直接在公共存储库中使用此系统或类似系统，以便原始提交者对上传的数据进行注释。

这些详细注释的潜在好处显而易见：虽然仅使用现有的非结构化信息几乎不可能在研究中找到一组合适的样本，但我们现在能够轻松地找到并比较，例如，4405个乳腺癌样本与473个正常乳腺样本，或2052个ER+样本与284个ER-样本。图1显示了来自Annotation Explorer界面的屏幕截图，该界面使用带注释的和标准化的样本来比较BRCA1在几个带注释的疾病状态中的基因表达。在未来的版本中，将在本体浏览器中提供带注释的变量，以便通过扩展概念的关联进行更强大的搜索。

我们已经证明了收集有关先前微阵列实验的公开信息并对其进行一致有效注释的可行性。根据目前注释的速度和质量，以及总共十名全职注释员，我们预计用50周的时间注释所有GEO（目前大约250000个样本），每个样本有两个冗余注释。未来，我们计划组装新的大数据集并执行新的差异表达分析，避免利用现有数据进行样本采集、制备和杂交的高成本。

方法

注释过程始于通过关键字搜索确定某一疾病的可能研究。这项搜索产生了一个研究列表，其中在描述或样本描述中的某个地方有关键词。然后，解说员逐一研究，查阅当地数据库中的可用信息，并遵循出版物链接及其各自的补充。在浏览完所有这些信息后，注释者通常对他们随后将要查看的样本类型有一个很好的想法。有了这些信息，他们在每次研究中逐个样本进行。

大部分注释是由一名研究生和三名生物系高年级学生完成的。一名高年级生物学学生和一名医生进行了初步的试点注释。从该试点注释中，我们获得了一组用于大规模注释的可行变量。在单独的报告中[20]我们提供了有关注释质量的更多详细信息。

导入和结构化

结构化注释的第一步是通过解析SOFT文件将大部分GEO导入关系数据库[21]. 虽然这些文件都具有相同的格式和词汇结构，但其中包含的单个研究和示例注释在深度和呈现方式上存在很大差异。我们开发了一个工具，可以轻松导入这些文件。我们将节名称映射到一个一致的方案中，并过滤掉注释不良的节。我们发现许多注释不好的例子。一些样本只包含了必需的生物体和源域，但遗漏了其他基本信息。大约25%的进口样本的描述少于30个字符，许多样本只包含诸如“NA”、“null”、器官或隐秘标识符之类的单词。

我们的数据库有一个简单的结构，仅捕获基本信息，如标题、描述和用于样本和研究的有机体。对于所有流行的表达式数据库（如ArrayExpress或CIBEX），此信息都是相同的，并且可以调整导入程序以从这些源中提取数据。

我们创建了一个自定义的web前端，它显示了最一致的字段，并链接回原始的GEO条目。该网络平台随后被扩展为统一样本注释的平台。此外，我们使用AceView重新公布了45个本地可用微阵列平台中大多数平台的探针到基因映射[22]作为通用参考。我们已经创建了一个自动微阵列注释工具，其中包括一个即将发布的最新高质量基因翻译数据库。

注释系统

其中一个主要困难是找到合适的变量，这些变量是经常可用的且唯一标识的概念，同时保持变量的数量较低。一个简明复杂的医学术语必须清楚地分为不同的术语和预定义的选项，使非专业注释员能够理解现有的描述并正确地标记所描述的样本。

注释系统的基本思想是将变量自由附加到样本，允许任何变量用于任何样本。如有必要，还可以创建和分配新变量。然而，在最初的试点研究之后，通过专家的讨论和评估，为每种疾病建立了一组预定义的变量和预定义的值范围。这鼓励了变量和值的一致使用，同时也为捕获看似重要的附加信息提供了一些自由。为了进一步提高注释器之间的一致性，新创建的变量和未重新定义的值对所有注释器都是可见的，尽管与预定义的变量相比显示得不那么明显，以避免界面混乱。这有助于我们保持一致的命名方案，即使是对于不太重要的变量，以防此信息也可用。当我们将注释工作扩展到涵盖更多疾病时，这个有指导但灵活的系统被证明是非常有用的。

为了方便对常用值进行更快的注释，可以稍后将新值添加到预定义值集中，然后直接显示。预定义变量被分为“基本”、“患者”、“治疗”和“样本”类别。变量根据出现的个别疾病进行分类。到目前为止，我们为乳腺癌、结肠癌、胰岛素依赖型糖尿病、类风湿关节炎和系统性红斑狼疮创建了这些变量集和注释样本。

使用文本格式定义新变量和可能值。审查后，通过在文本文件上运行脚本，将这些变量添加到活动变量列表中。通过这种方式，还可以使用表中所示的变量定义格式创建由现有变量组成的新注释表单1.

表1变量定义文件

全尺寸桌子

注解工具

我们构建了一个基于web的注释平台，以便在表达式数据库中协作创建示例注释。图2显示了该平台的几个有用功能。在左侧，屏幕截图显示了研究视图。所有样本和研究都链接回原始存储库中的原始条目。我们的数据库包含研究和样本的标题和摘要，通常是相应出版物的标题和文摘。出版物本身可以通过PubMed数据库链接获得。以前的研究注释称为GEO数据集（GDS），提供了一组样本。不幸的是，这些注释仅在20%的情况下可用，并且只在一个变量中提供了组差异。注释者在一项研究中查找相似样本的另一种方法是搜索样本标题、描述、来源、GDS注释文本或我们系统中以前的注释。可以选择多个样本进行多样本注释。在多样本注释表单（未显示）中，一次对所有选定样本执行选定注释。它包含每个示例的摘要以及与单个示例注释相同的注释界面。此外，一个示例中的所有注释都可以复制到web应用程序中的另一个示例中。在研究视图页面的最底部（屏幕截图中未显示），一个大的文本区域捕获了注释者想要收集的任何其他有用信息。

图的右侧2显示了示例注释界面：在显示每个示例的本地信息后（未在屏幕截图中显示），一个包含所有预定义变量和值的表单会提示进行注释。对于同一用户，已经填写的变量不再显示。在带有预定义变量和值的初始部分下面，注释器可以找到一个功能强大的自由形式注释工具，它允许用户查找和分配以前使用过的任何变量，无论它最初是否预定义。它还允许注释器创建新变量或为不允许自由文本的变量分配新值。事实证明，在新疾病注释的试点阶段，当尚不确定可获得的信息时，该功能是有用的。下面显示了现有的注释，其中显示了变量名、赋值、注释作者以及变量用于每个变量赋值的次数。如果带注释的值是某个变量的预定义值之一，它将以绿色突出显示。

注释的内部格式是形式的元组列表(样本id,变量id,价值)在可用于检查一致注释的关系数据库中，提取具有特定属性的样本及其相关基因表达值。

工具书类

Barrett T、Suzek TO、Troup DB、Wilhite SE、Ngau WC、Ledoux P、Rudnev D、Lash AE、Fujibuchi W、Edgar R：NCBI GEO：挖掘数百万个表达式配置文件数据库和工具。 核酸研究2005年，（33数据库）：D562-D566。
谷歌学者
帕金森H、萨尔坎斯U、肖贾塔拉布M、阿贝古纳瓦德纳N、康特里诺S、库尔森R、法恩A、劳拉GG、霍洛韦E、卡普什斯基M、利尔贾P、穆克吉G、奥齐梅恩A、雷纳T、罗卡塞拉P、沙尔马A、桑森S、巴西A：ArrayExpress——EBI微阵列基因表达数据的公共存储库。 核酸研究2005年，（33数据库）：D553-D555。
谷歌学者
Ikeo K、Ishi-i J、Tamura T、Gojobori T、Tateno Y：CIBEX：信息生物学基因表达数据库中心。 C R生物2003,326(10–11):1079–1082. 2016年10月10日/j.crvi.2003.09.034
第条中国科学院公共医学谷歌学者
Brazma A、Hingamp P、Quackenbush J、Sherlock G、Spellman P、Stoeckert C、Aach J、Ansorge W、Ball CA、Causton HC、Gaasterland T、Glenisson P、Holstege FC、Kim IF、Markowitz V、Matese JC、Parkinson H、Robinson A、Sarkans U、Schulze-Kremer S、Stewart J、Taylor R、Vilo J、Vingron M：关于微阵列实验（MIAME）的最低信息-针对微阵列数据的标准。 自然基因2001,29(4):365–371. 10.1038/ng1201-365
第条中国科学院公共医学谷歌学者
Whetzel PL、Parkinson H、Causton HC、Fan L、Fostel J、Fragoso G、Game L、Heiskanen M、Morrison N、Rocca-Serra P、Sansone SA、Taylor C、White J、Stoeckert CJ：MGED本体：基于语义的微阵列实验描述资源。 生物信息学2006,22(7):866–873. 10.1093/生物信息学/btl005
第条中国科学院公共医学谷歌学者
Deutsch EW、Ball CA、Berman JJ、Bova GS、Brazma A、Bumgarner RE、Campbell D、Causton HC、Christiansen JH、Daian F、Dauga D、Davidson DR、Gimenez G、Goo YA、Grimmond S、Henrich T、Herrmann BG、Johnson MH、Korb M、Mills JC、Oudes AJ、Parkinson HE、Pascal LE、Pollet N、Quackenbush J、Ramiliason M、Ringwald M、Salgado D、Sansone SA、Sherlock G、，Stoeckert CJ、Swedlow J、Taylor RC、Walashek L、Warford A、Wilkinson DG、Zhou Y、Zon LI、Liu AY、True LD：原位杂交和免疫组织化学实验（MISFISHIE）的最低信息规范。 Nat生物技术2008,26(3):305–312. 10.1038/nbt1391
第条公共医学中心中国科学院公共医学谷歌学者
Severgnini M、Bicciato S、Mangano E、Scarlatti F、Mezzelani A、Mattioli M、Ghidoni R、Peano C、Bonnal R、Viti F、Milanesi L、Bellis GD、Battaglia C：比较不同微阵列平台的基因表达谱的策略：应用于病例对照实验。 Ana Biochem公司2006,353:43–56.10.1016/j.ab.2006.03.023
第条中国科学院公共医学谷歌学者
罗德斯·DR、卡利亚纳·桑达拉姆·S、马哈维斯诺五世、瓦兰巴利·R、于·J、布里格斯·BB、巴雷特·TR、安塞特·MJ、金塞德·比尔·C、库尔卡尼·P、瓦兰巴利·S、戈什·D、钦奈扬·AM：Oncomine 3.0：收集18000个癌症基因表达谱中的基因、通路和网络。 肿瘤形成2007,9(2):166–180. 10.1593/新07112
第条公共医学中心中国科学院公共医学谷歌学者
Warnat P、Eils R、Brors B：癌症微阵列数据的跨平台分析改进了基于基因表达的表型分类。 BMC生物信息学2005,6:265. 10.1186/1471-2105-6-265
第条公共医学中心公共医学谷歌学者
Irizarry RA、Hobbs B、Collin F、Beazer Barclay YD、Antonellis KJ、Scherf U、Speed TP：高密度寡核苷酸阵列探针水平数据的探索、规范化和总结。 生物统计学2003,4(2):249–264. 10.1093/生物统计/4.2.249
第条公共医学谷歌学者
Shah NH、Rubin DL、Espinosa I、Montgomery K、Musen MA：使用NCI主题词表注释和查询组织微阵列数据。 BMC生物信息学2007,8:296. 10.1186/1471-2105-8-296
第条公共医学中心公共医学谷歌学者
Buckner B、Beck J、Browning K、Fritz A、Grantham L、Hoxha E、Kamvar Z、Laugh A、Nikolova O、Schnable PS、Scanlon MJ、Janick-Buckner D：让本科生参与全球基因表达研究的注释和分析：创建玉米茎尖分生组织表达数据库。 遗传学2007,176(2):741–747. 10.1534/基因106.066472
第条公共医学中心中国科学院公共医学谷歌学者
Fellenberg K、Hauser NC、Brors B、Hoheisel JD、Vingron M：微阵列数据仓库允许在统计分析中包含实验注释。 生物信息学2002,18(3):423–433. 10.1093/生物信息/18.3423
第条中国科学院公共医学谷歌学者
Navarange M、Game L、Fowler D、Wadekar V、Banks H、Cooley N、Rahman F、Hinshelwood J、Broderick P、Causton HC：MiMiR：用于存储、注释和交换微阵列数据的综合解决方案。 BMC生物信息学2005,6:268. 10.1186/1471-2105-6-268
第条公共医学中心公共医学谷歌学者
Hancock D、Wilson M、Velarde G、Morrison N、Hayes A、Hulme H、Wood AJ、Nashar K、Kell DB、Brass A:maxdLoad2和maxdBrowse：微阵列实验注释、数据管理和传播的标准兼容工具。 BMC生物信息学2005,6:264. 10.1186/1471-2105-6-264
第条公共医学中心公共医学谷歌学者
Butte AJ，Kohane IS公司：现象基因组网络的创建和含义。 Nat生物技术2006,24:55–62.10.1038/nbt1150
第条公共医学中心中国科学院公共医学谷歌学者
Lee HW、Park YR、Sim J、Park RW、Kim WH、Kim JH：组织微阵列对象模型：用于存储、分析和交换组织微阵列实验数据的数据模型。 病理学实验室医学档案2006,130(7):1004–1013.
中国科学院公共医学谷歌学者
Splendiani A、Brandizi M、Even G、Beretta O、Pavelka N、Pelizzola M、Mayhaus M、Foti M、Mauri G、Ricciardi-Castagnoli P：基因芯片数据库。 BMC生物信息学2007,8（补充1）：S21。10.1186/1471-2105-8-S1-S21
第条公共医学中心公共医学谷歌学者
达德利J，巴特AJ：通过文本挖掘实现对高影响人类疾病的综合基因组分析。 Pac-Symp生物组件2008, 580–591.
谷歌学者
Lacson R、Pitzer E、Hinske C、Kim J、Galante PAF、Ohno-Machado L：大规模生物医学数据注释倡议评估。 AMIA翻译生物信息学峰会2009
谷歌学者
Barrett T、Troup DB、Wilhite SE、Ledoux P、Rudnev D、Evangelista C、Kim IF、Soboleva A、Tomashevsky M、Edgar R：NCBI GEO：挖掘数以千万计的表达特征-数据库和工具更新。 核酸研究2007年，（35数据库）：D760-D765。10.1093/nar/gkl887
谷歌学者
蒂里·米格D，蒂里·迈格J：AceView：一个全面的cDNA支持的基因和转录物注释。 基因组生物学2006,7（补充1）：S12.1-S12.14。10.1186/gb-2006-7-s1-s12
第条谷歌学者
Bolstad BM、Irizarry RA、Astrand M、Speed TP：基于方差和偏差的高密度寡核苷酸阵列数据归一化方法的比较。 生物信息学2003,19(2):185–193. 10.1093/生物信息学/19.2.185
第条中国科学院公共医学谷歌学者

下载参考资料

致谢

表演注解的学生包括皮埃尔·康奈尔（Pierre Cornell）、卡里·杜（Karrie Du）、伊芙琳·皮策（Evelyn Pitzer）、林迪·苏（Lindy Su）和安东尼·维拉诺娃（Anthony Villanova）。本研究由科门基金会的FAS0703850和美国国立卫生院福格蒂国际中心的D43TW007015资助。

本文已作为BMC生物信息学2009年第10卷增补9：2009年AMIA翻译生物信息学峰会会议记录。补遗的全部内容可以在网上找到http://www.biomedcentral.com/1471-2105/10？问题=S9.

作者信息

作者和附属机构

美国马萨诸塞州波士顿Brigham and Women’s Hospital决策系统小组
Erik Pitzer、Ronilda Lacson、Christian Hinske、Jihoon Kim、Pedro AF Galante和Lucila Ohno-Machado
上奥地利应用科学大学，奥地利哈根堡
埃里克·皮策
巴西圣保罗路德维希癌症研究所圣保罗分所
佩德罗AF加兰特

作者

埃里克·皮策
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
罗尼达·拉克森
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
克里斯蒂安·欣斯克
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
金纪勋（Jihoon Kim）
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
佩德罗AF加兰特
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
露西拉·奥诺·马查多
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者

通讯作者

与的通信埃里克·皮策或罗尼达·拉克森.

其他信息

竞争性利益

作者声明，他们没有相互竞争的利益。

作者的贡献

EP、JK、PG和LOM获取原始数据，进行数据解释并指导导入过程。所有作者都参与了系统设计和用户界面的概念化。EP实施了所有必要的软件系统，并准备了手稿草稿。RL、CH、LOM和EP选择了一组初始变量。RL、CH和LOM决定在初步试点研究后进一步纳入变量。CH参与了试点注释。RL监督注释过程并解释注释的质量。RL和LOM对手稿进行了大量修改。PG、JK和CH审查了该软件，并为其进一步开发提供了重要反馈。所有作者阅读并批准了最终手稿。

权利和权限

本文由BioMed Central Ltd.授权发布。这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品，前提是正确引用了原始作品。

转载和许可

关于本文

引用这篇文章

Pitzer，E.，Lacson，R.，Hinske，C。等。面向基因表达库中的大规模样本注释。BMC生物信息学 10（补充9），S9（2009）。https://doi.org/10.1186/1471-2105-10-S9-S9

下载引文

出版:2009年9月17日
内政部:https://doi.org/10.1186/1471-2105-10-S9-S9