美国国旗

美国政府的官方网站

NCBI书架。美国国立卫生研究院国家医学图书馆的一项服务。

NCBI手册[互联网]。第二版。贝塞斯达(医学博士):美国国家生物技术信息中心;2013-.

  • 本出版物仅供历史参考,信息可能已过时。

本出版物仅供历史参考,信息可能已过时。

NCBI手册封面

NCBI手册[互联网]。第二版。

显示详细信息

生物样品

,博士。

作者信息和附属机构

创建:.

预计阅读时间:7分钟

范围

这个生物样本数据库(1)存储提交者提供的有关存储数据的生物材料的描述性信息或元数据美国国立生物技术信息中心的主要数据档案已导出。NCBI存档了来自任何物种的不同类型样本的数据,因此BioSample数据库也具有类似的多样性;生物样本的典型示例包括细胞系、初级组织活检、单个生物体或环境隔离物。

生物样品数据库提倡使用结构化的、一致的属性名称和值,这些属性名称和属性值描述了样本的内容,并在适当的情况下提供了有关其来源的信息。此信息对于提供派生数据的上下文非常重要,以便可以更全面地理解它;它增加了价值,促进了重复使用,并支持不同数据集的聚合和集成,最终促进了广泛生物领域的新见解和新发现。

BioSample记录被编入索引并可搜索。它们还与它们参与的生物项目以及在美国国立生物技术信息中心的主要存档,包括序列读取存档(SRA公司),基因表达综合(地理),数据库基因型和表型(数据库间隙P),以及的部分GenBank(基因银行),包括表达式序列标记(美国东部时间)、基因组调查序列(GSS)、全基因组枪(工作组)和转录组霰弹枪组件(TSA)序列。

总之,生物样品数据库提供一个专用环境,在其中:

  • 通过促进对样本属性字段名使用受控词汇表,以结构化的方式捕获样本元数据。
  • 将样本元数据跨多个存档数据库链接到相应的实验数据。
  • 通过允许一次性上传样本描述,然后在将数据存入其他存档时酌情引用该样本,从而减轻提交者的负担。
  • 支架十字-数据库按样本描述查询。

历史

由于支持的主数据归档的数量和复杂性美国国立生物技术信息中心扩展,需要共享数据库其中包含有关从中获取数据的生物样本的信息。从历史上看,每个存档都制定了自己的收集样本元数据的约定,描述的标准化程度有限,并且没有机制来指示同一样本何时跨多个数据集使用。此外,研究界越来越意识到,样本元数据对于解释数据本身至关重要,随着元数据的改进,数据重用、聚合和集成的机会也会增加。

生物样品数据库成立于2011年,旨在帮助解决这些需求。它有助于捕获和管理不同生物样本的结构化元数据描述,并鼓励数据生产者在提交数据时提供一组丰富的上下文元数据。数据库最初填充了从SRA、dbGaP、,美国东部时间和GSS。随着时间的推移,更多美国国立生物技术信息中心档案馆正在向要求生物样品保存作为数据提交的一部分转变。截至2013年5月,该数据库拥有近200万份生物样本记录,涵盖18000个物种。

数据模型

生物样本数据库存储用于生成任何托管数据的生物材料的描述美国国立生物技术信息中心的主要数据档案,因此,本质上是非常异构的。这一点,再加上提交给NCBI的元数据的内容和粒度往往取决于研究背景,在从提交者处获取一致的样本描述方面提出了重大挑战。

为了帮助解决这些挑战,BioSample提交门户引导提交者提供适当的信息。许多常见的生物样本类型在数据库,每个都包含一个相关属性包,用于描述样本。通过指导和鼓励提交者使用此类属性包,可以预期保存的样本描述通过随着时间的推移,这条路线将趋于一致。

生物样本类型和属性的完整列表和定义可用于预览和下载示例包括“影响公共健康的病原体”,其目的是获取被认为对快速分析和追踪病原体样本有用的信息,以及基因组标准联盟制定的MiXS最低信息检查表(2)旨在标准化基因组、宏基因组和靶向样本的描述轨迹推导了序列。

属性使用结构化名称:值对定义正在调查的材料,例如:

组织:肝脏

收款日期:2013年1月31日

指定样本类型后,将向用户显示一个需要填写的必需和可选属性字段列表,以及提供任意数量自定义描述性属性的机会。例如,如果提交者指定其样本是临床病原体,则需要输入有关采集地点和日期、宿主和隔离源的信息。此外,鼓励提交者提供进一步描述宿主、疾病状态等其他属性的信息。某些字段中提供的值经过验证,以确保内容或格式正确。生物样品数据库是可扩展的,因为随着新标准的发展,可以添加新的类型和属性。

除了BioSample类型(在模式中称为Model)和属性外,每个BioSamples记录还包含:

标识:一个标识符块,不仅列出分配给该记录的BioSample登录,还列出任何其他外部样本标识符,例如源发出的标识符数据库或存储库。

生物体:生物体名称和分类标识符。显示并搜索完整的分类树。

标题:生物样本标题。如果提交者没有提供标题,则会自动生成标题。

描述:[可选]用于存储有关样本的非结构化信息的自由文本字段。

链接:[可选]链接到外部网站相关信息的URL。

所有者:提交人信息,包括姓名和从属关系(如果可用)。

日期:有关记录提交、发布和上次更新时间的信息。

访问:关于记录是完全公开还是受控访问(即在dbGaP中)的语句。

感兴趣的生物样品记录包括:

参考生物样品:虽然许多样品可以被认为是唯一的,并且只使用一次,但其他样品,包括商业细胞系或细菌分离物,被研究团体反复使用。主要供应商,包括美国型培养物收藏中心(ATCC)、科里尔医学研究所(Coriell Institute for Medical Research)和莱布尼茨研究所(Leibniz Institution German Collection of Microganisms and Cell Cultures),正与我们合作,为常用和高度引用的样品制作官方表示。这些样本被标记为参考生物样本,因此使用这些样本的提交者可以绕过生物样本提交,在将实验数据存放在任何美国国立生物技术信息中心的主要数据存档。此外,正在努力将NCBI档案中的现有数据映射到参考生物样本记录。因此,这些参考生物样本记录充当了中心,用户可以从中快速定位来自给定样本的大量不同数据集和项目。

临床样本:生物样品数据库不支持受控访问机制,因此无法托管可能存在相关隐私问题的人类临床样本。相反,临床样本继续存放在美国国立生物技术信息中心的dbGaP数据库。然后,dbGaP数据库保存删除了敏感数据属性的简化BioSample记录。这允许用户在BioSample中找到这些数据,然后根据需要应用于dbGaP以访问完整描述。

经认证的人类细胞系样本:生物样本数据库拥有越来越多的经鉴定的人类细胞系旨在解决细胞系错误识别问题的记录(). 这些记录包含经验证的STR(短串联重复)剖面信息和支持的电离层图证据,研究人员可以将其用作检查其发布数据的细胞系的真实性和纯度的参考。

数据流

研究人员通常会向BioSample存款,作为提交给其中一个美国国立生物技术信息中心的主要数据档案,通常在描述数据的手稿提交给期刊审查之前。研究人员使用其NCBI帐户登录并注册基于Web的BioSample提交提交门户它引导他们通过一系列形式输入描述其示例的元数据。XML格式基于–的提交路径也可用于频繁提交者。此外,直接将数据存储到dbGaP和GEO会触发BioSample记录的自动创建。

BioSample提交门户通过特定样本类型的强制属性强制提供最少的元数据集,并通过支持提供任意数量的自定义属性来鼓励丰富的元数据。但最终,BioSample是一个提交者驱动的存储库,因为提交者对其存款的质量和内容负责。数据库工作人员会对查询做出响应并报告错误,但与其他主要数据档案一样,提交的数据不会受到广泛的管理。通过语法验证后,为每个样本分配一个BioSample加入编号前缀为SAMN,例如。,SAMN02048828号。随后,在向档案数据库提交相应的实验数据时,可酌情参考此登录号。

生物样本记录通常与相应的实验数据一起发布。此时,BioSample记录将加载到生物样品 数据库这是的一部分美国国立生物技术信息中心Entrez公司搜索和检索系统,可在其中查询和下载。这些记录在适当的情况下与其他数据库相互链接,包括SRA、dbGaP、GEO、GenBank和BioProject,便于导航到衍生数据和相关数据。

访问

生物样品记录可通过以下方式访问查询或者通过关注另一个链接美国国立生物技术信息中心 数据库.

查询:可以使用BioSample主页.与其他美国国立生物技术信息中心 Entrez公司数据库中,一个简单的自由文本关键字搜索通常足以定位相关数据。然而,BioSample数据在多个字段下建立索引,这意味着用户可以通过构建字段查询来优化搜索。下面列出了一些字段化查询示例,其中包括按有机体、属性或包进行搜索。用户可以直接在搜索框中编写和执行自己的搜索语句,或使用高级搜索页面来探索索引字段并构造多部分字段搜索语句。这个限制页面可用于根据访问级别、源数据库和发布日期限制检索。

下载:可以使用搜索结果页面上的“发送至:”功能下载BioSample记录内容,该功能允许以文本或XML格式格式。此外,程序化查询和下载功能可用Entrez公用设施.

链接:生物样本记录与档案数据库中的相关记录相互链接。这允许用户链接到相应的基因组组装核苷酸中的记录数据库,或在SRA中读取原始序列,或导航到样本参与的生物项目。

示例查询

检索2013年第一季度发布的病原体生物样本

包装病原体【属性】AND 2013/1:2013/3【发布日期】

检索从志贺氏菌属细菌中提取的生物样品,其中SRA数据可用:

志贺氏菌[生物]和生物样品sra[过滤器]

检索符合MIGS/MIMS/MIMARKS.water包的生物样本:

包装migs/mims/mimarks水[属性]

检索从小鼠中提取的生物样品以及可获得的菌株和年龄信息:

(品系[属性名称]和年龄[属性名称】)小家鼠[生物体]

检索来自成纤维细胞的生物样品:

细胞型成纤维细胞

图1。BioSample搜索结果的屏幕截图(顶部面板)和完整的BioSamplet记录(底部面板)。

图1。

BioSample搜索结果的屏幕截图(顶部面板)和完整的BioSamplet记录(底部面板)。用户输入查询进入搜索框,或使用限制或高级搜索页面(A)检索匹配的生物样本列表(B)。默认情况下,搜索结果以摘要格式显示,其中显示标题、有机体、样本类型和标识符。单击标题会将用户带到列出所有示例属性、标识符和提交者信息的完整记录(C)。发送至:功能(D)允许以文本或XML格式格式。提供了其他档案(E)中相关记录的链接,在本例中为BioProject、Nucleotide、SRA和Taxonomy。在适当的情况下,提供了下载从该样本生成的SRA序列数据的选项(F)。

工具书类

1
Barrett T、Clark K、Gevorgyan R、Gorelenkov V、Gribov E、Karsch-Mizrachi I、Kimelman M、Pruitt KD、Resenchuk S、Tatusova T、Yaschenko E、Ostell J。NCBI的生物项目和生物样本数据库:促进元数据的捕获和组织。核酸研究2012年1月40日数据库发布57-63。[PMC免费文章:PMC3245069] [公共医学: 22139929]
2
Yilmaz P、Kottmann R、Field D、Knight R、Cole JR、Amaral-Zettler L、Gilbert JA、Karsch-Mizrachi I、Johnston A、Cochrane G、Vaughan R、Hunter C、Park J、Morrison N、Rocca-Serra P、Sterk P、Arumugam M、Bailey M、Baumgartner L、Birren BW、Blaser MJ、Bonazzi V、Booth T、Bork P,Bushman FD、Buttigieg PL、Chain PS、Charlson E、Costello EK、Huot-Creasy H、,Dawyndt P、DeSantis T、Fierer N、Fuhrman JA、Gallery RE、Gevers D、Gibbs RA、San Gil I、Gonzalez A、Gordon JI、Guralnick R、Hankeln W、Highlander S、Hugenholtz P、Jansson J、Kau AL、Kelley ST、Kennedy J、Knights D、Koren O、Kuczynski J、Kyrpides N、Larsen R、Lauber CL、Legg T、Ley RE、Lozupone CA、Ludwig W、Lyons D、Maguire E、Methe BA、Meyer F、,Muegge B、Nakielny S、Nelson KE、Nemergut D、Neufeld JD、Newbold LK、Oliver AE、Pace NR、Palanisamy G、Pepplies J、Petrosino J、Proctor L、Pruesse E、Quast C、Raes J、Ratnasingham S、Ravel J、Relman DA、Assunta-Sansone S、Schloss PD、Schriml L、Sinha R、Smith MI、Sodergren E、Spo A、Stombaugh J、Tiedje JM、Ward DV、Weinstock GM、Wendel D、White O、,Whiteley A、Wilke A、Wortman JR、Yatsunenko T、Glockner FO。关于标记基因序列(MIMARKS)的最小信息和关于任何(x)序列(MIxS)规范的最小信息。天然生物技术2011年5月29日(5):415–20。[PMC免费文章:PMC3367316] [公共医学: 21552244]
三。
硕士JR。手机验证:结束虚假手机的丑闻。自然2012年12月13日492(7428):186。[公共医学: 23235867]

意见

最近的活动

您的浏览活动为空。

活动录制已关闭。

重新打开录制

查看更多。。。