在GenBank提交的内容中添加结构化注释
介绍
GenBank记录主要由核苷酸组成序列数据、源生物信息和序列特征。这个有机体和特征描述基于受控列表生物改良剂(如分离物、菌株、克隆和标本凭证)和功能(如CDS、rRNA和基因)。
然而,许多序列提交者也有额外的生物体无法轻松放入受控列表的元数据对序列源的完整描述和允许比较从类似位置分离的序列。
要在序列记录中收集和显示此类附加元数据,GenBank开发了结构化评论。注释包括包含在START和END标记中的标记值对用作分隔符以便于解析。这些评论可以是使用将制表符分隔的表合并到提交文件中表2asn(替换旧的tbl2asn)。包含结构化注释的GenBank记录示例如下图949562.
本指南介绍了如何在您的序列提交。然而,请注意,一些GenBank提交工具会提示提交者提供为特定类型的数据创建特定结构化注释所需的元数据,如下所述。
如果您不理解此处的任何说明,或者您如有疑问,请联系GenBank用户服务info@ncbi.nlm.nih.gov在创建提交之前。
目录
-
在GenBank提交的文件中包含结构化评论
-
专业结构化评论
-
Entrez中的检索
为了在结构化注释中包含唯一的元数据,您需要根据数据应如何应用于提交中的序列,以两种方式之一创建制表符分隔的表。任何科学计量单位(例如。,摄氏度或公里)应包含在值中。
这需要一个由制表符分隔的表,其中包括标记值要应用于您的提交,例如:
氧含量 |
32 ppm |
栖息地 |
布莱克湖 |
温度 |
27摄氏度 |
样本大小 |
150毫升 |
深度 |
10米 |
创建元数据表并将其保存为纯文本后可以使用表2asn包含结构化注释。
- 表2asn:制表符分隔的表需要保存为.cmt文件并包含在与fasta相同的目录中文件。如果.cmt文件名与fasta文件具有相同的基名称(例如,fasta1.fsa和fasta1.cmt),它将被自动识别并且你的fasta中的所有序列都会包含结构化注释文件。或者,您可以将任何文件名用于结构化注释文件并在表2asn中使用参数-w调用它命令行。
此类型表的格式是以制表符分隔的多列表中,其中第一列必须是中使用的序列标识符.fsa文件。每列中的第一行是元数据标记出现在结构化注释的左侧,例如:
序列ID |
调查_类型 |
项目_名称 |
收款_日期 |
深度 |
A类 |
宏基因组 |
水生研究 |
2007-03-04 |
10米 |
B类 |
宏基因组 |
水生研究 |
|
5米 |
C类 |
真核生物 |
鱼类分析 |
2008-08-09 |
25米 |
本次提交的每个序列都将包含一条结构化注释具有唯一的标记值对。创建元数据表后保存为纯文本,可以使用table2asn包含标记值对。
请参阅HIV示例有关.cmt文件格式的说明,请参见下文,以包含结构化注释的特定前缀。
- 表2asn:制表符分隔的表需要保存为.cmt文件并包含在与fasta相同的目录中(和可选的.tbl)文件。如果.cmt文件名与fasta文件具有相同的基名称(例如,fasta1.fsa和fasta1.cmt),.cmt文件将是自动包含,以便第1列中的每个序列都具有该文件行的标记值对。
[1] MIGS/MIMS/MIMARKS公司
最低信息清单由基因组标准联盟(GSC)作为报告手段关于环境的核心描述性信息收集了生物体。核心描述符包括以下信息核酸序列(基因组)的起源及其环境(例如,纬度和经度、采样日期和时间、栖息地)和序列处理(测序和组装方法)。
制定了不同的列表来描述基因组、宏基因组和标记序列元数据:
- MIGS公司-基因组序列的最小信息
- MIMS公司-关于元基因组序列的最小信息
- MIMARKS公司-关于标记序列的最小信息
- MIMAG公司-关于宏基因组组装基因组的最小信息
- MISAG公司-关于单个扩增基因组的最小信息
- 米乌维格-关于未培养病毒基因组的最小信息
每个提交类型包含的标记值对可以是验证是否符合GSC推荐列表。这个应包含的每个核心描述符的推荐列表可以找到这些序列类型中的在这里.
内部的验证工具将报告是否结构化评论包括GSC推荐的所有合规核心描述符。包含所有兼容标签的提交将在GenBank平面文件中包含关键字,例如:
关键字GSC:MIMARKS:5.0
不符合GSC指南的结构化评论仍然可以包含在GenBank提交的内容中-它们只是不会包括关键字。
为了进行此验证,您需要在表中的第一列是定义前缀和结构化注释中开始和结束标记的后缀,用于例子:
结构化评论前缀 |
[以下内容之一-MIGS:3.0-Data/MIMS:3.0-Ddata/MIMARKS:3.0-Date] |
调查_类型 |
[由定义在GSC电子表格] |
项目_名称 |
土壤细菌分析 |
收款_日期 |
2008-08-09 |
纬度(_lon) |
北纬35.64度,东经56度 |
地理_ loc名称 |
法国 |
生物群落 |
草地
|
特征 |
领域
|
材料 |
土壤
|
环境包(_P) |
[env_package类型列在GSC电子表格]-可以包括术语“缺失”
|
复制数量 |
14 |
参考生物材料(_B) |
PMID(项目管理标识) |
生物关系 |
自由生活 |
营养级 |
自养生物 |
rel_to_氧气 |
需氧生物 |
isol增长成本 |
PMID(项目管理标识) |
顺序_方式 |
焦磷酸测序 |
装配 |
天鹅绒;错误率1/45 |
完成_策略 |
完整;4X覆盖率;2500个连续 |
包含满足以下条件的结构化注释的序列示例GSC合规性电话:051461.
[2] 基因组提交
原核生物和真核生物基因组提交要求基因组汇编数据中的汇编信息结构化注释。此结构化注释包括以下内容必填字段:
- 组装方法(带有程序运行的版本或日期):例如,Newbler v.2.3或Celera Assembly v.2010年5月
- 基因组覆盖率:例如,121x
- 测序技术:例如,ABI 3730;Illumina GAIIx;纳米孔
可以为真核生物程序集添加程序集名称,但它是可选的。
- 程序集名称:适合显示的短名称,例如LoxAf_3.0表示非洲落齿象程序集,版本3.0
注意组装方法算法名称和版本之间需要“v”(或运行月份和年份)。如果不止一种测序技术使用时,它们用分号隔开,例如“PacBio;Illumina GAIIx”。
当您通过基因组提交门户,这是提供信息。
如果要使用table2asn创建.sqn文件,可以创建一个基因组组装数据文件如果您愿意的话,请按照上面所述将其包括在内。但是,这不是必需的,因为当您在提交门户中提交基因组时,系统会提示您输入信息。
开始标记和结束标记的前缀和后缀为:
- StructuredCommentPrefix基因组-组件数据
- 结构化注释后缀基因组组装数据
带有所需结构化注释的基因组示例如下AMVS01000000美元.
成绩单枪组提交
需要Assembly-Data结构化注释转录组枪组件(坦桑尼亚联合共和国)序列。使用TSA提交向导。如果使用table2asn提交,则可以创建此文件使用结构化注释模板(非基因组)页面或如上所述。但是,这不是必需的,因为当您在提交门户中提交基因组时,系统会提示您输入信息。
TSA结构化注释包括以下所需值:
- 组装方法(带有程序运行的版本或日期):例如,Velvet v.1.1.05,Oases v.0.1.22,Trinity r2012-01-25
- 测序技术:例如,ABI 3730;454 GS-FLX钛合金;Illumina GAIIx公司
可以添加Coverage和Assembly Name,但这是可选的。
- 程序集名称:适合显示的短名称,例如LoxAfr_3.0表示非洲落齿象程序集,版本3.0
- 覆盖范围:例如,12x
要包含的开始标记和结束标记的前缀和后缀此结构化注释为:
- StructuredCommentPrefix程序集数据
- StructuredCommentSuffix程序集数据
带有所需结构化注释的TSA提交示例如下JU497302年.
[4] GenBank组件-数据
提交给发电厂银行可以包括显示在GenBank平面文件,并为用户提供有关排序和装配细节。
此结构化注释包含以下值:
- 组装方法(带有程序运行的版本或日期):例如,Newbler v.2.3或Celera Assembly v.2010年5月
- 覆盖范围:例如,12x
- 测序技术:例如,ABI 3730;454 GS-FLX钛合金;Illumina GAIIx(必需)
要包含的开始标记和结束标记的前缀和后缀此结构化注释为:
- StructuredCommentPrefix程序集数据
- 结构化注释后缀程序集数据
具有汇编数据结构的GenBank记录示例注释是JQ307843号.
[5] 艾滋病毒
HIV序列中可以包含专门的结构化注释提交以描述无法轻松实现的其他元数据包含在源描述符中。这包括特定标签提供了有关病毒来源的更多信息。
对于特定于HIV的结构化注释,您需要包括两个表中定义的前缀和后缀的其他列结构化注释两侧的开始和结束标记:
- 结构化注释前缀HIVDataBaseData
- 结构化注释后缀HIVDataBaseData
示例表
序列ID |
序列名称 |
患者队列 |
样本组织 |
病毒载量 |
结构化评论前缀 |
结构化注释后缀 |
序列A |
我的样本_1 |
CHAVI001号 |
等离子体 |
3565728 |
HIV-数据库数据 |
HIV-数据库数据 |
序列B |
我的样本2 |
CHAVI002号文件 |
等离子体 |
3565730 |
HIV-数据库数据 |
HIV-数据库数据 |
序列C |
我的样本3 |
第003章 |
等离子体 |
3565755 |
HIV-数据库数据 |
HIV数据库数据 |
包含格式正确的HIV结构的示例记录注释是579019欧元。
Entrez中的检索
具有结构化注释的序列可以通过以下方式在Entrez中检索用双引号指定标记值对,例如。“研究型细菌”。Entrez中的此搜索在结构化的评论。您也可以在Entrez中搜索作为属性的每个标签(例如。,depth[prop]),以便检索已对此进行索引的所有记录在结构化注释中。