GenBank提交门户向导
GenBank提交门户目前仅支持以下提交类型:
原核16S核糖体RNA、23S核糖体RNA和16S-23S核糖体RNA基因间间隔区
真核核rRNA-ITS区域、大小亚单位核糖体RNA和内部转录间隔区1和2
真核细胞器(线粒体或叶绿体)大小亚单位核糖体RNA
后生动物(多细胞动物)线粒体COX1(细胞色素氧化酶亚基1)
真核mRNA
流感A、B或C序列
诺如病毒序列
登革热病毒序列
严重急性呼吸综合征冠状病毒2(SARS-CoV-2)序列
要求:
序列准备:
准备一份质量检查序列的FASTA文件。 删除矢量,低质量序列 和你的序列中可疑的数据 之前 提交。
的源信息 严重急性呼吸综合征冠状病毒2型(SARS-CoV-2) 序列 (提供的信息将用于构建 格式正确的ICTV隔离指定):
独特 隔离 任命; 样本ID 在你的实验室里使用。
完成 收款_日期 ,包括月份和日期(如果知道); 这是病毒样本在现场采集的日期; 必须采用ISO格式:“YYYY-MM-DD”。 例如:2020-03-25。
国家 病毒收集地点; 请参见 INSDC国家列表 获取允许的名称和格式。 冒号后面的信息 格式中应按从大到小的顺序显示,即国家: 州、市。 例如:美国:马里兰州。 在处理过程中,冒号前指定的国家将 自动转换为三个字母的国家ISO代码 用于建造ICTV格式的隔离物。
主机 生物; 通用或学名 病毒所在的宿主动物。 该信息将用于ICTV隔离。
隔离源 ; 物理环境 病毒收集地。 例如:鼻咽拭子。
可选 :生物项目、生物样本和SRA 可以提供登录号来链接组装序列 到以前提交的读取数据。 此可选信息 可以通过“添加字段”、“添加列”添加或包含在 源修饰符上的tab分隔表。 这些附加必须由与 提交组并在提交GenBank之前获得。 建议使用“SARS-CoV-2:临床或宿主相关”生物样本包。
序列准备:
准备一份质量检查序列的FASTA文件。 移除矢量, 嵌合体,低质量序列 和你的序列中可疑的数据 之前 提交。
的源信息 原核rRNA 序列:
序列来自 纯培养菌株 (无菌的 每种培养物仅含有一种微生物):
生物体(例如:芽孢杆菌属)
唯一的菌株ID/字母数字代码(例如:k12, 不要使用物种名称或顶级匹配)
序列来自 未培养样本 (即。 直接从环境样品或宿主中扩增的PCR; 样品未在培养基中培养):
有机体(例如:未培养的细菌)
独特克隆 或 隔离ID/字母数字 示例代码(例如:abc-1、def2),以及
隔离源 或 主机(例如: 海水,智人)
序列准备:
准备一份质量检查序列的FASTA文件。 删除载体、嵌合体、低质量序列 和你的序列中可疑的数据 之前 提交。
的源信息 真核生物rRNA和rRNA-ITS 序列:
有机体 (例如:鹅膏菌属)
独特的 隔离 , 拉紧 , 克隆 , 品种 , 繁殖 , 文化收集 , 或 凭单样本 ( 源修饰符定义 )
序列准备:
准备一份质量检查序列的FASTA文件。 删除矢量,低质量序列 和你的序列中可疑的数据 之前 提交。
的源信息 真核mRNA 序列:
有机体 (例如:Equus quagga)。 如果生物体不是真核生物,那么使用 BankIt银行 提交。
每个序列应具有克隆、隔离、样本-凭证、菌株、品种、, 培养收集或繁殖
真核细胞核mRNA序列的特征注释:
强烈建议使用特征注释,因为它可以增强序列的信息性 数据库用户,并帮助识别潜在的序列问题。 如果您无法提供注释详细信息,尤其是编码区域(CDS), 您仍然可以提交序列并接收登录号,但这些序列将是 处理为未验证。 未经验证的序列在GenBank记录中明确标记,并有注释指示数据 未经验证,并且不包括在BLAST数据库中 ( 更多 ).
有两种方法可用于注释要素:
为提交的每个序列注释编码区域(CDS)功能的网站。 您需要提供每个CDS的蛋白质名称和核苷酸跨度。 你也可以注释基因,5'非翻译区(5'UTR), 和/或3'未翻译区域(3'UTR)特征。
新款 :您可以选择上传序列的蛋白质翻译, 允许我们的软件自动预测和注释CDS功能。 当用不同的CDS注释注释大量序列时,此选项特别有用, 例如不同的蛋白质名称或核苷酸跨度。 请注意,您上传的蛋白质翻译仅用于预测CDS特征, 翻译将从基础核苷酸序列中重新生成。 要使用这种方法,核苷酸序列必须至少18 bp长,蛋白质翻译必须为6个氨基酸或更长。
序列准备:
准备一份质量检查序列的FASTA文件。 删除矢量,低质量序列 和你的序列中可疑的数据 之前 提交。
的源信息 流感 序列 (提供的信息将用于构建格式正确的流感菌株名称):
隔离 名称
完成 收款_日期 ,包括月份和日期(如果知道); 这是病毒样本在现场采集的日期; 必须采用以下格式:“DD-Mmm-YYYY”、“Mmm-YYYY”和“YYYY-”。 示例: 2015年1月12日、2014年12月或2014年。
国家 病毒收集地点; 请参见 INSDC国家列表 允许的名称和格式。 中冒号后面的信息 格式应按大小顺序呈现,即国家: 州、市。 最后一个逗号后面的单位将用于 生成流感菌株名称。 例如,“美国:马里兰州, 贝塞斯达”将导致“贝塞斯塔”被列为 应变; “美国:马里兰州”将导致“马里兰州”被列为 菌株的位置; “USA”将导致“USA”被列为 菌株的位置。
主机 ; 出现在分号之前的任何术语都将用于 应变。 科学名称可以包含在 分号。 例如,“猪;24日龄幼仔;雌性” 或“猪;Sus scrofa”都会导致 应变。 一个例外是在宿主中使用“智人” 因为来自人类宿主的流感毒株没有列出宿主。
血清型 仅适用于甲型流感; 必须采用HxNx、Hx、, Nx或混合; 其中x是数字
隔离源 ; 病毒所在的物理环境 已收集。 例如:粪便、鸟笼、鼻拭子、肝脏、, 等。如果未收集此信息,请输入术语“缺失”。
可选 :文章细节可以包含在源注释中。
序列准备:
准备一份质量检查序列的FASTA文件。 删除矢量,低质量序列 和你的序列中可疑的数据 之前 提交。
的源信息 诺沃克病毒 序列:
独特 隔离 名称。
完成 集合日期 ,包括月份和日期(如果知道); 这是病毒样本在现场采集的日期; 必须采用以下格式:“DD-Mmm-YYYY”、“Mmm-YYYY”和“YYYY-”。 示例:2015年1月12日,2016年12月。
国家 病毒收集地点; 请参见 INSDC国家列表 获取允许的名称和格式。 中冒号后面的信息 格式应按大小顺序呈现,即国家: 州、市。 例如,“美国:马里兰州,贝塞斯达”。
主机 生物; 如果病毒没有从宿主中分离出来 有机体,进入“环境”。
隔离源 ; 病毒所在的物理环境 收集。 例如:粪便、鼻拭子、肝脏等 信息未收集,请输入缺少的术语。
基因型 ; 必须以“ 克 <罗马数字>
", 与提交类型页面上选择的基因组相匹配。 基因型可以 与基因组相同或更具特异性。
可选 :文章细节可以包含在源注释中。
序列准备:
准备一份质量检查序列的FASTA文件。 删除矢量,低质量序列 和你的序列中可疑的数据 之前 提交。
的源信息 登革热病毒 序列:
独特 隔离 名称。
完成 收款_日期 ,包括月份和日期(如果知道); 这是病毒样本在现场采集的日期; 必须采用以下格式:“DD-Mmm-YYYY”、“Mmm-YYYY”和“YYYY-”。 示例:2015年1月12日,2016年12月。
国家 在哪里收集病毒; 请参见 INSDC国家列表 获取允许的名称和格式。 中冒号后面的信息 格式应按大小顺序呈现,即国家: 州、市。 例如,“美国:马里兰州,贝塞斯达”。
主机 生物; 如果病毒没有从宿主中分离出来 有机体,进入“环境”。
隔离源 ; 病毒所在的物理环境 收集。 例如:粪便、鼻拭子、肝脏等 信息未收集,请输入缺少的术语。
基因型 ; 必须是1到4之间的阿拉伯数字。 其他信息, 如“Cosmopolitan”应作为血清型输入。
可选 :文章细节可以包含在源注释中。
序列处理
FASTA文件中的序列将在提交门户向导中自动处理,以解决常见的序列问题,包括:
修剪 终端NNN和模糊序列结束
去除 含>50%模糊核苷酸的低质量序列
检查病媒和外来污染,以及: 修剪终端向量(强匹配和中等匹配)
去除 带内向量的序列
去除 完全是矢量的序列
去除 低于GenBank可接受的最小序列长度的序列 ( 政策 ).
去除 序列长度超过给定提交类型的预期长度
嵌合序列 已确定并且 可能是 远离的 .
识别出有问题的rRNA-ITS序列。 组装错误、嵌合或其他问题 rRNA-ITS序列可能是 远离的 .
如果在您的 上传的序列。 详细的报告总结了在您的 提交文件将在提交文件的最后一页提供给您。 完成提交后 将对序列进行质量保证检查。 如果检测到错误,我们将为您提供 错误报告及更多详细信息。 在解决所有错误并处理您的数据后,您将 接收包含您的加入和最终处理记录的电子邮件。 您的最终处理记录也将 发布在GenBank提交门户中。
FASTA文件帮助
如何组织提交:
按类型或轨迹组织序列文件,并提交一份 每种类型。 例如,所有原核16S rRNA序列 将是一次提交,所有原核23S rRNA序列将是一个 第二次提交。 您可以在一个FASTA文件中提交一种类型的多个序列。
程序和文件保存:
接受纯文本(.txt)核苷酸FASTA文件。
使用文本编辑器(例如:记事本或写字板)准备文件 包含FASTA格式的核苷酸序列集并保存文件 作为纯文本或文本。
如果您不确定程序中的“保存”选项是否会保存 作为纯文本,使用“另存为…”并在“另存类型:”下拉菜单中 选择
做 不 将文件另存为.doc或.rtf(富文本格式)
文件格式:
集合中的每个序列都包含一个FASTA定义行,后跟 原始序列数据。
每个序列的定义行以“>”开头,后跟 序列标识符(sequence_ID)。 Sequence_ID标识所有 提交的步骤。
Sequence_ID在集合中必须唯一,并且 不能包含空格 .
Sequence_ID只能包含以下字符-字母、数字、, 连字符(-)、下划线(_)、句点(.)、冒号(:)、星号(*)、数字符号(#), 和正斜杠(/)。
Sequence_ID应该相对较短(最好少于25个字符)。
sequence_ID之后的信息可能不包含在最终处理的记录中。
通过硬返回将定义行与序列分开 (在Sequence_ID之后按键盘上的enter键)。
您可以使用菌株、隔离物、样本凭证或克隆ID作为FASTA文件中的sequence_ID。 如果这样做,请不要在sequence_ID中包含额外信息,例如生物体名称等。
可选:您可以在FASTA定义行中使用源修饰符来提供源信息。 如果您这样做,必须遵循严格的格式规则。 后面包含的任何文本 未正确格式化的sequence_ID将被覆盖,并且可能不会包含在最终版本中 已处理提交。 有关如何在FASTA定义行中格式化源修饰符的更多信息, 请看 美国金融服务贸易协会 在这里帮忙 .
图1。 FASTA文件示例
>序列ID1 ¶ CCTTTATCTATCTTTGGAGCATAGCTGGCATAGTGGACCCCTCTCCCTCATCCGTGCAGAACTTGGACAAC公司 TGCAGAACTTTGGACAACCTTTATCTAATCTTTGGAGCATGAGCTGCATAGTTGGAACCCCCTCATCCG TTGGAGCGAGCTGGCATAGTGGAACCCCCCCTCTCATCCGTGCAGAACTTGCAACCTTTAATCT ATAGTGGAACCGCCCCCCTCCCTCATCCGTGCAGAACCTTTATCAATCTTTGGAGAGCTGGC
>序列ID2 CCTTTATCTATCTTTGGAGCATAGCTGGCATAGTGGACCCCTCTCCCTCATCCGTGCAGAACTTGGACAAC公司 TGCAGAACTTTGGACAACCTTTATCTAATCTTTGGAGCATGAGCTGCATAGTTGGAACCCCCTCATCCG TTGGAGCGAGCTGGCATAGTGGAACCCCCCCTCTCATCCGTGCAGAACTTGCAACCTTTAATCT ATAGTGGAACCGCCCCCCTCCCTCATCCGTGCAGAACCTTTATCAATCTTTGGAGAGCTGGC
如何设置FASTA定义行的格式,如上例所示:
键入“>”符号。
键入Sequence_ID。
按键盘上的“回车”键插入硬回车。
在下一行,按顺序粘贴。
源信息帮助
GenBank需要您的每个序列的唯一源信息 提交。 对于某些提交类型,您可以选择字段(源 修饰符),您将在其中提供唯一信息。 您在上进行的选择 这个 源信息 页面用于设置表格和模板,以便 提供有关 源寄存器修改符 第页。
如果您要提交多个序列,则未使用FASTA修饰符,以及 您的sequence_ID似乎是菌株、隔离物、克隆或样本凭证ID, 系统将提示您一个问题,询问sequence_ID是否代表一个 “源信息”页面上列出的字段。 选择适当的选项,如果 sequence_ID表示页面上列出的字段之一。 选择NONE(无) 如果sequence_ID很长或包含的信息比 任何一个字段的范围( 源修饰符字段的描述 ).
源修改器帮助
什么是源修改器?
源修饰符是一组定义的描述性字段,用于 收集有关序列源的信息。 每次提交 类型具有一组不同的必需修饰符。 值的示例 对于给定的修饰符,将在您的 提交文件和清单 带有定义和示例的源修饰符 可用。
可以通过多种方式提供源修饰符信息:
单序列提交 默认为您键入的窗体 直接在页面上显示源信息。 选项卡分隔的表上传选项 也可以在表单上单击“How do you want to apply source modifiers” 并选择“Upload a tab-delimited table”单选按钮。
多序列提交 有多个选项 提供源修饰符:
可编辑表:如果提交中的序列少于1000个,则 选项将源修饰符直接键入到源上的可编辑表中 提供了修饰符页。
对所有序列应用相同的值:如果sequence_ID表示 源修改器的值,例如克隆、菌株或隔离ID和FASTA 未使用修饰符,则为应用相同源修饰符值的选项 所有序列都可用。
制表符分隔表:使用提供的模板文件。 具体说明 在下面的部分中提供。
FASTA源修改器可用于FASTA定义行中的单个和 提交次数最多。 信息将被解析并显示在源上 修改器页面(如果是) 格式正确 .
关于大规模TLS研究的注释 :源修改器选项 以上所列不适用于TLS研究。 这个 TLS提交指南 提供信息 关于来源。
如何编辑源修饰符选项卡分隔的模板表:
您可以使用电子表格程序(例如:Excel)或文本 编辑器(例如:记事本或写字板)来准备源修改器文件。
文件必须另存为 纯文本(.txt)或文本(制表符分隔) .
在“源修改器”页面上,单击“下载源修改器模板”。
如果文件没有自动打开,请将其打开。
此文件包含所需的标头,并使用Sequence_ID填充 在FASTA文件中使用。 不要编辑标题或Sequence_ID。
通过以下两种方式之一添加源信息:
文本编辑器:直接在下载的表中添加所需信息。 每个字段必须用1个制表符隔开。将文件另存为文本或制表符分隔的文本。
电子表格程序:在电子表格中打开模板或选择所有 下载文件中的文本,并将其复制到电子表格程序(如Excel)中 编辑。 这样做将有助于维护表的选项卡结构。 在你完成之后 将源信息添加到电子表格中的每一行,另存为“Text(tab-delimited)”类型。
使用浏览按钮在“源代码修改器”页面上上载以tab分隔的文本文件。
请参见 图2 对于标题行和 图3 源修饰符表的示例 用于未培养样本的序列。
图3。 示例源表。 一个标签将每个标签分开 列和每一行以硬返回结束。 第一行是标题 行。 数据从第二行开始。
序列_ID 克隆 隔离源 有机体 作业控制-1 ⇥ 作业控制-1 ⇥ 农田径流 ⇥ 不可培养细菌 ¶ 定义-1 ⇥ 定义-1 ⇥ 湖水 ⇥ 不可培养细菌 ¶
图4。 源表格式不正确的示例。 有时,在文本编辑器程序中,在以制表符分隔的表的显示中,列不会在视觉上对齐。 不要试图通过添加额外的制表符或空格来对齐列。 如果将表格复制到电子表格程序中,可以检查列对齐方式以确保其正确。
序列_ID 克隆 隔离源 有机体 作业控制-1 ⇥ abc-1型 ⇥ 农田径流 ⇥ 不可培养细菌 ¶ 定义-1 ⇥ 定义-1 ⇥ 湖水 ⇥ 不可培养细菌 ¶
常见问题
请查看我们在下面提供的常见问题解答。 有关更多问题,请写信至: gb-admin@ncbi.nlm.nih.gov . 在您的信息中包含您的SUB#,并指出您正在使用GenBank提交门户。