美国国旗

美国政府的官方网站

如何提交到dbSNP:

五、格式化提交元数据(Meta)文件

4.1版;2015年12月11日

dbSNP VCF提交需要两个不同的文件:

     1.必需的元数据文件或元文件包括与提交相关的发布、方法、人群和分析信息。你可以
单独提交这些元文件,或将其合并为单个文本文件进行提交。每个图元文件的规范如下所示
        dbSNP图元文件规范本文档的第节。

     2.数据的提交文件。我们希望您在VCF格式,(见上文)但dbSNP也接受其他格式.

格式化图元文件

什么是MetaFile?

图元文件是提交给dbSNP的文件,其中包含出版,方法,人口、和化验与要提交的数据关联的元数据。dbSNP每次提交都需要元文件,并且应该与变体数据分开提交。您可以将元文件合并为一个文本文件进行提交,也可以根据需要单独提交每个元文件类型。

dbSNP元数据文件规范

出版物

下面是可以在提交给dbSNP的元数据文件的发布部分中使用的有效标记,以及每个标记所需数据的简要描述。使用示例遵循标签及其描述

注:dbSNP需要在所有发布元部分中使用标记TYPE、TITLE、YEAR和STATUS。即使文件中有多个给定类型的条目,TYPE字段在每个条目的开头也是必需的。

类型: 出版物条目必须为“PUB”。
手柄: 提交手柄由NCBI提供
MEDUID公司: Medline唯一标识符。不需要,所以只有在你知道的情况下才包括它。
PMID(项目管理标识): PubMed唯一标识符。不需要,所以只有在你知道的情况下才包括它。
标题: 文章标题。从标签下方的行开始插入条目,必要时使用多行。
作者: 使用此格式的作者姓名:FamilyName AA、FamilyName-BC、Family Name DE。插入您的条目从标记下面的行开始并使用多个线路(如有必要)。
日志:  日记帐名称
卷: 卷号
供应商: 补充件编号
问题: 发行编号
I支架(_S):  发行补充编号
页: 页码,格式:123-9
年份: 出版年份。
状态:  输入以下内容之一:1=未发布,2=已提交,3=正在发布,4=已发布

注:TITLE字段是一个自由格式字符串。dbSNP要求您在SNP分析或使用部分的CITATION字段中放置一个相同的字符串,因为我们将自动将该字段与发布表中的发布进行匹配,并将该字符串替换为dbSNP表中的发行id。实际上,句柄和标题的组合必须是唯一的,所以提交者可以选择任何他们想要的标题,即使是未发表的引用,只要它与他们使用的其他标题不同。

出版物标签用法示例1:

类型:PUB
手柄:KAMBOH
标题:
人类8号染色体
作者:
密歇根州坎波
年份:2014
状态:1

 

出版物标签用法示例2:

类型:PUB
手柄:KAMBOH
项目管理标识号:24212298
标题:
脂蛋白脂肪酶基因序列测定及血脂谱分析
作者:
Pirim D、Wang X、Radwan ZH、Niemsiri V、Hokanson JE、Hamman RF、Barmada MM、Demirci FY、密歇根州坎波
期刊:脂质研究杂志。
体积:55
页码:85-93
年份:2014
状态:4

 

方法

下面是可以在提交给dbSNP的元数据文件的Method部分中使用的有效标记,以及每个标记所需数据的简要描述。使用示例遵循标签及其描述。

注:即使文件中有多个给定类型的条目,每个方法条目的开头也需要TYPE字段。

类型: 条目类型-对于方法条目,必须是“Method”。
手柄:<手柄> 提交手柄由NCBI提供
身份证件: <本地方法ID> 使用您的实验室使用的标识符来引用分析变异的方法。但是,如果您是,或 已将序列提交给SRA,使用您的SRA实验登录(例如。SRX1131768型)作为方法ID。
方法_类别: 1.为了保持数据库之间的一致性,dbSNP和dbVar采用了SRA Method_Class值。请参阅表1获取可接受值的列表。如果如果您是或 已将序列提交给SRA,并使用SRA实验登录作为方法ID,则无需提供method_Class值。 

2.如果您在分析中使用了库富集、筛选和/或选择方法,请在method_class值后包含描述富集/选择方法的自由文本,或使用来自表2.
序列底线: <是、否、不适用、未知> 两条线都测序了吗?
模板类型: <二倍体、克隆、其他、未知> 检测中使用的模板DNA是来自克隆还是来自二倍体基因组DNA提取?
MULT_PCR_放大: <是、否、不适用、未知> 是否对独立PCR扩增进行了测试?
多个克隆测试: <是、否、不适用、未知> 独立克隆测试了吗?
方法: 对多行自由文本中给出的方法的描述。将保留换行符。
参数:   从标签下方的行开始提供反应参数,必要时使用多行。
方法标记用法示例:

类型:方法
手柄:任何人
ID:My_Variatio_Seq_method
METHOD_CLASS:WGS尺寸分馏
序列_BOTH_STRANDS:是
模板类型:二倍体
MULT_PCR_AMPLIFICATION:是
MULT_CLONES_TESTED:否
方法:用基因组DNA进行PCR反应,并通过DNA测序分析产物。
参数:
模板:50 ng基因组DNA
底漆:每0.5 uM
dNTPs:每个0.2 mM
PCR缓冲液:5 ul(10X),Mg 2+1.5 mM,Taq聚合酶:1.25单位/ul

 

人口

下面是可以在提交给dbSNP的元数据文件的“填充”部分中使用的有效标记,以及每个标记所需数据的简要描述。使用示例遵循标签及其描述。

注意:即使文件中有多个给定类型的条目,每个填充条目的开头也需要TYPE字段。

类型: 条目类型-此处放置的值必须是“人口”条目的“人口”。
手柄:<手柄> 提交手柄由NCBI提供
身份证件:<当地人口id>

您或您的实验室用于引用的标识符:
1。用于定义SNP分析的人群,

      2. 检测变异的人群
注意:一些填充字符串将被预定义或“全局”定义,并且可以由多个提交者使用。为了消除歧义,总体将始终用作<handle>|<population-id>,全局定义总体的句柄为“NCBI”。

强制性要求:  此标记用于强制的自由文本注释,如果提交的序列来自同意书要求的人群,则应显示该注释。如果提交的样本不是来自需要声明的人群,您可以跳过此标记。
人口:  此字段包含多行自由文本,允许您更详细地描述人口。我们鼓励您将文本格式化为
此字段作为参数:VALUE可以随时进行配对,以维护换行符并使数据更容易查询。

填充标记用法示例:

类型:人口
手柄:任何人
标识:YOUR_POP
POP_CLASS:欧洲
人口:
大陆:欧洲
国家:某个国家
表型:你说得对

注:上述人口标签示例中使用的标签“Continent”、“Nation”和“Phenotype”仅用于说明目的。为您的提交选择您认为对您的特定人群有意义的标签。如果在人口中使用标记:值对没有意义,也可以选择不在POPULATION字段中使用它们。
 

化验

以下是可以在提交给dbSNP的元数据文件的Assay部分中使用的有效标记,以及每个标记所需数据的简要描述。使用示例遵循标签及其描述。 

注:分析元数据部分中的必填字段为HANDLE、BATCH、MOLTYPE、SAMPLE SIZE和METHOD。您在下面的标题标记描述中看到的其他标记是可选的。如果在Assay meatadata部分中遗漏了ORGANISM标签,dbSNP将假定它是智人。

类型: SNPASSAY条目类型,必须为“SNPASSA”。
手柄: <手柄> 必填字段。 提交手柄由NCBI提供
批次: <local_batch_ID> 必填字段。 。local_batch_ID只是您为提交的变异分析或实验集指定的名称。local_batch_ID允许在NCBI和提交者之间的通信中明确引用提交的集合。
型号: 基因组| cDNA |线粒体|氯 必填字段。由于分子类型可能因方法而异,因此必须将其放置在标题中。如果您想提交分子类型的混合物,请将提交内容拆分,以便每个提交内容都包含使用 单个模具。
方法: <本地方法id> 必填字段。 本地方法id是您或您的实验室用于引用分析变异方法的标识符。但是,如果您是,或 已将您的序列提交给SRA,请使用您的SRA实验登录(例如。SRX1131768型)作为方法ID。
方法_示例:自由文本 用于详细解释给定方法的自由文本。
成功_比率:  100% 基于验证,变体是真实的概率。定义为:1-假阳性率。
取样: <数字> 必填字段。变异发现过程中检测到的不同染色体的数量。
同步名称: <姓名,[姓名,姓名等…]>

定义每个SNP分析中允许的“SYNONYM”行上的同义词的含义
使用对您有意义的标签的批次。此订购和标签适用只有此批次中的分析。 
例子:

同步名称:SNPid、DnaId、MapDna

组织: 科学名称 根据分类学
应变: 品种或品种名称 如果取样的种质具有独特的特性(例如近交系小鼠、商业品种 家畜品种,或收集DNA样本以发现SNP)。基因型数据参考该批次变异的个体可能具有不同的菌株或品种属性。人口血统(需要链接)部分。
文化: 品种名称 如果该生物体是实验室品种,请提供品种名称。
人口: <当地人口id> 这是您或您的实验室用于引用的标识符:
1。用于定义SNP分析的人群,

       2. 检测变异的人群
注意:一些填充字符串将被预定义或“全局”定义,并且可以由多个提交者使用。这些全局定义的总体的句柄是“NCBI”。为了消除歧义,总体将始终用作<handle>|<population-id>
引用:T型出版物标题 与提交的变体相关的出版物标题。确保此处输入的标题与此提交的出版物部分中的条目标题匹配。此字段可能重复。如果省略了此字段,并且批处理中包含一个引文,解析器将把引文与分析关联起来。
链接URL: 自由文本 链接到提交者本地网站的自由文本(最多255个字符)URL。NCBI请求通过将此URL字符串与本地SNP ID串联,形成单个SNP记录的数据链接。
备注: 自由文本 供公众查看的自由文本。此字段中的任何内容都将显示在此批次中的每个SNP分析中。
私人:自由文本 您可以使用自由文本向NCBI评论正在提交的批处理。

分析标签用法示例:

以下是怀特黑德研究所提交的一组SNP分析的理论结果(句柄:“WI”):
类型:SNPASSAY
手柄:WI
批次:1.98
MOLTYPE:基因组
方法:RESEQ
同步名称:WI-SNP、DnaId、MapDna
备注:
这是您放置适用于整个
您提交的SNPS批。
私人:
您可以在此处向NCBI发送有关处理的说明

提交文件的 公众不会看到这一点。
这种注释的一个例子可能是:

注意:这些不是真正的变体,因为
修改了数据。

附录

表1:METHOD_CLASS排序策略值

METHOD_CLASS值 描述
工作组

全基因组测序-全基因组的随机测序(详见出版物10731132)

世界黄金协会

全基因组扩增后随机测序。(详见出版物1631067、8962113)

WXS公司

从基因组中选择的外显子区域的随机测序。(详见2011年10月27日发布)

RNA-Seq号 全转录组的随机测序,也称为全转录组Shotgun测序,或WTSS)。(详见18611170)
ssRNA-seq

对于“特定于股的”RNA-seq实验来说很重要,该实验的优点是
转录本的极性可以保留,这对于正确注释新基因、识别产生两条转录本的基因组区域以及解析重叠基因的表达水平都很重要。

miRNA-Seq基因 旨在捕获转录后RNA元素并包括非编码的微RNA测序策略
功能元素。(详见出版物21787409)
ncRNA-Seq号 捕获其他非编码RNA类型,包括翻译后修饰类型,如snRNA(小
核RNA)或snoRNA(小核仁RNA),或表达调控类型,如siRNA(小干扰RNA)或
piRNA/piwi/RNA(piwi-interacting RNA)。
FL-cDNA cDNA模板的全长测序
美国东部时间 cDNA模板的单程测序
世界卫生组织 从基因组中分离出的整个染色体或其他复制子的随机序列。
RAD-Seq公司  
克隆 基因组克隆测序。
POOLCLONE泳池 集合克隆(通常为BAC和Fosmids)的霰弹枪。
AMPLICON公司 重叠或不同PCR或RT-PCR产物的测序。例如,宏基因组群落分析
使用SSU rRNA。
克隆人 克隆结束(5'、3'或两者)测序。
精加工 排序旨在完成(缩小)现有覆盖范围中的差距。
ChIP-Seq公司

染色质免疫沉淀。

MNase-Seq公司 MNase消化后。
DNA酶敏感性 超敏位点或更容易被DNaseI裂解的开放染色质片段的序列测定。
二硫化物序列 甲基C-序列。用亚硫酸氢盐处理DNA后将胞嘧啶残基转化为尿嘧啶的序列测定
取决于甲基化状态。
CTS公司 级联标记排序
MRE-序列 甲基化敏感限制性内切酶测序。
MeDIP-Seq公司 甲基化DNA免疫沉淀测序。
MBD-序列 甲基CpG结合域测序。
Tn-序列 根据一个特意播种的转座子获得的次数,定量确定细菌基因的适合性
一段时间后插入到群体的每个基因中。
验证 CGHub特别要求:重新评估假定变体的独立实验。
FAIRE-seq系列 甲醛辅助分离调节元件
SELEX公司 指数富集配体的系统演化
RIP-Seq型 RNA免疫沉淀物的直接测序(包括CLIP-Seq、HITS-CLIP和PAR-CLIP)。
ChIA-PET公司 直接测序邻近连接染色质免疫沉淀物。
合成长引线 大DNA片段的装箱和条形码,以便于片段的组装
目标捕获 基因座目标子集的富集。用于癌症基因面板、基因测试面板等,取代验证
系带染色质构象捕获 需要引文
其他 未列出库策略。

 

 

表2:MEDTHOD_CLASS库扩展、筛选和/或选择策略的值

方法_类别 描述
随机 无选择或随机选择
聚合酶链反应 PCR靶富集
随机PCR 通过随机产生的引物选择源材料。
逆转录聚合酶链反应 目标浓缩通过
HMPR公司 次甲基化部分限制性消化
MF公司 甲基过滤

重复分馏

通过Cot过滤(CF)或基于DNA动力学的其他分离技术选择重复性较低(且基因丰富)的序列。
粒度分级 物理选择大小合适的目标。
MSLL公司 甲基化跨越链接库
cDNA PolyA 信使RNA(mRNA)的选择或富集;与PolyA同义
cDNA_随机启动  
cDNA_oligo_dT基因  
PolyA公司 信使核糖核酸(信使核糖核酸)的PolyA选择或富集;应替换cDNA枚举。
寡核苷酸-dT 通过与寡核苷酸杂交富集信使RNA(mRNA)。
反向rRNA 寡核苷酸杂交导致核糖体RNA缺失。
反向rRNA选择 通过反寡核苷酸杂交去除核糖体RNA。
ChIP公司 染色质免疫沉淀

M底座

微球菌核酸酶(MNase)消化
DNA酶 脱氧核糖核酸酶(MNase)消化
混合动力选择 通过阵列或溶液杂交进行选择。
简化表示 可复制的基因组亚群,通常由限制性片段大小选择产生,包含便于重新取样的可管理数量的位点。
限制性摘要 使用限制性内切酶进行DNA分离。
5-甲基胞苷抗体 使用针对5-甲基胞嘧啶或5-甲基胞苷(m5C)的抗体选择甲基化DNA片段。
MBD2蛋白甲基CpG结合结构域 甲基-CpG结合域富集。
CAGE公司 Cap分析基因表达。
比赛 cDNA末端的快速扩增。
MDA公司 多重置换扩增,一种基于非PCR的DNA扩增技术,可扩增一分钟
将DNA定量到适合基因组分析的水平。
挂锁探针捕获方法 目标序列捕获协议覆盖任意一组非重复性基因组学目标。一个例子是
使用挂锁探针(BSPP)捕获亚硫酸氢盐序列。
其他 其他图书馆充实、筛选或选择过程。
未指定 未指定库充实、筛选或选择。

 

联系dbSNP

如果您在如何提交到dbSNP文档系列,联系dbSNP提交snp-sub@ncbi.nlm.nih.gov,我们将尽力回答您的提交问题或帮助您解决困难的提交问题。

中的其他标题如何提交到dbSNP系列:

上次更新时间:2015-12-21T20:30:40-05:00