摘要

家蚕是一种驯养的昆虫,是研究和农业的动物模型。我们去年发布的家蚕超泛基因组数据集是研究全球基因组多样性和表型-基因型关联的独特资源。这里我们介绍SilkMeta(http://silkmeta.org.cn)这是一个涵盖现有家蚕全基因组和多组学数据的综合数据库。该数据库包含1082个短读基因组、546个长读组装基因组、1168个转录组、294个表型特征(现象组)、数千万个变异(变种组)、7253个长非编码RNA(lncRNAs)、18717个全长转录本和一组人口统计数据。我们汇编了功能基因组学研究和基因库破译(突变图谱)方面的出版物。还提供了一系列生物信息学工具,用于数据可视化和检索。大量组学数据和工具集成在12个功能模块中,为比较基因组学和功能基因组学研究提供有用的策略和数据。交互式生物信息学平台SilkMeta不仅有利于家蚕,也有利于昆虫生物群落。

介绍

家蚕是一种家养昆虫,来源于野生蚕,野桑蚕.作为丝绸供应商和生物研究模型,B.莫里在科学研究和农业中发挥着多重作用。喜欢果蝇属家蚕是几种昆虫分类群的首选代表,尤其是鳞翅目昆虫。一个多世纪以来,对家蚕的研究取得了显著成果,例如首次发现孟德尔的动物遗传原理(1)昆虫激素(如保幼激素)的发现、分离和研究(2)以及杂种优势的发现和利用(,4). 在过去的二十年里,家蚕基因组信息极大地促进了昆虫适应的进展(5–7)、驯化(7–9)、基因工程(10,11)和养蚕。

家蚕参考基因组于2004年首次发布,并于2008年和2019年两次更新(12–14). 随后开发了几个以单个基因组为中心的数据库(SilkDB、KAIKObase、Silkbase、SGID),以便于获取基因组信息(15–18). 最近,我们小组完成了1K家蚕基因组项目(1KSGP),构建了家蚕超基因组,其中包含1082个短读基因组、545个组装的长读基因组、5000多万个变异(SNP、InDels、SVs)等(7). 据我们所知,家蚕全基因组包含迄今为止动植物中数量最多的组装长读基因组,几乎代表了家蚕的全部基因组多样性。家蚕全基因组数据集的发表为研究界提供了宝贵的资源。然而,泛基因组数据集的探索和使用需要计算和生物信息学技能,这在资源和研究人员之间造成了差距。因此,必须有一个交互式、用户友好的平台,以便对基因组和基因组变异进行方便的调查。

除了1KSGP之外,还发布了大量的多组学数据(转录组、单细胞转录组等),可以在NCBI等公共数据库中进行搜索(https://www.ncbi.nlm.nih.gov/)和中国国家生物信息中心,https://www.cncb.ac.cn/). 在这里,我们介绍了SilkMeta数据库,该数据库集成了泛基因组数据、多组数据和生物信息学工具,为揭示基因(或其变异)和表型之间的关联搭建了一座桥梁,目的是加快对家蚕和昆虫生物学的研究。

数据资源

SilkMeta的大部分数据来自我们的泛基因组项目,包括一个参考泛基因组,294个种质表型特征(变异组),1082个短读测序数据(DNBSEQ,BGI),545个长读测序数据(PromethION,Oxford Nanopore),126个转录组,545从头开始组装基因组(其中100个基因组已注释)、4301 2261个SNP、9 344 375个InDels(<50 bp)、3 432 266个SVs、1 640 256个蛋白编码基因、19 411个种内正交组、7216个种间正交组和群体遗传学数据。294个表型特征(如茧色、卵色、幼虫色素沉着、蜕皮、化蛹)中的大多数是定性特征,固定在一个或多个家蚕品种中。这些特征使用基因符号记录在“样本信息”模块的表格中(“背景/表型”列)。短读和长读序列读取的数据量分别为31.52 Tb和24.06 Tb,平均覆盖深度分别为65×和97×。545个基因组的平均完整性和连续N50大小分别为98%(BUSCO评估值)和7.6Mb。有关家蚕泛基因组数据集的更多详细信息,请参阅我们之前的出版物(7).

此外,我们从NCBI、CNCB或以前的出版物中收集了1042个转录组、92个染色质免疫沉淀测序(ChIP-seq)数据、14个单细胞转录组、7253个长非编码RNA(lncRNAs)、18717个全长转录组和大枣参考基因组(14,19–21). 我们将来自Silkbase、SGID和SilkDB3.0的piRNA、小RNA(包括circRNA、miRNA和piRNA)、表观基因组学(包括ChIP-seq和甲基体)、转录因子(TF)、重复序列(包含转座元件)和Hi-C数据整合到SilkMeta中。我们收集了家蚕功能基因组学研究的结果(蛋白质编码基因和相关出版物),并将其集成到“突变图谱”和“功能研究”模块中。SilkMeta的基因信息页面上显示了SilkDB 3.0中Hi-C、eFP(电子荧光象形图)、共表达、3D(蛋白质三维结构)和synteny图的链接。表中列出了纳入SilkMeta的所有数据1.

表1。

SilkMeta的数据摘要

数据类型数字数据类型数字
参考泛基因组1长的非编码RNA7253
表型描述294个特征完整的成绩单18 717
短期测序数据1082株转座元件432 055
长期测序数据545株单核苷酸多态性43 012 261
转录组数据1168个(样本),122个(项目)InDels公司9 344 375
基因组546(包括大枣基因组)SV公司3 432 266
注释基因组101(包括大枣基因组)单细胞转录组14
蛋白质编码基因1640256突变图谱遗传图谱中251个位点(突变体)和68个破译位点
正交组19411(种内),7216(种间)功能研究库320篇文章涉及395个蛋白质编码基因
piRNA样本80转录因子704
小RNA样本29ChIP-seq样本92
circRNA样本4甲基组样品
miRNA样本10高碳样品18
数据类型数字数据类型数字
参考泛基因组1长的非编码RNA7253
表型描述294个特征完整的成绩单18 717
短期测序数据1082株转座元件432 055
长期测序数据545株单核苷酸多态性43 012 261
转录组数据1168个(样本),122个(项目)InDels公司9 344 375
基因组546(包括大枣基因组)SV公司3 432 266
注释基因组101(包括大枣基因组)单细胞转录组14
蛋白质编码基因1640256突变图谱遗传图谱中251个位点(突变体)和68个破译位点
正交组19411(种内),7216(种间)功能研究库320篇文章涉及395个蛋白质编码基因
piRNA样本80转录因子704
小RNA样本29ChIP-seq样本92
circRNA样本4甲基组样品
miRNA样本10高碳样品18
表1。

SilkMeta的数据摘要

数据类型数字数据类型数字
参考泛基因组1长的非编码RNA7253
表型描述294个特征完整的成绩单18 717
短期测序数据1082株转座元件432 055
长期测序数据545株单核苷酸多态性43 012 261
转录组数据1168个(样本),122个(项目)InDels公司9 344 375
基因组546(包括大枣基因组)SV公司3 432 266
注释基因组101(包括大枣基因组)单细胞转录组14
蛋白质编码基因1640256突变图谱遗传图谱中251个位点(突变体)和68个破译位点
正交组19411(种内),7216(种间)功能研究库320篇文章涉及395个蛋白质编码基因
piRNA样本80转录因子704
小RNA样本29ChIP-seq样本92
circRNA样本4甲基组样品
miRNA样本10高碳样品18
数据类型数字数据类型数字
参考泛基因组1长的非编码RNA7253
表型描述294个特征完整的成绩单18 717
短期测序数据1082株转座元件432 055
长期测序数据545株单核苷酸多态性43 012 261
转录组数据1168个(样本),122个(项目)InDels公司9 344 375
基因组546(包括大枣基因组)SV公司3 432 266
注释基因组101(包括大枣基因组)单细胞转录组14
蛋白质编码基因1640256突变图谱遗传图谱中251个位点(突变体)和68个破译位点
正交组19411(种内),7216(种间)功能研究库320篇文章涉及395个蛋白质编码基因
piRNA样本80转录因子704
小RNA样本29ChIP-seq样本92
circRNA样本4甲基组样品
miRNA样本10高碳样品18

在之前的出版物中描述了处理原始测序数据、基因组组装、基因组注释、变体调用、变体注释和转录组分析的管道(7). 这些元素的新数据按中所述进行处理(7). 基于基因本体的蛋白质编码基因注释(22)《京都基因和基因组百科全书》(KEGG)(23)、Pfam(24),InterPro(IPR)(25)使用BLAST程序(v.2.9.0)执行NCBI的非冗余蛋白质序列数据库(NR)(26). 在101个家蚕基因组中聚类了谱内正群,在家蚕基因组上聚类了谱间正群(B.莫里),果蝇(黑腹果蝇),鼠标(小家鼠)和人类(智人)使用orthofinder软件(v.2.3.7)(27). 群体遗传学统计,如Tajima的D,π(核苷酸多样性),F类装货单(种群分化)和多样性减少(ROD,1-π后代祖先)按照前面的公式计算(28–30)滑动窗口为5000 bp,步长为500 bp。对于ChIP-seq数据,我们使用了bowtie2(v2.5.1)(31)将测序读数映射到参考基因组(14)和用samtools过滤PCR重复(v1.17)(32). deeptools中的bamCoverage参数(v3.5.1)(33)用于将bam文件转换为bigwig文件。

SilkMeta实施

SilkMeta是一个使用Vue(v.2.0)JavaScript和JDK java框架的web平台,运行在nginx web服务器(v.1.13.7)上。数据库和操作系统是MySQL(8.0版)和CentOS(7.9版)。J行2(34)用于可视化基因组、变异和基因结构。底漆3(35)在SilkMeta中实施,用于底漆设计。BLAST工具(v.2.14)(26)用于基因组、基因、蛋白质、lncRNA、转座元件(TE)、转录因子(TF)和全长转录序列比对。

可视化和分析模块

我们开发了SilkMeta,以容纳12个模块,方便可视化和探索庞大的组学数据集:“样本信息”、“种群结构”、“基因搜索”、“变异搜索”、‘变异查看器’、‘基因组浏览器’、‘表达’、‘选择性扫描’、‘功能研究’、,“变种地图”、“工具”和“下载”。这些模块是交互式界面,可以存储和分析现象组、基因组、转录组和变种组数据,以便进行比较和功能基因组学研究(图1). 我们在下面描述了可用的功能和每个模块的工作流程。

SilkMeta的主要功能和数据。我们将SilkMeta的12个功能模块分为四类:现象组、多组学、变种、比较基因组学和功能基因组学。(A) SilkMeta中的样本信息和家蚕种群结构。(B) 野桑蚕(顶部)和家蚕(底部)在卵、幼虫、蛹(茧)和成虫阶段的表型不同。在幼虫的第三和第四阶段,柑橘B.mandarina模仿鸟粪的形态,而在最后的幼虫阶段,它模仿桑枝。家蚕在驯化过程中(从野生家蚕到当地种群)失去了野桑蚕的拟态特征。bar=1 cm。(C)蚕茧大小的代表性经济特征。bar=1 cm。(D)遗传资源(突变体)在卵、幼虫、蛹(茧)和成虫阶段表现出许多表型突变。我们在SilkMeta中记录了294个这些性状。(E) “基因搜索”模块和基因信息页面的主要功能。(F) “表达式”模块通过定义感兴趣的组织、发育阶段或项目标识符,以线形图、热图、方框图或数据表的形式显示基因表达水平(FPKM值)。(G) “变体搜索”模块和变体信息页面的主要功能。(H) 基因组浏览器的主页,用于可视化变异。(一) 使用“变体查看器”模块可视化多个样本(组)中基因组区域(chr1:20.18–20.28 Mb)的基因结构和SNP热图。用户可以选择SNPs、InDels或SV进行绘图。红色(1/1)和蓝色(0/1)垂直线代表纯合子和杂合子变异。(J) 在“选择性扫描”模块内,局部和改良群体之间的基因组区域(chr1:0.5–2kb)中的选择性扫描信号(FST、π、Tajima’s D和ROD统计)的线形图。(K) “突变体图谱”模块中浴盆突变体的遗传位点和相关文章。(五十) 基因符号、基因ID和方法(RNAi、敲除、敲除或过度表达)是“功能研究”模块中搜索的可选关键字。(M) BLAST工具中可用的特征和主要数据。(N) “序列下载器”工具的主要功能。
图1。

SilkMeta的主要功能和数据。我们将SilkMeta的12个功能模块分为四类:现象组、多组学、变种、比较基因组学和功能基因组学。(A类)SilkMeta中的样本信息和家蚕种群结构。(B)的表型野桑蚕(顶部)不同于家蚕(底部)在卵、幼虫、蛹(茧)和成虫阶段。B.柑橘在幼虫的第三和第四阶段模仿鸟粪的形态,而在最后的幼虫阶段模仿桑枝。The mimicry characteristics ofB.柑橘迷失在B.莫里驯化期间(从野生家蚕到当地种群)。巴=1厘米(C类)蚕茧大小具有代表性的经济特征。巴=1厘米(D类)遗传资源(突变体)在卵、幼虫、蛹(茧)和成虫阶段表现出许多表型突变。我们在SilkMeta中记录了294个这些性状。(E类)“基因搜索”模块和基因信息页面的主要功能。(F类)“表达式”模块通过定义感兴趣的组织、发育阶段或项目标识符,以线形图、热图、方框图或数据表的形式显示基因表达水平(FPKM值)。(G公司)“变体搜索”模块和变体信息页面的主要功能。(H(H))基因组浏览器的主页,用于可视化变异。()使用“变体查看器”模块可视化多个样本(组)中基因组区域(chr1:20.18–20.28 Mb)的基因结构和SNP热图。用户可以选择SNPs、InDels或SV进行绘图。红色(1/1)和蓝色(0/1)垂直线代表纯合子和杂合子变异。(J型)选择性扫描信号的线条图(F类装货单,π,田岛的D类和ROD统计数据)。(K(K))遗传位点及相关文章“突变体图”模块中的突变体。(L(左))基因符号、基因ID和方法(RNAi、敲除、敲除或过度表达)是“功能研究”模块中搜索的可选关键字。(M(M))BLAST工具中可用的特征和主要数据。(N个)“序列下载器”工具的主要功能。

样本信息和人口结构

SilkMeta记录了1078个家蚕品系的种群结构、基本信息和表型描述,包括205个地方品系、194个改良品系、632个遗传资源(突变体)和47个野生蚕(B.柑橘). 种群结构由系统发育树和二维主成分图表示(图1安培). 在SilkMeta的“样本信息”模块中,我们提供了三个表:样本信息、ONT测序、基因组组装和SVs、基因组组装以及泛基因家族。样本信息表保存了一些基本信息,如NGS的样本标识符(ID)、通用名称、分类、来源、性别、典型表型和数据量。下表是显示蚕的地理位置的地图。1082个基因组的样本ID根据它们在“种群结构”模块的系统发育树中的关系命名。例如,BomL1、BomL2和BomL3是树上的邻居。在大多数情况下,用户可以通过样本ID了解样本之间的关系。第二和第三个表显示了有关ONT测序、基因组组装、SVs和泛基因的信息和图表,这些信息和图表有助于查看家蚕泛基因。提供了一个搜索功能,供用户检索感兴趣的信息。

在样本信息表中,每个家蚕都被分为野生、本地、改良和遗传家蚕种群。当地的蚕是从野生祖先驯化而来,然后培育成改良品种。在驯化过程中(从野生种群到本地种群),与适应相关的表型,如产卵量、孵化、幼虫色素沉着和成虫飞行能力都发生了改变(图1B年). 在繁殖阶段(从本地种群到改良种群),茧大小和重量等经济性状大幅增加(图1摄氏度). 特别是,我们用基因符号(样本信息表中的背景/表型列)标记了294个出现在卵、幼虫、蛹或成虫阶段的性状,包括卵色素沉着、幼虫带、茧色、蛾色素沉着等(图一维). 可以使用比较基因组学分析方法(在“变异查看器”模块中)和选择性扫描缩小与这些表型相关的变异和基因。

基因搜索和基本信息

在“基因搜索”模块中,用户可以使用基因标识符(ID)、基因名称、基因功能或选定基因组中的基因组区域来搜索基因(图1E级). 在SilkMeta中,我们从101个基因组、19411个谱内正交组和7216个谱间正交组中收集了546个基因组、1640 256个蛋白编码基因(表1). 每个基因都有一个唯一的基因ID和正交组标识符(OGID)。使用“基因搜索”模块请求的目标基因列在基因搜索框下方的结果表中。点击此表中的基因ID可以访问包含基本基因信息(例如OG ID、基因ID、基因名称、位点、表达、功能研究等)、序列、基因结构、注释信息(GO、KEGG、IPR、Pfam)、同源物、相关出版物和基因分类(图1E级). 通过点击基因ID、位点、表达和功能研究项目右侧的“jbrowse”、“variations viewer”、“expression”和“functional”按钮(绿色),用户可以切换到显示基因结构(JBrowse2)、变量查看器工具、,空间表达谱和功能研究模块。在基本信息框的底部,我们提供了一个到SilkDB 3.0的链接,用于查看eFP、共同表达、3D、synteny和Hi-C图。在基因分类页面中,基因被分为“核心”(存在于所有基因组中)、“软核心”(在90%以上基因组中存在,但并非全部基因组中存在)、“可有可无”(存在于多个但<90%的基因组中)和“私有”(仅存在于一个基因组中)类别。中间的系统发育树直观地突出显示了包含观察到的基因的基因组,而左边的树显示了家蚕的分类(图1E级). 柱状图和表格显示了中国(CHN-I)和日本(JPN-I)野生家蚕亚群、地方品种和改良品种中基因存在的频率(图1E级).

表达式

mRNA表达谱是基因功能的重要指标。我们收集了1168个转录组(涉及122个生物项目、43个组织和48个发育阶段),并分析了这些样本的FPKM值(每百万映射片段的外显子模型每千碱基片段数)(表1). 在“表达式”模块中,用户可以通过搜索基因ID并选择感兴趣的组织、发育阶段或项目标识符(ID)(图1楼). 在一般基因表达分析中,我们建议用户只选择一个名为“PRJNA559726:时空表达”的项目来研究基因时空表达模式。

变体搜索和基本信息

通过在“变异搜索”模块中搜索基因ID或基因组区域,可以获得SNP、InDels和SV(图1G个). 绘制目标区域中的所有变异和相应的基因组坐标,并将其列在变异搜索框下方的结果表中。用户可以通过单击变体ID访问变体信息页面。本页显示了变异的坐标、基因型、注释信息和等位基因频率(图1G个). 在种群频率部分,我们在中间的系统发育树中突出显示了包含选定变异的样本(左侧的彩色树显示了家蚕分类)(图1G个). 全球种群和亚群(野生、本地、CHN-I和JPN-I)变异的等位基因频率如柱状图和表格所示(图1G个).

基因组浏览器

在“基因组浏览器”模块中,用户可以查阅101个基因组和相应的基因模型。此模块的默认界面是大枣菌株的基因组和基因模型(14). 在大枣基因组页面中,上传了1082个样本的SNPs和InDels,以及545只蚕的SV(图1小时). 用户可以在窗口右侧选择一个或多个样本来查看变化。通过在基因组浏览器中单击其中一个变异,该变异的详细信息,例如位置、基因型、等位基因频率、对相邻基因的潜在影响,将显示在窗口的右侧。之前出版的全长RNA(19)SGID的重复序列显示在基因组浏览器中。此外,piRNA、小RNA、甲基组(亚硫酸氢盐-seq)和ChIP-seq数据也被集成到基因组浏览器中,作为可选的查看路径。

变体查看器

多个样本或组之间变异的对齐和可视化对于提取与感兴趣特征相关的基因和变异至关重要。在SilkMeta中,我们开发了一个名为“变化查看器”的工具,它可以帮助用户以热图的形式可视化和比较样本之间的变化(图1I公司). 在这个模块中,用户可以输入一个或多个样本标识符(他们还可以将这些样本划分为不同的组)并定义感兴趣的基因组区域。输入的样本和基因组区域中的基因模型和变异热图(SNP、InDels和SVs)显示在搜索框下方。热图将显示所提供样本中SNP、InDels和SV的共线坐标和基因型(0/1和1/1分别代表杂合和纯合位点)(图1I公司). 用户可以通过单击垂直线(变体)转到变体信息页面。

选择性扫描

作为唯一完全由人类驯化的昆虫,家蚕是研究昆虫驯化和进化的良好模式。家蚕驯化和育种是家蚕人工选择的两个主要阶段。驯化在本地育种场产生了当地品种,而育种则使培育具有增强商业特性的改良品种成为可能。探索可能在家养和育种过程中发挥作用的基因对进化生物学家和家蚕育种家来说非常重要。在SilkMeta中,“选择性扫描”模块提供了一个交互式界面,使用户能够可视化选择信号的线形图(F类装货单,田岛的D类、π和ROD统计)和每个基因组区域或染色体中的基因模型(图1个月). 用户可以定义一对暴露人群。当古代种群(group1)被定义为野生种群时,后代种群(group2)可以是本地种群或改良种群。另一方面,当旧群体被定义为本地人口时,后代人口可以是改良的JPN-I或CHN-I人口。

突变图谱与功能研究

在长期的家蚕育种过程中,世界各地的家蚕保护机构发现并保存了大约500个表型突变(2). 这些突变体在胚胎(卵)、幼虫、蛹(茧)或成体阶段显示出各种可见的表型,为我们探索昆虫和生物学问题提供了宝贵的材料和捷径。迄今为止,已经在家蚕遗传图谱上绘制了251个突变体(36). 此外,科学家已经确定了68个突变体的具体基因组位置和基因。开发了“突变图”模块,以显示遗传图,其中包括251个突变株的遗传位点,以及68个突变株表型的物理位置、负责基因、出版物和照片(基因符号为红色)。用户可以点击遗传图中的基因符号或在下表中搜索,以检查是否发现了导致突变的基因,并关注家蚕突变株的出版物(图1公里).

除了破译自然突变体外,生物学家还使基因或其表达水平失活或过度表达体内体外利用基因编辑、RNA干扰或转基因技术研究基因功能。我们收集了320篇论文,涉及395项独立的基因功能研究。我们收集了这些研究,并总结了SilkMeta“功能研究”模块中的相关基因、方法、出版物和表型,形成了家蚕功能基因组学研究的文章库。用户可以在该模块中搜索感兴趣的基因,以了解家蚕的基因功能(图1升).

其他工具

SilkMeta提供其他生物信息学工具,如BLAST、序列下载器、引物设计和gRNA设计。在BLAST工具中,有来自101个注释基因组的546个候选基因组、基因和蛋白质序列,以及可以选择作为对象数据库的TE和TF库(图100万). 对于大枣菌株,我们提供了基因组、基因、蛋白质、全长RNA和lncRNA序列的文库。在序列下载工具中,用户可以从给定的基因组区域(546个可选基因组)或请求的基因(101个可选基因)下载核苷酸序列。当用户指示基因ID时,可以下载三种类型的序列:基因区域、扩展基因区域(±2 kb)和CDS(编码序列)(图1牛). 用户还可以使用引物和gRNA设计工具设计引物和cRNA。“帮助”模块包含一份“用户手册”,详细介绍了各种运行过程。

使用SilkMeta的数据挖掘示例

鉴于SilkMeta的表型、多组学数据和工具,用户可以实际使用与表型相关的变异和基因。这里我们介绍两个众所周知的基因,氯化石蜡24(37)和SP1型(38),作为例子,展示如何使用SilkMeta来挖掘基因和变异。详细的分析步骤可以在“帮助”模块的用户手册中找到。

首先突变体(BomM412)是一种具有竹子形状的表型突变(图2年)对紫外线照射敏感(39). 在“突变图”模块中,我们发现该位点位于11号染色体(11–28.8 cM)的28.8厘摩根(cM),接近报道的国防部突变(遗传位点:11–27.4 cM;物理位置:11–12.3 Mb)(图2B型) (36,40). 我们检查了一个400kb的基因组区域国防部在“基因搜索”模块中,确定39个蛋白编码基因为候选人。通过使用“expression”模块检查这些基因的空间表达文件,我们发现其中三个基因,即KWMTBOM06673(CPH34型),KWMTBOM06674(中央处理器25)和KWMTBOM06675(氯化石蜡24)在家蚕幼虫的表皮中特异表达(图2摄氏度-E类). 这个突变显示表皮异常表型,暗示这三个基因在决心。使用“变异查看器”和“变异搜索”模块,我们对CPH34型,中央处理器25氯化石蜡24,正在查找-第二外显子中的特定移码缺失(bomindel3645341)氯化石蜡24(图2楼H(H)). 以前的报告表明氯化石蜡24和bominder345341是突变体(37).

使用SilkMeta提取与Bo(类竹)突变体相关的基因和变异。(A) 野生型对照和Bo突变体的表型。bar=1 cm.(B)家蚕遗传图谱中的Bo基因座。(C) Bo候选基因组区域39个基因的空间表达谱热图。红色方框标记了表皮中特异表达的基因。(D,E)KWMTBOM06673(CPH34)、KWMTBOM36674(CPH25)和KWMTBOM106675(CPH24)在家蚕幼虫的表皮中特异表达。(F) 在Bo突变体(Bom412)的KWMTBOM06675(CPH24)的第二外显子中发现InDel(bomindel3645341)。(G) 变异信息页面显示bomindel3645341,Bo突变体中的5 bp缺失导致CPH24翻译中的帧移位。(H) Bomindel3645341仅出现在Bom412(Bo)中。
图2。

基因提取和变异使用SilkMeta的(竹子状)突变体。(A类)野生型控制和突变体。巴=1厘米(B)家蚕遗传图谱中的位点。(C类)中39个基因的空间表达谱热图候选基因组区域。红色方框标记了表皮中特异表达的基因。(D类,E类)KWMTBOM06673公司(CPH34型),KWMTBOM06674(中央处理器25)和KWMTBOM06675(氯化石蜡24)在家蚕幼虫的表皮中特异表达。(F类)在KWMTBOM06675的第二外显子中发现InDel(bomindel3645341)(氯化石蜡24)的突变体(Bom412)。(G公司)变异信息页面显示bomindel3645341,在在CPH24翻译中引起帧移位的突变体。(H(H))Bomindel3645341仅存在于Bom412中().

其次是与驯化相关的基因,SP1型,影响蚕卵孵化率(38). 孵化卵是一种驯化特性,在B.柑橘比中的B.莫里在SilkMeta中,我们可以检查“选择性扫描”模块中的人工选择性信号。我们在转速1现场(KWMTBOMO13992)(图第3页). 通过在“表达”模块中搜索卵子(或胚胎,卵配子)表达文件,我们发现转速1中的表达式B.柑橘低于中的B.莫里(图3B公司). 此外,通过使用“变异查看器”比较野生和本地蚕的变异,我们确定了野生和本地种群之间存在差异的七个SNP和两个SV(图3C公司). 其中,外显子中的两个SNP分别引起了同义替换和错义突变,而其他变异则发生在内含子、5′UTR(Untranslated Region)、转速1(图三维). 上游SV(bomsv3405859)是一个9718 bp-long的插入物,位于距离转录起始位点60 bp的位置(图三维). 下游SV(bomsv3405860)是一个255 bp的缺失,位于转录终止位点1308 bp处,这表明野生种群和本地蚕之间的频率差异最大(图三维). 这些变化可能会影响转速1表达和价值实验验证。

影响家蚕卵孵化率的驯化相关基因Sp1的数据挖掘。(A) Sp1位点和侧翼区域的选择性扫描信号(FST、π、Tajima的D和ROD统计)。(B) Sp1基因在野蚕中的表达低于家蚕。(C) 野生和本地人群之间Sp1基因组(和侧翼2 kb)区域SNP和SV的比对。红色(1/1)和蓝色(0/1)垂直线代表纯合子和杂合子变异。黄色和红色圆圈与(D)中的圆圈相对应,代表野生和本地家蚕中差异分布的SNP和SV。(D) 在Sp1的外显子、内含子、上游和下游分别发现了7个SNP和2个SV。其中,bomsv3405860的等位基因频率在野生家蚕种群中最高。系统发育树中的红线表示发生变异的样本,而灰色线表示没有变异的样本。Wild代表野生蚕,local代表当地蚕,CHN-I代表中国改良蚕,JPN-I代表日本改良蚕。表中的W频率和L频率分别表示野生和本地种群中变异的等位基因频率。
图3。

数据挖掘转速1家蚕卵孵化率的驯化相关基因。(A类)选择性扫描信号(F类装货单,π,田岛的D类和ROD统计数据)转速1位点和侧翼区域。(B)的表达式转速1基因在B.柑橘(野蚕)比在B.莫里(家蚕)。(C类)基因组(和侧翼2 kb)区域SNP和SV的比对转速1介于野生和当地人口之间。红色(1/1)和蓝色(0/1)垂直线代表纯合子和杂合子变异。黄色和红色圆圈与(D)中的圆圈相对应,代表野生和本地家蚕中差异分布的SNP和SV。(D类)在基因的外显子、内含子、上游和下游发现了7个SNP和2个SV转速1分别为。其中,bomsv3405860的等位基因频率在野生家蚕种群中最高。系统发育树中的红线表示发生变异的样本,而灰色线表示没有变异的样本。Wild代表野生蚕,local代表当地蚕,CHN-I代表中国改良蚕,JPN-I代表日本改良蚕。表中的W频率和L频率分别表示野生和本地种群中变异的等位基因频率。

讨论

目前,庞大的全基因组家蚕数据集为家蚕基因组分析提供了便利,已从单一参考基因组的研究转向多(群体)基因组的比较。基因组多样性的评估已经从基于有限家蚕品系短读的SNP(和InDel)检测扩展到基于大规模家蚕种群长读和短读的全球基因组多样性(包括SNP、InDel和SV)探索。这是理解基因组多样性和破译基因型-表型关系的重要一步。与以前的数据库相比,如KAIKObase(15)、SGID(16),丝绸DB3.0(17)和Silkbase(18)SilkMeta以单个参考基因组为中心,是一个具有以下几个独特功能的综合平台:(i)数百个基因组;(ii)数以千万计的变化;(iii)蚕的特征或表型的记录;(iv)功能研究库和遗传图谱;(v) 丰富的表达谱;(vi)多组学数据收集网站。SilkMeta中的12个功能模块将这些功能联系在一起,并提供数据挖掘工具,从而形成一个用于获取和分析家蚕生物信息的交互式平台。

我们将定期向SilkMeta更新新数据、新组装基因组、转录组和家蚕功能基因组研究进展。我们还计划集成适用于共线性分析和可视化、3D蛋白质结构预测和可视化、数量性状位点(QTL)的表型值以及与调控元件探索相关的数据(例如Chip-seq、ATAC-seq)的工具和功能。简言之,我们的目标是保持并不断改进SilkMeta,以促进蚕科学、昆虫生物学和一般生命科学的研究。

数据可用性

SilkMeta中的所有数据都可以在http://silkmeta.org.cn.

致谢

我们感谢武汉Onemore科技有限公司的齐刘博士及其团队在数据库建设方面的技术支持。

基金

国家自然科学基金项目[31 830 094,U20A2058,32 202 746];MOF和MARA中国农业研究体系[CARS-18-ZJ0102,CARS-18-ZJ1013];重庆市自然科学基金项目[cstc2021jcyj-cxtt0005,cstc2021 jcyj-bshX0014];重庆市博士后科研专项资金[2022CQBSHTB3066]。开放存取费资助:国家自然科学基金项目[31 830 094,U20A2058,32 202 746];MOF和MARA中国农业研究体系[CARS-18-ZJ0102,CARS-18-ZJ1013];重庆市自然科学基金项目[cstc2021jcyj-cxtt0005,cstc2021 jcyj-bshX0014];重庆市博士后研究专项资金【2022CQBSHTB3066】。

利益冲突声明。未声明。

工具书类

1

卡梅塔罗
昆虫杂交研究。I.关于一些家蚕杂交,特别是孟德尔遗传定律
.
牛市。科尔。农业。东京帝国大学。
1906
;
7
:
259
353
.

2

班诺
年。
,
岛田
T。
,
卡久拉
Z.公司。
,
Sezutsu公司
小时。
蚕——日本提供的一种极具吸引力的生物资源
.
实验动画。
2010
;
59
:
139
146
.

三。

卡梅塔罗
T。
家蚕育种方法
.
Sangyo Shimpo公司
.
1906
;
158
:
282
286
.

4

Nagaraju县
日本。
,
拉杰·达塔
R.K公司
家蚕的杂交育种和杂种优势,家蚕:评论
.
丝虫病
.
1996
;
36
:
1
26
.

5

戴蒙
T。
,
小山
T。
,
山本
G.公司。
,
Sezutsu公司
小时。
,
欢乐
C.K.公司。
,
筱田
T。
幼虫蜕皮的数量由毛虫体内的霍克斯控制
.
货币。生物。
2021
;
31
:
884
891
.

6

山口
J。
,
班诺
年。
,
米塔
英国。
,
山本
英国。
,
安藤
T。
,
藤原
小时。
定期重量1蜕皮甾类激素的表达在毛虫上产生双斑点标记
.
国家通讯社。
2013
;
4
:
1857
.

7

用钳子钳起
X.L.公司。
,
汉族
医学博士。
,
英国。
,
泰语
S.S.公司。
,
,
线路接口单元
Y.C.公司。
,
小时。
,
J.H.公司。
,
A.X.公司。
,
詹(音译)
C.Y.公司。
等。
高分辨率家蚕泛基因组为人工选择和生态适应提供了遗传学见解
.
国家通讯社。
2022
;
13
:
5619
.

8

小时。
,
线路接口单元
十、。
,
M。
,
年。
,
L。
,
年。
,
线路接口单元
L。
,
G.公司。
,
小时。
,
答:。
等。
从野生蛾到家蚕的进化之路
.
自然生态。进化。
2018
;
2
:
1268
1279
.

9

问:。
,
年。
,
Z.公司。
,
D。
,
Z.公司。
,
Z.公司。
,
F、。
,
年。
,
D。
,
R。
等。
40个基因组的完全重测序揭示了家蚕的驯化事件和基因(Bombyx公司)
.
科学类
.
2009
;
326
:
433
436
.

10.

威尔金森
机械工程师。
,
弗兰基(Frangieh)
C.J.公司。
,
麦克雷
R.K.(英国)。
,
F、。
启动靶启动逆转录的R2非LTR逆转录转座子的结构
.
科学类
.
2023
;
380
:
301
308
.

11

妈妈
年。
,
斯马格
G.公司。
,
Q.Y.(季度)。
基因组编辑家蚕家蚕功能基因组学和蚕业的新机遇
.
昆虫科学。
2019
;
26
:
964
972
.

12

问:。
,
Z.公司。
,
C。
,
D。
,
F、。
,
B。
,
第页。
,
十、。
,
T。
,
C。
等。
家蚕基因组序列草图(家蚕)
.
科学类
.
2004
;
306
:
1937
1940
.

13

国际家蚕基因组联盟
鳞翅目模式昆虫家蚕的基因组家蚕
.
昆虫生物化学。分子生物学。
2008
;
38
:
1036
1045
.

14

川本
M。
,
朱拉库
答:。
,
丰田章男
答:。
,
横井
英国。
,
Minakuchi公司
年。
,
Katsuma公司
美国。
,
藤山
答:。
,
Kiuchi公司
T。
,
山本
英国。
,
岛田
T。
高质量的家蚕基因组组装,家蚕
.
昆虫生物化学。分子生物学。
2019
;
107
:
53
62
.

15

霜屯
M。
,
米纳米
小时。
,
季继
年。
,
大柳亚吉
小时。
,
佐藤
C。
,
安东尼奥
B。
,
Nagamura村
年。
,
Okuda先生
英国。
,
卡吉瓦拉
小时。
,
Sezutsu公司
小时。
等。
KAIKObase:一个集成的家蚕基因组数据库和数据挖掘工具
.
Bmc基因组学[电子资源]
.
2009
;
10
:
486
.

16

Z.公司。
,
Z.公司。
,
线路接口单元
G.公司。
,
年。
,
Z.公司。
SGID:一个全面的交互式蚕数据库
.
数据库(牛津)
.
2019
;
2019
:
巴西134
.

17

F、。
,
世界环境学会
Z.公司。
,
年。
,
小时。
,
G.公司。
,
问:。
,
年。
SilkDB 3.0:可视化和探索家蚕的多个级别的数据
.
核酸研究。
2020
;
48
:
D749天
D755型
.

18

川本
M。
,
Kiuchi公司
T。
,
Katsuma公司
美国。
SilkBase:一个完整的转录组学和基因组数据库家蚕和相关物种
.
数据库(牛津)
.
2022
;
2022
:
baac040型
.

19

Z.R.公司。
,
J.Y.(纽约)。
,
用钳子钳起
X.L.公司。
,
小时。
,
英国。
,
离岸价。
,
汉族
医学博士。
鳞翅目模式系统中全长转录物和剪接亚型以及转座子外显子的景观
.
桑蚕。前面。遗传学。
2021
;
12
:
704162
.

20

M。
,
J.M.公司。
,
S.G.公司。
,
钢筋混凝土。
,
十、。
,
Y.H.公司。
,
P.W.公司。
,
毛衣
L。
,
太阳
J.C.公司。
基于单细胞RNA测序的家蚕血细胞亚群鉴定及其对杆状病毒感染的反应分析
.
前面。免疫学。
2021
;
12
:
645359
.

21

妈妈
年。
,
W.H.公司。
,
文学士
Y.B.公司。
,
问:。
,
欧点
年。
,
线路接口单元
相对湿度。
,
妈妈
J.W.公司。
,
年。
,
J。
,
H.M.公司。
等。
家蚕产丝器官的单细胞转录组图谱特征
.
国家通讯社。
2022
;
13
:
3316
.

22

基因本体协会
亚历山德
南非。
,
巴尔霍夫
J。
,
美国。
,
樱桃
J.M.公司。
,
德拉布金
H.J.公司。
,
埃伯特
D。
,
富尔曼
M。
,
高德特
第页。
,
哈里斯
不适用。
等。
2023年的基因本体知识库
.
遗传学
.
2023
;
224
:
iyad031型
.

23

卡内希萨
M。
,
古道
M。
,
佐藤
年。
,
Ishiguro-Watanabe公司
M。
,
塔纳比
M。
KEGG:整合病毒和细胞生物
.
核酸研究。
2021
;
49
:
D545型
D551型
.

24

米斯特里
J。
,
丘古兰斯基
美国。
,
威廉姆斯
L。
,
库雷希
M。
,
萨拉查
总会计师。
,
松哈默
有限责任公司。
,
托萨托
S.C.E.公司。
,
圣骑士
L。
,
拉吉
美国。
,
理查森
洛杉矶。
等。
Pfam:2021年蛋白质家族数据库
.
核酸研究。
2021
;
49
:
D412号
D419号
.

25.

Paysan-Lafosse公司
T。
,
布鲁姆
M。
,
丘古兰斯基
美国。
,
格雷戈
T。
,
别针(Pinto)
B.L.公司。
,
萨拉查
总会计师。
,
Bileschi公司
M.L.公司。
,
博克
第页。
,
答:。
,
科尔维尔
L。
等。
2022年的InterPro
.
核酸研究。
2023
;
51
:
D418号
D427号
.

26

卡马乔
C。
,
库卢里斯
G.公司。
,
阿瓦吉安
五、。
,
妈妈
N。
,
帕帕佐普洛斯
J。
,
比勒
英国。
,
麦登
T.L.公司。
BLAST+:体系结构和应用程序
.
BMC生物信息。
2009
;
10
:
421
.

27

埃姆斯
D.M.公司。
,
凯莉
美国。
OrthoFinder:比较基因组学的系统发育直系推断
.
基因组生物学。
2019
;
20
:
238
.

28

田岛
F、。
用DNA多态性检验中性突变假说的统计方法
.
遗传学
.
1989
;
123
:
585
595
.

29

哈德逊
钢筋。
,
斯拉特金
M。
,
麦迪逊
水处理厂。
从DNA序列数据估计基因流水平
.
遗传学
.
1992
;
132
:
583
589
.

30

小时。
,
帕特森
N。
,
帝国
D类
群体分化作为选择性扫描的测试
.
基因组研究。
2010
;
20
:
393
402
.

31

朗米德
B。
,
萨尔茨堡
S.L.公司。
带蝴蝶结2的快速间隙读取对齐
.
自然方法
.
2012
;
9
:
357
359
.

32

小时。
,
手机
B。
,
怀索克
答:。
,
芬内尔
T。
,
J。
,
荷马
N。
,
马思
G.公司。
,
阿贝卡西斯
G.公司。
,
杜宾
R。
基因组项目数据处理
序列对齐/映射格式和SAMtools
.
生物信息学
.
2009
;
25
:
2078
2079
.

33

拉米雷斯
F、。
,
赖安
D.P.公司。
,
咕噜声
B。
,
巴德瓦杰
五、。
,
基尔珀特
F、。
,
里希特
美国科学院。
,
海涅
美国。
,
邓达尔
F、。
,
曼克
T。
deepTools2:用于深度排序数据分析的下一代web服务器
.
核酸研究。
2016
;
44
:
宽160
宽165
.

34

迪什
C。
,
史蒂文斯
G.J.(通用)。
,
P.T.公司。
,
马丁内斯
财政部。
,
赫什伯格
E.A.公司。
,
答:。
,
E。
,
迪代
美国。
,
J.J.公司。
,
C。
等。
JBrowse 2:一个模块化的基因组浏览器,可查看同一性和结构变异
.
基因组生物学。
2023
;
24
:
74
.

35

科雷萨尔
T。
,
雷姆
M。
底漆设计程序Primer3的增强和修改
.
生物信息学
.
2007
;
23
:
1289
1291
.

36

离岸价。
,
用钳子钳起
X.L.公司。
,
C.L.公司。
,
小时。
家蚕的遗传学
.
江苏科技大学中国农业科学院蚕业研究所:中国蚕业科学
.
2020
; 第1版。
中国上海
上海科技出版社
265
309
.

37

G.公司。
,
用钳子钳起
十、。
,
T。
,
C。
,
L。
,
蒙泰罗
答:。
,
小时。
,
汉族
M。
,
十、。
,
美国。
等。
一种新的角质蛋白影响家蚕幼虫的体型和颜色
.
遗传学
.
2017
;
207
:
1053
1066
.

38

Y.编号。
,
L.Z.有限责任公司。
,
C.C.公司。
,
年。
,
M。
,
是的。
,
相对湿度。
,
W。
,
小时。
人工选择贮藏蛋白1可能有助于提高家蚕驯化过程中的孵化率
.
公共科学图书馆-遗传学。
2019
;
15
:
电子1007616
.

39

G.公司。
,
用钳子钳起
X.L.公司。
,
雁鸣声
Z.W.公司。
,
小时。
,
X.H.公司。
,
C.L.公司。
,
汉族
医学博士。
,
C。
,
离岸价。
毛皮蛋白缺陷型竹突变体家蚕对环境压力敏感
.
有害的。生物化学。物理学。
2018
;
148
:
111
115
.

40

戴蒙
T。
,
小崎
T。
,
丹羽
R。
,
小林寺
一、。
,
古田
英国。
,
并木
T。
,
内野
英国。
,
班诺
年。
,
Katsuma公司
美国。
,
塔穆拉
T。
等。
家蚕幼年激素缺乏突变体的早熟变态,家蚕
.
公共科学图书馆-遗传学。
2012
;
8
:
e1002486号
.

作者注释

作者希望大家知道,在他们看来,前三位作者应被视为联合第一作者。

这是一篇根据知识共享署名-非商业许可条款发布的开放存取文章(https://creativecommons.org/licenses/by-nc/4.0/)它允许在任何媒体上进行非商业性重复使用、分发和复制,前提是正确引用了原始作品。如需商业再使用,请联系journals.permissions@oup.com

评论

0条评论
提交评论
您输入了无效代码
感谢您对本文发表评论。您的评论将由杂志自行审查并发表。请通过电子邮件查看更多通知。