摘要

苏斯克罗法或者说猪是几千年前被驯化的。通过各种本土品种,产生了不同的表型,如中国近交小型猪或五指山猪(WZSP),广泛应用于生命科学和医学领域。2012年对WZSP的全基因组进行了测序。通过对猪碳酸酐酶(CA)序列的生物信息学研究,我们在数据库中注释的WZSP CA中检测到一些β和γ类CA,而脊椎动物中以前没有描述过β或γ类CA。这一发现促使我们分析WZSP全基因组序列的质量,以确定可能的细菌污染。在本研究中,我们使用了生物信息学方法和网络工具,如UniProt、欧洲生物信息学研究所、国家生物技术信息中心、集成基因组浏览器、集成细菌、RSCB PDB和假单胞菌属基因组数据库。我们的分析确定猪有12个经典α-CA和3个CA相关蛋白。同时,证实WZSP中检测到的CA属于β-和γ-CA家族,属于假单胞菌属spp.和不动杆菌蛋白质结构研究表明,WZSP中鉴定的β-CA序列属于铜绿假单胞菌PDB ID:5JJ8,从WZSP鉴定的γ-CA序列属于铜绿假单胞菌PDB ID:3PMO。生物信息学和计算方法以及细菌特异性标记,如16S rRNA和β和γ类CA序列,可用于识别哺乳动物DNA样本中的细菌污染。

介绍

猪(苏斯克罗法)大约10000年前,它们通过人工和自然选择在亚洲和欧洲的多个地理区域驯化。特别是在作为主要中心之一的中国,驯化创造了许多具有不同表型的本土品种,包括高原型、长江下游流域型、西南型和华北型(1–3). 猪模型和小型猪品种的全基因组序列(WGS)在生物医学研究中非常重要,例如产生猪诱导的多能干细胞,用于治疗人类疾病,包括糖尿病和癌症,以及眼、神经变性和心血管疾病(4,5).

五指山猪(WZSP)是一种中国近交小型猪,具有体型小、体重约30kg、纯合子、遗传稳定性好、可预测性好等特点体内研究(6). WZSP于1987年由中国农业科学院动物科学研究所开发。等。2012年执行了WZSP的WGS,定义了从220万拷贝(基因组的12.4%)的转移RNA中高水平衍生转座子(7). 此外,在WZSP的基因组中发现了许多人类基因和有效药物靶点。WZSP的WGS由北京基因组研究所的研究人员完成,为该小型猪模型在生物、医学和兽医研究中的应用提供了关键数据。

WZSP的基因组包含猪内源性逆转录病毒(PERV),可在生殖系中传播并感染人类细胞,导致严重的联合免疫缺陷(8). 因此,PERV被认为是WZSP等转基因猪向人类异种器官移植的巨大潜在风险。

碳酸酐酶(CA)是一种普遍存在的酶,在催化CO水合反应的酶活性部位含有锌、铁、钴或镉等金属辅因子2至HCO和H+用于pH稳态,并在许多生物化学途径和生理功能中发挥关键作用(9,10). CA被分为八个进化上不同的家族,包括α、β、γ、δ、ζ、η、θ和∏(11–14). α-CA存在于许多原核生物和真核生物中(15,16). 哺乳动物中有13种α-CA同工酶,其中12种存在于人类中,包括CA I–IV、CA VA和VB、CA VI、CA VII、CA IX和CA XII–XIV。CA XV存在于几种脊椎动物中,但至少黑猩猩和人类除外(17). 此外,有报道称存在三种非催化CA相关蛋白(CARP),包括CARP VIII、CARP X和CARP XI,这些高度保守的蛋白似乎发挥着关键的生物学作用(18–22). 尽管在一些原核生物和真核生物中已经报道了β-和γ-CA,但没有报告显示脊椎动物中存在β-或γ-CA(23,24).

Ensembl Genome Browser等数据库包含大量脊椎动物基因组数据资源,以支持进化和计算生物学等各个领域的相关研究,这些领域与WGS、脊椎动物基因表达研究和编码蛋白分析相关(25). 由于真核核酸样品受到真核宿主环境微生物群和正常菌群的细菌污染,原核生物中的一些污染基因和蛋白质序列在数据库中被错误地注释为真核生物(26).

在本研究中,我们使用β-γ-CA通过生物信息学和数据挖掘方法将基因序列作为标记。

方法

CA的识别斯克罗法链球菌

鉴定CA同工酶的基因组学和蛋白质组学信息斯克罗法链球菌,国家生物技术信息中心(NCBI)数据库(https://www.ncbi.nlm.nih.gov/) (27)用于确定相应基因的染色体位置和外显子计数。此外,UniProt数据库中的数据(https://www.uniprot.org/) (28)用于定义CA同工酶的亚细胞定位S.scrofa公司。

β-和γ-CA序列分析

在该分析中,β-CA蛋白序列来自醋酸杆菌(UniProt ID:A0A1U9KGA1)和γ-CA蛋白序列福氏志贺氏菌(UniProt ID:P0A9X0)用作查询序列。使用Ensemble Genome Browser的BLAST算法对β-和γ-CA查询序列进行基本局部比对搜索工具(BLAST)分析(https://asia.ensembl.org/index.html) (25). 为了在BLAST分析中找到相似的序列,Pig-Wuzhishan(组装:minipig_v1.0;加入:GCA_002844635.1;基因构建发布:2019年9月)由物种选择器部分选择,并使用灵敏度正常的TBLASTN搜索工具通过蛋白质查询搜索翻译的核苷酸数据库。在下一步中,使用UniProt数据库的BLAST同源搜索工具分析WZSP的已定义β-和γ-CA蛋白序列。在最后一步中,使用欧洲生物信息学研究所数据库的Clustal Omega算法,对本评估中涉及的所有β-和γ-CA蛋白序列进行多序列比对(MSA)分析(https://www.ebi.ac.uk/Tools/msa/clustalo网站/) (29). 为了减少蛋白质序列的大小和MSA分析的输出数字,分别选择了含有酶活性位点的β-和γ-CA蛋白质序列的69和60个氨基酸序列。

细菌污染物中β-和γ-CA序列的基因组分析

β-CAs和γ-CAs的编码基因假单胞菌属使用BLASTP搜索工具在假单胞菌属基因组数据库,版本20.2(https://www.pseudomonas.com/) (30)使用1e-4作为默认值截止。此外,β-和γ-CA的编码基因来自不动杆菌Ensemble细菌数据库分析了作为另一种潜在污染物的spp(http://bactera.ensembl.org/index.html) (31).

蛋白质结构分析

RCSB蛋白质数据库(PDB)分析了来自细菌污染物的四个β-CA蛋白序列,包括UniProt ID:A0A0Q8Y2C1、A0A4R3W4C9、A0A656JXK1和A0A062C2I7,以及来自细菌污染物(包括UniProt ID:A0A4R5W1J2、A0A125QD08、A0A4R3W9L6、A0A2N1E8I6、A0A0A062BNN8和A0A419V156)的六个γ-CA蛋白质序列(https://www.rcsb.org/) (32)确定与查询细菌污染物的β-和γ-CA蛋白序列最相似的结晶和3D模型蛋白。

结果

α-CA的鉴定斯克罗法链球菌

该分析确定了12种α-CA同工酶,包括CA I–IV、CA VA和VB、CA VI、CA VII、CA IX和CA XII–XIV,以及3种CARP,包括CARP VIII、CARP X和CARP XI斯克罗法链球菌结果表明,1号染色体含有CA IX和CA XII的编码基因;第4染色体包含CA I–III、CA XIII、CAXIV和CARP VIII的编码基因;第6染色体包含CA VA、CA VI、CA VII和CARP XI的编码基因;第12染色体包含CA IV和CARP X的编码基因,第X染色体包含CA VB的编码基因斯克罗法链球菌预测CA I–III、CA VII、CA XIII和CARP VIII是细胞质的;CA VA和CA VB为线粒体;CA VI、CARP X和CARP XI为分泌型;CA IX、CA XII和CA XIV是跨膜的,CA IV是膜结合的(表1).

表1。

α-CA来自斯克罗法链球菌

α-CAUniProt IDNCBI标识基因定位外显子计数亚细胞定位
加利福尼亚州IA0A287AI92型XP_00192428.1号染色体47细胞质的
加利福尼亚州IIA0A287B6M0型XP_001927840.1号染色体47细胞质的
CA III公司A0A4X1UEH4型NP_001008688.1号染色体47细胞质的
卡IVF1S1C3型NP_001230849.1号12号染色体8膜结合
加利福尼亚州弗吉尼亚州A0A5G2QRM5型XP_020949335.1号染色体613线粒体
CA VB公司F1SQS9型XP_005673507.1号X染色体9线粒体
CA VI公司F1RIH8型NP_001137588.1号染色体68秘书
CA VII公司A0A286ZZG4型支出_020949678.1染色体68细胞质的
CA九A0A5G2QGY0型XP_001925555.2号染色体112跨膜
CA XII公司F1S092层XP_020949824.1号染色体111跨膜
CA十三A0A287ASJ5型XP_001924497.3号染色体49细胞质
CA十四A0A287B0I5型XP_020945576.1号染色体49跨膜
CARP八A0A287BFY8型XP_020944998.1号染色体410细胞质的
鲤鱼XA0A480LJN7型XP_020922898.1号12号染色体11秘书
CARP十一A0A4X1VZX6型XP_005664726.1号染色体69秘书
α-CAUniProt IDNCBI ID基因定位外显子计数亚细胞定位
加利福尼亚州IA0A287AI92型XP_00192428.1号染色体47细胞质的
加利福尼亚州IIa0a287b6百万XP_001927840.1号染色体47细胞质的
CA III公司A0A4X1UEH4型NP_001008688.1号染色体47细胞质的
CA四F1S1C3型NP_001230849.1号12号染色体8膜结合
加利福尼亚州弗吉尼亚州A0A5G2QRM5型XP_020949335.1号染色体613线粒体
CA VB公司F1SQS9型XP_005673507.1号X染色体9线粒体
CA VI公司F1RIH8型NP_001137588.1号染色体68分泌的
CA VII公司A0A286ZZG4型XP_020949678.1号染色体68细胞质的
CA九A0A5G2QGY0型XP_001925555.2号染色体112跨膜
CA XII公司F1S092层XP_020949824.1号染色体111跨膜
CA十三A0A287ASJ5型XP_001924497.3号染色体49细胞质
CA十四A0A287B0I5型电话_020945576.1染色体49跨膜
CARP八A0A287BFY8型XP_020944998.1号染色体410细胞质的
CARP X公司A0A480LJN7型XP_020922898.1号12号染色体11秘书
CARP十一A0A4X1VZX6型XP_005664726.1号染色体69秘书
表1。

α-CA来自斯克罗法链球菌

α-CAUniProt IDNCBI标识基因定位外显子计数亚细胞定位
加利福尼亚州IA0A287AI92型XP_00192428.1号染色体47细胞质的
加利福尼亚州IIA0A287B6M0型XP_001927840.1号染色体47细胞质的
CA III公司A0A4X1UEH4型NP_001008688.1号染色体47细胞质的
CA四F1S1C3NP_001230849.1号12号染色体8膜结合
加利福尼亚州弗吉尼亚州A0A5G2QRM5型XP_020949335.1号染色体613线粒体
计算机辅助语言F1SQS9型XP_005673507.1号X染色体9线粒体
CA VI公司F1RIH8型NP_001137588.1号染色体68秘书
CA VII公司A0A286ZZG4型XP_020949678.1号染色体68细胞质的
CA九A0A5G2QGY0型XP_001925555.2号染色体112跨膜
CA XII公司F1S092层XP_020949824.1号染色体111跨膜
CA十三a0a287作为j5XP_001924497.3号染色体49细胞质
CA十四A0A287B0I5型XP_020945576.1号染色体49跨膜
CARP八A0A287BFY8型XP_020944998.1号染色体410细胞质的
CARP X公司a0a480升7XP_020922898.1号12号染色体11秘书
CARP十一A0A4X1VZX6型XP_005664726.1号染色体69分泌的
α-CAUniProt IDNCBI标识基因定位外显子计数亚细胞定位
加利福尼亚州IA0A287AI92型XP_00192428.1号染色体47细胞质的
加利福尼亚州IIA0A287B6M0型XP_001927840.1号染色体47细胞质的
CA III公司A0A4X1UEH4型NP_001008688.1号染色体47细胞质的
CA四F1S1C3型NP_001230849.1号12号染色体8膜结合
卡-瓦A0A5G2QRM5型XP_020949335.1号染色体613线粒体
CA VB公司F1SQS9型XP_005673507.1号X染色体9线粒体
CA VI公司F1RIH8型NP_001137588.1号染色体68秘书
卡VIIA0A286ZZG4型XP_020949678.1号染色体68细胞质的
CA九A0A5G2QGY0型XP_001925555.2号染色体112跨膜
第十二章F1S092层XP_020949824.1号染色体111跨膜
CA十三A0A287ASJ5型XP_001924497.3号染色体49细胞质
CA十四A0A287B0I5型XP_020945576.1号染色体49跨膜
CARP八A0A287BFY8型XP_020944998.1号染色体410细胞质的
CARP X公司A0A480LJN7型XP_020922898.1号12号染色体11秘书
鲤鱼XIA0A4X1VZX6型XP_005664726.1号染色体69秘书

β-和γ-CA序列分析

预测的WZSP CA序列的BLAST同源性分析首次从A.aceti公司和γ-CA序列痢疾志贺菌WZSP的β-CA和γ-CA序列的更详细BLAST同源性分析显示,与来自假单胞菌属spp.和不动杆菌为了证实所定义序列的同一性,β-CA序列的MSA显示了五种高度保守的氨基酸,包括半胱氨酸、天冬氨酸、精氨酸(CXDXR)和组氨酸和半胱氨酸(HXXC),这是已知的β-CA酶的特征。类似地,预测的γ-CA序列显示了γ-CA的四个高度保守的氨基酸特征,包括谷氨酰胺和组氨酸(QXXXXXH)以及两个组氨酸(HXXXXH)(表2;图1).

表2。

WZSP的β-和γ-CA序列列表与细菌的对应序列具有100%的一致性

TBLASTN结果
CA系列CA查询(UniProt ID)WZSP CA(Ensmbl基因组定位)长度(氨基酸)ID(%)细菌(UniProt ID)E类-价值ID(%)RSCB PDB 3D模型
β-CA醋酸杆菌(A0A1U9KGA1)业务连续性评估1AJKK01119664:532–114922246.40假单胞菌属sp.(A0A0Q8Y2C1)第7e-59页1005JJ8型
BCA2公司KQ002894:52 809–53 450号20352.22假单胞菌属(A0A4R3W4C9)2e-64页100
业务连续性分析3AJKK01121845:27–38010936.70丁香假单胞菌(A0A656JXK1)第5e-12页100
业务连续性4AJKK01117230:2023–260717626.14不动杆菌sp.(A0A062C2I7)2009年1月100
γ-CA福氏志贺氏菌(P0A9X0)GCA1型KQ002894:61 481–62 00517560.57假单胞菌属sp.(A0A4R3W1J2)6e-71号1003PMO公司
通用条款A2邮编01118454:663–119017661.36荧光假单胞菌(A0A125QD08)1e-71100
GCA3公司KQ002836:4671–511415538.06假单胞菌属(A0A4R3W9L6)2e-28号100
一般合同A4AJKK01180312:124-55815237.50荧光假单胞菌(A0A2N1E8I6)9e-27号100
通用条款5AJKK01118286:1328–175615035.33不动杆菌sp.(A0A062BNN8)3e-25号机组100
GCA6类AJKK01161219:1382–171411934.45合生假单胞菌(A0A419V156)2e-13号机组100
TBLASTN结果
CA系列CA查询(UniProt ID)WZSP CA(Ensmbl基因组定位)长度(氨基酸)ID(%)细菌(UniProt ID)E类-价值ID(%)RSCB PDB 3D模型
β-CA醋酸杆菌(A0A1U9KGA1)业务连续性评估1邮编:01119664:532–114922246.40假单胞菌属sp.(A0A0Q8Y2C1)第7e-59页1005JJ8型
BCA2公司KQ002894:52 809–53 450号20352.22假单胞菌属(A0A4R3W4C9)2e-64页100
业务连续性分析3AJKK01121845:27–38010936.70丁香假单胞菌(A0A656JXK1)第5e-12页100
业务连续性4AJKK01117230:2023–260717626.14不动杆菌sp.(A0A062C2I7)2009年1月100
γ-钙福氏志贺氏菌(P0A9X0)通用条款A1KQ002894:61 481–62 00517560.57假单胞菌属sp.(A0A4R3W1J2)6e-71号1003PMO公司
通用条款A2AJKK01118454:663–119017661.36荧光假单胞菌(2008年第0季度第125季度)1e-71100
GCA3公司KQ002836:4671–511415538.06假单胞菌属(A0A4R3W9L6)2e-28号100
全球气候变化框架4AJKK01180312:124-55815237.50荧光假单胞菌(A0A2N1E8I6)9e-27号100
通用条款5AJKK01118286:1328–175615035.33不动杆菌sp.(A0A062BNN8)3e-25号机组100
GCA6类AJKK01161219:1382–171411934.45合生假单胞菌(A0A419V156)2e-13号机组100
表2。

WZSP的β-和γ-CA序列列表与细菌的对应序列具有100%的一致性

TBLASTN结果
CA系列CA查询(UniProt ID)WZSP CA(Enmbl基因组定位)长度(氨基酸)ID(%)细菌(UniProt ID)E类-价值ID(%)RSCB PDB 3D模型
β-CA醋酸杆菌(A0A1U9KGA1)业务连续性评估1AJKK01119664:532–114922246.40假单胞菌属sp.(A0A0Q8Y2C1)第7e-59页1005JJ8型
BCA2公司KQ002894:52 809–53 450号20352.22假单胞菌属sp.(A0A4R3W4C9)2e-64页100
业务连续性分析3AJKK01121845:27–38010936.70丁香假单胞菌(A0A656JXK1)第5e-12页100
业务连续性4AJKK01117230:2023–260717626.14不动杆菌sp.(A0A062C2I7)2009年1月100
γ-CA福氏志贺氏菌(P0A9X0)通用条款A1KQ002894:61 481–62 00517560.57假单胞菌属sp.(A0A4R3W1J2)6e-71号1003PMO公司
GCA2型AJKK01118454:663–119017661.36荧光假单胞菌(A0A125QD08)1e-71100
GCA3公司KQ002836:4671–511415538.06假单胞菌属(A0A4R3W9L6)2e-28号100
一般合同A4邮编01180312:124–55815237.50荧光假单胞菌(A0A2N1E8I6)9e-27号100
通用条款5AJKK01118286:1328–175615035.33不动杆菌sp.(A0A062BNN8)3e-25号机组100
GCA6类AJKK01161219:1382–171411934.45合生假单胞菌(A0A419V156)2e-13号机组100
TBLASTN结果
CA系列CA查询(UniProt ID)WZSP CA(Ensmbl基因组定位)长度(氨基酸)ID(%)细菌(UniProt ID)E类-价值ID(%)RSCB PDB 3D模型
β-CA醋酸杆菌(A0A1U9KGA1)十亿立方厘米1AJKK01119664:532–114922246.40假单胞菌属sp.(A0A0Q8Y2C1)第7e-59页1005JJ8型
BCA2公司KQ002894:52 809–53 450号20352.22假单胞菌属(A0A4R3W4C9)2e-64页100
立方厘米3AJKK01121845:27–38010936.70丁香假单胞菌(A0A656JXK1)第5e-12页100
业务连续性4AJKK01117230:2023–260717626.14不动杆菌sp.(A0A062C2I7)2009年1月100
γ-CA福氏志贺氏菌(P0A9X0)通用条款A1KQ002894:61 481–62 00517560.57假单胞菌属sp.(A0A4R3W1J2)6e-71号1003PMO公司
通用条款A2AJKK01118454:663–119017661.36荧光假单胞菌(A0A125QD08)1e-71100
GCA3公司KQ002836:4671–511415538.06假单胞菌属(A0A4R3W9L6)第2页至第28页100
一般合同A4AJKK01180312:124-55815237.50荧光假单胞菌(A0A2N1E8I6)9e-27号100
通用条款5AJKK01118286:1328–175615035.33不动杆菌sp.(A0A062BNN8)3e-25号机组100
全球气候变化框架6AJKK01161219:1382–171411934.45合生假单胞菌(A0A419V156)2e-13号机组100
β-和γ-CA序列的多序列比对(MSA)。(A) β-CA序列的MSA显示高度保守的青色氨基酸;(B) γ-CA序列的MSA显示高度保守的黄色氨基酸。
图1。

β-和γ-CA序列的多序列比对(MSA)。(A) β-CA序列的MSA显示出高度保守的青色氨基酸;(B) γ-CA序列的MSA显示高度保守的黄色氨基酸。

细菌污染物中β-和γ-CA序列的基因组分析

分析表明β-γ-CA来自假定细菌污染物的基因位于假单胞菌属spp.和不动杆菌进一步评估显示,所有来自假定细菌污染物的编码β-和γ-CA可能都是细胞质蛋白(图2-4).

假单胞菌相关假定污染物中β-CA序列的基因组分析。分析显示存在来自(A)假单胞杆菌属(UniProt ID:A0A0Q8Y2C1)、(B)假单孢菌属LP_8_YM(UniProt ID:A0A4R3W4C9)和(C)丁香假单胞病毒的β-CA编码基因。猕猴桃ICMP 19096(UniProt ID:A0A656JXK1)。
图2。

与之相关的潜在污染物β-CA序列的基因组分析假单胞菌属分析显示存在来自(A)的β-CA编码基因假单胞菌属sp.(UniProt ID:A0A0Q8Y2C1),(B)假单胞菌属sp.LP_8_YM(UniProt ID:A0A4R3W4C9)和(C)丁香假单胞菌光伏。猕猴桃ICMP 19096(UniProt ID:A0A656JXK1)。

来自与假单胞菌相关的假定污染物的γ-CA序列的基因组分析。该分析显示存在来自(A)假单胞菌LP_8_YM(UniProt ID:A0A4R3W1J2)、(B)荧光假单胞菌(UniProt ID:A0A125QD08)、(C)假单胞菌LP_8_YM(UniProt ID:A0A4R3W9L6)、(D)荧光假单胞菌(UniProt ID:A0A2N1E8I6)和(E)合生假单胞杆菌(UniProt ID:A0A419V156)。
图3。

与之相关的假定污染物γ-CA序列的基因组分析假单胞菌属分析显示存在来自(A)的γ-CA编码基因假单胞菌属sp.LP_8_YM(UniProt ID:A0A4R3W1J2),(B)荧光假单胞菌(UniProt ID:A0A125QD08),(C)假单胞菌属sp.LP_8_YM(UniProt ID:A0A4R3W9L6),(D)荧光假单胞菌(UniProt ID:A0A2N1E8I6)和(E)合生假单胞菌(UniProt ID:A0A419V156)。

对与不动杆菌属相关的假定污染物的β-和γ-CA序列进行基因组分析。分析表明,不动杆菌科263903-1(UniProt ID:A0A062C2I7)的(A)β-CA和不动杆菌科263903-(UniProt:A0A062 BNN8)的(B)γ-CA的编码基因存在。
图4。

β-和γ-CA序列的基因组分析不动杆菌spp.分析显示存在来自不动杆菌sp.263903-1(UniProt ID:A0A062C2I7)和(B)γ-CA来自不动杆菌sp.263903-1(UniProt ID:A0A062BNN8)。

蛋白质结构分析

结晶β-和γ-CA蛋白结构的3D模型与本研究中描述的细菌污染蛋白最为相似,在RSCB PDB数据库的NGL(WebGL)查看器中可视化(登录代码5JJ8和3PMO)(图5). 细菌β-和γ-CA蛋白的可视化图像分别显示了β-CA蛋白典型的同二聚体和同三聚体结构(33).

细菌污染物中β-和γ-CA蛋白序列的蛋白质结构分析。(A) 登录ID:5JJ8晶体结构属于铜绿假单胞菌的β-CA,(B)登录ID:3PMO晶体结构属于绿假单孢菌的γ-CA。A和B是从PDB数据库中获得的,它们分别是与细菌污染物中的β-和γ-CA最相似的结晶结构。
图5。

细菌污染物中β-和γ-CA蛋白序列的蛋白质结构分析。(A) 检索ID:5JJ8晶体结构属于β-CA铜绿假单胞菌,和(B)接入ID:3PMO晶体结构属于γ-CA铜绿假单胞菌A和B是从PDB数据库中获得的,它们分别是与细菌污染物中的β-和γ-CA最相似的结晶结构。

讨论

α-CA被经典地认为是脊椎动物中唯一的CA家族。根据这些观察结果,我们的研究表明斯克罗法链球菌有12个α-CA同工酶和3个与人类相似的CARP(26). 这些α-CA具有与人类酶一致的亚细胞定位,包括细胞质CA I–III、CA VII、CARP VIII和CA XIII;膜结合CA IV;线粒体CA VA和CA VB;分泌型CA VI、CARP X和CARP XI;和跨膜CA IX、CA XII和CA XIV(15).

令人惊讶的是,我们使用查询细菌β-和γ-CA序列进行的第一次研究分析在WZSP中检测到了对应的CA序列,事实上,MSA分析证实这些序列属于β-和β-CA家族。WZSP中已鉴定的β-和γ-CA的BLAST搜索同源性分析显示与来自假单胞菌属spp.和不动杆菌此外,通过假单胞菌属基因组数据库和Ensembl细菌数据库显示存在相应的β-γ-CA基因组中的基因假单胞菌属spp.和不动杆菌具有编码CA的细胞质亚细胞定位。

先前的研究表明,宿主肠道相关菌群和环境微生物群,例如空气中的微生物,以及用于DNA分离的设备和溶液的细菌污染,都可能代表鸟枪宏基因组测序样品的潜在干扰物质和污染源,导致假阳性结果(34–36). 出于类似的原因,WZSP用于WGS项目的分离DNA样本很可能被假单胞菌目的细菌成员污染,包括假单胞菌属spp.和不动杆菌spp.,从而在S.scrofa公司此外,通过对细菌污染物中β-和γ-CA序列的蛋白质结构建模进行进一步分析,发现污染物中的β-CA序列与细菌污染物中的5JJ8晶体结构相似铜绿假单胞菌污染物中的γ-CA序列与来自铜绿假单胞菌,这两项都证实细菌污染物的β-和γ-CA序列属于假单胞菌序列。

在DNA-Seq和RNA-Seq项目中,有不同的管道用于基因组读取的去污,例如分层聚类算法(37)、RapMap(38),去污矿工(39),测序质量评估工具或SQUAT(40)、地图引导脚手架或MaGuS(41)和海怪2(42),可以提高基因组样本的质量。无DNA试剂和试剂盒用于减少测序项目中的细菌污染(43). 测序方案中每一步的内部控制都可以检测到外源DNA或RNA的微量片段,以降低细菌污染的风险(44). 然而,我们的结果表明,由于微生物污染,基因组数据库中的序列确实包含不正确的序列,这突出表明需要高质量的内部控制和生物化。

结论

除了上述用于检测动物WGS项目中细菌污染的方法外,生物信息学和计算方法以及细菌特异性标记,如CA序列,可以通过在数据库中实施生物化来检测和降低WGS项目中的微生物污染风险。在鸟枪基因组项目期间,重要的是控制短尺寸文库、contigs和支架的质量,并对溶液、试剂和设备进行内部检查。这可以降低数据库中错误DNA和蛋白质序列注释的风险。

致谢

我们感谢伊朗伊斯兰共和国国家遗传工程和生物技术研究所(NIGEB)为开展本研究准备了条件。没有资助组织在研究设计中发挥任何作用;收集、分析或解释数据;撰写手稿时;也不包括公布结果的决定。

基金

伊朗伊斯兰共和国国家遗传工程和生物技术研究所(NIGEB)(致R.Z.E.)。

作者贡献

所有作者都参与了该研究的设计。R.Z.E.和S.P.设计了这项研究。R.Z.E.进行了检测α-、β-和γ-CA序列的搜索,进行了生物信息学和计算生物学研究,并起草了初稿。S.N.H.参与了数字的艺术准备,并准备了提交给期刊的手稿。所有作者都参与了进一步版本的写作,并阅读和批准了最终手稿。

利益冲突。

提交人声明他们没有利益冲突。

工具书类

1

拉尔森
G.公司。
等(
2010
)
现代和古代DNA揭示的东亚猪驯化、迁徙和周转模式
.
程序。国家。阿卡德。科学。美国。
,
107
,
7686
7691
.

2

用钳子钳起
十、。
等(
2020
)
全基因组序列分析揭示了中国地方猪的遗传结构和X染色体单倍型结构
.
科学。代表。
,
10
, 9433.

三。

哈伯斯
H。
等(
2020
)
利用野猪模型研究圈养和驯化对四肢骨皮质形态的影响
.
科学。代表。
,
10
, 19070.

4

埃斯特班
文学硕士。
等(
2009
)
西藏小型猪诱导多能干细胞系的产生
.
生物学杂志。化学。
,
284
,
17634
17640
.

5

G.公司。
库斯
W.A.公司。
(
2014
)
用于生物医学研究的基因工程猪模型的研究进展
.
比奥雷斯。开放式访问
,
,
255
264
.

6

L。
等(
2019
)
基因组分析揭示了近交猪纯合子和杂合子的特定模式
.
动物(巴塞尔)
,
9
.

7

十、。
等人(
2012
)
中国猪基因组序列分析
.
Gigascience公司
,
1
, 16.

8

妈妈
Y。
等(
2010
)
中国五指山小型猪自交系猪内源性逆转录病毒全长前病毒DNA的鉴定
.
公司。免疫学。微生物。感染。数字化信息系统。
,
33
,
323
331
.

9

佐尔法哈里·埃马梅(Zolfaghari Emameh)
R。
等(
2016
)
基于β-碳酸酐酶基因组序列的旋毛虫创新分子诊断
.
微量。生物技术。
,
9
,
172
179
.

10

佐尔法哈里·埃马梅(Zolfaghari Emameh)
R。
等(
2016
)
线虫碳酸酐酶的鉴定和抑制
.
《酶杂志》。吸入。医药化学。
,
31
,
176
184
.

11

德尔普雷特
美国。
等(
2014
)
疟疾病原体恶性疟原虫中一个新的碳酸酐酶家族的发现——eta-carbonic脱水酶
.
生物有机医药化学。莱特。
,
24
,
4389
4396
.

12

基库塔尼
美国。
等人(
2016
)
对海洋硅藻三角褐指藻生长和光合作用至关重要的类囊体管腔θ-碳酸酐酶
.
程序。国家。阿卡德。科学。美国。
,
113
,
9828
9833
.

13

延森
E.L.公司。
等(
2019
)
海洋浮游植物碳酸酐酶的一个新的广泛亚类
.
ISME期刊。
,
13
,
2094
2106
.

14.

德尔普雷特
美国。
等(
2020
)
细菌物碳酸酐酶:一种在革兰阴性细菌区域伯克霍尔德菌基因组中发现的新活性碳酸酐酶
.
《酶杂志》。Inhib公司。医药化学。
,
35
,
1060
1068
.

15

佐尔法哈里·埃马梅(Zolfaghari Emameh)
R。
等(
2014
)
原生动物和后生动物β-碳酸酐酶序列的生物信息学分析
.
帕拉西特。矢量
,
7
, 38.

16

佐尔法哈里·埃马梅(Zolfaghari Emameh)
R。
等人(
2014
)
β-碳酸酐酶:农牧业杀虫剂和抗寄生虫剂的新靶点
.
帕拉西特。矢量
,
7
, 403.

17

希尔沃
米。
等(
2005
)
新型GPI锚定碳酸酐酶CA-XV的表征
.
生物化学。J。
,
392
,
83
92
.

18

阿斯帕特瓦尔
答:。
等(
2015
)
ca10a和ca10b基因失活导致斑马鱼胚胎发育异常并改变运动模式
.
公共科学图书馆一号
,
10
,e0134263。

19

斯泰屈
F.H.公司。
等(
2017
)
碳酸酐酶相关蛋白CA10是一种进化上保守的泛素配体
.
程序。国家。阿卡德。科学。美国。
,
114
,
E1253号
图1262
.

20

卡加里南
S.L.公司。
等(
2018
)
星形细胞瘤和少突胶质细胞瘤中碳酸酐酶相关蛋白的表达
.
BMC癌症
,
18
, 584.

21

天冬氨酸
答:。
,
托尔瓦宁
机械工程师。
帕尔基拉
美国。
(
2013
)
碳酸酐酶相关蛋白VIII、X和XI的研究进展
.
《酶杂志》。吸入。医药化学。
,
28
,
1129
1142
.

22

卓萨派提
五、。
等(
2016
)
重组人碳酸酐酶XIV的纯化、酶活性及抑制剂的发现
.
生物技术杂志。
,
240
,
31
42
.

23

佐尔法哈里·埃马梅(Zolfaghari Emameh)
R。
等(
2016
)
β-碳酸酐酶基因从原核生物向原生动物、昆虫和线虫的水平转移
.
Parasit矢量
,
9
, 152.

24

佐尔法哈里·埃马梅(Zolfaghari Emameh)
R。
等(
2018
)
β-碳酸酐酶基因参与细菌基因组岛及其向原生生物的水平转移
.
申请。环境。微生物。
,
84
.

25

耶茨
公元
等(
2020
)
2020年合奏
.
核酸研究。
,
48
,
D682型
D688型
.

26

佐尔法哈里·埃马梅
R。
等(
2020
)
评估数据库以确定脊椎动物β-和γ-碳酸酐酶序列的有效性
.
BMC基因组学
,
21
, 352.

27

赛耶斯
E.W.公司。
等(
2020
)
国家生物技术信息中心的数据库资源
.
核酸研究。
,
48
,
D9日
第16天
.

28

UniProt公司
C、。
(
2019
)
UniProt:全球蛋白质知识中心
.
核酸研究。
,
47
,
D506型
D515型
.

29

筛子
F、。
希金斯
D.G.公司。
(
2014
)
Clustal Omega,大量序列的精确对齐
.
方法分子生物学。
,
1079
,
105
116
.

30

Winsor公司
G.L.公司。
等(
2011
)
假单胞菌基因组数据库:改进了假单胞杆菌基因组的比较分析和群体基因组学能力
.
核酸研究。
,
39
,
D596型
D600型
.

31.

凯西
P.J.公司。
等(
2012
)
集成基因组:非脊椎动物物种基因组尺度数据的综合资源
.
核酸研究。
,
40
,
第91页
D97号
.

32

古德塞尔
D.S.公司。
等(
2020
)
RCSB蛋白质数据库:支持生物医学研究和药物发现
.
蛋白质科学。
,
29
,
52
65
.

33

轮渡
J.G.公司。
(
2010
)
碳酸酐酶的γ类
.
生物化学。生物物理学。学报
,
1804
,
374
381
.

34

福拉迪
F、。
等(
2020
)
霰弹枪宏基因组测序显示,空气污染暴露与肠道微生物组有关
.
环境。国际。
,
138
, 105604.

35

弗里克
上午。
,
波德列斯内
D。
弗里克
W.F.公司。
(
2019
)
基于序列的微生物组研究有哪些新的和相关的内容?迷你预览
.
J.高级研究。
,
19
,
105
112
.

36

艾森霍费尔
R。
等(
2019
)
低微生物量微生物组研究中的污染:问题和建议
.
微生物趋势。
,
27
,
105
117
.

37

拉丰德·拉帕尔姆
J。
等(
2017
)
使用层次聚类算法净化从头转录组的新方法
.
生物信息学
,
33
,
1293
1300
.

38

斯里瓦斯塔瓦
答:。
等(
2016
)
RapMap:一种快速、敏感和准确的工具,用于将RNA-seq读取映射到转录体
.
生物信息学
,
32
,
i192型
i200型
.

39

圣乔瓦尼
米。
等(
2019
)
从垃圾到宝藏:检测未映射NGS数据中的意外污染
.
BMC生物信息。
,
20
, 168.

40

洛杉矶。
等(
2019
)
SQUAT:用于基因组组装数据质量评估的测序质量评估工具
.
BMC基因组学
,
19
, 238.

41

马杜伊
文学硕士。
等(
2016
)
MaGuS:利用全基因组分析数据进行基因组组装质量评估和支架构建的工具
.
BMC生物信息。
,
17
, 115.

42

木材
D.E.公司。
,
J。
朗米德
B。
(
2019
)
用Kraken 2改进的宏基因组分析
.
基因组生物学。
,
20
, 257.

43

索尔特
S.J.公司。
等(
2014
)
试剂和实验室污染会严重影响基于序列的微生物组分析
.
BMC生物。
,
12
, 87.

44

乌尔姆
第页。
等(
2018
)
基于DNA和RNA的人类、小鼠和沙鼠细菌胃微生物群的定性和定量分析
.
m系统
,
.

这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/4.0/)它允许在任何介质中不受限制地重用、分发和复制原始作品,前提是正确引用了原始作品。