整体蛋白质组评估给出了由与已知同源物一致的基因模型组成的蛋白质组的比例估计,以及错误的比例。这是基于与目标物种相同谱系的所有现存物种的基因含量的比较。
一致性:最近基因家族来自所选谱系的基因比例。
污染:最近的基因家族来自另一谱系且可能来自污染或水平基因转移的基因比例(多个基因与该谱系的代表相关联)
不一致的:最接近的基因家族来自另一谱系但可能由噪声导致的基因比例(可能存在可疑的基因模型/非编码区的虚假注释)
未知:未发现最接近同源基因的基因比例-可能是虚假基因或孤儿物种特定基因
来自前三类的基因也可以标记为:
- 部分映射
-
来自其最接近的基因家族的具有共享k-mer含量的序列少于80%的基因。
- 碎片
-
长度小于其最近基因家族中位数基因含量一半的基因
- 缺少
-
该基因家族在蛋白质组中没有表示。
其中任何一种的高比例都可能表明可疑的基因模型或虚假的基因。
高质量蛋白质组通常具有高一致比例,无污染、和低部分映射和碎片.