UniVec数据库

UniVec是一个数据库，可用于快速识别核酸序列中可能来自载体（载体）的片段污染). 使用UniVec进行筛选是有效的，因为已经消除了大量冗余子序列，从而创建了一个数据库，其中只包含来自大量向量的每个唯一序列段的一个副本。

除了载体序列之外，UniVec还包含克隆cDNA或基因组DNA过程中常用的适配器、连接器和引物的序列。这使得在载体筛选期间可以发现这些寡核苷酸序列的污染。

UniVec可从NCBI FTP目录获得：ftp://ftp.ncbi.nlm.nih.gov/pub/UniVec公司/.

消除矢量序列中的冗余

许多载体具有相同的主干或共享共同的功能盒。因此，每个矢量具有完整序列的数据库包含此类元素的多个副本。每个独特元素的单个副本足以将该序列识别为载体污染。因此，通过消除任何序列的冗余副本，可以大大减小为筛选而设计的数据库的大小（参见当前UniVec构建的统计信息).

UniVec数据库是通过顺序处理每个输入序列来构建的。首先将输入序列与数据库中已经存在的所有序列进行比较。记录与数据库序列相同的任何片段的位置。此信息仅用于提取包含新序列的输入序列的那些片段。然后将这些新元素添加到数据库中。对于要在完成的数据库中表示的每个序列，重复此循环。

非冗余数据库用于筛选的好处

消除冗余序列段将UniVec减少到包含相同向量组的完整序列的等效数据库大小的20%以下。这对筛查有两大好处：

筛选查询序列所需的计算时间大大减少。
由于基本上消除了对同一序列的多个副本的重复点击，因此有助于对结果进行分析。

伪圆化

大多数矢量都是圆形的，但它们的序列是通过在一个特定位置（环形交叉点）打开序列以线性形式表示的。由于诸如BLAST之类的程序无法将匹配扩展到线性序列的末尾/开头，因此可能会遗漏跨越圆形连接的向量段的污染，或者可能会低估其完整范围和强度。为了避免这种限制，在处理序列以添加到UniVec之前，将循环向量序列的前49个基的副本附加到序列的末尾。这种“伪圆形化”可以正确识别跨越圆形连接的匹配项。

UniVec数据库中表示的向量

UniVec包含唯一的片段，以及用于构建数据库的所有矢量、适配器、链接器和引物序列中每个共享片段的单个副本。用于构建当前版本UniVec的序列列在当前UniVec表示列表.

针对UniVec筛选查询序列将导致检测到来自当前UniVec表示列表。如果矢量与其中一个表示的矢量相似，也可以检测到此列表以外的矢量的污染，尽管在这种情况下可能不会报告污染的全部程度。

UniVec将定期更新额外的矢量序列。

向NCBI服务台发送有关UniVec中包含的其他序列的建议(info@ncbi.nlm.nih.gov). 请简要描述载体或寡核苷酸，指出在何处可以获得序列，并提供详细描述的参考资料（如有）。通常用于克隆和/或扩增的载体和寡核苷酸将被优先纳入未来版本的UniVec。

UniVec中序列的来源

UniVec中的大多数序列来自GenBank条目。在这些情况下，父序列和注释（如果可用）可以从Entrez核苷酸使用来自UniVec定义行.

GenBank中没有的一些商业载体、连接子、适配器和引物的序列是从公司网站或产品文献中获得的。从此类非GenBank序列派生的UniVec条目具有定义线包含NGBxxxxx.x形式的标识符。这些非GenBank序列的最新版本，以及在许多情况下的注释，可以从相关公司.

UniVec数据库的局限性

UniVec的构建是为了在数据库中表示输入序列中50个（或更少）相邻碱基的每个唯一序列。在UniVec中，较长的序列不一定表示为一个连续的片段。这种特殊的结构对数据库的使用和对数据库搜索结果的解释有一定的限制。

使用UniVec进行搜索不会指示与查询序列最匹配的向量的标识。由于UniVec中大多数矢量的序列不是作为一个连续的部分出现的，因此与任何单个矢量的匹配的完整程度将不明显。最可能的载体污染源可以从测序DNA的克隆历史中推断出来（更多详细信息请参阅VecScreen结果解释). 如果需要识别与查询序列最匹配的向量爆炸应该使用包含每个向量的连续序列的数据库进行搜索，例如人工序列子集NCBI的nr/nt数据库。

UniVec不应用于搜索，其中重大命中的标准要求对齐50个以上的基地。