UniGene

Lukas Wagner; Richa Agarwala

NCBI书架。美国国立卫生研究院国家医学图书馆的一项服务。

NCBI手册[互联网]。第二版。贝塞斯达（医学博士）：美国国家生物技术信息中心；2013-.

本出版物仅供历史参考，信息可能已过时。

本出版物仅供历史参考，信息可能已过时。

NCBI手册[互联网]。第二版。

显示详细信息

<上一个下一步>

非重复序列

卢卡斯·瓦格纳、博士和里查·阿加瓦拉，博士。

创建：2013年11月14日.

预计阅读时间：12分钟

范围

非重复序列是一个很大程度上自动化的分析系统，用于生成转录组通过分析已知的表达序列以及从中获得它们的文库或样本，可以将数据组织成基因特异性簇，在某些情况下，还可以根据组织、健康状况和年龄评估表达模式。在本章中，我们讨论了输入序列的属性、在UniGene中分析它们的过程，以及如何使用资源的一些指针。

历史

收集所有基因清单的任务智人20多年前，其他生物开始对转录序列进行大规模测序。由此产生的表达序列标签（EST）仍然是描述转录组许多有机体。这些依赖于无害环境技术的工作包括基因组注释(2-4)，表达式系统(5)，和全长cDNA克隆项目(6). 此外，有针对性的基因检测项目得益于这些序列的可用性和物理特性克隆试剂。然而，在转录序列中发现的高度冗余，更不用说各种常见的实验伪影，使得许多人很难有效地使用数据。这个问题是非重复序列.

现在，许多物种的基因组已经完全测序，许多研究人员期望的基本资源是一个简单的生物体所有基因列表。然而，许多重要的医学和农业物种还没有完整的注释基因组可用。此外，当生物体的基因组序列公开时cDNA序列提供了识别基因的最佳工具DNA顺序。当cDNA序列的源材料取自不同的组织时，生物体的近似表达谱转录组可以计算。这种近似的表达谱至少可以用来识别对特定系统感兴趣的研究人员感兴趣的转录物，最多可以用来表征新转录物的功能。因此，我们可以预计，转录产物的测序在未来很长一段时间内仍将是一个重要的研究领域。

数据模型

的数据模型非重复序列很简单。识别RNA分子的序列，这些序列的来源（物种、组织、年龄、健康状况），根据序列相似性计算从同一基因衍生独立序列的时间，并报告结果。历史上，这种计算是基于EST（扩展序列标签），但现在绝大多数序列要么是全长克隆，要么是RNAseq数据。

无害环境技术

生成EST的基本策略包括选择cDNA随机克隆，并从插入的一端或两端执行一次自动排序读取。这类序列的特点是短（通常约400-600个碱基）和相对不准确（误差约2%）。在大多数情况下，没有初步尝试识别或描述克隆。相反，它们只使用获得的少量序列数据进行鉴定，并将其与已知基因和其他EST的序列进行比较。完全可以预计，许多克隆将与其他已采样的克隆重复，而较少的克隆将代表各种污染物或克隆伪影。在这个过程的稍后阶段，当克隆可以被验证并且选择了一个非冗余集之前，产生高质量测序的费用是没有意义的。

尽管EST的性质不完整且不准确，但对于发现新基因，尤其是与人类疾病过程有关的基因，EST是一种宝贵的资源。在初步证明美国东部时间在这种方法下，启动了许多类似的项目，导致人类无害环境技术的数量不断增加。此外，还为其他几个具有实验意义的生物体启动了大规模的EST项目。1992年数据库被称为dbEST的系统被建立起来，作为EST的收集点，然后将其作为GenBank的EST部门分发给科学界。

数据流

转录序列的数量很大，研究人员不可能对每个序列进行交互分析。一个主要的挑战是为这些序列进行假定的基因分配，认识到其中许多基因将是匿名的，仅由序列本身定义。从计算上看，这可以被认为是一个聚类问题，其中序列是可以通过建立它们之间的连接而合并成簇的顶点。

经验表明，在聚类之前消除低质量或明显虚假的序列非常重要，因为即使是很小的噪声水平也会对结果产生很大的破坏作用。因此，程序已经到位，以消除外国来源的序列（最常见的是大肠杆菌)并确定从克隆载体或人工引物或连接物。目前，非重复序列关注核的蛋白质编码基因基因组; 因此，被鉴定为rRNA或线粒体序列的那些被消除。通过美国国立生物技术信息中心跟踪存档，数量不断增加美国东部时间序列现在具有基本错误概率，用于识别每个序列中质量最高的片段。重复序列有时会导致错误对齐，必须谨慎处理。简单重复序列（低复杂度区域）使用一种称为DUST的文字过度表示算法进行识别，转座重复元素通过与每个生物体的已知重复序列库进行比较来识别。被归类为重复的子序列不是彻底消除它们，而是被软件屏蔽，也就是说，它们不允许启动序列对齐，尽管它们可能参与一个在唯一序列中触发的事件。对于要包含在UniGene中的序列克隆插件必须至少有100个高质量且不重复的碱基对。

对于给定的一组序列，可以使用各种不同的信息源作为证据，证明它们中的任何一对是或不是来自同一基因。最明显的关系类型是序列重叠，可以形成接近完美的序列对齐一个难题是，由于EST中已知的碱基替换错误水平，应该容忍一定程度的错配，而允许过多的错配将导致与EST高度相似的同源基因集群一起。改进结果的一种方法是要求比对显示近似的燕尾关系，也就是说，它们尽可能延伸到序列的末端。控制可接受序列比对的特定参数的值是通过检查精选测试集中的真与假连接的比率来选择的。需要注意的是，生成的集群可能包含多个备选方案-拼接形式.

当提交基因的完整序列时，事后往往会发现同一基因的多个不完整但不重叠的片段。为了尽量减少为单个基因识别多个簇的频率，非重复序列簇需要包含至少一个序列，该序列携带已到达3个末端的易于识别的证据。换句话说，UniGene簇必须锚定在转录单元的3端。这个证据可以是经典的聚腺苷酸化信号或者转录本上存在聚（a）尾，或者存在至少两个标记为使用3个测序引物生成的EST。由于某些簇不包含此类证据（通常是单个EST），因此并非dbEST中的所有未污染序列都出现在UniGene簇中。当然，在提交跨越不同剪接形式的序列之前，选择性剪接的末端3外显子将显示为不同的簇。

随着基因组序列中，可以对3'锚定进行更严格的测试，因为可以识别内部启动。通过将术语has_end添加到任何查询。在非重复序列主页。

访问

这个非重复序列该网站允许用户搜索感兴趣的特定基因，或浏览与表达或序列相似性相关的UniGene条目。每个UniGene网页都包含一个带有查询栏和侧栏提供了相关在线资源的链接。UniGene也是其他美国国立生物技术信息中心资源：

保护测试，浏览蛋白质相似性的工具；
数字差动显示(尽职调查)，用于比较美国东部时间-基于表达谱；和
库浏览器和显示器，支持对cDNA库来自

感兴趣的组织。

寻找在特定环境（例如身体部位或发育阶段）下表达的序列是一种常见的方法，用户可以通过该方法识别感兴趣的单个基因或一组基因。有几个接口非重复序列的数据来帮助用户做到这一点。最广泛地说，有一种简单的方法可以浏览所有cDNA用特定生物来源的RNA制备的文库。还总结了各个库的属性；库提交者对源材料和协议的描述，以及由库序列表示的UniGene簇的摘要。

UniGene群集浏览器

这个非重复序列集群页面总结了集群以及可用于推断基因的身份以及在某些情况下基因的功能的附加衍生信息。图1显示了人类SERPINF2基因的这种观点的示例。如果可用，将提供指向其他美国国立生物技术信息中心资源（如基因、，同源基因,奥米姆)或外部数据库（例如，杰克逊实验室的小鼠基因组信息学（MGI）和俄勒冈州大学的斑马鱼信息网络（ZFIN））。页面上的其他部分提供了蛋白质相似性，映射数据、表达式信息和聚集序列列表。

图1。

UniGene集群的Web视图。

通过提供来自集群以及带有注释基因组的选定模型生物的蛋白质序列。对于每个模型生物体，列出了与核苷酸序列具有最高序列相似性的蛋白质，以及其标题和GenBank登录。序列对齐使用对齐区域的标识百分比和长度进行汇总。还提供了指向其他蛋白质的链接（附在蛋白质登录上的弹出菜单）美国国立生物技术信息中心资源包括保护测试，总结了模式生物蛋白对中所有生物的翻译搜索非重复序列.

下一节总结了有关基因的对齐或推断地图位置的信息。对于人类和其他一些注释的基因组，地图位置和链接到map Viewer中表示的基因组邻域。如果没有这些对齐的地图位置，则使用序列标记站点构建辐射混合（RH）地图(STS公司)来源于EST的标记。在这些情况下非重复序列集群可以与UniSTS中的标记关联数据库，可以从右侧地图。最近，地图位置由对齐的cDNA存在于美国国立生物技术信息中心地图查看器例如，中的SERPINF2基因图1与人类有联系染色体地图查看器中的17。地图最初显示的是一些可能感兴趣的选定曲目，但用户可能会添加其他曲目。

虽然EST不是基因表达EST的总数及其来源的组织通常都很有用。在的“基因表达”部分集群浏览器，链接到中的基因表达摘要cDNA库可用，示例如所示图2报告EST中每个身体部位或发育阶段的表达（来自标准化或减法文库的除外，也不包括来自混合源材料文库的），表示为每千分位序列转录的EST计数。表达式数据也可通过文件传输协议.非重复序列具有相似表达式配置文件的簇被预先计算，并在标记为“show more like this”的链接下可用。当表达式与统一表达式明显不同时，这很可能是有信息的。主要在单个身体部位或发育阶段表达的簇可在中搜索Entrez公司更具体地说，这些簇中2/3或更多检测到的基因表达（以百万分之二的标准化转录单位表示）来自单一来源。链接到美国国立生物技术信息中心从UniGene集群中的GenBank数据计算出的GEO也显示在集群视图的这一部分。

图2。

UniGene群集的表达式配置文件视图。

的组件序列集群列出了，并对每一个进行了简要描述，以及指向它的链接非重复序列序列页面。Sequence页面提供了关于单个序列的更多详细信息，对于EST，还包括指向其相应UniGene Library页面的链接。在集群页面上美国东部时间哺乳动物基因收集（MGC）项目认为全长的克隆列在顶部，而其他克隆则按其报告的插入长度顺序排列。UniGene Cluster页面底部有一个按钮，供用户下载中的集群序列美国金融服务贸易协会格式。

一个文件传输协议代表非重复序列也可以使用。序列设置为美国金融服务贸易协会（根据集群)，的摘要映射UniGene簇的序列，以及EST的起源库和表达摘要。UniGene的一个常见用途是使用每个簇中的单个代表性序列进行引物设计或作为爆炸数据库在这种情况下，建议研究人员保留这两个序列加入编号以及集群标识符，供以后参考。这是因为不能保证集群标识符是无限稳定的。虽然大多数UniGene构建仅通过对现有簇的增量更改或添加新表示的转录物、新序列或新的基因组映射可以提供信息，导致对先前确定的集群进行实质性重组。

相关工具

蛋白质相似性浏览器

这个ProtEST公司第节，共节非重复序列允许用户探索所选蛋白质与cDNA在任何中找到的序列集群。特别是对于从多个生物体的转录物中查看同一蛋白质的比对的情况，此界面提供了一个简单的概述。在集群查看器的蛋白质相似性部分中，此概述位于“蛋白质/美国东部时间matches”链接，该链接出现在蛋白质添加的鼠标上方的弹出菜单中；此弹出窗口显示在图3.BLASTX公司已用于将UniGene中的每个序列与从模型生物中提取的选定蛋白质序列进行比较，并带有完整注释基因组默认情况下，只显示与原始有机体（灵长类、啮齿动物等）属于同一广泛分类群的有机体的比对，但可以从proteEST下拉菜单中选择与更广泛有机体的配对。这些比对包括基于测序和注释mRNA的RefSeq比对，以及基因预测的RefSeqs比对。

图3。

UniGene集群浏览器中的弹出菜单，提供与集群中转录序列相似的蛋白质信息的链接。

中的序列对齐保护测试以表格形式总结(图4). 第一列是核苷酸蛋白质的示意图对齐列的宽度表示蛋白质的整个长度，而未对齐的核苷酸序列表示为一条细的灰色线，对齐的区域表示为一个厚的洋红色条。路线表示是使用爆炸表中的其他信息包括对齐的框架和绞线非重复序列集群ID、GenBank登录以及对齐区域和百分比标识的摘要。

图4。

蛋白质翻译比对摘要。

数字差分显示（DDD）

尽职调查是用于比较的工具美国东部时间-基于各种库或库池之间的表达式配置文件，以非重复序列通过这些比较，可以识别不同组织库中不同的基因，从而可以确定哪些基因可能导致细胞的独特特征，例如，使肌肉细胞与皮肤或肝细胞不同的基因。沿着类似的路线，DDD可以用来尝试识别正常、癌前和癌组织或胚胎发育不同阶段表达水平不同的基因。

按原样非重复序列，的尽职调查资源是特定于生物体的，可从UniGene网站获取该生物体的资源。对于UniGene中有序列的库，DDD列出了标题和组织来源，并提供了UniGene库页面的链接，该页面提供了有关库的其他信息。用户可以从列出的库中选择两个进行比较。然后，DDD显示两个库中转录频率显著不同的基因。输出包括每个基因在每个文库中的转录频率以及相应UniGene的名称集群结果按显著性排序，频率差异最大的基因显示在顶部。库可以按顺序添加到分析中，DDD将对每个可能的库基因对组合进行分析。类似地，库组可以合并在一起，并与其他池或单个库进行比较。下面是一个比较两个库池的示例，这两个库的序列计数与人类肌肉和人脑的相似图5.

图5。

比较肌肉和大脑文库的差异表达评估。

尽职调查使用Fisher精确检验将输出限制为具有统计显著性差异（P0.05）。分析也仅限于深度排序的库；只有那些有超过1000个序列非重复序列包含在DDD中。这些要求限制了分析的能力。除非每个库中有大量序列，否则基因频率通常不具有统计意义。此外，组织类型、细胞类型、组织学和生成库的方法多种多样，很难将显著差异归因于库的任何一个方面。这些问题强调了需要公开更多的库，以及需要使用适当的控件进行比较。

cDNA库浏览器和UniGene cDNA库显示

研究人员经常希望确定cDNA他们感兴趣的图书馆。除了上述以基因为导向的资源之外，非重复序列提供了库浏览器中感兴趣的有机体中所有库的概述。库按其源材料（由库的提交者描述的正文站点或开发阶段）分组，用于浏览的Web界面如所示图6。对于单个库，库摘要将提交者提供的信息与包含库序列的UniGene群集聚合在一起，单个库摘要的Web界面如所示图7研究人员可以从图书馆下载所有序列美国金融服务贸易协会格式化它们是否在任何UniGene中集群或者不是从这个页面。

图6。

UniGene库浏览器。

图7。

UniGene库摘要。

工具书类

1: Adams MD、Kelley JM、Gocayne JD、Dubnick M、Polymeropoulos MH、Xiao H、Merril CR、Wu A、Olde RF、Moreno RF、。，等。互补DNA测序：表达序列标签和人类基因组计划。科学。1991;252（5013）：1651–1656。[公共医学: 2047873]
2: 陆凤、姜浩、丁杰、穆杰、瓦伦苏埃拉·JG、里贝罗·JM、苏希Z。cDNA序列显示恶性疟原虫基因组中存在相当大的基因预测误差。BMC基因组学。2007;8:255.[PMC免费文章：PMC1978503] [公共医学: 17662120]
三。: Shangguan L，Han J，Kayesh E，Sun X，Zhang C，Pervaiz T，Wen X，Fang J。使用表达序列标签评估选定植物物种的基因组测序质量。公共科学图书馆一号。2013年7月29日；8(7)[PMC免费文章：PMC3726750] [公共医学: 23922843]
4: 头颈部注解联合会。大规模转录组分析揭示了头颈部和甲状腺癌的新的遗传标记候选物。癌症研究。2005年3月1日；65(5):1693–9.[公共医学: 15753364]
5: Zhang YE，Landback P，Vibranovski MD，Long M.加速将新的大脑发育基因招募到人类基因组中。《公共科学图书馆·生物》。2011年10月；9(10)[PMC免费文章：PMC3196496] [公共医学: 22028629]
6: MGC项目团队。完成哺乳动物基因收集（MGC）。基因组研究。2009年12月；19(12):2324–33.[PMC免费文章：PMC2792178] [公共医学: 19767417]

书架编号：NBK169437