范围
非重复序列是一个很大程度上自动化的分析系统,用于生成转录组通过分析已知的表达序列以及从中获得它们的文库或样本,可以将数据组织成基因特异性簇,在某些情况下,还可以根据组织、健康状况和年龄评估表达模式。在本章中,我们讨论了输入序列的属性、在UniGene中分析它们的过程,以及如何使用资源的一些指针。
历史
收集所有基因清单的任务智人20多年前,其他生物开始对转录序列进行大规模测序。由此产生的表达序列标签(EST)仍然是描述转录组许多有机体。这些依赖于无害环境技术的工作包括基因组注释(2-4),表达式系统(5),和全长cDNA克隆项目(6). 此外,有针对性的基因检测项目得益于这些序列的可用性和物理特性克隆试剂。然而,在转录序列中发现的高度冗余,更不用说各种常见的实验伪影,使得许多人很难有效地使用数据。这个问题是非重复序列.
现在,许多物种的基因组已经完全测序,许多研究人员期望的基本资源是一个简单的生物体所有基因列表。然而,许多重要的医学和农业物种还没有完整的注释基因组可用。此外,当生物体的基因组序列公开时cDNA序列提供了识别基因的最佳工具DNA顺序。当cDNA序列的源材料取自不同的组织时,生物体的近似表达谱转录组可以计算。这种近似的表达谱至少可以用来识别对特定系统感兴趣的研究人员感兴趣的转录物,最多可以用来表征新转录物的功能。因此,我们可以预计,转录产物的测序在未来很长一段时间内仍将是一个重要的研究领域。
数据模型
的数据模型非重复序列很简单。识别RNA分子的序列,这些序列的来源(物种、组织、年龄、健康状况),根据序列相似性计算从同一基因衍生独立序列的时间,并报告结果。历史上,这种计算是基于EST(扩展序列标签),但现在绝大多数序列要么是全长克隆,要么是RNAseq数据。
无害环境技术
生成EST的基本策略包括选择cDNA随机克隆,并从插入的一端或两端执行一次自动排序读取。这类序列的特点是短(通常约400-600个碱基)和相对不准确(误差约2%)。在大多数情况下,没有初步尝试识别或描述克隆。相反,它们只使用获得的少量序列数据进行鉴定,并将其与已知基因和其他EST的序列进行比较。完全可以预计,许多克隆将与其他已采样的克隆重复,而较少的克隆将代表各种污染物或克隆伪影。在这个过程的稍后阶段,当克隆可以被验证并且选择了一个非冗余集之前,产生高质量测序的费用是没有意义的。
尽管EST的性质不完整且不准确,但对于发现新基因,尤其是与人类疾病过程有关的基因,EST是一种宝贵的资源。在初步证明美国东部时间在这种方法下,启动了许多类似的项目,导致人类无害环境技术的数量不断增加。此外,还为其他几个具有实验意义的生物体启动了大规模的EST项目。1992年数据库被称为dbEST的系统被建立起来,作为EST的收集点,然后将其作为GenBank的EST部门分发给科学界。
数据流
转录序列的数量很大,研究人员不可能对每个序列进行交互分析。一个主要的挑战是为这些序列进行假定的基因分配,认识到其中许多基因将是匿名的,仅由序列本身定义。从计算上看,这可以被认为是一个聚类问题,其中序列是可以通过建立它们之间的连接而合并成簇的顶点。
经验表明,在聚类之前消除低质量或明显虚假的序列非常重要,因为即使是很小的噪声水平也会对结果产生很大的破坏作用。因此,程序已经到位,以消除外国来源的序列(最常见的是大肠杆菌)并确定从克隆载体或人工引物或连接物。目前,非重复序列关注核的蛋白质编码基因基因组; 因此,被鉴定为rRNA或线粒体序列的那些被消除。通过美国国立生物技术信息中心跟踪存档,数量不断增加美国东部时间序列现在具有基本错误概率,用于识别每个序列中质量最高的片段。重复序列有时会导致错误对齐,必须谨慎处理。简单重复序列(低复杂度区域)使用一种称为DUST的文字过度表示算法进行识别,转座重复元素通过与每个生物体的已知重复序列库进行比较来识别。被归类为重复的子序列不是彻底消除它们,而是被软件屏蔽,也就是说,它们不允许启动序列对齐,尽管它们可能参与一个在唯一序列中触发的事件。对于要包含在UniGene中的序列克隆插件必须至少有100个高质量且不重复的碱基对。
对于给定的一组序列,可以使用各种不同的信息源作为证据,证明它们中的任何一对是或不是来自同一基因。最明显的关系类型是序列重叠,可以形成接近完美的序列对齐一个难题是,由于EST中已知的碱基替换错误水平,应该容忍一定程度的错配,而允许过多的错配将导致与EST高度相似的同源基因集群一起。改进结果的一种方法是要求比对显示近似的燕尾关系,也就是说,它们尽可能延伸到序列的末端。控制可接受序列比对的特定参数的值是通过检查精选测试集中的真与假连接的比率来选择的。需要注意的是,生成的集群可能包含多个备选方案-拼接形式.
当提交基因的完整序列时,事后往往会发现同一基因的多个不完整但不重叠的片段。为了尽量减少为单个基因识别多个簇的频率,非重复序列簇需要包含至少一个序列,该序列携带已到达3个末端的易于识别的证据。换句话说,UniGene簇必须锚定在转录单元的3端。这个证据可以是经典的聚腺苷酸化信号或者转录本上存在聚(a)尾,或者存在至少两个标记为使用3个测序引物生成的EST。由于某些簇不包含此类证据(通常是单个EST),因此并非dbEST中的所有未污染序列都出现在UniGene簇中。当然,在提交跨越不同剪接形式的序列之前,选择性剪接的末端3外显子将显示为不同的簇。
随着基因组序列中,可以对3'锚定进行更严格的测试,因为可以识别内部启动。通过将术语has_end添加到任何查询。在非重复序列主页。
访问
这个非重复序列该网站允许用户搜索感兴趣的特定基因,或浏览与表达或序列相似性相关的UniGene条目。每个UniGene网页都包含一个带有查询栏和侧栏提供了相关在线资源的链接。UniGene也是其他美国国立生物技术信息中心资源:
感兴趣的组织。
寻找在特定环境(例如身体部位或发育阶段)下表达的序列是一种常见的方法,用户可以通过该方法识别感兴趣的单个基因或一组基因。有几个接口非重复序列的数据来帮助用户做到这一点。最广泛地说,有一种简单的方法可以浏览所有cDNA用特定生物来源的RNA制备的文库。还总结了各个库的属性;库提交者对源材料和协议的描述,以及由库序列表示的UniGene簇的摘要。
UniGene群集浏览器
这个非重复序列集群页面总结了集群以及可用于推断基因的身份以及在某些情况下基因的功能的附加衍生信息。显示了人类SERPINF2基因的这种观点的示例。如果可用,将提供指向其他美国国立生物技术信息中心资源(如基因、,同源基因,奥米姆)或外部数据库(例如,杰克逊实验室的小鼠基因组信息学(MGI)和俄勒冈州大学的斑马鱼信息网络(ZFIN))。页面上的其他部分提供了蛋白质相似性,映射数据、表达式信息和聚集序列列表。
通过提供来自集群以及带有注释基因组的选定模型生物的蛋白质序列。对于每个模型生物体,列出了与核苷酸序列具有最高序列相似性的蛋白质,以及其标题和GenBank登录。序列对齐使用对齐区域的标识百分比和长度进行汇总。还提供了指向其他蛋白质的链接(附在蛋白质登录上的弹出菜单)美国国立生物技术信息中心资源包括保护测试,总结了模式生物蛋白对中所有生物的翻译搜索非重复序列.
下一节总结了有关基因的对齐或推断地图位置的信息。对于人类和其他一些注释的基因组,地图位置和链接到map Viewer中表示的基因组邻域。如果没有这些对齐的地图位置,则使用序列标记站点构建辐射混合(RH)地图(STS公司)来源于EST的标记。在这些情况下非重复序列 集群可以与UniSTS中的标记关联数据库,可以从右侧地图。最近,地图位置由对齐的cDNA存在于美国国立生物技术信息中心 地图查看器例如,中的SERPINF2基因与人类有联系染色体地图查看器中的17。地图最初显示的是一些可能感兴趣的选定曲目,但用户可能会添加其他曲目。
虽然EST不是基因表达EST的总数及其来源的组织通常都很有用。在的“基因表达”部分集群浏览器,链接到中的基因表达摘要cDNA库可用,示例如所示报告EST中每个身体部位或发育阶段的表达(来自标准化或减法文库的除外,也不包括来自混合源材料文库的),表示为每千分位序列转录的EST计数。表达式数据也可通过文件传输协议.非重复序列具有相似表达式配置文件的簇被预先计算,并在标记为“show more like this”的链接下可用。当表达式与统一表达式明显不同时,这很可能是有信息的。主要在单个身体部位或发育阶段表达的簇可在中搜索Entrez公司更具体地说,这些簇中2/3或更多检测到的基因表达(以百万分之二的标准化转录单位表示)来自单一来源。链接到美国国立生物技术信息中心从UniGene集群中的GenBank数据计算出的GEO也显示在集群视图的这一部分。
的组件序列集群列出了,并对每一个进行了简要描述,以及指向它的链接非重复序列序列页面。Sequence页面提供了关于单个序列的更多详细信息,对于EST,还包括指向其相应UniGene Library页面的链接。在集群页面上美国东部时间哺乳动物基因收集(MGC)项目认为全长的克隆列在顶部,而其他克隆则按其报告的插入长度顺序排列。UniGene Cluster页面底部有一个按钮,供用户下载中的集群序列美国金融服务贸易协会格式。
一个文件传输协议代表非重复序列也可以使用。序列设置为美国金融服务贸易协会(根据集群),的摘要映射UniGene簇的序列,以及EST的起源库和表达摘要。UniGene的一个常见用途是使用每个簇中的单个代表性序列进行引物设计或作为爆炸 数据库在这种情况下,建议研究人员保留这两个序列加入编号以及集群标识符,供以后参考。这是因为不能保证集群标识符是无限稳定的。虽然大多数UniGene构建仅通过对现有簇的增量更改或添加新表示的转录物、新序列或新的基因组映射可以提供信息,导致对先前确定的集群进行实质性重组。
工具书类
- 1
Adams MD、Kelley JM、Gocayne JD、Dubnick M、Polymeropoulos MH、Xiao H、Merril CR、Wu A、Olde RF、Moreno RF、。,等。互补DNA测序:表达序列标签和人类基因组计划。科学。1991;252(5013):1651–1656。[公共医学: 2047873] - 2
- 三。
- 4
头颈部注解联合会。大规模转录组分析揭示了头颈部和甲状腺癌的新的遗传标记候选物。癌症研究。2005年3月1日;65(5):1693–9.[公共医学: 15753364] - 5
- 6