跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。1994年11月11日;22(22): 4768–4778.
数字对象标识:10.1093/nar/22.22.4768
PMCID公司:项目经理308529
PMID:7984429

在大肠杆菌DNA中发现基因的隐马尔可夫模型。

摘要

利用Kenn Rudd维护的EcoSeq6数据库中的大肠杆菌基因组DNA序列,开发了一种隐马尔可夫模型(HMM)来发现大肠杆菌DNA中的蛋白质编码基因。该HMM包括模拟大肠杆菌基因中密码子及其频率的状态,以及基因间区域中发现的模式,包括重复的外源回文序列和Shine-Delgarno基序。为了解释原始基因组DNA序列中潜在的测序错误和/或移码,它允许(极不可能)在密码子中插入和删除单个核苷酸。HMM的参数是使用EcoSeq6中约100万个带注释DNA的核苷酸进行估计的,模型是在包含约325000个核苷酸的不相交连接体上进行测试的。HMM发现了约80%已知大肠杆菌基因的准确位置,约10%的基因的近似位置。它还发现了几个潜在的新基因,并定位了几个可能存在插入或删除错误和/或移码的位置。

全文

全文可用作原始打印版本的扫描副本。获取完整文章(2.0M),或单击下面的页面图像逐页浏览。PubMed链接也可用于选定的引用.

选定的引用

这些参考文献在PubMed中。这可能不是本文的完整参考文献列表。

  • Kröger M,Wahl R,Rice P.大肠杆菌DNA序列的编译(1993年更新)。核酸研究。1993年7月1日;21(13):2973–3000. [PMC免费文章][公共医学][谷歌学者]
  • Staden R.在基因组序列中寻找蛋白质编码区。方法酶学。1990;183:163–180.[公共医学][谷歌学者]
  • Brunak S,Engelbrecht J,Knudsen S。从DNA序列预测人类mRNA供体和受体位点。分子生物学杂志。1991年7月5日;220(1):49–65.[公共医学][谷歌学者]
  • O'Neill MC。大肠杆菌启动子:神经网络在学习搜索不同间距类别的启动子时开发了不同的描述。核酸研究。1992年7月11日;20(13):3471–3477. [PMC免费文章][公共医学][谷歌学者]
  • Stormo GD,Hartzell GW.,《从未对齐DNA片段中识别蛋白质结合位点》,第3期。美国国家科学院院刊。1989年2月;86(4):1183–1187. [PMC免费文章][公共医学][谷歌学者]
  • Lawrence CE,Reilly AA。一种用于识别和表征未比对生物聚合物序列中常见位点的期望最大化(EM)算法。蛋白质。1990;7(1):41–51.[公共医学][谷歌学者]
  • Cardon LR,Stormo GD。从未对齐DNA片段中识别可变长度蛋白结合位点的期望最大化算法。分子生物学杂志。1992年1月5日;223(1):159–170.[公共医学][谷歌学者]
  • Fickett JW,Tung CS公司。评估蛋白质编码措施。核酸研究。1992年12月25日;20(24):6441–6450. [PMC免费文章][公共医学][谷歌学者]
  • Staden R,McLachlan AD。密码子偏好及其在识别长DNA序列中蛋白质编码区中的应用。核酸研究。1982年1月11日;10(1):141–156. [PMC免费文章][公共医学][谷歌学者]
  • Gribskov M,Devereux J,Burgess RR。密码子偏好图:蛋白质编码序列的图形分析和基因表达预测。核酸研究。1984年1月11日;12(第1部分第2部分):539–549。 [PMC免费文章][公共医学][谷歌学者]
  • 菲科特JW。DNA序列中蛋白质编码区的识别。核酸研究。1982年9月11日;10(17):5303–5318. [PMC免费文章][公共医学][谷歌学者]
  • Uberbacher EC,Mural RJ。用多传感器神经网络方法定位人类DNA序列中的蛋白质编码区。美国国家科学院院刊。1991年12月15日;88(24):11261–11265. [PMC免费文章][公共医学][谷歌学者]
  • Farber R,Lapedes A,Sirotkin K。利用神经网络和信息理论确定真核蛋白质编码区。分子生物学杂志。1992年7月20日;226(2):471–479.[公共医学][谷歌学者]
  • Churchill GA。异质DNA序列的随机模型。公牛数学生物学。1989;51(1):79–94.[公共医学][谷歌学者]
  • TavaréS,Song B.蛋白质编码区的密码子偏好和一级序列结构。公牛数学生物学。1989;51(1):95–115.[公共医学][谷歌学者]
  • Snyder EE,Stormo GD。基因组DNA序列中编码区域的识别:动态规划和神经网络的应用。核酸研究。1993年2月11日;21(3):607–613. [PMC免费文章][公共医学][谷歌学者]
  • Collado-Vides J.基因表达调控的语法模型。美国国家科学院院刊。1992年10月15日;89(20):9405–9409. [PMC免费文章][公共医学][谷歌学者]
  • Stultz CM,White JV,Smith TF。基于状态空间建模的结构分析。蛋白质科学。1993年3月;2(3):305–314. [PMC免费文章][公共医学][谷歌学者]
  • Baldi P,Chauvin Y,Hunkappiller T,McClure MA。生物初级序列信息的隐马尔可夫模型。美国国家科学院院刊。1994年2月1日;91(3):1059–1063. [PMC免费文章][公共医学][谷歌学者]
  • Krogh A、Brown M、Mian IS、Sjölander K、Haussler D。计算生物学中的隐马尔可夫模型。蛋白质建模应用。分子生物学杂志。1994年2月4日;235(5):1501–1531.[公共医学][谷歌学者]
  • Brown M,Hughey R,Krogh A,Mian IS,Sjölander K,Haussler D.使用Dirichlet混合先验来推导蛋白质家族的隐马尔可夫模型。Proc Int Conf智能系统分子生物学。1993;1:47–55.[公共医学][谷歌学者]
  • States DJ,Botstein D.蛋白质编码区的分子序列准确性和分析。美国国家科学院院刊。1991年7月1日;88(13):5518–5522. [PMC免费文章][公共医学][谷歌学者]
  • Koop BF,Rowan L,Chen WQ,Deshpande P,Lee H,Hood L.Sequenase和自动Taq循环测序方法的序列长度和误差分析。生物技术。1993年3月;14(3):442–447.[公共医学][谷歌学者]
  • Churchill GA,Waterman MS。DNA序列的准确性:估计序列质量。基因组学。1992年9月;14(1):89–98.[公共医学][谷歌学者]
  • Gesteland RF,Weiss RB,Atkins JF。记录:重新编程的遗传解码。科学。1992年9月18日;257(5077):1640–1641.[公共医学][谷歌学者]
  • Farabaugh PJ公司。遗传密码的替代读物。单元格。1993年8月27日;74(4):591–596. [PMC免费文章][公共医学][谷歌学者]
  • Stern MJ、Ames GF、Smith NH、Robinson EC、Higgins CF。重复性外源回文序列:细菌基因组的主要组成部分。单元格。1984年7月;37(3):1015–1026.[公共医学][谷歌学者]
  • Rudd KE、Miller W、Werner C、Ostell J、Tolstoshev C、Satterfield SG。通过计算机绘制大肠杆菌基因序列:软件、策略和示例。核酸研究。1991年2月11日;19(3):637–647. [PMC免费文章][公共医学][谷歌学者]
  • Altschul SF、Gish W、Miller W、Myers EW、Lipman DJ。基本本地对齐搜索工具。分子生物学杂志。1990年10月5日;215(3):403–410.[公共医学][谷歌学者]
  • Shine J,Dalgarno L.大肠杆菌16S核糖体RNA的3'末端序列:与无义三联体和核糖体结合位点的互补性。美国国家科学院院刊。1974年4月;71(4):1342–1346. [PMC免费文章][公共医学][谷歌学者]
  • 牧羊人JC。从嘌呤/嘧啶基因组序列中确定蛋白质阅读框架的方法及其可能的进化理由。美国国家科学院院刊。1981年3月;78(3):1596–1600. [PMC免费文章][公共医学][谷歌学者]
  • Fickett JW,Torney DC,Wolf DR。基因组的基本组成结构。基因组学。1992年8月;13(4):1056–1064.[公共医学][谷歌学者]
  • White JV,Stultz CM,Smith TF。氨基酸序列随机建模和优化过滤的蛋白质分类。数学生物科学。1994年1月;119(1):35–75.[公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社