维斯纳帕吉奇;拉泽蒂奇、戈达娜·巴甫洛维奇;米洛什·帕吉奇 半结构化资源的信息提取:两阶段有限状态传感器方法。 (英语) Zbl 1297.68205号 Bouchou-Markhoff,Béatrice(编辑)等人,《自动机的实现和应用》。2011年7月13日至16日在法国布洛伊斯举行的CIAA 2011第16届国际会议。诉讼程序。柏林:施普林格出版社(ISBN 978-3-642-22255-9/pbk)。计算机科学课堂讲稿6807282-289(2011)。 摘要:本文提出了一种基于有限状态传感器的半结构化资源信息提取新方法。该方法有两个明显不同的阶段。第一个阶段——预处理阶段——强烈依赖于对文档结构的分析,用于定位文本中的数据记录。第二阶段基于为提取信息而创建的有限状态传感器。可以对传感器进行修改,以实现最佳效率,并可用于从其他预处理文档中提取信息。我们的结论是,即使没有标记的文本也可以被视为半结构化文本,前提是其结构可以成功地进行预处理。因此,我们从自由形式的百科全书文本中提取数据,并创建了一个具有生物基因型和表型特征的完整结构数据库。关于整个系列,请参见[Zbl 1218.68010号]. MSC公司: 68T05型 人工智能中的学习和自适应系统 65年第68季度 形式语言和自动机 92-08 生物学问题的计算方法 关键词:信息提取;有限状态传感器;半结构化资源;语言资源;生物信息学;基因组 软件:汇利达;FASTUS公司 PDF格式BibTeX公司 XML格式引用 \文本{V.Pajić}等人,Lect。注释计算。科学。6807282--289(2011年;Zbl 1297.68205) 全文: 内政部 参考文献: [1] Carlson,A.,Schafer,C.:从半结构化网页中提取引导信息。收录于:Daelemans,W.,Goethals,B.,Morik,K.(编辑)ECML PKDD 2008,第一部分LNCS(LNAI),第5211卷,第195-210页。斯普林格,海德堡(2008)·Zbl 05372954号 ·doi:10.1007/978-3-540-87479-9_31 [2] Liu,B.,Grossman,R.,Zhai,Y.:挖掘网页中的数据记录。收录于:《2003年SIGKDD会议录》,美国华盛顿,第601-606页(2003)·doi:10.1145/956750.956826 [3] Friburger,N.,Maurel,D.:Finite-state转换器级联以提取文本中的命名实体。理论计算机科学313,93–104(2004)·Zbl 1069.68107号 ·doi:10.1016/j.tcs.2003.10.07 [4] Hobbs,J.R.、Appelt,D.、Bear,J.、Israel,D.、Kameyama,M.、Stickel,M.和Tyson,M.:FASTUS:用于从自然语言文本中提取信息的级联有限状态转换器。收录:Roche,E.,Schabes,Y.(编辑)Finite-State Language Processing,第383-406页。麻省理工学院出版社,华盛顿(1997) [5] Feng,D.,Burns,G.,Hovy,E.:从非结构化生物医学全文中提取数据记录。摘自:EMNLP会议记录,捷克共和国布拉格(2007年) [6] Zhong,P.,Chen,J.,Cook,T.:使用广义隐马尔可夫模型进行Web信息提取。摘自:第一届IEEE网络系统和技术热点研讨会(HOTWEB 2006),第1-8页(2007) [7] Garrity,G.M.:系统细菌学。在:变形杆菌,C部分:阿尔法、贝塔、德尔塔和爱泼斯坦变形杆菌,伯杰手册信托,微生物和分子遗传学系,第2版。第2卷。美国密歇根州立大学(2005) [8] Jurafsky,D.,Martin,J.H.:语音和语言处理。Prentice-Hall Inc.Englewood Cliffs(2000年) [9] Gross,M.,Perrin,D.:计算语言学中的电子词典和自动机。摘自:《LITP春季理论计算机科学学院学报》(1987年5月25日至29日) [10] Aho,A.V.、Hopcroft,J.E.、Ullman,J.D.:计算机算法的设计与分析。艾迪森·卫斯理,雷丁(1974)·Zbl 0326.68005号 [11] Casacuberta,F.,Vidal,E.,Picó,D.:从正则语言推断有限状态变换器。模式识别38(9),1431–1443(2005)·Zbl 1101.68645号 ·doi:10.1016/j.patcog.2004.03.025 [12] Kornai,A.:语言的扩展有限状态模型。剑桥大学出版社,剑桥(1999)·Zbl 0960.68154号 [13] Pajic,V.:《网络监控中的有限状态传感器》,塞尔维亚共和国贝尔格莱德大学数学系硕士论文(2010) [14] Sastre,J.M.,Forcada,M.:使用带输出的递归转换网络进行高效解析,In:Vetulani,Z.,Uszkoreit,H.(eds.)LTC 2007。LNCS,第5603卷,第280-284页。斯普林格,海德堡(2009) [15] Olivier,B.,Constant,M.,Laporte,E.:《Outilex,Platform logiciele de traitement de textes ecrits》。摘自:TALN 2006年会议记录。伦敦大学学院出版社(2006) [16] Paumier,S.:Unitex 1.2用户手册,Marne-la-Vallée大学(2006),http://www-igm.univ-mlv.fr/unitex/unitex手册.pdf [17] 医学博士Silberztein:Dictionnaires’electroniques et analysis automatique de textes。Le systeme INTEX,巴黎,马森(1993) 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。