×

信息提取中的权重注释。 (英语) Zbl 07471710号

摘要:文档扳手框架将从文本中提取信息的任务抽象为一个函数,该函数将每个文档(字符串)映射为文档跨度(由其开始和结束索引标识的间隔)上的关系。例如,正则扳手是带有捕获变量的正则表达式在关系代数(RA)下的闭包,正则扳手的表达能力由VSet-automata类精确捕获,VSet-antomata是标记所选跨度端点的一类受限传感器。
在这项工作中,我们着手研究文档扳手,这些扳手可以用辅助信息(如信任度、支持度和机密性措施)注释提取。为此,我们采用了Green等人对起源半环的抽象,其中关系元组用交换半环的元素进行注释,注释通过正RA算子通过半环算子传播。因此,提议的扳手扩展(称为注释器)将每个字符串映射到跨度上的注释关系中。作为一个具体的实例化,我们研究了加权VSet自动机,它与加权自动机和变换器类似,将半环元素附加到变换。我们研究了表示性的关键方面,例如在正RA下的闭包,以及计算复杂性的关键方面(例如在有序半环的情况下注释答案的枚举及其排名枚举)。对于许多这样的问题,底层半环的基本性质,如正性,对于建立可处理性至关重要。

MSC公司:

03B70号 计算机科学中的逻辑
68倍 计算机科学
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] Shaull Almagor、Udi Boker和Orna Kupferman。加权自动机的决定因素是什么?2011年,在国际验证与分析自动化技术研讨会(ATVA)上,第482-491页·Zbl 1348.68089号
[2] 安托万·阿马里利(Antoine Amarilli)、皮埃尔·布赫斯(Pierre Bourhis)、斯特凡·门格尔(Stefan Mengel)和马蒂亚斯·尼沃斯(Matthias Niewerth)。非确定性文档扳手的常量延迟枚举。国际数据库会议·Zbl 1489.68054号
[3] 马塞洛·阿雷纳斯(Marcelo Arenas)、路易斯·阿尔贝托·克罗奎维尔(Luis Alberto Croquevielle)、拉杰什·贾亚拉姆(Rajesh Jayaram)和克里斯蒂安·里维罗斯(Cristian Riveros)。用于枚举、计数和统一生成的高效日志空间类。InACM研讨会
[4] 阿尔弗雷德·阿霍(Alfred V.Aho)和约翰·霍普克罗夫特(John E.Hopcroft)。计算机算法的设计与分析。AddisonWesley Longman出版有限公司,美国,1974年第1版·Zbl 0326.68005号
[5] 皮埃尔·布赫斯(Pierre Bourhis)、亚历杭德罗·格雷兹(Alejandro Grez)、路易斯·贾切特(Louis Jachiet)和克里斯蒂安·里韦罗斯(Cristian Riveros)。单词上MSO逻辑的分级枚举。在国际数据库理论会议(ICDT)上,第20:1-20:19页,
[6] Jason P.C.Chiu和Eric Nichols。使用双向LSTM-CNN进行命名实体识别。事务处理。关联计算。语言学,2016年,4:357-370。
[7] 曼弗雷德·德罗斯特(Manfred Droste)和沃纳·库伊奇(Werner Kuich)。半环和形式幂级数,第3-28页。施普林格-柏林-海德堡,2009年·兹比尔1484.68082
[8] Shaleen Deep和Paraschos Koutris。联合查询结果的排名枚举。在2021年国际数据库理论会议(ICDT)上,第5:1-5:19页·Zbl 1402.68045号
[9] 约翰内斯·多雷沙尔(Johannes Doleschal)、本尼·基梅尔菲尔德(Benny Kimelfeld)、维姆·马滕斯(Wim Martens)和利亚特·彼得福德(Liat Peterfreund)。信息提取中的权重标注。在国际数据库理论会议(ICDT)上,第8:1-8:18页·Zbl 07471710号
[10] 曼弗雷德·德罗斯特(Manfred Droste)、沃纳·库伊奇(Werner Kuich)和海科·福格勒(Heiko Vogler)。加权自动机手册。施普林格,第1版,2009年·Zbl 1200.68001号
[11] 丹尼尔·德伊奇(Daniel Deutch)、托瓦·米洛(Tova Milo)、苏迪帕·罗伊(Sudeepa Roy)和瓦尔·坦宁(Val Tannen)。数据日志来源电路。在2014年国际数据库理论会议(ICDT)上,第201-212页。
[12] 塞缪尔·艾伦伯格,《自动化、语言和机器》。学术出版社,美国佛罗里达州奥兰多,1974年·Zbl 0317.94045号
[13] J.Nathan Foster、Todd J.Green和Val Tannen。带注释的XML:查询和来源。在ACM数据库系统原理研讨会(PODS)上,第271-280页,2008年。
[14] Dominik D.Freydenberger、Benny Kimelfeld和Liat Peterfreund。正则表达式的联接提取。InACM数据库系统原理研讨会(PODS),第137-149页,
[15] 罗纳德·费金(Ronald Fagin)、本尼·基梅尔菲尔德(Benny Kimelfeld)、弗雷德里克·赖斯(Frederick Reiss)和斯蒂恩·范萨梅伦(Stijn Vansummeren)。文档扳手:信息提取的正式方法。J.ACM,62(2):2015年12月·兹比尔1333.68098
[16] 罗纳德·费金(Ronald Fagin)、本尼·基梅尔菲尔德(Benny Kimelfeld)、弗雷德里克·赖斯(Frederick Reiss)和斯蒂恩·范萨梅伦(Stijn Vansummeren)。声明性地清除信息提取中的不一致。ACM事务处理。数据库系统。,41(1):6:1-6:44, 2016. ·Zbl 1474.68096号
[17] 多米尼克·D·弗雷登伯格。文档扳手的逻辑。理论计算。系统。,63(7):1679- 1754, 2019. ·Zbl 1430.68081号
[18] 马丁·格罗(Martin Grohe)、本杰明·卢西安·卡明斯基(Benjamin Lucien Kaminski)、朱斯特·佩特·卡托恩(Joost-Pieter Katoen)和彼得·林德纳(Peter Lindner)。具有连续分布的生成数据日志。InACM数据库系统原理研讨会
[19] 托德·格林(Todd J.Green)、格雷戈里·卡沃纳拉基斯(Gregory Karvounarakis)和瓦尔·坦宁(Val Tannen)。起源半环。InACM数据库系统原理研讨会(PODS),第31-40页,2007年。
[20] 乔纳森·戈兰。半环及其应用。施普林格,多德雷赫特,1999年·Zbl 0947.16034号
[21] 约书亚·古德曼。半环解析。计算语言学,25(4):573-6051999。[H˚as01]约翰·H˚astad。一些最佳不可接近性结果。J.ACM,48(4):798-8592001年7月·Zbl 1127.68405号
[22] 丹尼尔·克里斯滕(Daniel Kirsten)。一种用于终止多项式模糊min-plus-automata的Mohri算法的burnside方法。RAIRO-理论信息学与应用,42(3):553-581·Zbl 1155.68042号
[23] 伊内斯·克利曼(Ines Klimann)、西尔万·伦巴第(Sylvain Lombardy)、让·梅莱斯(Jean Mairesse)和克里斯托夫·普里厄尔(Christophe Prieur)。从有限模糊max-plus自动机中确定无二义性和顺序性。理论计算机科学·Zbl 1071.68035号
[24] 丹尼尔·克罗布(Daniel Krob)。热带半环上带重数的有理级数的等式问题是不可判定的。国际代数计算杂志。,4(3):405-4261994年·Zbl 0834.68058号
[25] 李耀勇、卡莉娜·邦切娃和哈米什·坎宁安。基于SVM的信息提取学习系统。机器学习中的确定性和统计方法,第页·Zbl 1133.68399号
[26] Mehryar Mohri,加权自动机算法,第213-254页。施普林格-柏林-海德堡,2009年·Zbl 1484.68092号
[27] Francisco Maturana、Cristian Riveros和Domagoj Vrgoc。提取不完整信息的文档扳手:表达性和复杂性。国际计算机学会原理研讨会
[28] 弗兰兹·梅尔和塞尔吉奥·尤文。人工神经网络的规则推理。在机器学习和知识提取(CD-MAKE)国际跨领域会议上,第页
[29] Hoifung Poon和Pedro M.Domingos。信息提取中的联合推理。国际人工智能大会(AAAI),第913-918页,2007年。
[30] Liat Peterfreund、Dominik D.Freydenberger、Benny Kimelfeld和Markus Kr¨oll。文档扳手上关系代数的复杂性边界。InACM原则研讨会
[31] 大卫·普尔。利用独立选择逻辑中的规则结构进行决策。在人工智能不确定性年度会议(UAI)上,第454-463页,1995年。
[32] Liat Peterfreund、Balder ten Cate、Ronald Fagin和Benny Kimelfeld。文档扳手的递归程序。数据库理论国际会议(ICDT),第127卷,页
[33] 迈克尔·拉宾,概率自动机。信息与控制,6(3):230-2451963。[RBE+17]亚历山大·拉特纳(Alexander Ratner)、斯蒂芬·巴赫(Stephen H.Bach)、亨利·R·埃伦伯格(Henry R.Ehrenberg)、杰森·阿兰·弗里斯(Jason Alan Fries)、吴森(Sen Wu)和克里斯托弗·雷恩。潜水:在缺乏监督的情况下快速创建训练数据。程序。超大规模数据库
[34] Luc De Raedt、Angelika Kimmig和Hannu Toivonen。Problog:一种概率prolog及其在链路发现中的应用。国际人工智能联合会议(IJCAI),第2462-2467页,2007年。
[35] 雅克·萨卡罗维奇(Jacques Sakarovitch)。自动机原理。剑桥大学出版社,2009年·兹比尔1188.68177
[36] 苏妮塔·萨拉瓦吉。信息提取。数据库基础与趋势,1(3):261-3772008。
[37] Warren Shen、AnHai Doan、Jeffrey F.Naughton和Raghu Ramakrishnan。使用带有嵌入式提取谓词的Datalog进行声明性信息提取。国际VLDB,第1033-1044页,
[38] 罗伯托·塞加拉(Roberto Segala)。并发操作模型中的概率和不确定性。在并行理论国际会议(CONCUR)上,第64-78页,2006年·Zbl 1151.68553号
[39] 佐藤大辅和谷谷吉隆。PRISM:一种用于符号统计建模的语言。国际人工智能联合会议(IJCAI),第1330-1339页,1997年·Zbl 1137.68617号
[40] Charles A.Sutton和Andrew McCallum。条件随机场简介。机器学习的基础和趋势,4(4):267-3732012·Zbl 1253.68001号
[41] 马库斯·施密德(Markus L.Schmid)和尼科尔·施魏卡特(Nicole Schweikardt)。非常规核心扳手的纯常规方法。在2021年国际数据库理论会议(ICDT)上,第4:1-4:19页。
[42] 罗伊·施瓦茨(Roy Schwartz)、萨姆·汤姆森(Sam Thomson)和诺亚·史密斯(Noah A.Smith)。桥接CNN、RNN和加权有限状态机。计算语言学协会(ACL)年会,第295-305页,2018年。
[43] David Torrents、Mikita Suyama、Evgeny Zdobnov和Peer Bork。人类假基因的全基因组调查。基因组研究,13(12):2559-25672003。
[44] 盖尔·韦斯(Gail Weiss)、尤夫·戈德伯格(Yoav Goldberg)和埃兰·雅哈(Eran Yahav)。使用查询和反例从递归神经网络中提取自动机。在国际机器学习会议(ICML)上,
[45] 王路生和姜涛。关于多序列比对的复杂性。计算生物学杂志,1(4):337-3481994。
[46] Jin Y.Yen。《在网络中寻找最危险的无环路径》,《管理科学》,17(11):712-7161971年。网址:http://www.jstor.org/stable/2629312。 ·Zbl 0218.90063号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。