×

面向自然语言处理的更简单、更快的序列标记:基于搜索的概率在线学习框架(SAPO)。 (英语) Zbl 1443.68190号

摘要:序列标记有两种主要方法。一种是基于概率梯度的方法,如条件随机场(CRF)和神经网络(如RNN),它们具有高精度,但缺点是:训练速度慢,不支持基于搜索的优化(这在许多情况下很重要)。另一种是基于搜索的学习方法,如结构化感知器和边缘注入松弛算法(MIRA),这些方法训练速度快,但也存在缺点:精度低,没有概率信息,在实际任务中不收敛。我们提出了一种新颖且“简单”的解决方案,即基于搜索的概率在线学习方法,以解决大多数这些问题。该方法“简单”,因为训练阶段的优化算法与测试阶段的解码算法一样简单。该方法搜索输出候选,导出概率,并进行有效的在线学习。我们表明,该方法训练速度快,收敛性有理论保证,易于实现,能够支持基于搜索的优化并获得最高精度。在著名任务上的实验表明,我们的方法比CRF和BiLSTM具有更好的准确性。

MSC公司:

68T50型 自然语言处理
68T05年 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 安德鲁·G。;Gao,J.,(L_1)正则化对数线性模型的可伸缩训练,国际机器学习会议(ICML),33-40(2007)
[2] 博图,L。;LeCun,Y.,大规模在线学习。,神经信息处理系统进展(NIPS)(2003),麻省理工学院出版社
[3] Chiang,D.,对统计翻译模型歧视性培训的希望和恐惧。,J.马赫。学习。第13号决议,1159-1187(2012年)·Zbl 1283.68285号
[4] Cho,H。;冈崎,N。;Miwa,M。;Tsujii,J.,《具有多段表示的命名实体识别》,Inf.Process。管理。,49, 4, 954-965 (2013)
[5] Collins,M.,隐马尔可夫模型的判别训练方法:感知器算法的理论和实验,自然语言处理经验方法会议(EMNLP),1-8(2002)
[6] 科洛伯特,R。;J·韦斯顿。;博图,L。;卡伦,M。;Kavukcuoglu,K。;Kuksa,P.P.,自然语言处理(几乎)从头开始,J.Mach。学习。第12号决议,2493-2537(2011年)·Zbl 1280.68161号
[7] 克拉默,K。;Singer,Y.,多类问题的超保守在线算法。,J.马赫。学习。决议,3951-991(2003)·Zbl 1112.68497号
[8] DauméIII,H.,《自然语言处理的实用结构化学习技术》(2006年),南加州大学,博士论文
[9] Dredze,M。;克拉默,K。;Pereira,F.,置信加权线性分类。,国际机器学习会议(ICML),264-271(2008)
[10] 弗伦德,Y。;Schapire,R.,使用感知器算法的大边缘分类,马赫数。学习。,37277-296(1999年)·Zbl 0944.68535号
[11] 富井,R。;多莫托,R。;Mochihashi,D.,非参数贝叶斯半监督分词,TACL,5179-189(2017)
[12] 哈特,P。;尼尔森,N。;Raphael,B.,启发式确定最小成本路径的形式基础,IEEE Trans。系统。科学。赛博。,SSC-4(2),100-107(1968)
[13] S.Hochreiter,J.Schmidhuber,《长短期记忆》9(8)(1997)1735-1780。;S.Hochreiter,J.Schmidhuber,《长期短期记忆》9(8)(1997)1735-1780。
[14] Z.Huang,W.Xu,K.Yu,用于序列标记的双向LSTM-CRF模型,arXiv prepintarXiv:/1508.01991;Z.Huang,W.Xu,K.Yu,用于序列标记的双向LSTM-CRF模型,arXiv prepintarXiv:/1508.01991
[15] Kingma,D.P。;Ba,J.,Adam:随机优化方法,CoRR(2014)
[16] Lafferty,J。;麦卡勒姆,A。;Pereira,F.,条件随机场:分割和标记序列数据的概率模型,国际机器学习会议(ICML),282-289(2001)
[17] 李,S。;Wang,L。;曹,Z。;Li,W.,文本级话语依赖分析,《计算语言学协会第52届年会论文集》,ACL 2014年6月22日至27日,美国马里兰州巴尔的摩,第1卷:长篇论文,25-35(2014)
[18] 马丁斯,A.F.T。;Smith,N.A.公司。;Figueiredo,M.A.T。;Aguiar,P.M.Q.,结构化预测中的结构化稀疏性。,自然语言处理实证方法会议(EMNLP),1500-1511(2011)
[19] 麦当劳,R.T。;克拉默,K。;Pereira,F.C.N.,依赖分析器的在线大边缘培训。,计算语言学协会年会(2005年)
[20] Miwa,M。;汤普森,P。;麦克诺特,J。;Kell,D.B。;Ananiadou,S.,从生物医学文献中提取语义丰富的事件,BMC Bioinf。,13, 108 (2012)
[21] 莫伦西,L.-P。;Quattoni,A。;Darrell,T.,《连续手势识别的潜在动态鉴别模型》,CVPR'07年第1-8期会议记录(2007年)
[22] 内米洛夫斯基,A。;朱迪茨基,A。;兰·G。;Shapiro,A.,随机规划的鲁棒随机逼近方法。,SIAM J.Optim.公司。,19, 4, 1574-1609 (2009) ·Zbl 1189.90109号
[23] 牛,F。;Recht,B。;关于C。;Wright,S.J.,Hogwild:并行化随机梯度下降的无锁方法。,神经信息处理系统进展(NIPS),693-701(2011)
[24] Nocedal,J。;Wright,S.J.,《数值优化》(1999),施普林格出版社·Zbl 0930.65067号
[25] Quattoni,A。;卡雷拉斯,X。;柯林斯,M。;Darrell,T.,l1的有效投影,无穷正则化。,国际机器学习会议(ICML),108(2009)
[26] Quattoni,A。;王,S。;莫伦西,L.-P。;柯林斯,M。;Darrell,T.,《隐藏条件随机场》,IEEE Trans。模式分析。马赫。智力。,29, 10, 1848-1852 (2007)
[27] Sang,E.T.K。;Buchholz,S.,CoNLL-2000共享任务简介:分块,《CoNLL’00会议录》,127-132(2000)
[28] 舒斯特,M。;Paliwal,K.K.,双向递归神经网络,IEEE Trans。信号处理。,45, 2673-2681 (1997)
[29] 沙·F。;Pereira,F.,条件随机场浅层句法分析,计算语言学协会北美分会会议,134-141(2003)
[30] Sun,X.,结构化预测的结构正则化,神经信息处理系统(NIPS)进展,2402-2410(2014)
[31] 太阳,X。;李伟(Li,W.)。;Wang,H。;Lu,Q.,特征频率自适应在线训练,用于快速准确的自然语言处理,计算。语言学,40,3563-586(2014)
[32] 太阳,X。;松崎,T。;Li,W.,《利用隐藏信息进行大规模学习的潜在结构化感知器》,IEEE Trans。知识。数据工程,25,9,2063-2075(2013)
[33] 太阳,X。;松崎,T。;Okanohara,D。;Tsujii,J.,用于结构化分类的潜在变量感知器算法,国际人工智能联合会议(IJCAI),1236-1242(2009)
[34] 太阳,X。;Wang,H。;Li,W.,基于频率自适应学习率的汉语分词和新词检测快速在线训练。,计算语言学协会年会,253-262(2012)
[35] 萨顿,C。;Rohanimanesh,K。;McCallum,A.,《动态条件随机场:标记和分割序列数据的因子化概率模型》,国际机器学习会议(ICML)(2004)
[36] Taskar,B。;Guestrin,C。;Koller,D.,Max-margin Markov网络,神经信息处理系统(NIPS)进展(2003)
[37] Tsochantaridis,I。;霍夫曼,T。;Joachims,T。;Altun,Y.,《相互依赖和结构化输出空间的支持向量机学习》,国际机器学习会议(ICML),823-830(2004)
[38] Y.Tsuruoka。;Tsujii,J。;Ananiadou,S.,通过线性链条件随机场进行快速全解析,EACL 2009,计算语言学协会欧洲分会第12届会议,会议记录,希腊雅典,2009年3月30日-4月3日,790-798(2009)
[39] Y.Tsuruoka。;Tsujii,J。;Ananiadou,S.,带累积惩罚的l1-正则对数线性模型的随机梯度下降训练,计算语言学协会年会,477-485(2009)
[40] Uchiumi,K。;Tsukahara,H。;Mochihashi,D.,用Pitman-Yor隐半马尔可夫模型诱导单词和部分语言,计算语言学协会第53届年会和亚洲自然语言处理联合会第七届国际自然语言处理联席会议论文集,ACL 2015,2015年7月26日至31日,北京,中国,第一卷:长篇论文,1774-1782(2015)
[41] Vishwanathan,S。;北卡罗来纳州施劳多夫。;施密特,M.W。;Murphy,K.P.,随机元态条件随机场的加速训练,国际机器学习会议,969-976(2006)
[42] Viterbi,A.J.,卷积码的误差界和渐近最优解码算法,IEEE Trans。信息论,13(2),260-269(1967)·Zbl 0148.40501号
[43] 王,R。;赵,H。;普洛斯,S。;卢,B。;Utiyama,M.,《统计机器翻译的基于图形的双语语义模型》,第二十五届国际人工智能联合会议论文集,2016年7月9日至15日,美国纽约州纽约市,2950-2956(2016)
[44] 吴,M。;李伟(Li,W.)。;卢奇。;Li,B.,CTEMP:一种用于提取和规范化时间信息的中文时间解析器,自然语言处理-IJCNLP 2005,第二届国际联合会议,韩国济州岛,2005年10月11-13日,会议记录,694-706(2005)
[45] Yu,H。;黄,L。;Mi,H.等人。;Zhao,K.,Max-violation感知器和可扩展mt训练的强制解码。,自然语言处理实证方法会议(EMNLP),1112-1123(2013)
[46] 袁,M。;Lin,Y.,《分组变量回归中的模型选择和估计》,J.R.Stat.Soc.Ser。B、 68、49-67(2006)·Zbl 1141.62030号
[47] Zinkevich,M。;Weimer,M。;Smola,A.J。;Li,L.,并行随机梯度下降,神经信息处理系统(NIPS)进展,2595-2603(2010)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。