×

基于注意池的卷积神经网络用于句子建模。 (英语) Zbl 1429.68252号

摘要:卷积神经网络已被证明是一种强大的句子建模语义合成模型。标准卷积神经网络通常由线性或非线性分类器底部的几个卷积层和池层组成。本文中,一种新的池方案称为注意力集中建议在池化阶段保留最重要的信息。双向长短期记忆产生的中间句子表示被用作卷积层产生的局部表示的参考,以获得注意权重。句子表征是通过使用获得的注意权重组合局部表征而形成的。在测试阶段,中间语句表示也被用作顶级分类器的输入。所提出的基于注意池的卷积神经网络的显著特征是:(1)模型可以用有限的超参数进行端到端的训练;(2) 通过新的池方案以及卷积层和双向长短期存储器的组合提取综合信息;(3) 该模型可以隐式分离不同类别的句子。实验结果表明,新模型在七个基准数据集上的文本分类性能优于最先进的方法。该方法的学习能力大大提高,在一些数据集上分类精度甚至显著提高了2%以上。通过一些统计测试,证明了该模型的稳健性。

MSC公司:

68T07型 人工神经网络与深度学习
68T50型 自然语言处理
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 巴·J。;Mnih,V。;Kavukcuoglu,K.,《视觉注意下的多物体识别》,第三届学习表征国际会议论文集(2015)
[2] 巴达瑙,D。;Cho,K。;Bengio,Y.,《联合学习对齐和翻译的神经机器翻译》,第三届国际学习代表大会(ICLR)会议记录(2015)
[3] Y.本吉奥。;杜恰姆,R。;文森特,P。;Janvin,C.,神经概率语言模型,J.Mach。学习。第31137-1155号决议(2003年)·Zbl 1061.68157号
[4] Boureau,Y.-L。;巴赫,F。;LeCun,Y。;Ponce,J.,《学习中级识别特征》,2010年IEEE计算机视觉和模式识别会议(CVPR),2559-2566(2010),IEEE
[5] Boureau,Y.-L。;Roux,N.L。;巴赫,F。;彭斯,J。;LeCun,Y.,Ask the locals:multi-way local pooling for image recognition,2011 IEEE国际计算机视觉会议(ICCV),2651-2658(2011),IEEE
[6] 科洛伯特,R。;Weston,J.,《自然语言处理的统一架构:具有多任务学习的深层神经网络》,第25届机器学习国际会议论文集,160-167(2008),ACM
[7] 弗雷格,G.,《感觉与参照》,《哲学》。修订版,57,3209-230(1948)
[8] Funahashi,K.-i。;Nakamura,Y.,用连续时间递归神经网络逼近动力学系统,神经网络。,6, 6, 801-806 (1993)
[9] 格雷夫斯,A。;Schmidhuber,J.,《使用双向LSTM和其他神经网络架构的框架音素分类》,neural Netw。,18, 5, 602-610 (2005)
[10] Hochreiter,S。;Schmidhuber,J.,长短期记忆,神经计算。,9, 8, 1735-1780 (1997)
[11] 胡,M。;Liu,B.,挖掘和总结客户评论,第十届ACM SIGKDD知识发现和数据挖掘国际会议(KDD)论文集,168-177(2004),ACM
[12] 黄,E.H。;Socher,R。;曼宁,C.D。;Ng,A.Y.,《通过全球语境和多词原型改进单词表征》,计算语言学协会第50届年会论文集:长篇论文第1卷(ACL),873-882(2012),计算语言学学会
[13] 约翰逊,R。;Zhang,T.,利用卷积神经网络有效使用语序进行文本分类,计算语言学协会北美分会2015年会议论文集:人类语言技术(NAACL),103-112(2015)
[14] Kalchbrenner,N。;Grefenstette,E。;Blunsom,P.,用于句子建模的卷积神经网络,计算语言学协会第52届年会论文集,655-665(2014)
[15] Kim,Y.,用于句子分类的卷积神经网络,《2014年自然语言处理经验方法会议论文集》,1746-1751(2014)
[16] Le,Q.V。;Mikolov,T.,句子和文档的分布式表示,第31届机器学习国际会议(ICML)论文集,1188-1196(2014)
[17] LeCun,Y。;Y.本吉奥。;Hinton,G.,《深度学习》,《自然》,521,7553,436-444(2015)
[18] LeCun,Y。;博图,L。;Y.本吉奥。;Haffner,P.,《基于梯度的学习应用于文档识别》,Proc。IEEE,86,11,2278-2324(1998)
[19] 李,X。;Roth,D.,《学习问题分类器》,第19届计算语言学国际会议论文集第1卷(ACL),1-7(2002),计算语言学协会
[20] Maas,A.L。;Hannun,A.Y。;Ng,A.Y.,《整流器非线性改善神经网络声学模型》,《第30届机器学习国际会议音频、语音和语言处理(ICML)深度学习研讨会论文集》,30(2013)
[21] 范德马滕,L。;Hinton,G.,《使用t-SNE可视化数据》,J.Mach。学习。研究,92579-260585(2008)·兹比尔1225.68219
[22] Mikolov,T。;Chen,K。;Corrado,G。;Dean,J.,向量空间中单词表征的有效估计,第一届学习表征国际会议(ICLR)研讨会论文集(2013)
[23] Mikolov,T。;Sutskever,I。;Chen,K。;科拉多,G.S。;Dean,J.,单词和短语的分布式表示及其组成,神经信息处理系统(NIPS)进展,3111-3119(2013)
[24] 庞,B。;Lee,L.,《情感教育:基于最小切割的主体性总结的情感分析》,第42届计算语言学协会年会论文集,271-278(2004),计算语言学协会
[25] 庞,B。;Lee,L.,《眼界之星:利用阶级关系对评级量表进行情绪分类》,《计算语言学协会第43届年会论文集》,115-124(2005),计算语言学协会
[26] 佩德雷戈萨,F。;瓦罗佐,G。;Gramfort,A。;米歇尔,V。;蒂里昂,B。;O.格栅。;布隆德尔,M。;普雷滕霍弗,P。;韦斯,R。;Dubourg,V.公司。;范德普拉斯,J。;帕索斯,A。;库纳波,D。;布鲁彻,M。;佩罗,M。;Duchesnay,E.,Scikit-learn:Python中的机器学习,J.Mach。学习。第12号决议,2825-2830(2011年)·Zbl 1280.68189号
[27] 彭宁顿,J。;Socher,R。;Manning,C.D.,Glove:单词表示的全局向量,《自然语言处理经验方法学报》(EMNLP),1532-1543(2014)
[28] 舒斯特,M。;Paliwal,K.K.,双向递归神经网络,信号处理。IEEE传输。,45, 11, 2673-2681 (1997)
[29] Socher,R。;Huval,B。;曼宁,C.D。;Ng,A.Y.,通过递归矩阵-向量空间的语义组合,2012年自然语言处理和计算自然语言学习经验方法联合会议论文集,1201-1211(2012),计算语言学协会
[30] Socher,R。;林,C.C。;曼宁,C。;Ng,A.Y.,用递归神经网络分析自然场景和自然语言,第28届机器学习国际会议论文集,129-136(2011)
[31] Socher,R。;曼宁,C.D。;Ng,A.Y.,使用递归神经网络学习连续短语表示和句法分析,NIPS-2010深度学习和无监督特征学习研讨会论文集,1-9(2010)
[32] Socher,R。;彭宁顿,J。;黄,E.H。;Ng,A.Y。;Manning,C.D.,预测情绪分布的半监督递归自动编码器,自然语言处理经验方法会议论文集,151-161(2011),计算语言学协会
[33] Socher,R。;Perelygin,A。;Wu,J.Y。;Chuang,J。;曼宁,C.D。;Ng,A.Y。;Potts,C.,情感树库语义合成的递归深层模型,自然语言处理经验方法会议论文集,1631-1642(2013)
[34] 北斯利瓦斯塔瓦。;辛顿,G。;Krizhevsky,A。;Sutskever,I。;Salakhutdinov,R.,《辍学:防止神经网络过度拟合的简单方法》,J.Mach。学习。1929-1958年第15号决议(2014年)·Zbl 1318.68153号
[35] Turian,J。;Ratinov,L。;Bengio,Y.,《单词表征:一种简单通用的半监督学习方法》,计算语言学协会第48届年会论文集,384-394(2010),计算语言学学会
[36] 王,S。;Manning,C.D.,《基线和双词:简单、良好的情感和主题分类》,计算语言学协会第50届年会会议记录:短篇论文第2卷(ACL),90-94(2012),计算语言学学会
[37] Wiebe,J。;威尔逊,T。;Cardie,C.,《用语言诠释观点和情感的表达》,《语言资源》。评估。,39, 2-3, 165-210 (2005)
[38] Xu,K。;巴·J。;基罗斯,R。;科尔维尔,A。;Salakhutdinov,R。;泽梅尔,R。;Y.Bengio,《展示、出席和讲述:视觉注意下的神经图像字幕生成》,第32届机器学习国际会议(ICML)论文集,2048-2057(2015)
[42] 邹伟业(Zou,W.Y.)。;Socher,R。;Cer,D.M。;Manning,C.D.,基于短语的机器翻译的双语单词嵌入。,2013年自然语言处理实证方法会议记录,1393-1398(2013)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。