文件Zbl 1427.68281-zbMATH打开

一种基于层次神经网络的文本分类文档表示方法。（英语） Zbl 1427.68281号

数学。问题。工程师。 2018年，文章ID 7987691，10 p.（2018）.

摘要：文档表示在实际应用中得到了广泛的应用，例如情感分类、文本检索和文本分类。以往的工作主要基于统计学和神经网络，这两种方法分别存在数据稀疏性和模型可解释性问题。在本文中，我们提出了一个具有层次结构的文档表示的通用框架。特别是，我们将层次结构纳入三个用于文档表示的传统神经网络模型中，从而得到三个用于文件分类的层次神经表示模型，即TextHFT、TextHRNN和TextHCNN。我们在Yelp 2016和Amazon Reviews（Electronics）这两个公共数据集上的综合实验结果表明，我们的分层结构方案在文档分类方面优于相应的神经网络模型，从而在准确性方面显著提高了4.65%至35.08%花费的时间相当（或大大减少）。此外，我们发现长文档比短文档从层次结构中受益更多，因为长文档在准确性方面的改进大于短文档。

MSC公司：

68吨10

模式识别、语音识别

软件：

手套;单词2vec;StanfordCoreNLP公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	杨，Z。；Yang，D。；戴尔，C。；何，X。；Smola，A。；Hovy，E.，《文档分类的层次注意网络》，计算语言学协会北美分会2016年会议记录，人类语言技术
[2]	Mikolov，T。；Chen，K。；科拉多，G。；Dean，J.，向量空间中单词表征的有效估计，国际学习表征会议论文集
[3]	彭宁顿，J。；Socher，R。；Manning，C.D.，GloVe:单词表示的全球向量，2014年自然语言处理经验方法会议论文集
[4]	Mikolov，T。；Sutskever，I。；Chen，K。；Corrado，G。；Dean，J.，单词和短语的分布式表示及其组合，《神经信息处理系统进展学报》26
[5]	Le，Q。；Mikolov，T.，句子和文档的分布式表示，第31届机器学习国际会议论文集，ICML 2014
[6]	赵，Z。；刘，T。；侯，X。；李，B。；Du，X.，《情感分析加权方案指导下的分布式文本表示》，《计算机科学讲稿》（包括人工智能子系列讲稿和生物信息学讲稿）：前言，9931，41-52（2016）·doi:10.1007/978-3-319-45814-44
[7]	Tang，D.，用于文档级情绪分析的情绪特定表征学习，第八届ACM网络搜索和数据挖掘国际会议论文集，WSDM 2015·数字对象标识代码：10.1145/2684822.2697035
[8]	Isbell，C.L.，检索的稀疏多级表示，《工程计算信息科学杂志》，8，3，603-616（1998）
[9]	王，M。；刘，M。；Feng，S。；王，D。；Zhang，Y.，一种新的基于标签排序的中文微博多情感检测方法，自然语言处理与中文计算，238-250（2014），德国海德堡·doi:10.1007/978-3-662-45924-9_22
[10]	Joachims，T.，《支持向量机文本分类：具有许多相关特征的学习》，《欧洲机器学习会议论文集》
[11]	张，X。；赵，J。；Lecun，Y.，用于文本分类的特征级卷积网络，第29届神经信息处理系统年会论文集
[12]	Joulin，A。；格雷夫，E。；Bojanowski，P。；Mikolov，T.，《高效文本分类技巧包》，计算语言学协会欧洲分会第十五届会议论文集，EACL 2017
[13]	Kim，Y.，用于句子分类的卷积神经网络，2014年自然语言处理经验方法会议论文集
[14]	刘，P。；邱，X。；黄，V.，基于多任务学习的文本分类递归神经网络，第25届国际人工智能联合会议论文集
[15]	Lai，S。；徐，L。；刘凯。；Jun，Z.，文本分类的递归卷积神经网络，人工智能发展协会会议录
[16]	Xu，R。；Chen，T。；夏，Y。；卢奇。；刘，B。；Wang，X.，情绪和情绪分类中数据不平衡的单词嵌入合成，认知计算，7，2，226-240（2015）·doi:10.1007/s12559-015-9319-y
[17]	陈永伟。；周，Q。；罗，W。；杜建新，基于语义主题识别的汉语文本分类，认知计算，8，1，114-124（2016）·doi:10.1007/s12559-015-9346-8
[18]	Lewis，D.D.，文本分类任务中短语和聚类表示的评估，第15届ACM SIGIR信息检索研究与开发国际年会论文集
[19]	邮政，M。；Bergsma，S.，文本分类的显式和隐式句法特征，计算语言学协会第51届年会论文集
[20]	Y.本吉奥。；杜查姆，R。；文森特，P。；Jauvin，C.，神经概率语言模型，机器学习研究杂志，31137-1155（2003）·Zbl 1061.68157号 ·doi:10.1162/153244303322533223
[21]	科洛伯特，R。；韦斯顿，J。；博图，L。；卡伦，M。；Kavukcuoglu，K。；Kuksa，P.，《从头开始的自然语言处理（几乎）》，《机器学习研究杂志》，第12期，2493-2537页（2011年）·Zbl 1280.68161号
[22]	曼宁，C.D。；苏尔迪努，M。；鲍尔，J。；Finkel，J。；Bethard，S。；McClosky，D.，斯坦福大学corenlp自然语言处理工具包，计算语言学协会会议记录：系统演示
[23]	赖，S。；刘凯。；He，S。；赵，J.，《如何生成一个好单词嵌入》，IEEE智能系统，31，6，5-14（2016）·doi:10.1109/MIS.2016.45
[24]	格洛洛特，X。；Bengio，Y.，《理解深度前馈神经网络训练的困难》，第13届人工智能与统计国际会议论文集
[25]	帕斯卡努，R。；Mikolov，T。；Bengio，Y.，《关于训练递归神经网络的困难》，《计算机科学》，52，3（2012）
[26]	洛夫，S。；Szegedy，C.，《批量规范化：通过减少内部协变量偏移来加速深层网络训练》，第32届机器学习国际会议论文集（ICML’15）
[27]	北斯利瓦斯塔瓦。；辛顿，G。；克里日夫斯基，A。；Sutskever，I。；Salakhutdinov，R.，《辍学：防止神经网络过度拟合的简单方法》，《机器学习研究杂志》，1929-1958年，第15期，第1期（2014年）·Zbl 1318.68153号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b：book；一：图书文章）

一&b	逻辑和
一\|b	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

一种基于层次神经网络的文本分类文档表示方法。（英语） Zbl 1427.68281号

MSC公司：

软件：

参考文献：

示例

领域

操作员

一种基于层次神经网络的文本分类文档表示方法。 （英语） Zbl 1427.68281号

MSC公司：

软件：

参考文献：

一种基于层次神经网络的文本分类文档表示方法。（英语） Zbl 1427.68281号