深度学习在自然语言处理领域的研究进展

doi:10.3778/j.issn.1002-8331.2106-0166

摘要/摘要

摘要：

通过定量与定性相结合的方式全面分析了深度学习在自然语言处理领域的研究情况。采用可视化软件和VOS查看器对深度学习在自然语言处理领域的研究国家、机构、期刊分布、关键词共现、共被引网络聚类及时间轴视图等进行知识图谱绘制，理清研究脉络。通过深入挖掘领域内的重要文献，总结深度学习在自然语言处理领域的研究趋势、存在的主要问题或发展瓶颈，并给出相应的解决办法与思路。对于如何跟踪深度学习在自然语言处理领域的研究成果给出建议，为该领域的后续研究与发展提供参考。

关键词: 深度学习（DL），自然语言处理（NLP），知识图谱, 可视化

摘要：

本文采用定量和定性相结合的方法，全面分析了自然语言处理领域的深度学习研究。它使用CiteSpace和VOSviewer绘制了国家、机构、期刊分布、关键词共现、共引网络聚类和自然语言处理领域深度学习的时间轴视图的知识图，以澄清研究。本文通过挖掘该领域的重要研究成果，总结了该领域的研究趋势、主要问题、发展瓶颈，并给出了相应的解决方案和思路。最后，就如何跟踪深度学习在自然语言处理领域的研究提出了建议，并为该领域的后续研究和发展提供了参考。

关键词： 深度学习（DL），自然语言处理（NLP），知识图，可视化

江洋洋，金伯，张宝昌. 深度学习在自然语言处理领域的研究进展[J] ●●●●。，2021, 57(22): 1-14.

姜阳阳，金波，张宝昌。基于深度学习的自然语言处理研究进展[J]。计算机工程与应用，2021，57（22）：1-14。

参考文献

[1] YOUNG T，HAZARIKA D，PORIA S，等.基于深度学习的自然语言处理的最新趋势[J]。IEEE计算智能杂志，2018,13（3）：55-75。
[2] 赵京胜，宋梦雪，高祥.自然语言处理发展及应用综述[J] 。信息技术与信息化，2019（7）：142-145.
赵建生，宋明霞，高霞。自然语言处理的发展与应用[J]。信息技术与信息化，2019（7）：142-145。
[3] 徐翼龙，李文法，周纯洁.基于深度学习的自然语言处理综述[中]//中国计算机用户协会网络应用分会2018年第二十二届网络新技术与应用年会论文集，2018年4月。
徐永乐，李伟发，周春杰.基于深度学习的自然语言处理综述[C]//中国计算机用户协会网络应用分会于20182018:4召开的第二十二届网络新技术与应用年会论文集。
[4] 何玉洁，杜方，史英杰，等.基于深度学习的命名实体识别研究综述[J] 。计算机工程与应用，2021，57（11）：21-36.
何永杰，杜芳，史永杰，等.基于深度学习的命名实体识别研究[J]。计算机工程与应用，2021,57（11）：21-36。
[5] 郝超，裘杭萍，孙毅，等.多标签文本分类研究进展[J] 。计算机工程与应用，2021，57（10）：48-56.
郝C，邱海平，孙毅，等.多标签文本分类的研究进展[J]。计算机工程与应用，2021,57（10）：48-56。
[6] 余同瑞，金冉，韩晓臻，等.自然语言处理预训练模型的研究综述[J] 。计算机工程与应用，2020，56（23）：12-22.
YU T R，JIN R，HAN X Z，等.自然语言处理预训练模型综述[J]。计算机工程与应用，2020,56（23）：12-22。
[7] OTTER D W，MEDINA J R，KALITA J K。深度学习在自然语言处理中的应用调查[J]。IEEE神经网络和学习系统汇刊，2021,32（2）：604-624。
[8]王国胤，张军平，何清，等.中国人工智能发展报告2019-2020年【M】。北京：机械工业出版社，2020
王国毅，张建平，何强，等.2019-2020年中国人工智能发展报告[M]。北京：中国机械工业出版社，2020年。
[9] HINTON G，OSINDERO S，TEH Y W.深度信念网的快速学习算法[J]。神经计算，2006,8（7）：1527-1554。
[10] LI H.自然语言处理的深度学习：优势与挑战[J]。《国家科学评论》，2018，5（1）：24-26。
[11] 罗枭.基于深度学习的自然语言处理研究综述[J] 。智能计算机与应用，2020，10（4）：133-137.
LUO X.基于深度学习的自然语言处理综述[J]。智能计算机与应用，2020,10（4）：133-137。
[12] 李杰，陈超美.城市空间：科技文本挖掘及可视化[M] .2条版.北京：首都经济贸易大学出版社，2017
李杰，陈春梅。城市空间：科学文献中的文本挖掘与可视化[M]。第2版。北京：首都经济贸易大学出版社，2017。
[13] 李杰.科学知识图谱原理及应用[M] ●●●●。等等2018
李J.知识域映射的原理与应用[M]。北京：高等教育出版社，2018。
[14] 刘文思，廖海川.1970-2015年模糊决策研究的文献计量分析[J]。国际模糊系统杂志，2017,19:1-14。
[15] 于德杰，LIAP H C.直觉模糊研究的可视化和定量研究[J]。智能与模糊系统杂志，2016,30:3653-3663。
[16] TASKIN Z，AL U.自然语言处理在图书情报学中的应用[J]。在线信息评论，2019,43（4）：676-690。
[17] HOU L，CHEN H S，ZHANG G M，等。基于深度学习的AEC行业安全管理应用：综述[J]。巴塞尔应用科学，2021,11（2）：821。
[18] POWELL T H，KOUROPALATIS Y，MORGAN R E，等.知识与创新研究主题的映射：利用文献计量学进行分类、进化、扩散和决定论[J]。《国际创业与管理杂志》，2016,20:174-199。
[19] UpHonest资本：美国人工智能投资分析报告[EB/OL]。（2017-12-12）[2021-05-08]https://www.sohu.com/a/210056479_
483389
UpHonest Capital：美国人工智能投资分析报告[EB/OL]。（2017-12-12）[2021-05-08]。https://www.sohu.com/a/210056479_483389。
[20] 王惠铃.2017美国人工智能产业分析[EB/OL]。（2017-08-21）[2021-05-08]。https://www.jieju.cn/News/20170821/Detail799453.shtml。
WANG H L.2017年美国人工智能产业分析[EB/OL]。（2017-08-21）[2021-05-08]。https://www.jieju.cn/News/20170821/Detail799453.shtml。
[21]ARGUBI M，JAMMELI H，MASRI H.废物管理领域的知识结构[J]。运筹学年鉴，2020294（1/2）：655-676。
[22]陈C M.CiteSpace II：探测和可视化科学文献中的新兴趋势和瞬态模式[J]。美国信息科学和技术协会杂志，2006,57（3）：359-377。
[23]BENGIO Y，DUCHARME R，VINCENT P，et al.一种神经概率语言模型[J]。机器学习研究杂志，2003,3:1137-1155。
[24]COLLOBERT R，WESTON J.自然语言处理的统一架构：具有多任务学习的深度神经网络[C]//第25届机器学习国际会议，2008:160-167。
[25]MIKOLOV T，SUTSKEVER I，CHEN K，et al.单词和短语的分布式表示及其组合[C]//神经信息处理系统的进展，2013:3111-3119。
[26]彭宁顿J，SOCHER R，MANNING C D.Glove:单词表示的全局向量[C]//2014自然语言处理经验方法会议，2014:1532-1543。
[27]GITTENS A，ACHLIOPTAS D，MAHONEY M W.Skip-gram-zipf+uniform=向量可加性[C]//55计算语言学协会年会，2017,1:69-76。
[28]ETHAYARJH K，DUVENAUD D，HIRST G.理解线性词语类比[J].arXiv:1810.048822018。
[29]COLLOBERT R，WESTON J，BOTTOU L等。自然语言处理（几乎）从头开始[J]。机器学习研究杂志，2011,12:2493-2537。
[30]KALCHBRENNER N，GREFENSTETTE E，BLUNSOM P.一种用于句子建模的卷积神经网络[J].arXiv:1404.2188v12014。
[31]KIM Y.用于句子分类的卷积神经网络[C]//2014自然语言处理实证方法会议，2014:1746-1751。
[32]MIKOLOV T，KOMBRINK S，BURGET L，等.递归神经网络语言模型的扩展[C]//2011 IEEE声学、语音和信号处理国际会议，2011:5528-5531。
[33]SUTSKEVER I，MARTENS J，HINTON G E.用递归神经网络生成文本[C]//第28届机器学习国际会议，2011:1017-1024。
[34]刘S，杨恩，李明，等.统计机器翻译递归递归神经网络[C]//52届计算语言学协会年会，2014,1:1491-1500。
[35]AULI M，GALLEY M，QUIRK C，等.基于递归神经网络的联合语言和翻译建模[C]//2013自然语言处理实证方法会议，2013:1044-1054。
[36]SUTSKEVER I，VINYALS O，LE Q V.神经网络序列到序列学习[C]//神经信息处理系统进展，2014:3104-3112。
[37]GRAVES A，MOHAMED A R，HINTON G.基于深度递归神经网络的语音识别[C]//2013 IEEE声学、语音和信号处理国际会议，2013:6645-6649。
[38]GRAVES A，JAITLY N.使用递归神经网络实现端到端语音识别[C]//第31届机器学习国际会议，2014:3771-3779。
[39]SAK H，SENIOR A，BEAUFAYS F.基于长短期记忆的大词汇量语音识别递归神经网络结构[J].arXiv:1402.11282014。
[40]VINYALS O，TOSHEV A，BENGIO S，et al.Show and tell:A neural image caption generator[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition，2015:3156-3164.维尼亚尔斯·O，托舍夫·A，贝吉奥·S等.展示和讲述：神经图像字幕生成器[C]//。
[41]CHO K，VAN MERRIENBOER B，GULCEHRE C，et al.使用RNN编码器-解码器进行统计机器翻译的短语表示学习[C]//2014自然语言处理经验方法会议，2014:1724-1734。
[42]KARPATHY A，LI F.生成图像描述的深度视觉语义对齐[C]//2015 IEEE计算机视觉和模式识别会议，2015:3128-3137。
[43]BAHDANAU D，CHO K，BENGIO Y.联合学习对齐和翻译的神经机器翻译[J].arXiv:1409.04732014。
[44]RUSH A M，CHOPRA S，WESTON J.抽象句子摘要的神经注意模型[J].arXiv:1509.006852015。
[45]徐凯，BA J，KIROS R，等.展示、出席和讲述：视觉注意下的神经图像字幕生成[C]//32届国际机器学习会议，2015,3:2048-2057。
[46]VINYALS O，KAISER L，KOO T等。语法作为外语[C]//神经信息处理系统的进展，2015:2773-2781。
[47]VINYALS O，FORTUNATO M，JAITLY N.指针网络[C]//神经信息处理系统进展，2015:2692-2700。
[48]PAULUS R，XIONG C，SOCHER R.抽象概括的深度强化模型[J].arXiv:1705.043042017。
[49]王毅，黄M，赵L，等.基于注意的LSTM在体层情感分类中的应用[C]//2016自然语言处理实证方法会议，2016:606-615。
[50]MA Y，PENG H，CAMBRIA E.通过将常识知识嵌入专注的LSTM[C]//协会促进人工智能会议，2018:5876-5883，进行基于方面的情绪分析。
[51]SOCHER R，HUVAL B，MANNING C D，等.基于递归矩阵向量空间的语义合成[C]//2012自然语言处理和计算自然语言学习实证方法联合会议，2012:1201-1211。
[52]BOWMAN S R，POTTS C，MANNING C D.递归神经网络可以学习逻辑语义[J].arXiv:1406。
1827，2014.
[53]DAI A M，LE Q V.半监督序列学习[C]//神经信息处理系统进展，2015:3079-3087。
[54]VASWANI A，SHAZEER N，PARMAR N等。注意力就是你所需要的[C]//神经信息处理系统的进展，2017:5999-6009。
[55]PETERS M E，NEUMANN M，IYYER M，et al.深层语境化词语表征[C]//2018计算语言学协会北美分会会议：人类语言技术，2018:2227-2237。
[56]RADFORD A，NARASIMHAN K，SALIMANS T，et al.通过无监督学习提高语言理解[EB/OL]。（2018-06-11）[2021-05-08].https://openai.com/blog/language-unsupervised/。
[57]DEVLIN J，CHANG M W，LEE K，等.BERT：用于语言理解的深层双向变换器预训练[J].arXiv:1810.048052018。
[58]刘永H，OTT M，GOYAL N，等.鲁棒优化BERT预处理方法[J].arXiv:1907。
11692，2019.
[59]SONG K T，TAN X，QIN T，et al.MASS：语言生成的屏蔽序列到序列预训练[C]//36届国际机器学习会议，2019:10384-10394。
[60]DONG L，YANG N，WANG W H，等.用于自然语言理解和生成的统一语言模型预训练[C]//神经信息处理系统进展，2019:13042-13054。
[61]张志勇，韩旭，刘志勇，等.ERNIE:信息实体增强语言表示[J].arXiv:1905.07129v32019。
[62]JOSHI M，CHEN D，LIU Y，et al.SpanBERT：通过表示和预测跨度来改进预训练[J].arXiv:1907.105292019。
[63]LAN Z Z，CHEN M D，GOODMAN S，et al.ALBERT:一种用于语言表征自我监督学习的lite BERT[J]。arXiv:1909.119422019。
[64]YANG Z L，DAI Z H，YANG Y M，等.XLNet:语言理解的广义自回归预训练[C]//神经信息处理系统进展，2019:5754-5764。
[65]罗J，WU J.一种基于熵的CNN压缩剪枝方法[J].arXiv:1706.057912017。
[66]YANG T，CHEN Y，SZE V.使用能量感知剪枝设计节能卷积神经网络[C]//2017 IEEE计算机视觉和模式识别会议，2017:6071-6079。
[67]胡毅，孙S，李杰，等.一种新的深度神经网络压缩通道剪枝方法[J].arXiv:1805.1139419
2018
[68]何云海，张晓云，孙J.加速器通道修剪-
评级非常深的神经网络[C]//2017 IEEE国际计算机视觉会议，2017:1389-1397。
[69]ANWAR S，SUNG W Y.用随机掩码对卷积神经网络进行粗剪枝[C]//2017年学习表征国际会议，2017:134-145。
[70]李H，KADAV A，DURDANOVIC I，等.高效ConvNets的剪枝滤波器[J].arXiv:1608.087102016。
[71]PAVLO M，STEPHEN T，TERO K，等.资源高效推理的卷积神经网络剪枝[J].arXiv:1611.064402016。
[72]胡慧，彭蓉，泰义伟，等.网络裁剪：一种面向高效深层架构的数据驱动神经元剪枝方法[J].arXiv:1611.051282016。
[73]DEEPAK M，SHWETA B，MITESH M，等.从随机剪枝中恢复：深卷积神经网络的可塑性[J].arXiv:1801.104472018。
[74]刘晓英，韩旭，毛海泽，等.高效稀疏winograd卷积神经网络[C]//第五届国际学习表征会议，2017。
[75]GORDON M A，DUH K，ANDREWS N.压缩BERT：研究权重修剪对迁移学习的影响[J].arXiv:2002.083072020。
[76]MCCARLEY J S，CHAKRAVARTI R，SIL A.修剪基于BERT的问答模型[J].arXiv:1910。
06360，2019.
[77]郭福明，刘世杰，MUNGALL F S，等.大规模语言表征的重加权近端剪枝[J].arXiv:1909.124862019。
[78]HOWARD A G，ZHU M，CHEN B，等.移动设备：用于移动视觉应用的高效卷积神经网络[J].arXiv:1704.048612017。
[79]SANDLER M，HOWARD A，ZHU M等。Mobilenev2：反向残差和线性瓶颈[C]//2018 IEEE计算机视觉和模式识别会议，2018:4510-4520。
[80]张X，周X，林M，等.Shufflenet：一种用于移动设备的高效卷积神经网络[C]//2018 IEEE计算机视觉与模式识别会议，2018:6848-6856。
[81]马恩，张X，郑海涛，等.Shufflenet v2:高效CNN架构设计实用指南[C]//第15届欧洲计算机视觉会议。查姆：施普林格，2018:116-131。
[82]SZEGEDY C，VANHOUCKE V，IOFFE S。重新思考计算机视觉的初始架构[J].arXiv:1512。
00567v32015。
[83]KRIZHEVSKY A，SUTSKEVER I，HINTON G E.图像-
用深度卷积神经网络进行网络分类[J]。ACM通讯，2017,60（6）：84-90。
[84]DEHGHANI M，GOUWS S，VINYALS O等。通用变压器[J].arXiv:1807038192018。
[85]郝J，王X，杨伯斯，等.变压器建模递归[C]//2019计算语言学协会北美分会会议：人类语言技术，2019:1198-1207。
[86]PHAM H，GUAN M Y，ZOPH B，等.基于参数共享的高效神经网络结构搜索[J].arXiv:1802。
03268，2018.
[87]王志H，WOHLWEND J，TAO L.大型语言模型的结构化剪枝[J].arXiv:1910.04732v22021。
[88]BUCILUA C，CARUANA R，NICULESCU MIZIL A.模型压缩[C]//第十二届ACM SIGKDD知识发现和数据挖掘国际会议，2006:535。
[89]HINTON G，VINYALS O，DEAN J.在神经网络中提取知识[J]。计算机科学，2015,14（7）：38-39。
[90] 耿丽丽，牛保宁.深度神经网络模型压缩综述[J] 。计算机科学与探索，2020，14（9）：1441-1455.
GENG L L，NIU B N.深度神经网络模型压缩综述[J]。计算机科学与技术前沿杂志，2020,14（9）：1441-1455。
[91]赵世清，顾佩塔，宋毅，等.基于最优子词和共享投影的极限语言模型压缩[J].arXiv:1909.116872019。
[92]SANH V，DEBUT L，CHAUMOND J，et al.DistilBERT，BERT的蒸馏版本：更小、更快、更便宜、更轻[J].arXiv:1910.011082019。
[93]焦晓强，尹义中，尚立峰，等.TinyBERT：提取BERT用于自然语言理解[J].arXiv:1909.103512019。
[94]MUKHERJEE S，AWADALLAH A H.使用未标记传输数据将BERT提取为简单的神经网络[J].arXiv:1910.017692019。
[95] 李江昀，赵义凯，薛卓尔，等.深度神经网络模型压缩综述[J] 。工程科学学报，2019，41（10）：1229-1239.
李建英，赵永康，薛振英，等.深度神经网络模型压缩综述[J]。中国工程学报，2019,41（10）：1229-1239。
[96]HAN S，MAO H Z，DALLY W J.深度压缩：用剪枝、训练量化和哈夫曼编码压缩深度神经网络[J].arXiv:1510.001492015。
[97]JACOB B，KLIGYS S，CHEN B，等.高效整数算法推理神经网络的量化与训练[C]//2018 IEEE计算机视觉与模式识别会议，2018:2704-2713。
[98]ZAFRIR O，BOUDOUKH G，IZSAK P，et al.Q8BERT：量化8位BERT[J].arXiv:1910.061882019。
[99]沈S，董泽，叶俊英，等.Q-BERT:基于Hessian的BERT超低精度量化[J].arXiv:1909。
05840，2019.
[100]张强，吴永恩，朱思聪.可解释卷积神经网络[C]//2018 IEEE计算机视觉与模式识别会议，2018:8827-8836。
[101]CASTANON G，BYRNE J.人脸识别辨别特征的可视化和量化[C]//第13届IEEE自动人脸和手势识别国际会议，2018:16-23。
[102]周伯乐，孙耀毅，BAU D，等.视觉解释的可解释基分解[C]//第十五届欧洲计算机视觉会议。查姆：施普林格，2018:122-138。
[103]HOOKER S，ERHAN D，KINDERMANS P J，等.评估特征重要性估计[J].arXiv:1806.10758
2018
[104]VENTURA F，CERQUITELLI T，GIACALONE F.通过评估其可解释特征解释的黑盒模型[C]//数据库和信息系统的新趋势-ADBIS 2018年短篇论文和研讨会，2018:138-149。
[105]FONG R C，VEDALDI A.通过有意义的扰动解释黑盒[C]//2017 IEEE国际计算机视觉会议，2017:3449-3457。
[106]PETSIUK V，DAS A，SAENKO K.RISE：随机输入抽样用于解释黑盒模型[J].arXiv:1806.074212018。
[107]张Q，王伟，朱S C.关于数据集偏差的CNN表征研究[C]//第32届AAAI人工智能会议，2018:4464-4473。
[108]BAUMGARTNER C F，KOCH L M.使用Wasserstein GANs进行视觉特征归因的补充材料[J].arXiv:1711.089982018。
[109]HOU B J，ZHOU Z H.从RNN学习可解释的结构[J].arXiv:1810.107082018。
[110]WARNECKE A，ARP D，WRESSNEGER C，等.不要把它涂成黑色：计算机安全深度学习的白盒解释[J].arXiv:1906.021082019。
[111] 化盈盈，张岱墀，葛仕明.深度学习模型可解释性的研究进展[J] 。信息安全学报，2020，5（3）：1-12.
HUA YY，ZHANG D C，GE S M.深度学习模型可解释性研究进展[J]。《网络安全杂志》，2020,5（3）：1-12。
[112] 吴飞，廖彬兵，韩亚洪.深度学习的可解释性[J] 。航空兵器，2019年（1）：39-46。
吴峰，廖伯斌，韩彦宏.深度学习的可解释性[J]。航空武器，2019（1）：39-46。
[113]SPRING R，SHRIVASTAVA A.通过随机散列实现可扩展和可持续的深度学习[C]//23 ACM SIGKDD知识发现和数据挖掘国际会议，2017:445-454。
[114]WIGGERS K.MIT研究人员警告称，深度学习正在接近计算极限[EB/OL]。（2020-07-15）[2021-06-30]。https://venturebeat.com/2020/07/15/mit-researchers-warn-tha-deep-learning-is-approaching-computational-limits。
[115]YANG Y Z，XU Z.重新思考改进标签的价值-
文类平衡学习[J].arXiv:2006.07529v2200。
[116]田建荣，王春斌，李伯英，等.长尾目标识别的均衡损失[J].arXiv:2003.05176v2
2020
[117]MINAEE S，KALCHBRENNER N，CAMBRIA E，等.基于深度学习的文本分类：综合评述[J].arXiv:2004.037052020。
[118]李强，彭华，李杰，等.文本分类调查：从浅层学习到深层学习[J].arXiv:2008.00364200。