计算机科学››2021,第48卷››发行(8): 60-65.数字对象标识:10.11896/jsjkx.200700008

•数据库、大数据和数据科学• 以前的文章   下一篇文章

基于细粒度差异特征的文本匹配方法

王胜、张阳森、陈若宇、向嘎  

  1. 北京信息科技大学智能信息处理研究所,北京100101
  • 收到:2020-07-01 修订过的:2020-08-20 出版:2021-08-10
  • 关于作者:王生,1996年生,研究生。他的主要研究兴趣包括自然语言处理和机器学习。(1028742881@qq.com)张阳森,1962年生,博士后,教授,中国计算机联合会杰出会员。他的主要研究兴趣包括自然语言处理和人工智能。
  • 支持单位:
    国家自然科学基金(61772081)、国家重点研发计划(2018YFB1403104)、北京信息科技大学研究基金(2035008)。

摘要:文本匹配是检索系统中的关键技术之一。针对现有的文本匹配模型无法准确捕捉文本的语义差异的问题,本文提出了一种基于细粒度差异特征的文本匹配方法。首先,以预训练模型为基本模型,提取匹配文本语义并进行初步匹配。然后,在嵌入层引入了对抗学习的思想,通过人工构建虚拟对抗样本进行训练,提高了模型的学习能力和泛化能力。最后,通过引入文本的细粒度差异特征来校正文本匹配的初步预测结果,有效地提高了模型对细粒度差别特征的捕获能力,进而提高了文本匹配模型的性能。本文对两个数据集进行了测试,在LCQMC数据集上的实验表明,ACC的性能指标为88.96%,优于最著名的模型。

关键词: 对抗性学习, 差异特征, 预应变模型, 语义相似性, 文本匹配

CLC编号:

  • TP391.1标准
[1] 李霞。问答系统中段落检索技术的研究[D]。成都:中国科技大学,2010年。
[2] SALTON G,BUCKLEY C.自动文本检索中的术语加权方法[J]。信息处理与管理,1988,24(5):513-523。
[3] SONG F,CROFT W B.信息检索的通用语言模型[C]//第八届国际信息与知识管理会议论文集,1999:316-321。
[4] LE Q,MIKOLOV T.句子和文档的分布式表示[C]//国际机器学习会议.2014:1188-1196。
[5] LOGESWARAN L,LEE H.句子表征学习的有效框架[J].arXiv:1803.028932018。
[6] CER D,YANG Y,KONG S,等.通用句子编码器[J].arXiv:1803.111752018。
[7] YIN W,SCHÜTZE H,XIANG B,et al.Abcnn:用于句子对建模的基于注意力的卷积神经网络[J]。计算语言学协会汇刊,2016,4:259-272。
[8] 陈强,朱旭,凌志,等.自然语言推理的改进lstm[J].arXiv:1609.060382016。
[9] 王Z,哈姆扎·W,弗洛里安·R。自然语言句子的双向多视角匹配[J]。arXiv:1702.038142017。
[10] RADFORD A,NARASIMHAN K,SALIMANS T,et al.通过无监督学习提高语言理解能力[R/OL]。技术报告,OpenAI,2018年。https://openai.com/blog/language-unsupervised/。
[11] 戴夫林J,常明伟,李凯,等.伯特:语言理解的深度双向变换器预训练[J].arXiv:1810.048052018。
[12] RADFORD A,WU J,CHILD R等。语言模型是无监督的多任务学习者[J]。OpenAI博客,2019,1(8):9。
[13] 孙毅,王斯,李毅,等。厄尼:通过知识整合增强表征[J].arXiv:1904.092232019。
[14] 拉斐尔C,夏泽尔N,罗伯茨A,等.用统一的文本转换探索迁移学习的极限[J].arXiv:1910.106832019。
[15] 胡伟,丹安,谭勇.最新短文本匹配算法综述[C]//国际数据挖掘与大数据会议。新加坡:Springer,2019:211-219。
[16] SAKATA W,SHIBATA T,TANAKA R,et al.利用查询-问题相似度和基于BERT的查询-答案相关性进行FAQ检索[C]//第42届国际ACM SIGIR信息检索研究与开发会议论文集.2019:1113-1116。
[17] WU Y,WANG R J.基于BERT的语义标记算法在问答系统中的应用[J]。仪器技术,2020(6):19-22,30。
[18] 王乃中。基于BERT的改进文本表示模型研究[D]。西南大学2019年。
[19] GOODFELLOW I J,SHLENS J,SZEGEDY C.解释和利用对抗性示例[J].arXiv:1412.65722014。
[20] 朱C,程毅,甘孜,等.弗里尔布:增强对抗训练促进自然语言理解[C]//国际学习代表大会.2019。
[21]阎J,布拉塞韦尔D B,REN F,等.汉语情感识别辅助语义分析器[C]//智能计算国际会议。柏林,海德堡:施普林格,2006:893-901。
[22]宋毅,史仕,李杰,等.方向略图:明确区分单词嵌入的左右语境[C]//计算语言学协会北美分会2018年会议论文集:人类语言技术,第2卷(短文).2018:175-180。
[23]刘霞,陈强,邓C,等.Lcqmc:大型汉语问题匹配语料库[C]//第27届国际计算语言学会议论文集.2018:1952-1962。
[24]张X,陆伟,张G,等.基于多粒度融合模型的汉语句子语义匹配[C]//Paci-fic-Asia知识发现与数据挖掘会议。查姆:施普林格,2020:246-257。
[25]刘伟,周平,赵Z,等.K-BERT:用知识图实现语言表示[C]//AAAI.2020:2901-2908。
[26]陈J,曹C,蒋X.SiBert:带句子插入的增强汉语预训练语言模型[C]//第十二语言资源的处理和评估交待.2020:2405-2412。
[27]孟毅,吴伟,王峰,等.Glyce:汉字表征的字形向量[C]//神经信息处理系统进展.2019:2746-2757。
[28]崔毅,CHE W,LIU T,等.汉语伯特的全词掩蔽预训练[J].arXiv:1906.081012019。
[29]KOEHN P.机器翻译评估的统计显著性检验[C]//2004年自然语言处理实证方法会议论文集。2004:388-395。
[1] 吕晓峰、赵树良、高恒达、吴永良、张宝琦。基于异构信息网络的短文本Feautre富集方法[J] ●●●●。计算机科学,2022,49(9):92-100。
[2] 曹小文、梁美佑、卢康康。基于细粒度语义推理的跨媒体双向对抗性哈希学习模型[J] ●●●●。计算机科学,2022,49(9):123-131。
[3] 曾志贤、曹建军、翁念峰、姜国权、徐斌。基于注意机制的细粒度语义关联视频文本跨模式实体解析[J] ●●●●。计算机科学,2022,49(7):106-112。
[4] 侯鸿旭、孙朔、吴尼尔。蒙古语-汉语神经机器翻译综述[J] 。计算机科学,2022,49(1):31-40。
[5] 罗跃东、王涛、杨梦南、张彦空。基于历史驾驶轨迹集的可视化车辆行为分析方法[J] ●●●●。计算机科学,2021,48(9):86-94。
[6] 刘立波、郭廷廷。结合深度典型相关分析和对抗学习的跨模式检索[J] ●●●●。计算机科学,2021,48(9):200-207。
[7] 唐世正,张燕凤。DragDL:一个易于使用的图形化DL模型构造系统[J] ●●●●。计算机科学,2021,48(8):220-225。
[8] 詹万江、洪志林、方璐萍、吴哲福、吕月华。基于对抗学习的协同过滤推荐算法[J] ●●●●。计算机科学,2021,48(7):172-177。
[9] 吕乐彬、刘群、彭璐、邓伟彬、王崇玉。结合多粒度信息的文本匹配融合模型[J] ●●●●。计算机科学,2021,48(6):196-201。
[10] 詹瑞、雷银杰、陈训敏、叶淑翰。基于多差分特征网络的街道场景变化检测[J] ●●●●。计算机科学,2021,48(2):142-147。
[11] 吴瑜、李周军。基于检索的聊天机器人研究综述[J] ●●●●。计算机科学,2021,48(12):278-285。
[12] 黄欣、雷刚、曹元龙、卢明明。基于深度学习的交互式问答技术综述[J] ●●●●。计算机科学,2021,48(12):286-296。
[13] 张玉怀,赵欢,李波。基于BERT和BiLSTM的语义时隙填充[J] ●●●●。计算机科学,2021,48(1):247-252。
[14] 张云帆,周瑜,黄志秋。基于语义相似度的API使用模式推荐[J] ●●●●。计算机科学,2020,47(3):34-40。
[15] 马晓辉、贾俊志、周祥珍、颜俊雅。基于语义相似度的情感分类方法[J] ●●●●。计算机科学,2020,47(11):275-279。
已查看
全文


摘要

引用

  共享   
  讨论   
找不到建议阅读的文章!