基于细粒度差异特征的文本匹配方法

doi:10.11896/jsjkx.200700008

摘要

摘要：文本匹配是检索系统中的关键技术之一。针对现有的文本匹配模型无法准确捕捉文本的语义差异的问题，本文提出了一种基于细粒度差异特征的文本匹配方法。首先，以预训练模型为基本模型，提取匹配文本语义并进行初步匹配。然后，在嵌入层引入了对抗学习的思想，通过人工构建虚拟对抗样本进行训练，提高了模型的学习能力和泛化能力。最后，通过引入文本的细粒度差异特征来校正文本匹配的初步预测结果，有效地提高了模型对细粒度差别特征的捕获能力，进而提高了文本匹配模型的性能。本文对两个数据集进行了测试，在LCQMC数据集上的实验表明，ACC的性能指标为88.96%，优于最著名的模型。

关键词： 对抗性学习，差异特征，预应变模型，语义相似性，文本匹配

CLC编号：

TP391.1标准

王胜，张阳森，陈若宇，向嘎.基于细粒度差异特征的文本匹配方法[J]。计算机科学，2021，48（8）：60-65。

工具书类

[1] 李霞。问答系统中段落检索技术的研究[D]。成都：中国科技大学，2010年。
[2] SALTON G，BUCKLEY C.自动文本检索中的术语加权方法[J]。信息处理与管理，1988,24（5）：513-523。
[3] SONG F，CROFT W B.信息检索的通用语言模型[C]//第八届国际信息与知识管理会议论文集，1999:316-321。
[4] LE Q，MIKOLOV T.句子和文档的分布式表示[C]//国际机器学习会议.2014:1188-1196。
[5] LOGESWARAN L，LEE H.句子表征学习的有效框架[J].arXiv:1803.028932018。
[6] CER D，YANG Y，KONG S，等.通用句子编码器[J].arXiv:1803.111752018。
[7] YIN W，SCHÜTZE H，XIANG B，et al.Abcnn:用于句子对建模的基于注意力的卷积神经网络[J]。计算语言学协会汇刊，2016,4:259-272。
[8] 陈强，朱旭，凌志，等.自然语言推理的改进lstm[J].arXiv:1609.060382016。
[9] 王Z，哈姆扎·W，弗洛里安·R。自然语言句子的双向多视角匹配[J]。arXiv:1702.038142017。
[10] RADFORD A，NARASIMHAN K，SALIMANS T，et al.通过无监督学习提高语言理解能力[R/OL]。技术报告，OpenAI，2018年。https://openai.com/blog/language-unsupervised/。
[11] 戴夫林J，常明伟，李凯，等.伯特：语言理解的深度双向变换器预训练[J].arXiv:1810.048052018。
[12] RADFORD A，WU J，CHILD R等。语言模型是无监督的多任务学习者[J]。OpenAI博客，2019,1（8）：9。
[13] 孙毅，王斯，李毅，等。厄尼：通过知识整合增强表征[J].arXiv:1904.092232019。
[14] 拉斐尔C，夏泽尔N，罗伯茨A，等.用统一的文本转换探索迁移学习的极限[J].arXiv:1910.106832019。
[15] 胡伟，丹安，谭勇.最新短文本匹配算法综述[C]//国际数据挖掘与大数据会议。新加坡：Springer，2019:211-219。
[16] SAKATA W，SHIBATA T，TANAKA R，et al.利用查询-问题相似度和基于BERT的查询-答案相关性进行FAQ检索[C]//第42届国际ACM SIGIR信息检索研究与开发会议论文集.2019:1113-1116。
[17] WU Y，WANG R J.基于BERT的语义标记算法在问答系统中的应用[J]。仪器技术，2020（6）：19-22,30。
[18] 王乃中。基于BERT的改进文本表示模型研究[D]。西南大学2019年。
[19] GOODFELLOW I J，SHLENS J，SZEGEDY C.解释和利用对抗性示例[J].arXiv:1412.65722014。
[20] 朱C，程毅，甘孜，等.弗里尔布：增强对抗训练促进自然语言理解[C]//国际学习代表大会.2019。
[21]阎J，布拉塞韦尔D B，REN F，等.汉语情感识别辅助语义分析器[C]//智能计算国际会议。柏林，海德堡：施普林格，2006:893-901。
[22]宋毅，史仕，李杰，等.方向略图：明确区分单词嵌入的左右语境[C]//计算语言学协会北美分会2018年会议论文集：人类语言技术，第2卷（短文）.2018:175-180。
[23]刘霞，陈强，邓C，等.Lcqmc:大型汉语问题匹配语料库[C]//第27届国际计算语言学会议论文集.2018:1952-1962。
[24]张X，陆伟，张G，等.基于多粒度融合模型的汉语句子语义匹配[C]//Paci-fic-Asia知识发现与数据挖掘会议。查姆：施普林格，2020:246-257。
[25]刘伟，周平，赵Z，等.K-BERT：用知识图实现语言表示[C]//AAAI.2020:2901-2908。
[26]陈J，曹C，蒋X.SiBert:带句子插入的增强汉语预训练语言模型[C]//第十二语言资源的处理和评估交待.2020:2405-2412。
[27]孟毅，吴伟，王峰，等.Glyce:汉字表征的字形向量[C]//神经信息处理系统进展.2019:2746-2757。
[28]崔毅，CHE W，LIU T，等.汉语伯特的全词掩蔽预训练[J].arXiv:1906.081012019。
[29]KOEHN P.机器翻译评估的统计显著性检验[C]//2004年自然语言处理实证方法会议论文集。2004:388-395。

相关文章15

[1]	吕晓峰、赵树良、高恒达、吴永良、张宝琦。基于异构信息网络的短文本Feautre富集方法[J] ●●●●。计算机科学，2022，49（9）：92-100。
[2]	曹小文、梁美佑、卢康康。基于细粒度语义推理的跨媒体双向对抗性哈希学习模型[J] ●●●●。计算机科学，2022，49（9）：123-131。
[3]	曾志贤、曹建军、翁念峰、姜国权、徐斌。基于注意机制的细粒度语义关联视频文本跨模式实体解析[J] ●●●●。计算机科学，2022，49（7）：106-112。
[4]	侯鸿旭、孙朔、吴尼尔。蒙古语-汉语神经机器翻译综述[J] 。计算机科学，2022，49（1）：31-40。
[5]	罗跃东、王涛、杨梦南、张彦空。基于历史驾驶轨迹集的可视化车辆行为分析方法[J] ●●●●。计算机科学，2021，48（9）：86-94。
[6]	刘立波、郭廷廷。结合深度典型相关分析和对抗学习的跨模式检索[J] ●●●●。计算机科学，2021，48（9）：200-207。
[7]	唐世正，张燕凤。DragDL：一个易于使用的图形化DL模型构造系统[J] ●●●●。计算机科学，2021，48（8）：220-225。
[8]	詹万江、洪志林、方璐萍、吴哲福、吕月华。基于对抗学习的协同过滤推荐算法[J] ●●●●。计算机科学，2021，48（7）：172-177。
[9]	吕乐彬、刘群、彭璐、邓伟彬、王崇玉。结合多粒度信息的文本匹配融合模型[J] ●●●●。计算机科学，2021，48（6）：196-201。
[10]	詹瑞、雷银杰、陈训敏、叶淑翰。基于多差分特征网络的街道场景变化检测[J] ●●●●。计算机科学，2021，48（2）：142-147。
[11]	吴瑜、李周军。基于检索的聊天机器人研究综述[J] ●●●●。计算机科学，2021，48（12）：278-285。
[12]	黄欣、雷刚、曹元龙、卢明明。基于深度学习的交互式问答技术综述[J] ●●●●。计算机科学，2021，48（12）：286-296。
[13]	张玉怀，赵欢，李波。基于BERT和BiLSTM的语义时隙填充[J] ●●●●。计算机科学，2021，48（1）：247-252。
[14]	张云帆，周瑜，黄志秋。基于语义相似度的API使用模式推荐[J] ●●●●。计算机科学，2020，47（3）：34-40。
[15]	马晓辉、贾俊志、周祥珍、颜俊雅。基于语义相似度的情感分类方法[J] ●●●●。计算机科学，2020，47（11）：275-279。

韵律学

已查看

全文

摘要

引用

共享

讨论