基于提示学习的生成式医疗对话理解方法

doi:10.11896/jsjkx.230300007

摘要

摘要：任务型对话系统中对话理解模块的目标是将用户的自然语言输入转换为结构化形式。然而，在面向诊断的医学对话系统中，现有的方法面临以下问题：1）信息的粒度不能完全满足诊断的需要，例如提供症状的严重程度；2）很难同时满足医学领域中时隙值的各种表示，例如可能包含非连续嵌套实体的“症状”和可能包含类别值的“否定”。本文提出了一种基于即时学习的生成性医学对话理解方法。为了解决问题1），本文将当前对话理解任务中的单层槽结构替换为多层槽结构来表示细粒度信息，然后提出了一种基于对话式提示的生成方法，它使用提示标记来模拟医生和患者之间的对话，并从多轮交互中获取多级信息。为了解决问题2），本文提出在推理过程中使用受限解码策略，以便该模型能够统一处理提取和分类时隙的意图检测和时隙填充任务，避免复杂的建模。此外，为了解决医学领域中缺少标记数据的问题，本文提出了一种两阶段训练策略，以利用大规模未标记医学对话语料库来提高性能。本文针对包含多级时隙结构的医学对话理解任务，注释并发布了一个包含4722个对话的数据集，其中包含17个意图和74种时隙类型。实验表明，该方法能够有效地解析医学对话中的各种复杂实体，与现有的生成方法相比，性能提高了2.18%。在数据较少的情况下，两阶段训练可以将模型的性能提高5.23%。

关键词： 及时学习，自然语言理解，医疗对话系统，生成模型，两阶段培训

CLC编号：

TP391型

刘军、阮彤、张欢欢。基于快速学习的医学对话理解生成方法[J]。计算机科学，2024，51（5）：258-266。

工具书类

[1] 李毅，NI P，PENG J，等。基于RCNN和BiGRU-CRF的临床领域分类和缝隙填充联合模型[C]//2019 IEEE国际大数据会议（Big Data）。IEEE，2019:6133-6135。
[2] LIN Z，LIU B，MADOTTO A，et al.基于跨任务传输的零镜头对话状态跟踪[C]//2021年自然语言过程经验方法会议论文集.2021:7890-7900。
[3] BUDZIANOWSKI P，WEN T H，TSENG B H，et al.Multi-WOZ-A面向任务的对话建模的大规模多域向导-Oz数据集[C]//2018年自然语言过程实证方法会议论文集.2018:5016-5026。
[4] ERIC M，GOEL R，PAUL S，et al.MultiWOZ 2.1:带状态校正和状态跟踪基线的综合多域对话数据集[C]//第十二届语言资源与评估会议论文集.2020:422-428。
[5] ZANG X，RASTOGI A，SUNKARA S，et al.MultiWOZ 2.2:带有附加注释修正和状态跟踪基线的对话数据集[C]//对话人工智能自然语言处理第二次研讨会论文集.2020:109-117。
[6] 拉斐尔C，沙泽尔N，罗伯茨A，等.用统一的文本到文本转换器探索迁移学习的局限性[J]。机器学习研究杂志，2020,21（140）：1-67。
[7] 廖克，刘Q，魏Z，等。基于分层强化学习的疾病自动诊断的面向任务的对话系统[J]。arXiv:2004.142542020。
[8] 魏泽，刘强，彭波，等.面向任务的自动诊断对话系统[C]//计算语言学协会第56届年会论文集（第2卷：短文）.2018:201-207。
[9] 王泽，杨毅，温润，等。基于终身学习的疾病诊断临床笔记[C]//亚太知识发现与数据挖掘会议。查姆施普林格，2021:213-224。
[10] SHI X，HU H，CHE W，et al.理解关键词注意力分散、反应监督薄弱的医学对话[C]//AAAI人工智能会议论文集。2020:8838-8845。
[11] 陈磊，吕B，王C，等.基于图注意神经网络的模式引导多域对话状态跟踪[C]//AAAI人工智能会议论文集.2020:7521-7528。
[12] 杜旭，贺力，李强，等.QA-Driven Zero-shot Slot Filling with Weak Supervision Pretraining[C]//计算语言学协会第五十九届年会暨第十一届国际自然语言处理联合会议论文集（第二卷：短文）.2021:654-664。
[13] 卢力，孔凤.基于对话的知识实体关系提取[J]。计算机科学，2022,49（5）：200-205。
[14] WU C S，MADOTTO A，HOSSEINI-ASL E，等.面向任务对话系统的可转移多域状态发生器[C]//计算语言学协会第57届年会论文集.2019:808-819。
[15] KIM S，YANG S，KIM G，等.选择性覆盖记忆的高效对话状态转换[C]//计算语言学协会第58届年会论文集.2020:567-582。
[16] RASTOGI A，ZANG X，SUNKARA S，等.面向可扩展多域会话代理：模式引导对话数据集[C]//美国人工智能学会人工智能会议论文集.2020:8689-8696。
[17] FENG Y，WANG Y，LI H.对话状态跟踪的序列对序列方法[C]//计算语言学协会第59届年会暨第11届国际自然语言处理联合会议论文集（第1卷：长篇论文）.2021:1714-1725。
[18] LAI S，XU L，LIU K，等.递归卷积神经网络在文本分类中的应用[C]//第二十届AAAI人工智能会议.2015。
[19] 刘伟，唐杰，秦杰，等。Meddg:构建医学对话系统的大规模医学咨询数据集[J].arXiv:2010.074972020。
[20] DONG L，YANG N，WANG W，等.用于自然语言理解和生成的统一语言模型预训练[C]//第33届神经信息处理系统国际会议论文集.2019:13063-13075。
[21]DEVLIN J，CHANG M W，LEE K，et al.伯特：语言理解深度双向变换器的预训练[J].arXiv:1810.048052018。
[22]高S，阿加瓦尔S，钟T，等.从机器阅读理解到对话状态跟踪：弥合差距[J].arXiv:2004.058272020。
[23]YANG P，HUANG H Y，MAO X L.综合研究：不同粒度的上下文信息如何影响对话状态跟踪？[C] //计算语言学协会第59届年会和第11届国际自然语言处理联合会议论文集（第1卷：长篇论文）.2021:2481-2491。
[24]崔毅，CHE W，LIU T，等.汉语伯特的全词掩蔽预训练[J]。IEEE/ACM音频、语音和语言处理汇刊，2021,29:3504-3514。
[25]DAI Z，WANG X，NI P，et al.使用BERT BiLSTM CRF对中国电子健康记录进行命名实体识别[C]//2019年第十二届国际图像和信号处理、生物医学工程和信息学大会（CISP-BMEI）。IEEE，2019:1-5。
[26]谭Z，沈毅，张S，等.嵌套命名实体识别的序列集网络[J].arXiv:2105.089012021。
[27]SU J.一种具有指针标记混合结构的层次关系提取模型[EB/OL]。https://github.com/bojone/kg-2019。

韵律学

已查看

全文

摘要

引用

共享

讨论

基于快速学习的医学对话理解生成方法

PDF（PC）

摘要

引用这篇文章

分享这篇文章

工具书类

相关文章12

韵律学

评论

推荐0

[1]	葛银驰、张辉、孙浩航。基于潜在扩散模型的差分隐私数据合成方法[J] ●●●●。计算机科学，2024，51（3）：30-38。
[2]	颜志浩、周章兵、李小翠。生成扩散模型综述[J] ●●●●。计算机科学，2024，51（1）：273-283。
[3]	姚东、李周军、陈树伟、吉珍、张瑞、宋磊、兰海波。基于深度学习的任务型对话系统与技术[J] ●●●●。计算机科学，2021，48（5）：232-238。
[4]	胡玉杰、常建辉、张健。基于语义区域风格约束的图像合成[J] ●●●●。计算机科学，2021，48（2）：134-141。
[5]	曹卫东，徐志祥，王晶。基于深度生成模型半监督学习的入侵检测[J] ●●●●。计算机科学，2019，46（3）：197-201。
[6]	彭雄伟、万本怀和王攀。基于MRT-LDA的微博文本分类[J] ●●●●。计算机科学，2017，44（8）：236-241。
[7]	傅建辉、曹存根、王石。基于区别词的汉语隐喻短语识别方法[J] ●●●●。计算机科学，2010，37（10）：193-196。
[8]	贾玉祥，于世文（北京大学计算语言学研究所，北京100871，中国）。 [J] ●●●●。计算机科学，2009，36（3）：138-141。
[9]	苏昌。周长乐（厦门大学人工智能研究所，厦门361005）。 [J] ●●●●。计算机科学，2007，34（8）：1-3。
[10]	. [J] ●●●●。计算机科学，2007，34（1）：166-169。
[11]	. [J] ●●●●。计算机科学，2006，33（9）：152-154。
[12]	. [J] ●●●●。计算机科学，2006，33（8）：178-183。