跳到主要内容
研究论文

LUKE图:一种基于变换的封闭式阅读理解方法

出版:2023年11月14日 出版历史
  • 获取引文提醒
  • 摘要

    正如最近的研究所观察到的那样,结合先验知识被认为是一种很有希望的方法,可以增强cloze-style机器阅读中现有的预训练模型。尽管在大多数现有模型中使用了外部知识图(KG)和基于变压器的模型(如BERT),但KG中最相关的模糊实体的识别以及最佳子图的提取仍然存在问题。为了解决这些挑战,我们引入了LUKE-Graph模型,该模型基于文档中实体之间的直观关系构建异构图,而不依赖于外部KG。然后,我们使用关系图注意(RGAT)网络将图的推理信息与预训练LUKE模型生成的上下文表示相结合。通过这种方式,我们可以利用LUKE,导出实体感知表示;和一个图形模型,利用关系软件表示。此外,我们还提出了选通-RGAT,这是对RGAT的一种增强,它包含一个选通机制来控制图卷积操作期间的问题信息。该机制模拟人工推理过程,根据问题信息选择最合适的实体候选。我们的实验结果表明,所提出的LUKE-Graph模型在ReCoRD数据集(侧重于常识推理)和WikiHop数据集(着重于多跳推理问题)上优于LUKE最新模型。

    工具书类

    [1]
    J.Devlin,M.-W.Chang,K.Lee,K.Toutanova,Bert:语言理解的深层双向变换器预训练,收录于:Conf.North Am.Chapter Assoc.Compute。语言学家。哼,语言,技术。第1卷(长短论文,2019年:第4171–4186页。
    [2]
    Y.Liu、M.Ott、N.Goyal、J.Du、M.Joshi、D.Chen、O.Levy、M.Lewis、L.Zettlemoyer、V.Stoyanov、Roberta:一种稳健优化的伯特预训练方法,ArXiv Prepr。ArXiv1907.11692。(2019).
    [3]
    Z.Yang、Z.Dai、Y.Yang,J.Carbonell、R.R.Salakhutdinov、Q.V.Le、Xlnet:语言理解的广义自回归预训练,高级神经信息处理。系统。32 (2019).
    [4]
    I.Beltagy,M.E.Peters,A.Cohan,《Longformer:Long-Document Transformer》(2020年)。https://doi.org/10.48550/arxiv.2004.05150。
    [5]
    W.Han,M.Peng,Q.Xie,G.Hu,W.Gao,H.Wang,Y.Zhang,Z.Liu,DTC:常识机器理解的迁移学习,神经计算396 (2020) 102–112,.
    [6]
    J.Welbl,P.Stenetorp,S.Riedel,构建跨文档的多跳阅读理解数据集,事务处理。关联计算。语言学家。6 (2018) 287–302,.
    [7]
    S.Zhang,X.Liu,J.Liu,J.Gao,K.Duh,B.Van Durme,ReCoRD:弥合人机常识阅读理解之间的差距,ArXiv:11810.12885。(2018). http://arxiv.org/abs/1810.12885。
    [8]
    I.Yamada、A.Asai、H.Shindo、H.Takeda、Y.Matsumoto、LUKE:具有实体意识的自我关注的深层语境化实体表征,EMNLP 2020–2020年会议。方法自然语言法。程序。Conf.公司。(2020) 6442–6454,.
    [9]
    K.Clark,U.Khandelwal,O.Levy,C.D.Manning,伯特看什么?对伯特注意力的分析,程序。ACL工作黑盒NLP分析。解释。神经网络NLP。2019 (2019) 276–286.
    [10]
    Y.Lu,H.Lu,G.Fu,Q.Liu,Kelm:通过层次关系图传递消息的知识增强预训练语言表示,ArXiv Prepr。ArXiv2109.04223。(2021).
    [11]
    Z.Zhang、X.Han、Z.Liu、X.Jiang、M.Sun、Q.Liu和ERNIE:《信息实体的增强语言表示》,ACL 2019–57年。见面。助理计算。语言学家。程序。Conf.(2019)1441–1451。https://doi.org/10.48550/arxiv.1905.07129。
    [12]
    D.Qiu,Y.Zhang,X.Feng,X.Liao,W.Jiang,Y.Lyu,K.Liu,J.Zhao,使用结构知识图形软件网络进行机器阅读理解,EMNLP-IJCNLP 2019-2019年员工大会。方法自然语言法。第9国际Jt。Conf.Nat.Lang.过程。程序。Conf.公司。(2019) 5896–5901,.
    [13]
    A.Yang Q.Wang J.Liu K.Liu Y.Lyu H.Wu Q.She S.Li用丰富的机器阅读理解知识增强预先训练的语言表征。第57年。见面。2019年联合计算语言学家2346 2357。
    [14]
    Y.Cao,M.Fang,D.Tao,BAG:用于多跳推理问答的双向注意实体图卷积网络,ArXiv Prepr。ArXiv1904.04969。(2019).
    [15]
    D.Busbridge、D.Sherburn、P.Cavallo、N.Y.Hammerla,关系图注意网络,ArXiv Prepr。ArXiv1904.05811。(2019).
    [16]
    唐振堂,沈Y.,马X.,徐W.,余J.,卢W.,基于路径图卷积网络的跨文档多跳阅读理解,IJCAI国际Jt。Conf.Artif公司。智力。(2020) 3905–3911,.
    [17]
    R.Child、S.Gray、A.Radford、I.Sutskever,《使用稀疏变压器生成长序列》(2019年)。https://doi.org/10.48550/arxiv.1904.10509。
    [18]
    N.基塔耶夫,Ł。Kaiser,A.Levskaya,G.研究改革者:高效变压器2020国际竞争学习代表https://doi.org/10.48550/arxiv.2001.04451。
    [19]
    J.Ainslie、S.Ontañón、C.Alberti、V.Cvicek、Z.Fisher、P.Pham、A.Ravula、S.Sanghai、Q.Wang、L.Yang、ETC:对变压器中的长输入和结构化输入进行编码,EMNLP 2020–2020年会议。方法自然语言法。程序。Conf.公司。(2020) 268–284,.
    [20]
    M.Zaheer、G.Guruganesh、A.Dubey、J.Ainslie、C.Alberti、S.Ontanon、P.Pham、A.Ravula、Q.Wang、L.Yang、A.G.Research Big Bird:Transformers for Longer Sequences Adv.Neural Inf.Process。系统。33 2020 17283 17297.
    [21]
    R.He,A.Ravula,B.Kanagal,J.Ainslie,RealFormer:变压器喜欢剩余注意力,查找。助理计算。语言学家。ACL-IJCNLP公司2020 (2021) 929–943,.
    [22]
    M.Jia、L.Liao、W.Wang、F.Li、Z.Chen、J.Li和H.Huang,用于多跳阅读理解的关键词感知动态图神经网络,神经计算501 (2022) 25–40,.
    [23]
    P.He,X.Liu,J.Gao,W.Chen,M.Dynamics,DeBERTa:解码增强的BERT和分散注意力,(2020年)。https://arxiv.org/abs/2006.03654v6(2023年7月5日访问)。
    [24]
    C.Raffel、N.Shazeer、A.Roberts、K.Lee、S.Narang、M.Matena、Y.Zhou、W.Li、P.J.Liu,《使用统一的文本对文本转换器探索迁移学习的局限性》,2023年7月5日查阅J.马赫。学习。物件。21 (2019) 1–67.https://arxiv.org/abs/1910.10683v3网址.
    [25]
    A.Chowdhery、S.Narang、J.Devlin、M.Bosma、G.Mishra、A.Roberts、P.Barham、H.W.Chung、C.Sutton、S.Gehrmann、P.Schuh、K.Shi、S.Tsvyashchenko、J.Maynez、A.Rao、P.巴恩斯、Y.Tay、N.Shazeer、V.Prabhakaran、E.Reif、N.Du、B.Hutchinson、R.Pope、J.Bradbury、J.Austin、M.Isard、G.Gur-Ari、P.Yin、T.Duke、A.Levskaya、S.Ghemawat。Dev、H.Michalewski、X.Garcia、V.Misra、K.Robinson、L.Fedus、D.Zhou、D.Ippolito、D.Luan、H.Lim、B.Zoph、A.Spiridonov、R.Sepassi、D.Dohan、S.Agrawal、M.Omernick、A.M.Dai、T.S.Pillai、M.Pellat、A.Lewkowycz、E.Moreira、R.Child、O.Polozov、K.Lee、Zhou和X.Wang、B.Saeta、M.Diaz、O.Firat、M.Catasta、J.Wei、K。Meier-Hellstern,D.Eck,J.Dean,S.Petrov,N.Fiedel,PaLM:使用路径缩放语言建模,(2022)。https://arxiv.org/abs/2204.02311v5(2023年7月5日访问)。
    [26]
    M.E.Peters、M.Neumann、R.L.Logan、R.Schwartz、V.Joshi、S.Singh、N.A.Smith,《知识增强语境词语表征》,EMNLP-IJCNLP 2019-2019 Conf.Empir。方法自然语言法。第9国际Jt。Conf.Nat.Lang.过程。程序。Conf.(2019)43-54。https://doi.org/10.18653/V1/D19-1005。
    [27]
    A.Santoro、D.Raposo、D.G.T.Barrett、M.Malinowski、R.Pascanu、P.Battaglia、T.Lillicrap,关系推理的简单神经网络模块,高级神经信息处理。系统。30 (2017).
    [28]
    N.de Cao,W.Aziz,I.Titov,《利用图卷积网络进行跨文档推理的问答》,NAACL HLT 2019-2019 Conf.North Am.第Assoc.Compute章。语言学家。技术语言程序。会议1(2018)2306–2317。https://doi.org/10.48550/arxiv.1808.09920。
    [29]
    M.Tu,G.Wang,J.Huang,Y.Tang,X.He,B.Zhou,通过异质图形推理实现跨多文档的多跳阅读理解,ACL 2019-57年。见面。助理计算。语言学家。程序。Conf.(2019)2704–2713。https://doi.org/10.18653/V1/P19-1260。
    [30]
    V.Zhong,C.Xiong,N.S.Keskar,R.Socher,多证据问题回答的粗粒度细粒度协同关注网络,第七届国际Conf.学习。代表。ICLR公司2019 (2019),.
    [31]
    W.Wu,Z.Zhu,J.Qi,W.Wang,G.Zhang,P.Liu,用于多跳知识库问答的动态图形扩展网络,神经计算515 (2023) 37–47,.
    [32]
    J·张,H·张,C·夏,L·孙,《图形-伯特:学习图形表示只需要注意》,(2020年)。https://doi.org/10.44850/arxiv.2001.05140。
    [33]
    V.P.Dwivedi,X.Bresson,变压器网络到图的泛化,AAAI 2021工作。深度学习。图形方法应用。(DLG-AAAI 2021)。(2021). https://doi.org/10.48550/arxiv.2012.09699。
    [34]
    A.Vaswani、N.Shazeer、N.Parmar、J.Uszkoreit、L.Jones、A.N.Gomez,Ł。Kaiser,I.Polosukhin,《注意力是你所需要的一切:高级神经信息处理》。系统。2017年30月:第5998–6008页。http://papers.nips.cc/paper/7181-antelection-is-all-you-need(2019年1月27日访问)。
    [35]
    P.Velićković,A.Casanova,P.Lió,G.Cucurull,A.Romero,Y.Bengio,《图形注意力网络》,第六届国际Conf.Learn。代表。2018年ICLR——会议跟踪程序。(2017). https://doi.org/10.48550/arxiv.1710.10903。
    [36]
    M.Schlichtkrull,T.N.Kipf,P.Bloem,R.van den Berg,I.Titov,M.Welling,用图卷积网络建模关系数据,Lect。注释计算。科学。(包括Subser.Lect.Notes Artif.Intell.Lect.Notes生物信息学)。10843 LNCS(2017)593–607。https://doi.org/10.48550/arxiv.1703.06103。
    [37]
    M.Fey J.E.Lenssen快速图形表示学习与PyTorch Geometric 2019 ICLR工作。学习图形流形https://doi.org/10.48550/arxiv.1903.02428。
    [38]
    X.Li,Z.Zhang,W.Zhu,Z.Li,Y.Ni,P.Gao,J.Yan,G.Xie,Pingan Smart Health和SJTU在《COIN共享任务:在机器阅读任务中使用预先训练的语言模型和常识》(2019)93–98。https://doi.org/10.18653/V1/D19-6011。
    [39]
    郭涛,《训练前语言模型的综合比较》,(2021)。https://doi.org/10.48550/arxiv.2106.11483。
    [40]
    涂M.Tu,王G.Wang,黄J.Huang,汤Y.Tang,X.He,B.Zhou,通过异质图形推理实现跨多文档的多跳阅读理解,Proc。第57年。见面。助理计算。语言学家。(2019) 2704–2713. http://arxiv.org/abs/1905.07374。
    [41]
    S.Brody、U.Alon、E.Yahav,《图形注意力网络如何专注?》?,国际会议学习。代表。(2022). https://doi.org/10.48550/arxiv.2105.14491。
    [42]
    T.N.Kipf,M.Welling,《图卷积网络半监督分类》,第五届国际会议学习。代表。2017年ICLR——会议跟踪程序。(2017). https://doi.org/10.48550/arxiv.1609.02907。

    索引术语

    1. LUKE-Graph:一种基于变换的封闭式阅读理解方法,具有门控关系图注意
          索引项已通过自动分类分配给内容。

          建议

          评论

          信息和贡献者

          问询处

          发布时间

          封面图像神经计算
          神经计算 第558卷,C期
          2023年11月
          322页
          国际标准编号:0925-2312
          期刊目录

          出版商

          爱思唯尔科学出版社。

          荷兰

          出版历史

          出版:2023年11月14日

          作者标记

          1. 基于转换器的模型
          2. 门控关系图注意模型
          3. 封闭式机器阅读理解
          4. 问题的回答
          5. 卢克
          6. 常识推理

          限定符

          • 研究文章

          贡献者

          其他指标

          文献计量学和引文

          文献计量学

          文章指标

          • 0
            引文总数
          • 0
            总下载次数
          • 下载次数(过去12个月)0
          • 下载次数(最近6周)0

          其他指标

          引文

          视图选项

          查看选项

          获取访问权限

          登录选项

          完全访问权限

          媒体

          数字

          其他

          桌子

          分享

          分享

          共享此出版物链接

          在社交媒体上分享