研究论文

LUKE图：一种基于变换的封闭式阅读理解方法

作者:

希马弗拉德和

库罗斯基亚尼作者信息和声明

体积558,问题C类

https://doi.org/10.1016/j.neucom.2023.126786

出版:2023年11月14日出版历史

摘要

正如最近的研究所观察到的那样，结合先验知识被认为是一种很有希望的方法，可以增强cloze-style机器阅读中现有的预训练模型。尽管在大多数现有模型中使用了外部知识图（KG）和基于变压器的模型（如BERT），但KG中最相关的模糊实体的识别以及最佳子图的提取仍然存在问题。为了解决这些挑战，我们引入了LUKE-Graph模型，该模型基于文档中实体之间的直观关系构建异构图，而不依赖于外部KG。然后，我们使用关系图注意（RGAT）网络将图的推理信息与预训练LUKE模型生成的上下文表示相结合。通过这种方式，我们可以利用LUKE，导出实体感知表示；和一个图形模型，利用关系软件表示。此外，我们还提出了选通-RGAT，这是对RGAT的一种增强，它包含一个选通机制来控制图卷积操作期间的问题信息。该机制模拟人工推理过程，根据问题信息选择最合适的实体候选。我们的实验结果表明，所提出的LUKE-Graph模型在ReCoRD数据集（侧重于常识推理）和WikiHop数据集（着重于多跳推理问题）上优于LUKE最新模型。

工具书类

[1]

J.Devlin，M.-W.Chang，K.Lee，K.Toutanova，Bert：语言理解的深层双向变换器预训练，收录于：Conf.North Am.Chapter Assoc.Compute。语言学家。哼，语言，技术。第1卷（长短论文，2019年：第4171–4186页。

[2]

Y.Liu、M.Ott、N.Goyal、J.Du、M.Joshi、D.Chen、O.Levy、M.Lewis、L.Zettlemoyer、V.Stoyanov、Roberta：一种稳健优化的伯特预训练方法，ArXiv Prepr。ArXiv1907.11692。(2019).

[3]

Z.Yang、Z.Dai、Y.Yang，J.Carbonell、R.R.Salakhutdinov、Q.V.Le、Xlnet：语言理解的广义自回归预训练，高级神经信息处理。系统。32 (2019).

[4]

I.Beltagy，M.E.Peters，A.Cohan，《Longformer:Long-Document Transformer》（2020年）。https://doi.org/10.48550/arxiv.2004.05150。

[5]

W.Han，M.Peng，Q.Xie，G.Hu，W.Gao，H.Wang，Y.Zhang，Z.Liu，DTC：常识机器理解的迁移学习，神经计算396 (2020) 102–112,.

[6]

J.Welbl，P.Stenetorp，S.Riedel，构建跨文档的多跳阅读理解数据集，事务处理。关联计算。语言学家。6 (2018) 287–302,.

[7]

S.Zhang，X.Liu，J.Liu，J.Gao，K.Duh，B.Van Durme，ReCoRD：弥合人机常识阅读理解之间的差距，ArXiv:11810.12885。(2018). http://arxiv.org/abs/1810.12885。

[8]

I.Yamada、A.Asai、H.Shindo、H.Takeda、Y.Matsumoto、LUKE：具有实体意识的自我关注的深层语境化实体表征，EMNLP 2020–2020年会议。方法自然语言法。程序。Conf.公司。(2020) 6442–6454,.

[9]

K.Clark，U.Khandelwal，O.Levy，C.D.Manning，伯特看什么？对伯特注意力的分析，程序。ACL工作黑盒NLP分析。解释。神经网络NLP。2019 (2019) 276–286.

[10]

Y.Lu，H.Lu，G.Fu，Q.Liu，Kelm：通过层次关系图传递消息的知识增强预训练语言表示，ArXiv Prepr。ArXiv2109.04223。(2021).

[11]

Z.Zhang、X.Han、Z.Liu、X.Jiang、M.Sun、Q.Liu和ERNIE：《信息实体的增强语言表示》，ACL 2019–57年。见面。助理计算。语言学家。程序。Conf.（2019）1441–1451。https://doi.org/10.48550/arxiv.1905.07129。

[12]

D.Qiu，Y.Zhang，X.Feng，X.Liao，W.Jiang，Y.Lyu，K.Liu，J.Zhao，使用结构知识图形软件网络进行机器阅读理解，EMNLP-IJCNLP 2019-2019年员工大会。方法自然语言法。第9国际Jt。Conf.Nat.Lang.过程。程序。Conf.公司。(2019) 5896–5901,.

[13]

A.Yang Q.Wang J.Liu K.Liu Y.Lyu H.Wu Q.She S.Li用丰富的机器阅读理解知识增强预先训练的语言表征。第57年。见面。2019年联合计算语言学家2346 2357。

[14]

Y.Cao，M.Fang，D.Tao，BAG：用于多跳推理问答的双向注意实体图卷积网络，ArXiv Prepr。ArXiv1904.04969。(2019).

[15]

D.Busbridge、D.Sherburn、P.Cavallo、N.Y.Hammerla，关系图注意网络，ArXiv Prepr。ArXiv1904.05811。(2019).

[16]

唐振堂，沈Y.，马X.，徐W.，余J.，卢W.，基于路径图卷积网络的跨文档多跳阅读理解，IJCAI国际Jt。Conf.Artif公司。智力。(2020) 3905–3911,.

[17]

R.Child、S.Gray、A.Radford、I.Sutskever，《使用稀疏变压器生成长序列》（2019年）。https://doi.org/10.48550/arxiv.1904.10509。

[18]

N.基塔耶夫，Ł。Kaiser，A.Levskaya，G.研究改革者：高效变压器2020国际竞争学习代表https://doi.org/10.48550/arxiv.2001.04451。

[19]

J.Ainslie、S.Ontañón、C.Alberti、V.Cvicek、Z.Fisher、P.Pham、A.Ravula、S.Sanghai、Q.Wang、L.Yang、ETC：对变压器中的长输入和结构化输入进行编码，EMNLP 2020–2020年会议。方法自然语言法。程序。Conf.公司。(2020) 268–284,.

[20]

M.Zaheer、G.Guruganesh、A.Dubey、J.Ainslie、C.Alberti、S.Ontanon、P.Pham、A.Ravula、Q.Wang、L.Yang、A.G.Research Big Bird:Transformers for Longer Sequences Adv.Neural Inf.Process。系统。33 2020 17283 17297.

[21]

R.He，A.Ravula，B.Kanagal，J.Ainslie，RealFormer:变压器喜欢剩余注意力，查找。助理计算。语言学家。ACL-IJCNLP公司2020 (2021) 929–943,.

[22]

M.Jia、L.Liao、W.Wang、F.Li、Z.Chen、J.Li和H.Huang，用于多跳阅读理解的关键词感知动态图神经网络，神经计算501 (2022) 25–40,.

数字图书馆

[23]

P.He，X.Liu，J.Gao，W.Chen，M.Dynamics，DeBERTa:解码增强的BERT和分散注意力，（2020年）。https://arxiv.org/abs/2006.03654v6（2023年7月5日访问）。

[24]

C.Raffel、N.Shazeer、A.Roberts、K.Lee、S.Narang、M.Matena、Y.Zhou、W.Li、P.J.Liu，《使用统一的文本对文本转换器探索迁移学习的局限性》，2023年7月5日查阅J.马赫。学习。物件。21 (2019) 1–67.https://arxiv.org/abs/1910.10683v3网址.

[25]

A.Chowdhery、S.Narang、J.Devlin、M.Bosma、G.Mishra、A.Roberts、P.Barham、H.W.Chung、C.Sutton、S.Gehrmann、P.Schuh、K.Shi、S.Tsvyashchenko、J.Maynez、A.Rao、P.巴恩斯、Y.Tay、N.Shazeer、V.Prabhakaran、E.Reif、N.Du、B.Hutchinson、R.Pope、J.Bradbury、J.Austin、M.Isard、G.Gur-Ari、P.Yin、T.Duke、A.Levskaya、S.Ghemawat。Dev、H.Michalewski、X.Garcia、V.Misra、K.Robinson、L.Fedus、D.Zhou、D.Ippolito、D.Luan、H.Lim、B.Zoph、A.Spiridonov、R.Sepassi、D.Dohan、S.Agrawal、M.Omernick、A.M.Dai、T.S.Pillai、M.Pellat、A.Lewkowycz、E.Moreira、R.Child、O.Polozov、K.Lee、Zhou和X.Wang、B.Saeta、M.Diaz、O.Firat、M.Catasta、J.Wei、K。Meier-Hellstern，D.Eck，J.Dean，S.Petrov，N.Fiedel，PaLM:使用路径缩放语言建模，（2022）。https://arxiv.org/abs/2204.02311v5（2023年7月5日访问）。

[26]

M.E.Peters、M.Neumann、R.L.Logan、R.Schwartz、V.Joshi、S.Singh、N.A.Smith，《知识增强语境词语表征》，EMNLP-IJCNLP 2019-2019 Conf.Empir。方法自然语言法。第9国际Jt。Conf.Nat.Lang.过程。程序。Conf.（2019）43-54。https://doi.org/10.18653/V1/D19-1005。

[27]

A.Santoro、D.Raposo、D.G.T.Barrett、M.Malinowski、R.Pascanu、P.Battaglia、T.Lillicrap，关系推理的简单神经网络模块，高级神经信息处理。系统。30 (2017).

[28]

N.de Cao，W.Aziz，I.Titov，《利用图卷积网络进行跨文档推理的问答》，NAACL HLT 2019-2019 Conf.North Am.第Assoc.Compute章。语言学家。技术语言程序。会议1（2018）2306–2317。https://doi.org/10.48550/arxiv.1808.09920。

[29]

M.Tu，G.Wang，J.Huang，Y.Tang，X.He，B.Zhou，通过异质图形推理实现跨多文档的多跳阅读理解，ACL 2019-57年。见面。助理计算。语言学家。程序。Conf.（2019）2704–2713。https://doi.org/10.18653/V1/P19-1260。

[30]

V.Zhong，C.Xiong，N.S.Keskar，R.Socher，多证据问题回答的粗粒度细粒度协同关注网络，第七届国际Conf.学习。代表。ICLR公司2019 (2019),.

[31]

W.Wu，Z.Zhu，J.Qi，W.Wang，G.Zhang，P.Liu，用于多跳知识库问答的动态图形扩展网络，神经计算515 (2023) 37–47,.

数字图书馆

[32]

J·张，H·张，C·夏，L·孙，《图形-伯特：学习图形表示只需要注意》，（2020年）。https://doi.org/10.44850/arxiv.2001.05140。

[33]

V.P.Dwivedi，X.Bresson，变压器网络到图的泛化，AAAI 2021工作。深度学习。图形方法应用。（DLG-AAAI 2021）。(2021). https://doi.org/10.48550/arxiv.2012.09699。

[34]

A.Vaswani、N.Shazeer、N.Parmar、J.Uszkoreit、L.Jones、A.N.Gomez，Ł。Kaiser，I.Polosukhin，《注意力是你所需要的一切：高级神经信息处理》。系统。2017年30月：第5998–6008页。http://papers.nips.cc/paper/7181-antelection-is-all-you-need（2019年1月27日访问）。

[35]

P.Velićković，A.Casanova，P.Lió，G.Cucurull，A.Romero，Y.Bengio，《图形注意力网络》，第六届国际Conf.Learn。代表。2018年ICLR——会议跟踪程序。(2017). https://doi.org/10.48550/arxiv.1710.10903。

[36]

M.Schlichtkrull，T.N.Kipf，P.Bloem，R.van den Berg，I.Titov，M.Welling，用图卷积网络建模关系数据，Lect。注释计算。科学。（包括Subser.Lect.Notes Artif.Intell.Lect.Notes生物信息学）。10843 LNCS（2017）593–607。https://doi.org/10.48550/arxiv.1703.06103。

[37]

M.Fey J.E.Lenssen快速图形表示学习与PyTorch Geometric 2019 ICLR工作。学习图形流形https://doi.org/10.48550/arxiv.1903.02428。

[38]

X.Li，Z.Zhang，W.Zhu，Z.Li，Y.Ni，P.Gao，J.Yan，G.Xie，Pingan Smart Health和SJTU在《COIN共享任务：在机器阅读任务中使用预先训练的语言模型和常识》（2019）93–98。https://doi.org/10.18653/V1/D19-6011。

[39]

郭涛，《训练前语言模型的综合比较》，（2021）。https://doi.org/10.48550/arxiv.2106.11483。

[40]

涂M.Tu，王G.Wang，黄J.Huang，汤Y.Tang，X.He，B.Zhou，通过异质图形推理实现跨多文档的多跳阅读理解，Proc。第57年。见面。助理计算。语言学家。(2019) 2704–2713. http://arxiv.org/abs/1905.07374。

[41]

S.Brody、U.Alon、E.Yahav，《图形注意力网络如何专注？》？，国际会议学习。代表。(2022). https://doi.org/10.48550/arxiv.2105.14491。

[42]

T.N.Kipf，M.Welling，《图卷积网络半监督分类》，第五届国际会议学习。代表。2017年ICLR——会议跟踪程序。(2017). https://doi.org/10.48550/arxiv.1609.02907。

索引术语

LUKE-Graph：一种基于变换的封闭式阅读理解方法，具有门控关系图注意
1. 计算方法
  1. 人工智能
    1. 知识表示和推理
    2. 自然语言处理
2. 信息系统
  1. 信息系统应用

索引项已通过自动分类分配给内容。

建议

知识图的近似推理和选择推理

诸如问答和语义搜索等任务依赖于对大规模常识知识库（KB）的查询和推理能力。然而，处理常识性数据需要处理诸如。。。
阅读更多信息
使用常识推理理解基于脚本的故事

本文研究了使用常识推理来理解涉及刻板活动或脚本的文本。我们提供了一个系统，可以理解涉及四个恐怖主义脚本的新闻故事。系统（1）建立了常识推理。。。
阅读更多信息
EGLR：用于常识性问题回答的两阶段解释生成和语言推理框架
摘要
在自然语言处理领域，智能系统往往需要强大的常识推理能力才能胜任常识性问题回答（QA）任务。为了增强QA系统的可解释性，自然。。。
集锦
- 提出了一个解释生成和语言推理的两阶段框架。
- 为了改进常识推理，引入了三个协作子模块。
- 我们评估框架的性能、忠诚度和。。。
阅读更多信息

评论

信息和贡献者

问询处

发布时间

封面图像神经计算

神经计算第558卷，C期

2023年11月

322页

国际标准编号：0925-2312

爱思唯尔有限公司。

出版商

爱思唯尔科学出版社。

荷兰

出版历史

出版：2023年11月14日

作者标记

限定符

研究文章

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

0
引文总数
0
总下载次数

下载次数（过去12个月）0
下载次数（最近6周）0

其他指标

查看作者指标

引文

视图选项

查看选项

获取访问权限

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

媒体

数字

其他

桌子

查看问题目录