研究文章

基于高效图对齐的多模态关系提取

作者：
Changmeng Zheng先生

香港理工大学和教育部，中国香港特别行政区

香港理工大学和教育部，中国香港特别行政区
查看个人资料

,
冯俊浩

教育部和华南理工大学，广州，中国

教育部和华南理工大学，广州，中国
查看个人资料

,
泽福

教育部和华南理工大学，广州，中国

教育部和华南理工大学，广州，中国
查看个人资料

,
易才

教育部和华南理工大学，广州，中国

教育部和华南理工大学，广州，中国
查看个人资料

,
李青（音）

中国香港特别行政区香港理工大学

中国香港特别行政区香港理工大学
查看个人资料

,
王涛（音译）

英国伦敦国王学院

英国伦敦国王学院
查看个人资料

作者信息和声明

MM’21：第29届ACM国际多媒体会议记录2021年10月第5298–5306页https://doi.org/10.1145/3474085.3476968

出版：2021年10月17日出版历史

MM’21：第29届ACM国际多媒体会议记录

第5298–5306页

摘要

关系提取是构造知识图的一个基本过程。然而，由于缺乏上下文，以前的关系提取方法在简短且嘈杂的社交媒体文本中的性能急剧下降。幸运的是，社交媒体帖子中的相关视觉内容（对象及其关系）可以补充缺失的语义，并有助于精确提取关系。我们介绍了多模式关系提取（MRE），这是一项利用视觉线索识别文本关系的任务。为了解决这个问题，我们提出了一个包含15000多个句子的大规模数据集，其中包含23个预定义的关系类别。考虑到对象之间的视觉关系与文本关系相对应，我们开发了一种双图对齐方法来捕获这种相关性，以获得更好的性能。实验结果表明，视觉内容有助于根据纯文本基线更准确地识别关系。此外，我们的对齐方法可以发现视觉和语言之间的相关性，从而获得更好的性能。我们的数据集和代码位于https://github.com/thecharm/Mega。

补充材料

可供下载

拉链

mfp2639aux.zip格式（139.5 KB）

用于多模态关系提取的MEGA模型源代码

工具书类

Peter Anderson，X.He、Chris Buehler、Damien Teney、Mark Johnson、Stephen Gould和Lei Zhang。2018.图像字幕和视觉问题解答的自下而上和自上而下关注。2018 IEEE/CVF计算机视觉和模式识别会议（2018），6077-6086。谷歌学者
伊莎贝尔·奥根斯坦（Isabelle Augenstein）、戴安娜·梅纳德（Diana Maynard）和法比奥·西拉维尼亚（Fabio Ciravegna）。2016.远程监督知识库人口的web关系提取。语义网，第7卷，第4卷（2016年），第335-349页。谷歌学者交叉引用
Tadas Baltruvs aitis、Chaitanya Ahuja和Louis-Philippe Morency。2018.多模态机器学习：调查和分类。IEEE模式分析和机器智能交易，第41卷，第2卷（2018年），第423-443页。谷歌学者数字图书馆
格雷戈里·布朗。2011.社交媒体文档中关系提取的错误分析。ACL 2011学生会议记录。64--68.谷歌学者数字图书馆
雅各布·德夫林（Jacob Devlin）、张明伟（Ming Wei Chang）、肯顿·李（Kenton Lee）和克里斯蒂娜·图塔诺娃（Kristina Toutanova）。2019.BERT：深度双向变形金刚语言理解预培训。计算语言学协会北美分会2019年会议记录：人类语言技术，第1卷（长篇和短篇论文）。4171--4186.谷歌学者
郭志江，张燕，卢伟，2019。用于关系提取的注意力引导图卷积网络。在计算语言学协会第57届年会的会议记录中。241--251.谷歌学者交叉引用
徐翰、高天宇、姚远、叶德铭、刘志远和孙茂松。2019.OpenNRE：神经关系提取的开放可扩展工具包。在EMNLP-IJCNLP：系统演示的会议记录中。169--174. https://doi.org/10.18653/v1/D19-3029谷歌学者交叉引用
Mark Heimann、H.Shen、Tara Safavi和Danai Koutra。2018.REGAL：基于表示学习的图形对齐。第27届ACM信息和知识管理国际会议记录（2018年）。谷歌学者数字图书馆
艾里斯·亨德里克斯、苏南·金、佐尔尼萨·科扎列娃、普雷斯拉夫·纳科夫、迪亚尔米德·奥斯·阿格达、塞巴斯蒂安·帕多、马可·彭纳奇奥蒂、洛伦扎·罗马诺和斯坦·斯帕科维奇。2010.SemEval-2010任务8：名词对之间语义关系的多方向分类。第五届语义评价国际研讨会论文集。33--38.谷歌学者数字图书馆
黄庆宝、魏杰龙、蔡毅、郑昌萌、陈俊英、梁和凤、李庆。2020年。用于可视问答的对齐双通道图卷积网络。计算语言学协会第58届年会论文集。7166--7176.谷歌学者交叉引用
纪尧姆·兰普尔（Guillaume Lample）、米盖尔·巴列斯特罗斯（Miguel Ballesteros）、桑迪普·苏布拉曼尼亚（Sandeep Subramanian）、卡瓦卡米（K.Kawakami）和克里斯·戴尔（Chris Dyer）。2016.命名实体识别的神经架构。在HLT-NAACL中。谷歌学者
李琳洁、甘喆、程宇和刘晶晶。2019年a.用于可视问答的关系感知图形注意网络。IEEE/CVF计算机视觉国际会议论文集。10313--10322.谷歌学者交叉引用
李小雅、范寅、孙子军、李夏雨、袁亚丽、蔡多才、周明欣和李继伟。2019 b.实体关系提取作为多轮问题回答。计算语言学协会第57届年会会议记录。1340--1350.谷歌学者交叉引用
刘作国和陈晓荣。2020年智能城市社交媒体命名实体关系提取研究。《软计算》，第24卷，第15卷（2020年），第11135-11147页。谷歌学者交叉引用
陆迪、莱昂纳多·内维斯、维托·卡瓦略、张宁和恒基。2018年，多模态社交媒体中姓名标注的视觉注意力模型。计算语言学协会第56届年会论文集（第1卷：长篇论文）。1990--1999.谷歌学者交叉引用
马学哲（Xuezhe Ma）和霍维（E.Hovy）。2016.通过双向LSTM-CNNs-CRF进行端到端序列标记。ArXiv，卷abs/1603.01354（2016）。谷歌学者
Mike Mintz、Steven Bills、Rion Snow和Dan Jurafsky。2009年，对没有标记数据的关系提取进行远程监督。在第47届ACL年会联席会议和第4届AFNLP自然语言处理国际联席会议的会议记录中。1003--1011.谷歌学者数字图书馆
Thien Huu Nguyen和Ralph Grishman。2015.关系提取：卷积神经网络视角。自然语言处理向量空间建模第一次研讨会论文集。39--48.谷歌学者交叉引用
郝鹏、高天宇、徐涵、林彦凯、李鹏、刘志远、孙茂松和周杰。2020.从上下文或名称中学习？神经关系提取的实证研究。《2020年自然语言处理实证方法会议论文集》。3661--3672.谷歌学者交叉引用
彭南云（Nanyun Peng）、潘海峰（Hoifung Poon）、克里斯·奎克（Chris Quirk）、克里斯蒂娜·图塔诺娃（Kristina Toutanova）和叶文涛（Wen-tau Yih）。2017.使用图lstms进行跨内容n元关系提取。计算语言学协会学报，第5卷（2017年），101-115。谷歌学者交叉引用
马修·彼得斯、马克·诺依曼、莫希特·伊耶、马特·加德纳、克里斯托弗·克拉克、肯顿·李和卢克·泽特莫耶。2018.深层语境化的词语表达。在NAACL-HLT中。谷歌学者
任少清、何开明、罗斯·B·吉希克和J·孙。2015.更快的R-CNN：利用区域建议网络实现实时目标检测。IEEE模式分析和机器智能汇刊，第39卷（2015年），1137-1149。谷歌学者数字图书馆
利维奥·巴尔迪尼·索尔斯（Livio Baldini Soares）、尼古拉斯·菲茨杰拉德（Nicholas FitzGerald）、杰弗里·林（Jeffrey Ling）和汤姆·奎亚科夫斯基（Tom Kwiatkowski）。2019.匹配空白：关系学习的分布相似性。在计算语言学协会第57届年会的会议记录中。2895--2905.谷歌学者交叉引用
宋林峰、张岳、王志国和丹尼尔·吉尔迪。2018.使用图形状态LSTM提取N元关系。《2018年自然语言处理实证方法会议论文集》。2226--2235.谷歌学者交叉引用
唐开华、牛玉磊、黄建强、史嘉欣和张汉旺。2020年，通过有偏训练生成无偏场景图。2020 IEEE/CVF计算机视觉和模式识别会议（2020），3713-3722。谷歌学者
Patrick Verga、Emma Strubell和Andrew McCallum。2018年，同时关注所有提及，进行全面抽象的生物关系提取。NAACL-HLT会议记录。872--884.谷歌学者交叉引用
王林林（Linlin Wang）、朱操（Zhu Cao）、杰勒德·德梅洛（Gerard De Melo）和刘志远（Zhiyuan Liu）。2016年，通过多层次关注cnns进行关系分类。《计算语言学协会第54届年会论文集》（第1卷：长篇论文）。1298--1307.谷歌学者交叉引用
吴志伟，郑昌萌，蔡毅，陈俊英，梁和凤，李清.2020。社交媒体帖子中命名实体识别的嵌入视觉引导对象的多模态表示。第28届ACM国际多媒体会议记录。1038--1046.谷歌学者数字图书馆
Dmitry Zelenko、Chinatsu Aone和Anthony Richardella。2003.关系提取的核心方法。机器学习研究杂志，第3卷，2003年2月，1083-1106。谷歌学者数字图书馆
曾道健、刘康、陈玉波和赵军。2015.通过分段卷积神经网络对关系提取进行远程监督。《2015年自然语言处理实证方法会议论文集》。1753--1762.谷歌学者交叉引用
曾道健、刘康、赖思伟、周光友、赵军。2014年。通过卷积深度神经网络进行关系分类。《COLING 2014年会议记录》，第25届计算语言学国际会议：技术论文。2335--2344.谷歌学者
张琦、傅金兰、刘晓宇和黄宣景。2018年a。推文中命名实体识别的自适应共同关注网络。。在AAAI。5674--5681.谷歌学者
张玉浩、彭琪和克里斯托弗·德·曼宁。2018年b。删减依赖树上的图卷积改进了关系提取。《2018年自然语言处理实证方法会议论文集》。2205--2215.谷歌学者交叉引用
张玉浩、钟伟强、陈丹琪、加博尔·安吉丽和克里斯托弗·德曼宁。2017年。位置提醒关注和监督数据改善了槽填充。《2017年自然语言处理实证方法会议论文集》。35--45.谷歌学者交叉引用
郑昌萌、吴志伟、王涛、蔡毅和李青，2020年。具有对抗性学习的社交媒体帖子中的对象软件多模态命名实体识别。IEEE多媒体汇刊（2020）。谷歌学者交叉引用

建议

基于检索增强策略的多模态命名实体识别与关系提取
SIGIR’23：第46届国际ACM SIGIR信息检索研究与开发会议记录

多模态命名实体识别（MNER）和多模态关系提取（MRE）是信息检索中的任务，其目的是识别实体并使用来自多种形式（例如文本和图像）的信息提取实体之间的关系。。。
阅读更多信息
基于无边框视频的社会关系图生成
多媒体建模
摘要
为了更直观地理解视频，我们演示了SRGG-UnVi，一个用于未剪辑视频的社会关系图生成系统。给出一段视频，演示可以结合现有知识构建动态关系图和静态关系图。。。
阅读更多信息
提示我：释放对齐对多模态实体和关系提取的影响
23岁MM：第31届ACM国际多媒体会议记录

我们如何更好地从文本中提取实体和关系？使用图像和文本的多模式提取可以获得更多实体和关系的信号，并通过图形或层次融合对其进行对齐，以帮助提取。尽管尝试。。。
阅读更多信息

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

发布于
MM’21：第29届ACM国际多媒体会议记录
2021年10月
5796页
国际标准图书编号：9781450386517
内政部：10.1145/3474085
总主席：
恒涛申
中国电子科技大学
,
岳廷庄
中国浙江大学
,
约翰·史密斯
IBM，美国
,
课程主席：
杨扬
中国电子科技大学
,
巴布罗·塞萨尔
CWI&TU Delft，荷兰
,
弗洛里安·梅茨
美国FACEBOOK公司
,
巴拉克里什南·普拉巴卡兰
美国德克萨斯大学达拉斯分校
版权所有©2021 ACM
如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人拥有的本作品组件的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]
赞助商
合作中
出版商
计算机协会
美国纽约州纽约市
出版历史
- 出版：2021年10月17日
权限
请求有关此文章的权限。
请求权限

检查更新
作者标记
图形对齐
多模式数据集
多模态关系提取
限定符
- 研究文章
会议

接受率
总体验收率995属于4,171提交文件，24%
即将召开的会议
毫米24

主办单位：

西格玛

24岁MM：第32届ACM国际多媒体会议

2024年10月28日至11月1日

墨尔本，VIC，澳大利亚
资金来源
其他指标
查看文章指标

文章指标
- 14
  引文总数
  查看引文
- 1,708
  总下载次数
- 下载量（最近12个月）442
- 下载次数（最近6周）90
其他指标
查看作者指标
引用人
查看全部

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

基于高效图对齐的多模态关系提取

MM’21：第29届ACM国际多媒体会议记录

摘要

补充材料

可供下载

工具书类

引用人

建议

基于检索增强策略的多模态命名实体识别与关系提取

基于无边框视频的社会关系图生成

提示我：释放对齐对多模态实体和关系提取的影响

评论