研究论文

基于多模态密集知识图传播的未知目标识别

作者:

气线路接口单元,

尼古拉斯·京元、和

恩宏陈作者信息和声明

KDD’23：第29届ACM SIGKDD知识发现和数据挖掘会议记录

2023年8月

页2618-2628

https://doi.org/10.1145/3580305.3599486

出版:2023年8月4日出版历史

获取访问权限

摘要

零炮学习（ZSL）旨在自动识别看不见的物体，是一种有前途的学习范式，可以不断地理解机器的新的真实世界知识。最近，知识图（KG）被证明是处理大规模非属性数据的零快照任务的有效方案。以往的研究总是将可见和不可见对象的关系嵌入到现有知识图的视觉信息中，以提高对不可见数据的认知能力。实际上，现实世界的知识是由多模态事实自然形成的。与从图的角度来看的普通结构知识相比，多模态KG可以为认知系统提供细粒度的知识。例如，文本描述和视觉内容可以描述事实的更多关键细节，而不仅仅依赖于知识三元组。不幸的是，由于不同模式之间的特征对齐瓶颈，这种多模式细粒度知识在很大程度上尚未得到利用。为此，我们提出了一个多模式密集型ZSL框架，通过设计的密集注意模块和自校准损失，将图像区域与相应的语义嵌入进行匹配。它使我们的ZSL框架的语义传递过程学习到更多实体之间的差异化知识。我们的模型还摆脱了仅使用粗略全局特征的性能限制。我们进行了大量实验，并根据大规模真实数据评估了我们的模型。实验结果清楚地证明了该模型在标准零快照分类任务中的有效性。

补充材料

MOV文件（kdd_2mins.mov）

宣传视频。

下载
34.94 MB

MOV文件（<ID#rtfp0733>-20分钟视频.mov）

演示视频。

下载
135.97 MB

工具书类

[1]

Dzmitry Bahdanau、Kyunghyun Cho和Yoshua Bengio。2015年，通过联合学习对齐和翻译实现神经机器翻译。ICLR（2015）。

[2]

Michael M Bronstein、Joan Bruna、Yann LeCun、Arthur Szlam和Pierre Van-dergheynst。2017.几何深度学习：超越欧几里德数据。IEEE信号处理杂志34，4（2017），18-42。

[3]

索拉维特·昌平约、赵伟伦、龚伯清和飞沙。2016.用于零快照学习的合成分类器。在IEEE计算机视觉和模式识别会议记录中。5327--5336.

[4]

索拉维特·昌皮约、魏伦超和费沙。2017年，预测零快照学习中看不见的课堂的视觉示例。IEEE计算机视觉国际会议论文集。3476--3485.

[5]

陈立毅、李志利、徐彤、吴汉、王哲峰、袁靖和陈恩红。2022.实体对齐的多模式暹罗网络。程序中。KDD的。

数字图书馆

[6]

陈龙（Long Chen）、张汉旺（Hanwang Zhang）、肖军（Jun Xiao）、刘伟（Wei Liu）和张世福（Shih-Fu Chang）。2018年。使用语义支持的对抗性嵌入网络进行零镜头视觉识别。IEEE计算机视觉和模式识别会议论文集。1043--1052.

[7]

蒋伟林、刘选清、司思、杨丽、萨米·本吉奥和谢卓绝。2019.Cluster-gcn：用于训练深度和大型图卷积网络的有效算法。第25届ACM SIGKDD知识发现与数据挖掘国际会议论文集。257--266.

数字图书馆

[8]

米歇尔·德费拉德（Michaöl Defferrard）、泽维尔·布列松（Xavier Bresson）和皮埃尔·范德盖恩斯特（Pierre Vandergheynst）。2016.图上的卷积神经网络与快速局部谱滤波。神经信息处理系统进展。3844--3852.

[9]

贾登、魏东、理查德·索彻、李佳丽、凯丽和李飞飞。2009年，Imagenet：大型分层图像数据库。2009年IEEE计算机视觉和模式识别会议。伊耶，248-255。

[10]

David K Duvenaud、Dougal Maclaurin、Jorge Iparraguirre、Rafael Bombarell、Timothy Hirzel和Alán Aspuru Guzik。2015.用于学习分子指纹的图上卷积网络。神经信息处理系统进展。2224--2232.

[11]

安德烈亚·弗洛姆（Andrea Frome）、格雷格·科拉多（Greg Corrado）、乔纳森·什伦斯（Jonathon Shlens）、萨米·本吉奥（Samy Bengio）、杰弗里·迪恩（Jeffrey Dean）、马克·阿雷里奥·兰扎托（Marc’Aurelio Ranzato）和托马斯。2013.设计：一个深度视觉-语义嵌入模型。(2013).

[12]

傅燕伟（Yanwei Fu）和莱昂尼德·西格尔（Leonid Sigal）。2016年，半监督词汇学习。CVPR会议记录。5337--5346.

[13]

耿玉霞、陈娇艳、陈卓、Jeff Z Pan、叶志全、袁宗刚、贾艳涛和陈华军。2021.OntoZSL:本体论增强的零射击学习。2021年网络会议记录。3325--3336.

数字图书馆

[14]

耿玉霞（Yuxia Geng）、陈娇艳（Jiaoyan Chen）、张文（Wen Zhang）、徐亚静（Yajing Xu）、陈卓（Zhoo Chen），潘志杰（Jeff Z Pan）、黄玉凤（Yufeng Huang）、熊飞宇（Feiyu X。2022.零快照学习的分离本体嵌入。arXiv预打印arXiv:2206.03739（2022）。

[15]

马可·戈里（Marco Gori）、加布里埃尔·蒙法迪尼（Gabriele Monfardini）和弗兰科·斯卡塞利（Franco Scarselli）。2005.图域学习的新模型。诉讼中。2005年IEEE神经网络国际联合会议，2005年，第2卷。IEEE，729--734。

[16]

威尔·汉密尔顿（Will Hamilton）、应志涛（Zhitao Ying）和朱尔·莱斯科维奇（Jure Leskovec）。2017.大图形的归纳表示学习。以NIPS为单位。1024--1034.

[17]

何开明、张湘玉、任少清、孙建军。2016.图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议记录中。770--778.

[18]

Mikael Henaff、Joan Bruna和Yann LeCun。2015年，基于图形结构数据的深度卷积网络。arXiv预印本arXiv:1506.05163（2015）。

[19]

达特·休恩（Dat Huynh）和伊珊·埃哈米法尔（Ehsan Elhamifar）。2020年。通过细粒度密集特征合成进行合成零快照学习。神经信息处理系统进展33（2020），19849-19860。

[20]

达特·休恩（Dat Huynh）和伊珊·埃哈米法尔（Ehsan Elhamifar）。2020.通过基于密集属性的注意力进行细粒度广义零镜头学习。IEEE/CVF计算机视觉和模式识别会议论文集。4483--4493.

[21]

Michael Kampfeyer、Yinbo Chen、Xiaodan Liang、Hao Wang、Yugia Zhang和Eric P Xing。2019.重新思考零快照学习的知识图传播。IEEE/CVF计算机视觉和模式识别会议论文集。11487--11496.

[22]

Diederik P Kingma和Jimmy Ba.2014年。亚当：一种随机优化方法。arXiv预印arXiv:1412.6980（2014）。

[23]

托马斯·基普夫和马克斯·威灵。2017.使用图卷积网络的半监督分类。ICLR（2017）。

[24]

刘璐、周天一、龙国栋、姜靖和张成琦。2020。图零快照学习的属性传播网络。《AAAI人工智能会议论文集》，第34卷。4868--4875.

[25]

刘璐、周天一、龙国栋、姜靖和张成琦。2020年。图零快照学习的属性传播网络。AAAI（2020）。

[26]

刘少腾、陈晶晶、潘良明、吴宗华、蔡大胜和蒋玉刚。2020年。用于零快照识别的双曲线视觉嵌入学习。IEEE/CVF计算机视觉和模式识别会议论文集。9273--9281.

[27]

刘瑜（Yu Liu）和丁·图伊特拉斯（Tinne Tuytelaars）。2020年。零炮学习的深度多模式解释模型。IEEE图像处理汇刊（2020年）。

数字图书馆

[28]

罗哲坤（Zhekun Luo）、沙利尼·戈什（Shalini Ghosh）、德文·吉洛里（Devin Guillory）、加藤（Keizo Kato）、特雷弗·达雷尔（Trevor Darrell）和许慧娟（Huijuan Xu）。2022.利用知识库进行分离动作识别。在2022年NAACL会议记录中。559--572.

[29]

詹姆斯·麦奎因等人，1967年。多元观测值分类和分析的一些方法。第五届伯克利数理统计与概率研讨会论文集，第1卷。美国加利福尼亚州奥克兰，281--297。

[30]

乔治·A·米勒。1998.WordNet：一个电子词汇数据库。麻省理工学院出版社。

[31]

穆罕默德·诺鲁齐（Mohammad Norouzi）、托马斯·米科洛夫（Tomas Mikolov）、萨米·本吉奥（Samy Bengio。2014.通过语义嵌入的凸组合进行零炮学习。ICLR（2014）。

[32]

杰弗里·彭宁顿（Jeffrey Pennington）、理查德·索彻（Richard Socher）和克里斯托弗·德曼宁（Christopher D Manning）。2014.手套：单词表示的全球向量。《2014年自然语言处理经验方法会议论文集》（EMNLP）。1532--1543.

[33]

邱兆鹏、胡云凡、吴献武。2022.使用用户现有和潜在兴趣建模的图形神经新闻推荐。ACM事务处理。知识。发现。数据16，5（2022），96:1--96:17。

数字图书馆

[34]

弗朗科·斯卡塞利（Franco Scarselli）、马可·戈里（Marco Gori）、阿忠·左伊（Ah Chung Tsoi）、马库斯·哈根布奇纳（Markus Hagenbuchner）和加布里埃尔·蒙法迪尼（Gabriele Monfardini）。2008。图形神经网络模型。IEEE神经网络汇刊20，1（2008），61-80。

数字图书馆

[35]

Richard Socher、Milind Ganjoo、Hamsa Sridhar、Osbert Bastani、Christopher D Manning和Andrew Y Ng，2014年。通过交叉模式传输进行零炮学习。NIPS（2014）。

[36]

尼蒂什·斯利瓦斯塔瓦（Nitish Srivastava）、杰弗里·欣顿（Geoffrey Hinton）、亚历克斯·克利舍夫斯基（Alex Krizhevsky）、伊利亚·萨茨克沃（Ilya Sutskever）和鲁斯兰·萨拉库丁诺夫。2014.辍学：防止神经网络过度拟合的简单方法。《机器学习研究杂志》15，1（2014），1929-1958。

数字图书馆

[37]

彼得·维利奇科维奇、吉利姆·库库鲁尔、阿兰塔·卡萨诺娃、阿德里亚娜·罗梅罗、彼得罗·里奥和约舒亚·本吉奥。2018年，绘制注意力网络图。ICLR（2018）。

[38]

Jin Wang和Bo Jiang。2021.通过对偶知识图上的对比学习实现零炮学习。IEEE/CVF计算机视觉国际会议论文集。885--892.

[39]

王晓龙、叶玉飞和阿比纳夫·古普塔。2018.通过语义嵌入和知识图实现零镜头识别。在IEEE计算机视觉和模式识别会议记录中。6857--6866.

[40]

王郑、王家龙、郭玉晨和龚志国。2021.使用分解图原型网络进行零炮节点分类。第27届ACM SIGKDD知识发现和数据挖掘会议论文集。1769--1779.

数字图书馆

[41]

魏继伟、孙昊天、杨阳、徐兴、李晶晶、沈恒涛。2022.用于大规模零快照学习的语义引导知识图。《视觉传达与图像表现杂志》88（2022），103629。

数字图书馆

[42]

吴立刚、李智、赵红科、刘淇、王军、张梦迪和陈恩红。2021.学习图形结构数据的隐含语义表示。arXiv预印本arXiv：2101.06471（2021）。

[43]

吴丽康、李志、赵红科、潘震、刘淇和陈恩宏。2020年。通过基于图形的市场环境模型估算创新的早期筹资绩效。在AAAI。6396--6403.

[44]

吴利康、赵洪科、李智、黄振亚、刘淇、陈恩红。2023.通过统一图形拓扑分解神经网络学习可解释语义关系。ACM数据知识发现事务（2023年）。

[45]

吴立刚、郑智、邱兆鹏、王浩、顾洪超、沈廷嘉、秦川、陈竺、朱衡淑、刘淇等，2023年。大型推荐语言模型综述。arXiv预印arXiv:2305.19860（2023）。

[46]

Xian Yongqin、Christoph H Lampert、Bernt Schiele和Zeynep Akata。2018年零球学习——对好的、坏的和丑的全面评估。IEEE关于模式分析和机器智能的交易41，9（2018年）。

[47]

谢国森、刘丽、金晓波、范朱、张正、秦杰、姚亚舟和凌绍。2019.关注零快照学习的区域嵌入网络。IEEE/CVF计算机视觉和模式识别会议论文集。9384--9393.

[48]

谢国森、刘丽、范朱、方钊、张正、姚亚舟、秦杰和凌绍。2020年。用于零快照学习的区域图形嵌入网络。在欧洲计算机视觉会议上。施普林格，562-580。

数字图书馆

[49]

徐文佳（Wenjia Xu）、西安永勤（Yongqin Xian）、王久牛（Jiuniu Wang）、斯基勒（Bernt Schiele）和阿卡塔（Zeynep Akata）。2022.VGSE：零镜头学习的可视化语义嵌入。CVPR会议记录。9316--9325.

[50]

严彩霞、郑庆华、张晓军、罗敏南、叶忠兴和亚历山大·豪普特曼。2020.用于零镜头对象检测的保语义图传播。IEEE图像处理汇刊（2020年）。

[51]

张春杰、赵亮和姚照。2022.基于示例的语义引导零炮视觉识别。IEEE图像处理汇刊31（2022），3056--3065。

[52]

Zhi Zheng、Chao Wang、Tong Xu、Dazhong Shen、Penggang Qin、Xiang Yu Zhao、Baoxing Huai、Xian Wu和Enhong Chen。2023.通过政策梯度推荐互动软件药物包。ACM信息系统交易41，1（2023），1--32。

数字图书馆

索引术语

基于多模密集知识图传播的未知目标识别
1. 计算方法
  1. 人工智能
    1. 知识表示和推理
2. 信息系统
  1. 信息系统应用
    1. 数据挖掘
    2. 多媒体信息系统

建议

基于知识图的零镜头视觉问答
语义网——ISWC 2021
摘要
将外部知识融入视觉问答（VQA）已成为一项重要的实际需求。现有的方法大多采用不同组件的流水线方法进行知识匹配和提取、特征学习等。。。
阅读更多信息
基于标签集传播的传递式多标签学习

在过去的十年中，多标签分类问题引起了人们的极大兴趣，每个实例可以同时分配一组多个类标签。它有各种各样的实际应用程序，例如，自动图像。。。
阅读更多信息
识别未知领域中的未知类别
计算机愿景–ECCV 2020
摘要
当前的深度视觉识别系统在遇到训练中看不到的课堂和场景中的新图像时，性能会严重下降。因此，零炮学习（ZSL）的核心挑战是应对语义-。。。
阅读更多信息

评论

信息和贡献者

问询处

发布于

封面图片ACM会议

KDD’23：第29届ACM SIGKDD知识发现和数据挖掘会议记录

2023年8月

5996页

国际标准图书编号：9798400701030

DOI（操作界面）：10.1145/3580305

一般主席：
安布杰·辛格
美国加州大学圣巴巴拉分校
,
孙益洲
美国加州大学洛杉矶分校
,
课程主席：
莱曼·阿科格鲁
美国卡内基梅隆大学
,
迪米特里奥斯·古诺普洛斯
希腊雅典大学
,
西凤燕
美国加州大学圣巴巴拉分校
,
拉维库玛
谷歌，美国
,
法蒂玛·奥兹坎
谷歌，美国
,
叶洁平
阿里巴巴DAMO学院

版权所有©2023 ACM。

如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人对本作品组成部分的版权。允许赊账提取。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护].

发起人

出版商

计算机协会

美国纽约州纽约市

出版历史

出版：2023年8月4日

权限

请求对此文章的权限。

检查更新

作者标记

限定符

研究文章

资金来源

会议

KDD'23款

主办单位：

KDD’23：第29届ACM SIGKDD知识发现和数据挖掘会议

2023年8月6日至10日

加利福尼亚州，长滩，美国

接受率

8635份提交文件的总体接受率为1133份，占13%

即将召开的会议

KDD'24款

主办单位：
西格克德
sigkdd公司

第30届ACM SIGKDD知识发现和数据挖掘会议

2024年8月25日至29日

巴塞罗那，西班牙

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

0
引文总数
389
总下载次数

下载次数（过去12个月）389
下载次数（最近6周）52

其他指标

查看作者指标

引文

视图选项

获取访问权限

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

查看选项

PDF格式

以PDF文件查看或下载。

电子阅读器

使用联机查看电子阅读器.

电子阅读器

媒体

数字

其他

桌子