Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph Propagation

Wu, Likang; Li, Zhi; Zhao, Hongke; Wang, Zhefeng; Liu, Qi; Huai, Baoxing; Yuan, Nicholas Jing; Chen, Enhong

doi:10.1145/3580305.3599486

计算机科学>计算机视觉与模式识别

arXiv公司：2306.08487（个）

【于2023年6月14日提交(第1版)，上次修订日期：2023年6月21日（此版本，v2）]

标题：基于多模态密集知识图传播的未知目标识别

作者：吴丽康,李志,赵宏科,王哲峰,齐柳,宝兴淮,尼古拉斯·靖远,陈恩宏

查看PDF

摘要：零炮学习（ZSL）旨在自动识别看不见的物体，是一种有前途的学习范式，可以不断地理解机器的新的真实世界知识。最近，知识图（KG）被证明是处理大规模非属性数据的零快照任务的有效方案。以往的研究总是将可见和不可见对象的关系嵌入到现有知识图的视觉信息中，以提高对不可见数据的认知能力。实际上，现实世界的知识是由多模态事实自然形成的。与从图的角度来看的普通结构知识相比，多模态KG可以为认知系统提供细粒度的知识。例如，文本描述和视觉内容可以描述事实的更多关键细节，而不仅仅依赖于知识三元组。不幸的是，由于不同模式之间的特征对齐瓶颈，这种多模式细粒度知识在很大程度上尚未得到利用。为此，我们提出了一个多模式密集型ZSL框架，通过设计的密集注意模块和自校准损失，将图像区域与相应的语义嵌入进行匹配。它使我们的ZSL框架的语义传递过程学习到更多实体之间的差异化知识。我们的模型还摆脱了仅使用粗略全局特征的性能限制。我们进行了大量实验，并根据大规模真实数据评估了我们的模型。实验结果清楚地证明了该模型在标准零快照分类任务中的有效性。

评论：	arXiv管理说明：文本与重叠arXiv:1805.11724年其他作者
学科：	计算机视觉和模式识别（cs.CV）; 人工智能（cs.AI）
引用为：	arXiv公司：2306.08487[cs.CV]
	（或 arXiv:2306.08487v2[cs.CV]对于此版本）
	https://doi.org/10.48550/arXiv.2306.08487
相关DOI:	https://doi.org/10.1145/3580305.3599486

提交历史记录

发件人：Likang Wu[查看电子邮件]
[第1版]2023年6月14日星期三13:07:48 UTC（11828 KB）
[版本2]2023年6月21日星期三01:42:17 UTC（11828 KB）

计算机科学>计算机视觉与模式识别

标题：基于多模态密集知识图传播的未知目标识别

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算机视觉与模式识别

标题：基于多模态密集知识图传播的未知目标识别

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目