计算机科学>计算机视觉与模式识别
标题: 基于多模态密集知识图传播的未知目标识别
摘要: 零炮学习(ZSL)旨在自动识别看不见的物体,是一种有前途的学习范式,可以不断地理解机器的新的真实世界知识。 最近,知识图(KG)被证明是处理大规模非属性数据的零快照任务的有效方案。 以往的研究总是将可见和不可见对象的关系嵌入到现有知识图的视觉信息中,以提高对不可见数据的认知能力。 实际上,现实世界的知识是由多模态事实自然形成的。 与从图的角度来看的普通结构知识相比,多模态KG可以为认知系统提供细粒度的知识。 例如,文本描述和视觉内容可以描述事实的更多关键细节,而不仅仅依赖于知识三元组。 不幸的是,由于不同模式之间的特征对齐瓶颈,这种多模式细粒度知识在很大程度上尚未得到利用。 为此,我们提出了一个多模式密集型ZSL框架,通过设计的密集注意模块和自校准损失,将图像区域与相应的语义嵌入进行匹配。 它使我们的ZSL框架的语义传递过程学习到更多实体之间的差异化知识。 我们的模型还摆脱了仅使用粗略全局特征的性能限制。 我们进行了大量实验,并根据大规模真实数据评估了我们的模型。 实验结果清楚地证明了该模型在标准零快照分类任务中的有效性。