计算机科学››2022,第49卷››问题(9): 123-131.数字对象标识:10.11896/jsjkx.220600011

•计算机图形和多媒体• 以前的文章   下一篇文章

基于细粒度语义推理的跨媒体双向对抗哈希学习模型

曹小文、梁美佑、卢康康  

  1. 北京邮电大学计算机学院(国家试点软件工程学院)智能通信软件与多媒体北京重点实验室,北京100876
  • 收到:2022-06-02 修订过的:2022-07-05 在线:2022-09-15 出版:2022-09-09
  • 关于作者:曹小文,1998年生,硕士。她的主要研究兴趣包括深度学习和跨模式检索。
    梁美佑,1985年生,副教授,硕士生导师。她的主要研究兴趣包括人工智能、数据挖掘、多媒体信息处理和计算机视觉。
  • 支持单位:
    国家自然科学基金(6187700662192784)和CAAI-Hawei MindSpore开放基金(CAAIXSJLJJ-2021-007B)。

摘要:跨媒体哈希算法以其优越的搜索效率和较低的存储成本在跨媒体搜索任务中受到广泛关注。然而,现有的方法无法充分保持多媒体数据的高层语义相关性和多标签性。为了解决上述问题,本文提出了一种基于细粒度语义推理的跨媒体双向对抗哈希学习模型(SDAH),该模型通过最大化不同媒体之间的细粒度的语义关联,生成紧凑一致的跨媒体统一高效的哈希语义表示。首先,提出了一种基于跨媒体协作注意机制的细粒度跨媒体语义关联学习和推理方法。跨媒体注意机制协同学习图像和文本的细粒度隐含语义关联,获得图像和文本显著的语义推理特征。然后,建立一个跨媒体双向对抗性哈希网络,联合学习模式内和模式间语义相似性约束,通过双向对抗性学习机制更好地对齐不同媒体哈希码的语义分布,它生成了质量更高、更具区分性的跨媒体统一哈希表示,促进了跨媒体语义融合过程,提高了跨媒体搜索性能。在两个公共数据集上的实验结果与现有方法进行了比较,验证了该方法在各种跨媒体搜索场景中的性能优势。

关键词: 语义推理, 散列学习, 跨媒体搜索, 对抗性学习, 跨媒体语义融合

CLC编号:

  • TP391型
[1] 刘S,钱S,关Y,等.基于联合模态分布的大规模无监督深度跨模态检索相似性散列[C]//第43届国际ACM SIGIR信息检索研究与发展会议论文集.2020:1379-1388。
[2] 张永福,周伟国,王敏,等。跨模态检索中的深度关系嵌入[J]。IEEE图像处理汇刊,2020,30:617-627。
[3] 何寅,刘霞,张永明,等.用于精细图像文本检索的交叉图注意增强多模式相关学习[C]//第44届国际ACM SIGIR信息检索研究与发展会议论文集.2021:1865-1869。
[4] 张鹏飞,段俊生,黄哲,等.联合教学:学习提炼资源受限非监督跨模式检索知识[C]//第29届ACM国际多媒体会议论文集.2021:1517-1525。
[5] 张德清,李文杰。语义相关最大化的大尺度监督多模态ha-shing方法[C]//美国人工智能学会人工智能会议论文集。2014:2177-2183。
[6] 林志杰,丁国光,胡敏清,等.基于语义保持的交叉视图检索方法[C]//IEEE计算机视觉与模式识别会议论文集.2015:3864-3872。
[7] LIU X B,NIE X S,SUN H L,等.用于跨模态检索的模态特定结构保持散列[C]//2018 IEEE声学、语音和信号处理国际会议(ICASSP)。IEEE,2018:1678-1682。
[8] 梁美英,杜建平,杨春霞,等.基于深度哈希网络的跨媒体语义关联学习和面向社会网络跨媒体搜索的语义扩展[J]。IEEE神经网络和学习系统汇刊,2020,31(9):3634-3648。
[9] DEVRAJ M,KUNAL N C,SOMA B.跨模式检索中的广义语义保持散列[J]。IEEE图像处理事务,2018,28(1):102-112。
[10] CHEN Z D,WANG Y X,LI H Q,et al.利用标签相关性并在两个步骤中保持相似性的两步交叉模式散列[C]//第27届ACM多媒体国际会议论文集.2019:1694-1702。
[11] 姜庆英,李伟杰.深度交叉模式散列[C]//IEEE计算机视觉与模式识别会议进程.2017:3232-3240。
[12] 顾伟,顾晓英,顾建中,等.基于对抗引导的非对称散列算法的跨模式检索[C]//2019年国际多媒体检索会议论文集.2019:159-167。
[13] 王晓忠,邹晓天,巴克尔,等.基于自约束和注意的比特级交叉模式检索哈希网络[J]。神经计算,2020400:255-271。
[14] ZOU X T,WANG X Z,BAKKER E M,et al.基于多标签语义保持的深度跨模态哈希[J]。信号处理:图像通信,2021,93:116131。
[15] 姚海林,詹永伟,陈振德,等.TEACH:注意-软件深度跨模式散列[C]//2021年国际多媒体检索会议论文集.2021:376-384。
[16] GOODFELLOW I,POUGET-ABADIE J,MIRZA M,等.生成对抗网[J].arXiv:1406.26612014。
[17] 王伯乐,杨毅,徐霞,等.对抗性跨模式检索[C]//第25届ACM多媒体国际会议论文集.2017:154-162。
[18] LI C,DENG C,LI N,等.用于跨模式检索的自监督对抗哈希网络[C]//IEEE计算机视觉与模式识别会议论文集.2018:4242-4251。
[19] BAI C,ZENG C,MA Q,等.用于跨模式检索的深度对抗离散散列算法[C]//2020年国际多媒体检索会议论文集.2020:525-531。
[20] 韩丽庚,闵敏瑞,STATHOPOULOS A,等.基于条件成像的双投影生成对抗网络[C]//IEEE/CVF计算机视觉国际会议论文集.2021:14438-14447。
[21]KARRAS T,AITTALA M,HELLSTEN J,等.利用有限数据训练基因反应性对抗网络[J]。神经信息处理系统进展,2020,33:12104-12114。
[22]SANTORO A,RAPOSO D,BARRETT D G,等.一种用于关系推理的简单神经网络模型[J].arXiv:1706.014272017。
[23]MESSINA N,AMATO G,CARRARA F,等.关系型CBIR的视觉特征学习[J]。国际多媒体信息检索杂志,2020,9(2):113-124。
[24]MESSINA N,AMATO G,CARRARA F,et al.学习关系感知视觉特征[C]//欧洲计算机视觉会议(ECCV)研讨会论文集。2018:486-501。
[25]HU R H,ANDREAS J,ROHRBACH M,et al.学习推理:用于可视问答的端到端模块网络[C]//IEEE计算机视觉国际会议论文集.2017:804-813。
[26]郑武夫,刘X J,NI X B,等。通过语义表示改进视觉推理[J]。IEEE接入,2021,9:91476-91486。
[27]王J B,王W,王L,等.学习图像字幕的视觉关系和上下文注意[J]。模式识别,2020,98:1007075。
[28]YANG L,HU H,LU X L,et al.图像字幕的约束lstm和剩余注意[J]。ACM多媒体计算、通信和应用汇刊(TOMM),2020,16(3):1-18。
[29]李彦凯,欧阳伟,周波,等.可分解网:一种高效的基于子图的场景图生成框架[C]//欧洲计算机视觉会议论文集.2018:335-351。
[30]REN S Q,HE K M,GIRSHICK R,et al.Faster R-cnn:面向区域提议网络的实时目标检测[J]。神经信息处理系统进展,2017,39(6):1137-1149。
[31]DEVLIN J,CHANG M W,LEE K,et al.伯特:语言理解深度双向变换器的预训练[J]。计算语言学协会北美分会2019年会议记录:人类语言技术,第1卷(长篇和短篇论文),2019:4171-4186。
[32]VASWANI A、SHAZEER N、PARMAR N等。请注意[J].arXiv:1706.03762 2017。
[33]MESSINA N,FALCHI F,ESULI A,et al.用于图像-文本匹配和检索的变压器识别网络[C]//2020第25届国际模式识别会议(ICPR)。IEEE,2021:5222-5229。
[34]赵峰,黄毅,王磊,等.基于深度语义排序的多标签图像检索散列方法[C]//IEEE计算机视觉与模式识别会议论文集.2015:1556-1564。
[35]HUISKES M J,LEW M S.mir flickr检索评价[C]//第一届ACM多媒体信息检索国际会议论文集.2008:39-43。
[36]CHUA T S,TANG J H,HONG R C,et al.Nus-wide:来自新加坡国立大学的真实世界网络图像数据库[C]//ACM图像和视频检索国际会议论文集.2009:1-9。
[37]WOLF T,DEBUT L,SANH V,等.Huggingface的变换器:最先进的自然语言处理[J].arXiv:1910.037712019。
[38]安德森·P,HE X D,BUEHLER C,et al.图像字幕和视觉问答的自下而上和自上而下关注[C]//IEEE计算机视觉和模式识别会议论文集.2018:6077-6086。
[1] 侯鸿旭、孙朔、吴尼尔。蒙古语-汉语神经机器翻译综述[J] ●●●●。计算机科学,2022,49(1):31-40。
[2] 刘立波、郭廷廷。结合深度典型相关分析和对抗学习的跨模式检索[J] ●●●●。计算机科学,2021,48(9):200-207。
[3] 王胜,张阳森,陈若宇,向嘎。基于细粒度差异特征的文本匹配方法[J] ●●●●。计算机科学,2021,48(8):60-65。
[4] 詹万江、洪志林、方璐萍、吴哲福、吕月华。基于对抗学习的协同过滤推荐算法[J] ●●●●。计算机科学,2021,48(7):172-177。
[5] 孙权、曾小琴。基于生成对抗网络的图像Inpainting[J] ●●●●。计算机科学,2018,45(12):229-234。
[6] 刘晓琴、王洁婷、钱玉华和王晓跃。针对不同攻击强度的规避攻击的集成方法[J] ●●●●。计算机科学,2018,45(1):34-38。
[7] 陈恒。基于Spark的大规模语义数据分布式推理框架[J] ●●●●。计算机科学,2016,43(Z11):93-96。
[8] 崔华、英石、袁文杰、胡罗凯。语义Web服务组合综述[J] ●●●●。计算机科学,2010,37(5):21-25。
[9] . [J] ●●●●。计算机科学,2009,36(1):171-176。
已查看
全文


摘要

引用

  共享   
  讨论   
找不到建议阅读的文章!