场景理解

研究论文

InteractNet：语义丰富视频的社会交互识别

ACM多媒体计算、通信和应用汇刊（TOMM），第20卷，第8期条款编号：240,第1-21页https://doi.org/10.1145/3663668

在线视频平台的迅猛发展迫切需要社会交互识别技术。与简单的短期行为相比，语义丰富的视频中的长期社交互动可以反映出更复杂的。。。

短纸

个人识别综合调查：查询、方法和数据集

行人识别是城市监控和自动车辆导航等应用的关键，它需要根据查询从图像库中识别和检索特定的行人。本调查提供了详细的。。。

研究论文

免费

TbExplain：一种基于文本的具有统计预测修正的场景分类模型解释方法

指南AI’24：治理、理解和整合数据以实现有效和负责任的AI会议记录2024年6月，第54–60页https://doi.org/10.1145/3665601.3669841

热图是可解释人工智能（XAI）领域的常用工具，但它们也有缺陷；例如，非专业用户可能无法理解热图的基本原理，其中与模型预测相关的像素是。。。

研究论文

一种用于多基线立体匹配的动态视差范围聚合方法

IVSP’24：2024年第六届图像、视频和信号处理国际会议论文集2024年3月，第129-134页https://doi.org/10.1145/3655755.3655772

深度估计是信号处理领域的一个关键挑战，在机器人和自治系统等领域有着各种各样的应用。在这些应用中使用了多个摄像头，发现它们非常有用。在本文中，我们。。。

研究论文

免费

STDG：深度引导单阶段场景图生成的半教师-学生训练范式

ICMR’24：2024年多媒体检索国际会议记录2024年5月，第915-924页https://doi.org/10.1145/3652583.3658024

场景图生成是实现自主机器人系统环境理解的关键因素。然而，现有的大多数方法往往受到复杂背景动态的阻碍，这限制了它们充分利用背景信息的能力。。。

研究论文

免费

模式4自我：使用交叉视频活动模式学习自我中心视频表征

ICMR’24：2024年多媒体检索国际会议记录2024年5月，第785-794页https://doi.org/10.1145/3652583.3658010

随着具体人工智能、机器人技术和增强现实技术的发展，从“第一人称”角度拍摄的视频，也称为以自我为中心的视频，正在引起计算机视觉和机器人社区的兴趣。此外，学习适当的。。。

短纸

免费

通过有效的课程学习改进数据增强功能，实现稳健的可视问题解答

ICMR’24：2024年多媒体检索国际会议记录2024年5月，第1084–1088页https://doi.org/10.1145/3652583.3657607

数据增强（DA）被广泛用于学习无偏见的可视问答（VQA）模型，它通过生成超出原始样本的额外训练样本来帮助减轻语言偏见。虽然目前的DA方法可以生成稳健的样本。。。

研究论文

使用生成合成数据检测上下文外信息的统一网络

ICMR’24：2024年多媒体检索国际会议记录2024年5月，第1300-1305页https://doi.org/10.1145/3652583.3657599

在我们的现代世界中，数字内容的操纵，特别是被称为Cheapfakes的非受控图像的使用，已经成为对互联网上信息的完整性和可信性的认可的一个重大挑战。这个。。。

研究论文

免费

刚刚接受

走向长形式视听视频理解

ACM多媒体计算、通信和应用事务（TOMM），刚刚接受https://doi.org/10.1145/3672079

我们生活在一个多模信息流永无止境的世界。作为对真实场景更自然的记录，长形式的视听视频有望成为更好地探索和了解世界的重要桥梁。在此。。。

研究论文

免费

刚刚接受

走向属性控制的时尚图片字幕

ACM多媒体计算、通信和应用事务（TOMM），刚刚接受https://doi.org/10.1145/3671000

时装图片字幕是时装行业的一项关键任务，旨在自动生成时装项目的产品描述。然而，现有的时尚图片字幕模型预测一次特定时尚项目的固定字幕。。。

短纸

EgoCentric+：头戴式可穿戴计算设备的多用途数据集

AVI’24：2024年高级视觉界面国际会议记录2024年6月，条款编号：33,第1-5页https://doi.org/10.1145/3656650.3656692

可穿戴计算设备的主要模块包括检测用户的行为、预测用户的需求以及绘制真实的虚拟和物理世界地图。然而，可穿戴计算社区缺乏一个多用途的数据集来。。。

研究论文

基于创新数据集构造和CLIP嵌入的零镜头有害图像识别

ICIEAI’23：2023年信息教育与人工智能国际会议论文集2023年12月，第328–333页https://doi.org/10.1145/3660043.3660102

本文介绍了一个包含色情、赌博、暴力和毒品等领域图像的数据集。它通过包含赌博和毒品的数据来解决有害图像识别方面的差距，而这些数据以前在这一领域是缺乏的。。。

研究论文

城市低空复杂背景下无人机环境感知方法研究

ICAICE’23：第四届人工智能与计算机工程国际会议论文集2023年11月，第1153-1158页https://doi.org/10.1145/3652628.3652817

随着无人机相关技术的不断发展，无人机在城市低空场景中的应用逐渐增多。自主定位和对周围环境的感知是。。。

研究论文

基于CSIA的造船车间工艺优化方法

ICAICE’23：第四届人工智能与计算机工程国际会议论文集2023年11月，第981–987页https://doi.org/10.1145/3652628.3652791

在求解组合优化问题时，常见的布谷算法存在解不稳定、精度低和容易“早熟”的缺点。本文提出了一种基于人工免疫（IA）局部搜索的布谷鸟算法（CSIA）。。。

研究论文

HRDNet：一种新的高分辨率深度估计网络

ICAICE’23：第四届国际人工智能与计算机工程大会论文集2023年11月，第881-885页https://doi.org/10.1145/3652628.3652775

具有语义信息的无监督单目深度估计网络表现出良好的性能。然而，在空间细节或语义信息较差的区域，深度估计精度会降低，这一问题在视觉上反映在。。。

研究论文

释放大型语言模型的潜力：洪水灾害场景的零击VQA

ICAICE’23：第四届国际人工智能与计算机工程大会论文集2023年11月，第368–373页https://doi.org/10.1145/3652628.3652689

可视化问答（VQA）是一项基本的、必不可少的人工智能任务，而基于VQA的灾难场景理解是一个热门的研究课题。例如，我们可以通过VQA模型询问有关灾难图像的问题，答案可以帮助识别。。。

研究论文

基于CylcleGAN的声纳图像半监督分割

ICAICE’23：第四届人工智能与计算机工程国际会议论文集2023年11月，第357-361页https://doi.org/10.1145/3652628.3652687

声纳图像中的目标通常具有少量像素，并且在尺度、方向等方面变化很大。因此，声纳图像通常不满足现有许多重要半监督学习算法的结构假设。此外。。。

研究论文

视觉导航中基于时空注意的类别图表示

ACM多媒体计算、通信和应用汇刊（TOMM），第20卷，第7期文章编号：217,第1-22页https://doi.org/10.1145/3653714

给定一个感兴趣的物体，视觉导航的目的是根据一系列局部观察结果到达该物体的位置。为此，代理需要（1）在……期间获得有关世界上对象类别关系的特定知识。。。

研究论文

艰难学习夜间语义分割

ACM多媒体计算、通信和应用汇刊（TOMM），第20卷，第7期条款编号：213,第1-23页https://doi.org/10.1145/3650032

夜间语义分割是一个重要但具有挑战性的自主驾驶研究问题。主要挑战在于来自曝光不足/过度区域的小物体或区域，或者受到部署的相机造成的运动模糊的影响。。。

研究论文

开放式访问

用于环境智能的数字伴侣体系结构

ACM互动、移动、穿戴和普及技术（IMWUT）会议录，第8卷，第2期条款编号：66,第1-26页https://doi.org/10.1145/3659610

环境智能（AmI）专注于创建能够主动、透明地适应用户及其活动的环境。传统上，AmI关注计算设备的可用性、网络的普及性。。。

应用的筛选器

人

姓名

机构

作者

编辑

审阅者

出版物

期刊/杂志名称

会议记录/书名

所有出版物

内容类型

补充材料类型

媒体格式

论文奖

出版商

会议

赞助商

会议活动

诉讼系列

再现性徽章

出版日期

保存到活页夹