Learning View-Disentangled Human Pose Representation by Contrastive Cross-View Mutual Information Maximization

Zhao, Long; Wang, Yuxiao; Zhao, Jiaping; Yuan, Liangzhe; Sun, Jennifer J.; Schroff, Florian; Adam, Hartwig; Peng, Xi; Metaxas, Dimitris; Liu, Ting

利用对比交叉视图互信息最大化学习视点分离的人体姿势表示

赵龙（Long Zhao）、王玉霄（Yuxiao Wang）、赵嘉平（Jiaping Zhao，音译）、袁良哲（Liangzhe Yuan）、詹妮弗（Jennifer J.Sun）、弗洛里安·施罗夫（Florian Schroff）、哈特维格·亚当（Hartwig Adam）、; IEEE/CVF计算机视觉和模式识别（CVPR）会议记录，2021年，第12793-12802页

摘要

我们引入了一种新的表示学习方法，从二维人体姿势中分离出与姿势相关和与视图相关的因素。该方法使用交叉视图互信息最大化（CV-MIM）训练网络，该方法以对比学习的方式从不同的角度对相同姿势的互信息进行最大化。我们进一步提出了两个正则化项，以确保所学表示的解纠缠和平滑。生成的姿势表示可以用于横视动作识别。为了评估学习表征的能力，除了传统的全监督动作识别设置外，我们还引入了一个新的任务，称为单镜头横视动作识别。此任务仅从一个单一视点对模型进行动作训练，同时根据从所有可能的视点捕获的姿势对模型进行评估。我们评估了行为识别标准基准上的学习表示，并表明（i）CV-MIM在全监督场景中与最新模型相比具有竞争力；（ii）CV-MIM在单镜头交叉视图设置中以较大的优势优于其他竞争方法；（iii），并且当减少监督训练数据的量时，所学习的表示可以显著提高性能。我们的代码在以下网址公开https://github.com/google-research/google-researche/tree/master/poice。

相关材料

[pdf格式][支持][arXiv公司]

[bibtex公司]

@会议记录{Zhao_2021_CVPR，author={赵、龙和王、于晓和赵、贾平和袁、梁哲和孙、詹妮弗J.和施若夫、弗洛里安和亚当、哈特维格和彭、西和梅塔克萨斯、迪米特里斯和刘、婷}，title={通过对比交叉视图互信息最大化学习视图-分解人体姿势表示}，booktitle={IEEE/CVF计算机视觉和模式识别（CVPR）会议记录}，月={6月}，年份={2021}，页码=｛12793-12802｝}