研究论文

PoseSonic:基于智能眼镜的自我声学传感三维上半身姿势估计

作者:

赛义夫马哈茂德,

Ke（克）锂,

弗朗索瓦吉姆布雷蒂埃、和

程张作者信息和声明

ACM互动、移动、穿戴和普及技术会议录,体积7,问题三

条款编号：111，页码1-28

https://doi.org/10.1145/3610895

出版:2023年9月27日出版历史

获取访问权限

摘要

在本文中，我们介绍了PoseSonic，一种用于智能眼镜的智能声学传感解决方案，用于估计上身姿势。我们的系统只需要眼镜铰链上的两对麦克风和扬声器就可以发射FMCW编码的听不见声音信号，并接收反射信号以进行身体姿势估计。PoseSonic使用定制的深度学习模型估计9个身体关节的3D位置，包括肩部、肘部、手腕、臀部和鼻子。我们采用跨模态监督策略来训练我们的模型，使用同步的RGB视频帧作为基本事实。我们对22名参与者进行了实验室内和半野外用户研究，以评估PoseSonic，在3D中预测9个身体关节位置时，我们的用户依赖模型在实验室环境中的每个关节位置平均误差为6.17 cm，在半野外环境中的每关节位置平均偏差为14.12 cm。我们的进一步研究表明，性能没有受到不同环境、设备重新安装时或真实环境噪音的显著影响。最后，我们讨论了在实际应用中部署PoseSonic的机会、挑战和局限性。

补充材料

马哈茂德（mahmud.zip）

PoseSonic:通过智能眼镜上的自我听觉感知进行三维上半身姿势估计的补充电影、附录、图像和软件文件

下载
1330万

工具书类

[1]

2021.适用于Windows的Kinect2。https://learn.microsoft.com/en-us/windows/apps/design/devices/kinect-for-windows

[2]

Karan Ahuja、Yue Jiang、Mayank Goel和Chris Harrison。2021.Vid2Doppler：从视频合成多普勒雷达数据，用于训练隐私保护活动识别。在2021年CHI计算机系统人为因素会议记录中（日本横滨）（CHI’21）。美国纽约州纽约市计算机协会，第292条，共10页。https://doi.org/10.1145/3411764.3445138

数字图书馆

[3]

Karan Ahuja、Sven Mayer、Mayank Goel和Chris Harrison。2021.Pose-on-Go：使用智能手机传感器融合和反向运动学近似用户姿势。2021年CHI计算机系统人为因素会议记录（日本横滨）（CHI'21）。美国纽约州纽约市计算机协会，第9条，共12页。https://doi.org/10.1145/3411764.3445582

数字图书馆

[4]

Karan Ahuja、Vivian Shen、Cathy Mengying Fang、Nathan Riopelle、Andy Kong和Chris Harrison。2022.ControllerPose：使用VR控制器摄像头进行内外身体捕捉。2022年CHI计算机系统人为因素会议论文集（美国洛杉矶新奥尔良）（CHI'22）。美国纽约州纽约市计算机协会，第108条，13页。https://doi.org/10.1145/3491102.3502105

数字图书馆

[5]

Teo Babic、Florian Perteneder、Harald Reiterer和Michael Haller。2020年，Simo：通过智能手机与远程显示器进行交互，同时进行面部和世界跟踪。在2020年CHI计算机系统人为因素会议（美国夏威夷州火奴鲁鲁）（CHI EA’20）的扩展摘要中。美国纽约州纽约市计算机协会，1-12。https://doi.org/10.1145/3334480。3382962

数字图书馆

[6]

曹哲（Zhe Cao）、西蒙（Tomas Simon）、魏世恩（Shih-En Wei）和谢赫（Yaser Sheikh）。2016.使用部件相似性字段的实时多人2D姿势估计。CoRR abs/1611.08050（2016）。arXiv:1611.08050http://arxiv.org/abs/1611.08050

[7]

Purves D、Augustine GJ、Fitzpatrick D等，以及编辑。2001年，《听觉频谱》。神经科学。第二版。

[8]

Mahmoud El Gohary和James McNames。2012.使用惯性传感器进行肩关节和肘关节角度跟踪。IEEE生物医学工程学报59，9（2012），2635--2641。https://doi.org/10.109/TBME.2012.2208750

[9]

何开明（Kaiming He）、乔治亚·吉奥萨里（Georgia Gkioxari）、彼得·多拉（Piotr Dollár）和罗斯·B·吉希克（Ross B.Girshick）。2017.屏蔽R-CNN。CoRR abs/1703.06870（2017）。arXiv:1703.06870http://arxiv.org/abs/1703.06870

[10]

何开明、X.Zhang、任少清和孙健。2015.图像识别的深度剩余学习。2016年IEEE计算机视觉与模式识别会议（CVPR）（2015），770-778。

[11]

本井良介（Ryosuke Hori）、Hachiuma、Hideo Saito、Mariko Isogawa和Dan Mikami。2021.基于轮廓的合成数据生成，用于使用单腕安装的360°相机进行3D人体姿势估计。2021年IEEE国际图像处理会议（ICIP）。1304--1308. https://doi.org/10.109/ICIP42928.2021.9506043

[12]

肖敦宇、孙敏、克里斯蒂·鲍尔韦伯、塞思·库珀和佐兰·波波维奇。2016.改进手部姿势估计的主动感知。2016年CHI计算机系统人为因素会议记录（美国加利福尼亚州圣何塞）（CHI'16）。美国纽约州纽约市计算机协会，2348-2352。https://doi.org/10.1145/2858036.2858587

数字图书馆

[13]

黄冬云、麻生太郎和小池秀树。2019.单目视觉：基于单目鱼眼摄像头的3D人体姿势估计。2019年IEEE虚拟现实和3D用户界面（VR）会议。988--989. https://doi.org/10.109/VR.2019.8798267

[14]

斯蒂芬·S·因蒂尔、凌宝、伊曼纽尔·蒙吉亚·塔皮亚和约翰·朗多尼。2004.获取上下文软件通用计算应用程序的现场培训数据。在SIGCHI计算机系统人为因素会议记录（奥地利维也纳）（CHI'04）中。美国纽约州纽约市计算机协会，1-8。https://doi.org/10.1145/985692.985693

数字图书馆

[15]

温江、尼科斯·科洛托罗斯、乔治奥斯·帕夫拉科斯、周晓伟和科斯塔斯·达尼利迪斯。2020年，从单个图像中连贯地重建多个人类。在CVPR中。

[16]

姜文军、薛鸿飞、苗成林、王世阳、林森、田冲、穆拉利、胡浩晨、孙志军和卢素。2020年。使用Wifi构建3D人体姿势。《第26届移动计算和网络国际年会论文集》（英国伦敦）（MobiCom’20）。美国纽约州纽约市计算机机械协会，第23条，14页。https://doi.org/10.1145/337224.3380900

数字图书馆

[17]

金泽昂珠、迈克尔·布莱克、大卫·雅各布斯和吉坦德拉·马利克。2017.人体形态和姿势的持续恢复。CoRR abs/1712.06584（2017）。arXiv:1712.06584http://arxiv.org/abs/1712.06584

[18]

郝刚、许祥宇、余嘉迪、陈麒麟、马晨光、陈莹莹、陈一超和孔凌河。2022.M3Track:MmWave-Based MUlti-User 3D姿态跟踪。《第20届移动系统、应用和服务年度国际会议论文集》（俄勒冈州波特兰）（MobiSys’22）。美国纽约州纽约市计算机协会，491-503。https://doi.org/10.1145/3498361.3538926

数字图书馆

[19]

赖锦江和罗成文。2021.声学姿势：基于声学的人体姿势估计。在无线传感器网络方面，李翠和谢晓兰（编辑）。新加坡施普林格，57-69。

[20]

李柯、张瑞东、梁波、弗朗索瓦·吉姆布雷蒂埃和张成。2022.EarIO：一种低功耗的声音传感系统，能够持续跟踪面部的详细动作。第6、2条，第62条（2022年7月），24页。https://doi.org/10.1145/3534621

数字图书馆

[21]

李文浩、刘洪、唐浩、王皮超和吕克·范古尔。2021.MHFormer：用于3D人体姿势估计的多假设变换器。https://doi.org/10.48550/ARXIV.2111.12707

[22]

林贤哲、李亚轩、马修·德蕾莎、胡芳、金在勋、张瑞东和张成。2022.BodyTrak：使用腕带上的微型相机从人体轮廓推断全身姿势。程序。ACM互动。暴徒。可穿戴的无所不在技术。第6、3条，第154条（2022年9月），共21页。https://doi.org/10.1145/3552312

数字图书馆

[23]

刘子玉、张洪文、陈正浩、王志勇、欧阳万里。2020.用于基于骨架的动作识别的解纠缠和统一图卷积。IEEE/CVF计算机视觉和模式识别会议论文集。143--152.

数字图书馆

[24]

赛义夫·马哈茂德（Saif Mahmud）、M.T.H.Tonmoy、基索尔·库马尔·巴米克（Kishor Kumar Bhaumik）、A.M.Rahman、M.A.Amin、M.Shoyaib、Muhammad Asif Hossain Khan和A.Ali。2020年。使用自我注意从可穿戴传感器数据中识别人类活动。在2020年8月29日至9月8日于西班牙圣地亚哥举行的ECAI 2020-第24届欧洲人工智能会议上。

[25]

杜什扬·梅塔、赫尔赫·罗丁、丹·卡萨斯、帕斯卡尔·福亚、奥列克桑德·索特尼琴科、徐伟鹏和克里斯蒂安·西奥巴特。2017年，使用改进的CNN监督在野外进行单目3D人体姿势估计。arXiv:1611.09813[cs.CV]

[26]

Vimal Mollyn、Riku Arakawa、Mayank Goel、Chris Harrison和Karan Ahuja。2023.IMUPoser：使用手机、手表和耳机中的IMU进行全身姿势估计。《2023年CHI计算机系统人为因素会议论文集》（德国汉堡）（CHI'23）。美国纽约州纽约市计算机协会，第529条，12页。https://doi.org/10.1145/3544548.3581392

数字图书馆

[27]

庆世文、张居勇和李京木。2018年，V2V-PoseNet：从单个深度图准确估计3D手和人体姿势的体素到体素预测网络。在IEEE计算机视觉和模式识别会议（CVPR）上。

[28]

大卫·贝扎·莫亚诺（David Baeza Moyano）、丹尼尔·阿伦斯·帕莱索（Daniel Arranz Paraiso）和罗伯特·阿隆索·冈萨雷斯-莱兹卡诺（Roberto Alonso González-Lezcano）。2022.超声波暴露对健康的可能影响、工作环境中的风险因素和职业安全审查。《医疗保健》，第10卷。MDPI，423。

[29]

威廉·墨菲和约翰·弗兰克斯。2002.NIOSH推荐标准标准：职业噪声暴露，1998年修订标准。美国声学学会杂志-J ACOUST SOC AMER 111（2002年5月），2397-2397。https://doi.org/10.1121/1.4778162

[30]

Rajalakshmi Nandakumar、Vikram Iyer、Desney Tan和Shyamnath Gollakota。2016年Fingerio：使用主动声纳进行精细手指跟踪。CHI计算机系统人为因素会议论文集。1515--1525.

数字图书馆

[31]

吴雅芳、向东来、赵汉白和克里斯汀·格劳曼。2020年。You2Me：通过第一人称和第二人称互动推断自我中心视频中的身体姿势。CVPR（2020）。

[32]

乔治·帕潘德里欧、Tyler Zhu、Nori Kanazawa、Alexander Toshev、Jonathan Tompson、Chris Bregler和Kevin P.Murphy。2017年，实现野外多人姿势准确估计。CoRR abs/1701.01779（2017）。arXiv:1701.01779http://arxiv.org/abs/1701.01779

[33]

达里奥·巴韦罗、克里斯托夫·费希滕霍夫、大卫·格兰杰和迈克尔·奥利。2019.具有时间卷积和半监督训练的视频中的3D人体姿态估计。在计算机视觉和模式识别会议（CVPR）上。

[34]

任毅力、王紫、谭晟、陈莹莹和杨杰。2022.Winect：使用商品WiFi进行自由活动的3D人体姿势跟踪。程序。ACM互动。暴徒。可穿戴的无所不在技术。第5、4条，第176条（2022年12月），共29页。https://doi.org/10.1145/3494973

数字图书馆

[35]

任义利、王紫、王一超、谭胜、陈颖英和杨杰。2022.GoPose：使用WiFi进行3D人体姿势估计。程序。ACM互动。暴徒。可穿戴无处不在的科技。第6、2条，第69条（2022年7月），25页。https://doi.org/10.1145/3534605

数字图书馆

[36]

J.Roggendorf、S.Chen、S.Baudrexel、S.van de Loo、C.Seifried和R.Hilker。2012年。在跑步机步态下，使用基于超声波的运动分析测量帕金森病患者的摆动不对称性。《步态》35，1（2012），116-120。https://doi.org/10.1016/j。步态测试2011.08.020

[37]

Mark Sandler、Andrew Howard、Menglong Zhu、Andrey Zhmoginov和Liang-Chieh Chen。2019.MobileNetV2：倒置残差和线性瓶颈。arXiv:1801.04381[cs.CV]

[38]

彼得·舍内曼。1966.正交procutes问题的广义解。《心理测量学》31,1（1966），1-10。

[39]

丹尼斯·托姆（Denis Tome）、帕特里克·佩卢斯（Patrick Peluse）、卢德斯·阿加皮托（Lourdes Agapito）和埃尔南·巴迪诺（Hernan Badino）。2019.xR-EgoPose：头戴式显示器（HMD）摄像机拍摄的自我中心3D人体姿势。IEEE计算机视觉国际会议论文集。7728--7738.

[40]

Catherine Tong、Shyam A.Tailor和Nicholas D.Lane。2020年。用于活动识别的加速计是死胡同吗？。《第21届移动计算系统和应用国际研讨会论文集》（美国德克萨斯州奥斯汀）（HotMobile’20）。美国纽约州纽约市计算机协会，39-44。https://doi.org/10.1145/3376897.3377867

数字图书馆

[41]

M.Tanjid Hasan Tonmoy、Saif Mahmud、A.K.M.Mahbubur Rahman、M.Ashraful Amin和Amin Ahsan Ali。2021.基于分层自我注意的开放式人类活动识别自动编码器。知识发现和数据挖掘进展。施普林格国际出版社，查姆，351-363。

[42]

超跃。2021.跳跃运动控制器。https://www.ultraleap.com/product/leap-motion-controller（网址：https://www.ultraleap.com/product/leap-motion-controller）/

[43]

巴斯蒂安·旺德（Bastian Wandt）、詹姆斯·利特尔（James J.Little）和海尔赫·罗丁（Helge Rhodin）。2021.ElePose：通过预测摄像机高度和学习2D姿势上的归一化流进行无监督3D人体姿势估计。https://doi.org/10.48550/ARXIV.2112.07088

[44]

王天本（Tianben Wang）、张大庆（Daqing Zhang）、郑元庆（Yuanqing Zheng）、陶谷（Tao Gu）、周星社（Xingshe Zhou）和贝纳黛特·多里兹（Bernadette Dorizzi）。2018.C-FMCW基于声学信号的非接触式呼吸检测。1、4，第170条（2018年1月），20页。https://doi.org/10.1145/3161188

数字图书馆

[45]

Wei Wang、Alex X Liu和Ke Sun。2016。使用声学信号的无设备手势跟踪。在移动计算和网络年度国际会议（MobiCom）的会议记录中。82--94.

[46]

谢文涛、张倩、张锦。2021.智能眼镜的基于声学的上面部动作识别。《ACM互动、移动、可穿戴和普及技术（IMWUT）会议录》，第5卷。1--28.

数字图书馆

[47]

傅雄、张伯深、杨晓、曹志国、余台东、周天翼和袁俊松。2019.A2J：基于单深度图像的三维关节姿势估计锚-关节回归网络。在IEEE国际计算机视觉会议（ICCV）的会议记录中。

[48]

许洪毅（Hongyi Xu）、爱德华·加布里埃尔·巴扎万（Eduard Gabriel Bazavan）、安德烈·赞菲尔（Andrei Zanfir）、威廉·T·弗里曼（William T Freeman）、拉胡尔·苏克坦卡尔（Rahul Sukthankar）和克里斯蒂安·斯。2020.GHUM&GHUML:Generative 3D人形和立体姿势模型。IEEE/CVF计算机视觉和模式识别会议论文集。6184--6193.

[49]

徐伟鹏（Weipeng Xu）、阿维谢克·查特吉（Avishek Chatterjee）、迈克尔·佐尔霍夫（Michael Zollhöfer）、赫尔热·罗丁（Helge Rhodin）、P.福阿（P.Fua）、汉斯·彼得·塞德尔（Hans-Peter Seidel）和克里斯。2018.Mo2Cap2：带盖鱼眼摄像头的实时移动3D运动捕捉。IEEE可视化和计算机图形学报25（2018），2093--2101。

[50]

杨俊瑞（Junrui）、陈拓超（Tuochao Chen）、秦芳（Fang Qin）、莫妮卡·S·林（Monica S.Lam）和詹姆斯·兰迪（James A.Landay）。2022.HybridTrak：使用离线网络摄像头将全身跟踪功能添加到虚拟现实中。2022年CHI计算机系统人为因素会议论文集（美国洛杉矶新奥尔良）（CHI'22）。美国纽约州纽约市计算机协会，第348条，13页。https://doi.org/10.1145/3491102.3502045

数字图书馆

[51]

福尹和周士哲。2020年。通过四阶段开发网络从单个深度图像准确估计身高。2020年IEEE/CVF计算机视觉和模式识别会议（CVPR）。8264--8273. https://doi.org/10.109/CVPR42600.2020。00829

[52]

于湛、李凤海、翁仁良和崔坤。2022.Ray3D：基于光线的3D人体姿势估计，用于单目绝对3D定位。https://doi.org/10.44850/ARXIV.2203.11471

[53]

Long Zhao、Xi Peng、Yu Tian、Mubbasir Kapadia和Dimitris N.Metaxas。2019.三维人体姿势回归的语义图卷积网络。在IEEE计算机视觉和模式识别会议（CVPR）上。3425--3435.

[54]

Mingmin Zhao、Tianhong Li、Mohammad Abu Alsheikh、Yonglong Tian、Hang Zhao，Antonio Torralba和Dina Katabi，2018年。使用无线电信号的贯通式人体姿势估计。2018年IEEE/CVF计算机视觉和模式识别会议。7356--7365. https://doi.org/10.1109/CVR.2018.00768

[55]

赵明民（Mingmin Zhao）、田永龙（Yonglong Tian）、赵杭（Hang Zao）、穆罕默德·阿布·阿尔斯海克（Mohammad Abu Alsheikh）、李天宏（Tianhong Li）、鲁门·赫里斯托夫（Rumen Hristov）、扎卡里·卡贝拉克（Zachary Ka。2018.RF-Based 3D骨架。《2018年ACM数据通信特别利益小组会议记录》（匈牙利布达佩斯）（SIGCOMM’18）。美国纽约州纽约市计算机协会，267--281。https://doi.org/10.1145/3230543.3230579

数字图书馆

[56]

赵伟喜、田云杰、叶启祥、焦建斌和王伟强。2021.GraFormer：用于3D姿势估计的图形卷积变换器。https://doi.org/10.48550/ARXIV.2109.08364

引用人

李凯（Li K）张瑞陈B陈S尹S马哈茂德S梁Q吉姆布雷蒂埃F张C甘尼桑D史伟(2024)GazeTrak：探索玻璃框架上基于声学的眼睛跟踪第30届移动计算和网络国际年会会议记录10.1145/3636534.3649376(497-512)在线发布日期：2024年5月29日
https://dl.acm.org/doi/10.1145/3636534.3649376
Lee C公司张瑞阿加瓦尔D于特（Yu T）冈达五世洛佩兹O金·J尹S东风B李凯（Li K）坂下M吉姆布雷蒂埃F张C(2024)EchoWrist：使用腕带上的低功耗主动声传感进行连续手势跟踪和手-物交互识别CHI计算机系统人为因素会议记录10.1145/3613904.3642910(1-21)在线发布日期：2024年5月11日
https://dl.acm.org/doi/10.1145/3613904.3642910
李凯（Li K）张瑞陈S陈B坂下M吉姆布雷蒂埃F张C(2024)眼睛回声：眼镜上连续低功耗面部表情跟踪CHI计算机系统人为因素会议记录10.1145/3613904.3642613(1-24)在线发布日期：2024年5月11日
https://dl.acm.org/doi/10.1145/3613904.3642613

索引术语

PoseSonic：通过智能眼镜上的自我声学传感进行三维上半身姿势估计
1. 以人为中心的计算
  1. 无处不在的移动计算
    1. 无处不在的移动计算系统和工具

建议

可穿戴接口的主动骨导声传感
UIST’11副刊：第24届ACM用户界面软件和技术年度研讨会论文集

在本文中，我们提出了一种可穿戴传感器系统，该系统利用骨传导声音测量肘部的角度和手指敲击的位置。我们的系统由两个麦克风和一个扬声器组成，它们安装在前臂上。这个很新奇。。。
阅读更多信息
人体姿态估计方法综述
摘要
人体姿态估计是近几十年来计算机视觉网络研究的一个重要课题。这是理解视频和静态图像中的个人的一个重要进步。简单地说，一个人。。。
阅读更多信息
单目二维和三维人体姿势估计的最新进展：深度学习视角
从单目摄像机中估计人体姿态是计算机视觉领域中一个新兴的研究课题，具有许多应用。最近，得益于深度学习技术，大量研究工作已经。。。
阅读更多信息

评论

信息和贡献者

问询处

发布时间

ACM关于交互式、移动、可穿戴和无处不在技术的封面图片会议录

ACM互动、移动、穿戴和普及技术会议录第7卷第3期

2023年9月

1734页

EISSN公司：2474-9567

内政部：10.1145/3626192

版权所有©2023 ACM。

如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护].

出版商

计算机协会

美国纽约州纽约市

出版历史

出版：2023年9月27日

在IMWUT中发布体积7,问题三

权限

请求对此文章的权限。

检查更新

作者标记

限定符

研究文章
研究
推荐

资金来源

国家科学基金会

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

三
引文总数
查看引文
858
总下载次数

下载次数（过去12个月）858
下载次数（最近6周）34

其他指标

查看作者指标

引文

引用人

李克张瑞陈B陈S尹S马哈茂德S梁Q吉姆布雷蒂埃F张C甘尼桑D史伟(2024)GazeTrak：探索玻璃框架上基于声学的眼睛跟踪第30届移动计算与网络国际年会论文集10.1145/3636534.3649376(497-512)在线发布日期：2024年5月29日
https://dl.acm.org/doi/10.1145/3636534.3649376
Lee C公司张瑞阿加瓦尔D于特（Yu T）冈达五世洛佩兹O金·J尹S东风B李凯（Li K）坂下M吉姆布雷蒂埃F张C(2024)EchoWrist：使用腕带上的低功耗主动声传感进行连续手势跟踪和手-物交互识别CHI计算机系统人为因素会议记录10.1145/3613904.3642910(1-21)在线发布日期：2024年5月11日
https://dl.acm.org/doi/10.1145/3613904.3642910
李凯（Li K）张瑞陈S陈B坂下M吉姆布雷蒂埃F张C(2024)眼睛回声：眼镜上连续低功耗面部表情跟踪CHI计算机系统人为因素会议记录10.1145/3613904.3642613(1-24)在线发布日期：2024年5月11日
https://dl.acm.org/doi/10.1145/3613904.3642613

视图选项

获取访问权限

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此文章

查看选项

PDF格式

以PDF文件查看或下载。

电子阅读器

使用联机查看电子阅读器.

电子阅读器

媒体

数字

其他

桌子

查看问题目录