跳到主要内容
研究论文

PoseSonic:基于智能眼镜的自我声学传感三维上半身姿势估计

出版:2023年9月27日 出版历史
  • 获取引文提醒
  • 摘要

    在本文中,我们介绍了PoseSonic,一种用于智能眼镜的智能声学传感解决方案,用于估计上身姿势。我们的系统只需要眼镜铰链上的两对麦克风和扬声器就可以发射FMCW编码的听不见声音信号,并接收反射信号以进行身体姿势估计。PoseSonic使用定制的深度学习模型估计9个身体关节的3D位置,包括肩部、肘部、手腕、臀部和鼻子。我们采用跨模态监督策略来训练我们的模型,使用同步的RGB视频帧作为基本事实。我们对22名参与者进行了实验室内和半野外用户研究,以评估PoseSonic,在3D中预测9个身体关节位置时,我们的用户依赖模型在实验室环境中的每个关节位置平均误差为6.17 cm,在半野外环境中的每关节位置平均偏差为14.12 cm。我们的进一步研究表明,性能没有受到不同环境、设备重新安装时或真实环境噪音的显著影响。最后,我们讨论了在实际应用中部署PoseSonic的机会、挑战和局限性。

    补充材料

    马哈茂德 (mahmud.zip)
    PoseSonic:通过智能眼镜上的自我听觉感知进行三维上半身姿势估计的补充电影、附录、图像和软件文件

    工具书类

    [1]
    2021.适用于Windows的Kinect2。https://learn.microsoft.com/en-us/windows/apps/design/devices/kinect-for-windows
    [2]
    Karan Ahuja、Yue Jiang、Mayank Goel和Chris Harrison。2021.Vid2Doppler:从视频合成多普勒雷达数据,用于训练隐私保护活动识别。在2021年CHI计算机系统人为因素会议记录中(日本横滨)(CHI’21)。美国纽约州纽约市计算机协会,第292条,共10页。https://doi.org/10.1145/3411764.3445138
    [3]
    Karan Ahuja、Sven Mayer、Mayank Goel和Chris Harrison。2021.Pose-on-Go:使用智能手机传感器融合和反向运动学近似用户姿势。2021年CHI计算机系统人为因素会议记录(日本横滨)(CHI'21)。美国纽约州纽约市计算机协会,第9条,共12页。https://doi.org/10.1145/3411764.3445582
    [4]
    Karan Ahuja、Vivian Shen、Cathy Mengying Fang、Nathan Riopelle、Andy Kong和Chris Harrison。2022.ControllerPose:使用VR控制器摄像头进行内外身体捕捉。2022年CHI计算机系统人为因素会议论文集(美国洛杉矶新奥尔良)(CHI'22)。美国纽约州纽约市计算机协会,第108条,13页。https://doi.org/10.1145/3491102.3502105
    [5]
    Teo Babic、Florian Perteneder、Harald Reiterer和Michael Haller。2020年,Simo:通过智能手机与远程显示器进行交互,同时进行面部和世界跟踪。在2020年CHI计算机系统人为因素会议(美国夏威夷州火奴鲁鲁)(CHI EA’20)的扩展摘要中。美国纽约州纽约市计算机协会,1-12。https://doi.org/10.1145/3334480。3382962
    [6]
    曹哲(Zhe Cao)、西蒙(Tomas Simon)、魏世恩(Shih-En Wei)和谢赫(Yaser Sheikh)。2016.使用部件相似性字段的实时多人2D姿势估计。CoRR abs/1611.08050(2016)。arXiv:1611.08050http://arxiv.org/abs/1611.08050
    [7]
    Purves D、Augustine GJ、Fitzpatrick D等,以及编辑。2001年,《听觉频谱》。神经科学。第二版。
    [8]
    Mahmoud El Gohary和James McNames。2012.使用惯性传感器进行肩关节和肘关节角度跟踪。IEEE生物医学工程学报59,9(2012),2635--2641。https://doi.org/10.109/TBME.2012.2208750
    [9]
    何开明(Kaiming He)、乔治亚·吉奥萨里(Georgia Gkioxari)、彼得·多拉(Piotr Dollár)和罗斯·B·吉希克(Ross B.Girshick)。2017.屏蔽R-CNN。CoRR abs/1703.06870(2017)。arXiv:1703.06870http://arxiv.org/abs/1703.06870
    [10]
    何开明、X.Zhang、任少清和孙健。2015.图像识别的深度剩余学习。2016年IEEE计算机视觉与模式识别会议(CVPR)(2015),770-778。
    [11]
    本井良介(Ryosuke Hori)、Hachiuma、Hideo Saito、Mariko Isogawa和Dan Mikami。2021.基于轮廓的合成数据生成,用于使用单腕安装的360°相机进行3D人体姿势估计。2021年IEEE国际图像处理会议(ICIP)。1304--1308. https://doi.org/10.109/ICIP42928.2021.9506043
    [12]
    肖敦宇、孙敏、克里斯蒂·鲍尔韦伯、塞思·库珀和佐兰·波波维奇。2016.改进手部姿势估计的主动感知。2016年CHI计算机系统人为因素会议记录(美国加利福尼亚州圣何塞)(CHI'16)。美国纽约州纽约市计算机协会,2348-2352。https://doi.org/10.1145/2858036.2858587
    [13]
    黄冬云、麻生太郎和小池秀树。2019.单目视觉:基于单目鱼眼摄像头的3D人体姿势估计。2019年IEEE虚拟现实和3D用户界面(VR)会议。988--989. https://doi.org/10.109/VR.2019.8798267
    [14]
    斯蒂芬·S·因蒂尔、凌宝、伊曼纽尔·蒙吉亚·塔皮亚和约翰·朗多尼。2004.获取上下文软件通用计算应用程序的现场培训数据。在SIGCHI计算机系统人为因素会议记录(奥地利维也纳)(CHI'04)中。美国纽约州纽约市计算机协会,1-8。https://doi.org/10.1145/985692.985693
    [15]
    温江、尼科斯·科洛托罗斯、乔治奥斯·帕夫拉科斯、周晓伟和科斯塔斯·达尼利迪斯。2020年,从单个图像中连贯地重建多个人类。在CVPR中。
    [16]
    姜文军、薛鸿飞、苗成林、王世阳、林森、田冲、穆拉利、胡浩晨、孙志军和卢素。2020年。使用Wifi构建3D人体姿势。《第26届移动计算和网络国际年会论文集》(英国伦敦)(MobiCom’20)。美国纽约州纽约市计算机机械协会,第23条,14页。https://doi.org/10.1145/337224.3380900
    [17]
    金泽昂珠、迈克尔·布莱克、大卫·雅各布斯和吉坦德拉·马利克。2017.人体形态和姿势的持续恢复。CoRR abs/1712.06584(2017)。arXiv:1712.06584http://arxiv.org/abs/1712.06584
    [18]
    郝刚、许祥宇、余嘉迪、陈麒麟、马晨光、陈莹莹、陈一超和孔凌河。2022.M3Track:MmWave-Based MUlti-User 3D姿态跟踪。《第20届移动系统、应用和服务年度国际会议论文集》(俄勒冈州波特兰)(MobiSys’22)。美国纽约州纽约市计算机协会,491-503。https://doi.org/10.1145/3498361.3538926
    [19]
    赖锦江和罗成文。2021.声学姿势:基于声学的人体姿势估计。在无线传感器网络方面,李翠和谢晓兰(编辑)。新加坡施普林格,57-69。
    [20]
    李柯、张瑞东、梁波、弗朗索瓦·吉姆布雷蒂埃和张成。2022.EarIO:一种低功耗的声音传感系统,能够持续跟踪面部的详细动作。第6、2条,第62条(2022年7月),24页。https://doi.org/10.1145/3534621
    [21]
    李文浩、刘洪、唐浩、王皮超和吕克·范古尔。2021.MHFormer:用于3D人体姿势估计的多假设变换器。https://doi.org/10.48550/ARXIV.2111.12707
    [22]
    林贤哲、李亚轩、马修·德蕾莎、胡芳、金在勋、张瑞东和张成。2022.BodyTrak:使用腕带上的微型相机从人体轮廓推断全身姿势。程序。ACM互动。暴徒。可穿戴的无所不在技术。第6、3条,第154条(2022年9月),共21页。https://doi.org/10.1145/3552312
    [23]
    刘子玉、张洪文、陈正浩、王志勇、欧阳万里。2020.用于基于骨架的动作识别的解纠缠和统一图卷积。IEEE/CVF计算机视觉和模式识别会议论文集。143--152.
    [24]
    赛义夫·马哈茂德(Saif Mahmud)、M.T.H.Tonmoy、基索尔·库马尔·巴米克(Kishor Kumar Bhaumik)、A.M.Rahman、M.A.Amin、M.Shoyaib、Muhammad Asif Hossain Khan和A.Ali。2020年。使用自我注意从可穿戴传感器数据中识别人类活动。在2020年8月29日至9月8日于西班牙圣地亚哥举行的ECAI 2020-第24届欧洲人工智能会议上。
    [25]
    杜什扬·梅塔、赫尔赫·罗丁、丹·卡萨斯、帕斯卡尔·福亚、奥列克桑德·索特尼琴科、徐伟鹏和克里斯蒂安·西奥巴特。2017年,使用改进的CNN监督在野外进行单目3D人体姿势估计。arXiv:1611.09813[cs.CV]
    [26]
    Vimal Mollyn、Riku Arakawa、Mayank Goel、Chris Harrison和Karan Ahuja。2023.IMUPoser:使用手机、手表和耳机中的IMU进行全身姿势估计。《2023年CHI计算机系统人为因素会议论文集》(德国汉堡)(CHI'23)。美国纽约州纽约市计算机协会,第529条,12页。https://doi.org/10.1145/3544548.3581392
    [27]
    庆世文、张居勇和李京木。2018年,V2V-PoseNet:从单个深度图准确估计3D手和人体姿势的体素到体素预测网络。在IEEE计算机视觉和模式识别会议(CVPR)上。
    [28]
    大卫·贝扎·莫亚诺(David Baeza Moyano)、丹尼尔·阿伦斯·帕莱索(Daniel Arranz Paraiso)和罗伯特·阿隆索·冈萨雷斯-莱兹卡诺(Roberto Alonso González-Lezcano)。2022.超声波暴露对健康的可能影响、工作环境中的风险因素和职业安全审查。《医疗保健》,第10卷。MDPI,423。
    [29]
    威廉·墨菲和约翰·弗兰克斯。2002.NIOSH推荐标准标准:职业噪声暴露,1998年修订标准。美国声学学会杂志-J ACOUST SOC AMER 111(2002年5月),2397-2397。https://doi.org/10.1121/1.4778162
    [30]
    Rajalakshmi Nandakumar、Vikram Iyer、Desney Tan和Shyamnath Gollakota。2016年Fingerio:使用主动声纳进行精细手指跟踪。CHI计算机系统人为因素会议论文集。1515--1525.
    [31]
    吴雅芳、向东来、赵汉白和克里斯汀·格劳曼。2020年。You2Me:通过第一人称和第二人称互动推断自我中心视频中的身体姿势。CVPR(2020)。
    [32]
    乔治·帕潘德里欧、Tyler Zhu、Nori Kanazawa、Alexander Toshev、Jonathan Tompson、Chris Bregler和Kevin P.Murphy。2017年,实现野外多人姿势准确估计。CoRR abs/1701.01779(2017)。arXiv:1701.01779http://arxiv.org/abs/1701.01779
    [33]
    达里奥·巴韦罗、克里斯托夫·费希滕霍夫、大卫·格兰杰和迈克尔·奥利。2019.具有时间卷积和半监督训练的视频中的3D人体姿态估计。在计算机视觉和模式识别会议(CVPR)上。
    [34]
    任毅力、王紫、谭晟、陈莹莹和杨杰。2022.Winect:使用商品WiFi进行自由活动的3D人体姿势跟踪。程序。ACM互动。暴徒。可穿戴的无所不在技术。第5、4条,第176条(2022年12月),共29页。https://doi.org/10.1145/3494973
    [35]
    任义利、王紫、王一超、谭胜、陈颖英和杨杰。2022.GoPose:使用WiFi进行3D人体姿势估计。程序。ACM互动。暴徒。可穿戴无处不在的科技。第6、2条,第69条(2022年7月),25页。https://doi.org/10.1145/3534605
    [36]
    J.Roggendorf、S.Chen、S.Baudrexel、S.van de Loo、C.Seifried和R.Hilker。2012年。在跑步机步态下,使用基于超声波的运动分析测量帕金森病患者的摆动不对称性。《步态》35,1(2012),116-120。https://doi.org/10.1016/j。步态测试2011.08.020
    [37]
    Mark Sandler、Andrew Howard、Menglong Zhu、Andrey Zhmoginov和Liang-Chieh Chen。2019.MobileNetV2:倒置残差和线性瓶颈。arXiv:1801.04381[cs.CV]
    [38]
    彼得·舍内曼。1966.正交procutes问题的广义解。《心理测量学》31,1(1966),1-10。
    [39]
    丹尼斯·托姆(Denis Tome)、帕特里克·佩卢斯(Patrick Peluse)、卢德斯·阿加皮托(Lourdes Agapito)和埃尔南·巴迪诺(Hernan Badino)。2019.xR-EgoPose:头戴式显示器(HMD)摄像机拍摄的自我中心3D人体姿势。IEEE计算机视觉国际会议论文集。7728--7738.
    [40]
    Catherine Tong、Shyam A.Tailor和Nicholas D.Lane。2020年。用于活动识别的加速计是死胡同吗?。《第21届移动计算系统和应用国际研讨会论文集》(美国德克萨斯州奥斯汀)(HotMobile’20)。美国纽约州纽约市计算机协会,39-44。https://doi.org/10.1145/3376897.3377867
    [41]
    M.Tanjid Hasan Tonmoy、Saif Mahmud、A.K.M.Mahbubur Rahman、M.Ashraful Amin和Amin Ahsan Ali。2021.基于分层自我注意的开放式人类活动识别自动编码器。知识发现和数据挖掘进展。施普林格国际出版社,查姆,351-363。
    [42]
    超跃。2021.跳跃运动控制器。https://www.ultraleap.com/product/leap-motion-controller(网址:https://www.ultraleap.com/product/leap-motion-controller)/
    [43]
    巴斯蒂安·旺德(Bastian Wandt)、詹姆斯·利特尔(James J.Little)和海尔赫·罗丁(Helge Rhodin)。2021.ElePose:通过预测摄像机高度和学习2D姿势上的归一化流进行无监督3D人体姿势估计。https://doi.org/10.48550/ARXIV.2112.07088
    [44]
    王天本(Tianben Wang)、张大庆(Daqing Zhang)、郑元庆(Yuanqing Zheng)、陶谷(Tao Gu)、周星社(Xingshe Zhou)和贝纳黛特·多里兹(Bernadette Dorizzi)。2018.C-FMCW基于声学信号的非接触式呼吸检测。1、4,第170条(2018年1月),20页。https://doi.org/10.1145/3161188
    [45]
    Wei Wang、Alex X Liu和Ke Sun。2016。使用声学信号的无设备手势跟踪。在移动计算和网络年度国际会议(MobiCom)的会议记录中。82--94.
    [46]
    谢文涛、张倩、张锦。2021.智能眼镜的基于声学的上面部动作识别。《ACM互动、移动、可穿戴和普及技术(IMWUT)会议录》,第5卷。1--28.
    [47]
    傅雄、张伯深、杨晓、曹志国、余台东、周天翼和袁俊松。2019.A2J:基于单深度图像的三维关节姿势估计锚-关节回归网络。在IEEE国际计算机视觉会议(ICCV)的会议记录中。
    [48]
    许洪毅(Hongyi Xu)、爱德华·加布里埃尔·巴扎万(Eduard Gabriel Bazavan)、安德烈·赞菲尔(Andrei Zanfir)、威廉·T·弗里曼(William T Freeman)、拉胡尔·苏克坦卡尔(Rahul Sukthankar)和克里斯蒂安·斯。2020.GHUM&GHUML:Generative 3D人形和立体姿势模型。IEEE/CVF计算机视觉和模式识别会议论文集。6184--6193.
    [49]
    徐伟鹏(Weipeng Xu)、阿维谢克·查特吉(Avishek Chatterjee)、迈克尔·佐尔霍夫(Michael Zollhöfer)、赫尔热·罗丁(Helge Rhodin)、P.福阿(P.Fua)、汉斯·彼得·塞德尔(Hans-Peter Seidel)和克里斯。2018.Mo2Cap2:带盖鱼眼摄像头的实时移动3D运动捕捉。IEEE可视化和计算机图形学报25(2018),2093--2101。
    [50]
    杨俊瑞(Junrui)、陈拓超(Tuochao Chen)、秦芳(Fang Qin)、莫妮卡·S·林(Monica S.Lam)和詹姆斯·兰迪(James A.Landay)。2022.HybridTrak:使用离线网络摄像头将全身跟踪功能添加到虚拟现实中。2022年CHI计算机系统人为因素会议论文集(美国洛杉矶新奥尔良)(CHI'22)。美国纽约州纽约市计算机协会,第348条,13页。https://doi.org/10.1145/3491102.3502045
    [51]
    福尹和周士哲。2020年。通过四阶段开发网络从单个深度图像准确估计身高。2020年IEEE/CVF计算机视觉和模式识别会议(CVPR)。8264--8273. https://doi.org/10.109/CVPR42600.2020。00829
    [52]
    于湛、李凤海、翁仁良和崔坤。2022.Ray3D:基于光线的3D人体姿势估计,用于单目绝对3D定位。https://doi.org/10.44850/ARXIV.2203.11471
    [53]
    Long Zhao、Xi Peng、Yu Tian、Mubbasir Kapadia和Dimitris N.Metaxas。2019.三维人体姿势回归的语义图卷积网络。在IEEE计算机视觉和模式识别会议(CVPR)上。3425--3435.
    [54]
    Mingmin Zhao、Tianhong Li、Mohammad Abu Alsheikh、Yonglong Tian、Hang Zhao,Antonio Torralba和Dina Katabi,2018年。使用无线电信号的贯通式人体姿势估计。2018年IEEE/CVF计算机视觉和模式识别会议。7356--7365. https://doi.org/10.1109/CVR.2018.00768
    [55]
    赵明民(Mingmin Zhao)、田永龙(Yonglong Tian)、赵杭(Hang Zao)、穆罕默德·阿布·阿尔斯海克(Mohammad Abu Alsheikh)、李天宏(Tianhong Li)、鲁门·赫里斯托夫(Rumen Hristov)、扎卡里·卡贝拉克(Zachary Ka。2018.RF-Based 3D骨架。《2018年ACM数据通信特别利益小组会议记录》(匈牙利布达佩斯)(SIGCOMM’18)。美国纽约州纽约市计算机协会,267--281。https://doi.org/10.1145/3230543.3230579
    [56]
    赵伟喜、田云杰、叶启祥、焦建斌和王伟强。2021.GraFormer:用于3D姿势估计的图形卷积变换器。https://doi.org/10.48550/ARXIV.2109.08364

    引用人

    查看全部
    • (2024)GazeTrak:探索玻璃框架上基于声学的眼睛跟踪第30届移动计算和网络国际年会会议记录10.1145/3636534.3649376(497-512)在线发布日期:2024年5月29日
    • (2024)EchoWrist:使用腕带上的低功耗主动声传感进行连续手势跟踪和手-物交互识别CHI计算机系统人为因素会议记录10.1145/3613904.3642910(1-21)在线发布日期:2024年5月11日
    • (2024)眼睛回声:眼镜上连续低功耗面部表情跟踪CHI计算机系统人为因素会议记录10.1145/3613904.3642613(1-24)在线发布日期:2024年5月11日

    索引术语

    1. PoseSonic:通过智能眼镜上的自我声学传感进行三维上半身姿势估计

      建议

      评论

      信息和贡献者

      问询处

      发布时间

      ACM关于交互式、移动、可穿戴和无处不在技术的封面图片会议录
      ACM互动、移动、穿戴和普及技术会议录 第7卷第3期
      2023年9月
      1734页
      EISSN公司:2474-9567
      内政部:10.1145/3626192
      期刊目录
      如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护].

      出版商

      计算机协会

      美国纽约州纽约市

      出版历史

      出版:2023年9月27日
      在IMWUT中发布体积7,问题

      权限

      请求对此文章的权限。

      检查更新

      作者标记

      1. 声学传感
      2. 跨模式监管
      3. 深度学习
      4. 人体姿态估计
      5. 智能/AR眼镜

      限定符

      • 研究文章
      • 研究
      • 推荐

      资金来源

      贡献者

      其他指标

      文献计量学和引文

      文献计量学

      文章指标

      • 下载次数(过去12个月)858
      • 下载次数(最近6周)34

      其他指标

      引文

      引用人

      查看全部
      • (2024)GazeTrak:探索玻璃框架上基于声学的眼睛跟踪第30届移动计算与网络国际年会论文集10.1145/3636534.3649376(497-512)在线发布日期:2024年5月29日
      • (2024)EchoWrist:使用腕带上的低功耗主动声传感进行连续手势跟踪和手-物交互识别CHI计算机系统人为因素会议记录10.1145/3613904.3642910(1-21)在线发布日期:2024年5月11日
      • (2024)眼睛回声:眼镜上连续低功耗面部表情跟踪CHI计算机系统人为因素会议记录10.1145/3613904.3642613(1-24)在线发布日期:2024年5月11日

      视图选项

      获取访问权限

      登录选项

      完全访问权限

      查看选项

      PDF格式

      以PDF文件查看或下载。

      PDF格式

      电子阅读器

      使用联机查看电子阅读器.

      电子阅读器

      媒体

      数字

      其他

      桌子

      分享

      分享

      共享此出版物链接

      在社交媒体上分享