跳到主要内容
研究论文

签名环:基于IMU环和虚拟IMU数据的连续美国手语识别

出版:2023年9月27日 出版历史
  • 获取引文提醒
  • 摘要

    手语是聋人和重听人广泛使用的一种自然语言。先进的可穿戴设备可以自动识别手语。然而,尽管在数据收集方面付出了巨大的努力,但由于缺乏标记数据,导致词汇量较小,表现不佳,因此它们受到了限制。在此,我们提出了SignRing,这是一个基于IMU的系统,它突破了传统的数据增强方法,利用在线视频生成虚拟IMU(v-IMU)数据,并通过词汇量达到934,句子多达16个注释来推动基于可穿戴系统的边界。v-IMU数据是通过从两视图视频重建3D手势运动并计算3轴加速度数据生成的,通过该数据,我们可以在半v-IMU和半IMU训练数据(每个2339个样本)的混合下获得6.3%的字错误率(WER),在100%v-IMU训练数据(6048个样本)下获得14.7%的字错误速率(WER,与8.3%WER的基线性能进行比较(使用2339个IMU数据样本进行训练)。我们对v-IMU和IMU数据进行了比较,以证明v-IMU数据的可靠性和通用性。这项跨学科的工作涵盖了可穿戴传感器开发、计算机视觉技术、深度学习和语言学等多个领域,可以为具有类似研究目标的研究人员提供有价值的见解。

    工具书类

    [1]
    瓦西里斯·阿提索斯(Vassilis Athitsos)、卡罗尔·内德尔(Carol Neidle)、斯坦·斯拉罗夫(Stan Sclaroff)、琼·纳什(Joan Nash)、亚历山德拉·斯特凡(Alexandra Stefan)、全元(Quan Yuan)和阿什温·坦加利。2008年,美国手语词典视频数据集。IEEE计算机视觉和模式识别研讨会会议记录。IEEE标准,1-8。
    [2]
    Alexei Baevski、Yuhao Zhou、Abdelrahman Mohamed和Michael Auli。2020年,wav2vec 2.0:语音表征自主学习框架。神经信息处理系统进展33(2020),12449-12460。
    [3]
    Donald J Berndt和James Clifford。1994.使用动态时间扭曲来发现时间序列中的模式。《第三届知识发现和数据挖掘国际会议论文集》,第10卷。359--370.
    [4]
    马蒂亚什·博哈切克和马雷克·赫鲁兹。2022.用于单词级手语识别的基于手势位置的转换器。在IEEE/CFF计算机视觉应用冬季会议论文集上。182--191.
    [5]
    MatyášBohacek和Marek Hrúz。2023.从已有的知识中学习:使用在线词典进行手语识别的数量很少。2023年,IEEE第17届自动人脸和手势识别国际会议(FG)。IEEE,1--6。
    [6]
    Danielle Bragg、Oscar Koller、Mary Bellard、Larwan Berke、Patrick Boudreault、Annelies Braffort、Naomi Caselli、Matt Huenerfauth、Hernisa Kacorri、Tessa Verhoef等人,2019。手语识别、生成和翻译:一个跨学科的视角。在第21届国际ACM SIGACCESS计算机和无障碍会议上。16--31.
    [7]
    内卡蒂·西汉·卡姆戈兹(Necati Cihan Camgoz)、西蒙·哈德菲尔德(Simon Hadfield)、奥斯卡·科勒(Oscar Koller)、赫尔曼·奈(Hermann Ney)和理查德·鲍登(Richard Bowden)。2018年,神经手语翻译。IEEE计算机视觉和模式识别会议论文集。7784--7793.
    [8]
    内卡蒂·西汉·卡姆戈兹(Necati Cihan Camgoz)、奥斯卡·科勒(Oscar Koller)、西蒙·哈德菲尔德(Simon Hadfield)和理查德·鲍登(Richard Bowden)。2020年。手语转换器:联合端到端手语识别和翻译。IEEE/CVF计算机视觉和模式识别会议论文集。10023--10033.
    [9]
    Ke-Yu Chen、Shwetak N Patel和Sean Keller。2016年,Finexus:使用磁感应跟踪多个指尖的精确运动。在2016年CHI计算机系统人为因素会议记录中。1504--1514.
    [10]
    Choi Seokmin、Yang Gao、Yincheng Jin、Se jun Kim、Jiyang Li、Wenyao Xu和Zhanpeng Jin。2022.PPGface:比如你在看什么?耳机可以“感受”你的面部表情。ACM互动、移动、可穿戴和普及技术会议录6,2(2022),1-32。
    [11]
    曹东、明祖鲁和尹兆正。2015年,使用微软kinect进行美国手语字母识别。IEEE计算机视觉和模式识别研讨会会议记录。44--52.
    [12]
    菲利普·德鲁(Philippe Dreuw)、卡罗尔·内德尔(Carol Neidle)、瓦西里斯·阿提索斯(Vassilis Athitsos)、斯坦·斯拉罗夫(Stan Sclaroff)和赫尔曼·奈伊(Hermann Ney)。2008年。基于视频的自动手语识别基准数据库。《第六届国际语言资源与评价会议记录》(LREC’08)。
    [13]
    菲利普·德鲁(Philippe Dreuw)、大卫·赖巴赫(David Rybach)、托马斯·德塞勒斯(Thomas Deselaers)、莫特扎·扎赫迪(Morteza Zahedi)和赫尔曼·奈(Hermann Ney)。2007.手语识别系统的语音识别技术。Hand 60(2007),80。
    [14]
    Deniz Ekiz、Gamze Ege Kaya、Serkan Buur、Sla Güler、Buse Buz、Bilgin Kosucu和Bert Arnrich。2017.智能手表的符号句子识别。2017年第25届信号处理和通信应用会议(SIU)。IEEE,1--4。
    [15]
    方碧仪、吉利安公司和张米。2017年。Deepasl:实现无处不在、非侵入性的单词和句子级手语翻译。第15届ACM嵌入式网络传感器系统会议记录。1--13.
    [16]
    Jens Forster、Christoph Schmidt、Thomas Hoyoux、Oscar Koller、Uwe Zelle、Justus Piater和Hermann Ney。2012年,Rwth-phenix-weather:一个大型词汇手语识别和翻译语料库。第八届国际语言资源与评估会议论文集(LREC’12)。3785--3789.
    [17]
    杨高(Yang Gao)、金银成(Yincheng Jin)、崔世民(Seokmin Choi)、李济阳(Jiyang Li)、潘俊杰(Junjie Pan)、林树(Lin Shu)、池州(Chi Zhou)和金展鹏。2021.SonicFace:使用商品话筒阵列追踪面部表情。ACM互动、移动、可穿戴和普及技术会议录5,4(2021),1-33。
    [18]
    菲利克斯·A·盖尔斯、尼科尔·N·施劳多夫和尤尔根·施密杜贝尔。2002.学习LSTM递归网络的精确计时。机器学习研究杂志3,8月(2002),115-143。
    [19]
    亚历克斯·格雷夫斯(Alex Graves)、圣地亚哥·费尔南德斯(Santiago Fernández)、福斯蒂诺·戈麦斯(Faustino Gomez)和尤尔根·施密杜贝尔(Jürgen Schmidhuber)。2006.连接时间分类:用递归神经网络标记未分段序列数据。第23届国际机器学习会议论文集。369--376.
    [20]
    Alex Graves、Abdel-rahman Mohamed和Geoffrey Hinton。2013年,使用深度递归神经网络进行语音识别。程序中。IEEE声学、语音和信号处理国际会议。IEEE,6645--6649。
    [21]
    Sepp Hochreiter和Jürgen Schmidhuber。1997.长短期记忆。神经计算9,8(1997),1735-1780。
    [22]
    侯家辉、李向阳、朱培德、王泽凡、王瑜、钱建伟和杨潘龙。2019.Signspeaker:基于智能手表的实时高精度手语翻译。第25届移动计算与网络国际会议论文集。1--15.
    [23]
    黄杰、周文刚、张麒麟、李厚强和李卫平。2018。基于视频的手语识别,无需时间分割。在第三十二届AAAI人工智能会议上。
    [24]
    奥马尔·伊克巴尔(Umar Iqbal)、帕夫洛·莫尔恰诺夫(Pavlo Molchanov)、托马斯·布鲁埃尔·尤根·加尔(Thomas Breuel Juergen Gall)和扬·考茨(Jan Kautz)。2018年。通过潜在2.5天热图回归估计手的姿势。欧洲计算机视觉会议(ECCV)论文集。118--134.
    [25]
    Jin Yincheng Jin、Choi Seokmin、Yang Gao、Jiyang Li、Zhengxing Li和Zhanpeng Jin。2023.TransASL:日常生活中基于智能玻璃的综合ASL识别器。第28届智能用户界面国际会议(IUI’23)会议记录。美国纽约州纽约市计算机协会,802-818。https://doi.org/10.1145/3581641.3584071
    [26]
    金银成、杨高、朱彦军、王伟、李济阳、崔世民、李章玉、周杰曼、安妮德·戴伊和金展鹏。2021.SonicALS:一种使用耳机的基于声学的手语手势识别器。程序。ACM互动。暴徒。可穿戴的无所不在技术。5、2,第67条(2021年6月),30页。https://doi.org/10.1145/3463519
    [27]
    金银成、张世波、杨高、徐旭海、崔世民、李正雄、Henry J.Adler和金展鹏。2023.SmartASL:使用可穿戴设备的“保护点”综合ASL口译员。程序。ACM互动。暴徒。可穿戴的无所不在技术。第7、2条,第60条(2023年6月),共21页。https://doi.org/10.1145/3596255
    [28]
    Shigeki Karita、Nanxin Chen、Tomoki Hayashi、Takaaki Hori、Hirofumi Inaguma、Ziyan Jiang、Masao Someki、Nelson Enrique Yalta Soplin、Ryuichi Yamamoto、Xiaofei Wang等,2019年。语音应用中变压器与RNN的比较研究。程序中。IEEE自动语音识别与理解研讨会(ASRU)。IEEE,449--456。
    [29]
    迪特里希·克拉科夫(Dietrich Klakow)和乔森·彼得斯(Jochen Peters)。2002.测试单词错误率和困惑度的相关性。《言语交际》38,1-2(2002),19-28。
    [30]
    奥斯卡·科勒。2020年手语识别技术现状定量调查。arXiv预印arXiv:2008.09918(2020)。
    [31]
    Pradeep Kumar、Himaanshu Gauba、Partha Pratim Roy和Debi Prosad Dogra。2017.基于传感器的手语识别多模式框架。神经计算259(2017),21-38。
    [32]
    Hyeokhyen Kwon、Gregory D Abowd和Thomas Plötz。2021.基于大规模虚拟IMU数据的复杂深度神经网络,用于使用可穿戴设备进行有效的人类活动识别。传感器21、24(2021)、8337。
    [33]
    Kwon、Catherine Tong、Harish Haresamudram、Yan Gao、Gregory D Abowd、Nicholas D Lane和Thomas Ploetz。2020年,Imutube:从视频中自动提取虚拟人体加速度,用于人类活动识别。《ACM互动、移动、穿戴和普及技术会议录》4,3(2020年),1-29。
    [34]
    Kwon、Wang Bingyao、Gregory D Abowd和Thomas Plötz。2021.接近真实世界:使用虚拟imu数据支持活动识别训练。ACM互动、移动、可穿戴和普及技术会议录5,3(2021),1-32。
    [35]
    李可煌、周正宇和李金辉。2016年。符号转换建模和可扩展解决方案,用于实际应用中的连续手语识别。ACM无障碍计算交易(TACCESS)8,2(2016),1--23。
    [36]
    刘一林、蒋凤阳和马汉斯·戈达。2020年,交互式应用中的手指手势跟踪:手语初步研究。ACM互动、移动、可穿戴和普适技术会议录4,3(2020),1-21。
    [37]
    刘一林、张世嘉和马汉斯·戈达。2021.当视频与惯性传感器相遇:使用惯性传感器进行手指运动分析的零拍域自适应。《物联网设计与实现国际会议论文集》。182--194.
    [38]
    签署Savvy LLC.2019。精通手语——ASL手语视频词典。https://www.signingsavvy.com网站/
    [39]
    米歇尔·米奥佐和弗朗西丝卡·佩雷索蒂。2022.手是如何形成手语的。《科学报告》11980(2022),1-12。
    [40]
    Mohamed Mohandes、Mohamed Deriche和Junzhao Liu。2014年,基于图像和基于传感器的阿拉伯语手语识别方法。IEEE人机系统汇刊44,4(2014),551--557。
    [41]
    梅纳德·米勒。2007.动态时间扭曲。《音乐与运动信息检索》(2007),69-84。
    [42]
    Chaithanya Kumar Mummadi、Frederic Philips Peter Leo、Keshav Deep Verma、Shivaji Kasiredy、Philipp Marcel Scholl和Kristof Van Laerhoven。2017.基于imu的手套中手语字母拼写的实时嵌入式识别。第四届基于传感器的活动识别与交互国际研讨会论文集。1--6.
    [43]
    卡罗尔·奈德(Carol Neidle)、斯坦·斯卡洛夫(Stan Sclaroff)和瓦西里斯·阿提索斯(Vassilis Athitsos)。2001.SignStream:一种针对视觉语言数据的语言和计算机视觉研究工具。行为研究方法、仪器和计算机33,3(2001),311--320。
    [44]
    卡罗尔·奈德(Carol Neidle)、阿什温·桑加利(Ashwin Thangali)和斯坦·斯卡洛夫(Stan Sclaroff)。2012.美国手语词典视频数据集(ASLLVD)语料库开发中的挑战。语言资源与评估会议(LREC)。Citeser。
    [45]
    Iason Oikonomidis、Nikolaos Kyriazis和Antonis A Argyros。2011.使用Kinect对手关节进行高效的基于模型的3D跟踪。英国机器视觉会议论文集。101.1--101.11.
    [46]
    W.H.组织。2021.耳聋和听力损失。https://www.who.int/news-room/fact-sheets/detail/debeanness-and-hearing-loss
    [47]
    潘明章,汤英哲,李红旗,2023。最先进的数据手套:硬件、算法和应用综述。IEEE仪器和测量学报(2023年)。
    [48]
    Daniel S Park、William Chan、Yu Zhang、Chung-Cheng Chiu、Barret Zoph、Ekin D Cubuk和Quoc V Le。2019.Specengaret:一种用于自动语音识别的简单数据增强方法。arXiv预印本arXiv:1904.08779(2019)。
    [49]
    乔治奥·帕夫拉科斯(Georgios Pavlakos)、瓦西利奥斯·乔塔斯(Vasileios Choutas)、尼玛·戈巴尼(Nima Ghorbani)、蒂莫·博尔卡特(Timo Bolkart)、艾哈迈德·AA奥斯曼(Ahmed AA Osman)、迪米特里奥斯·齐奥。2019.表达身体捕捉:从单个图像中捕捉3D手、脸和身体。IEEE/CVF计算机视觉和模式识别会议论文集。10975--10985.
    [50]
    哈维尔·罗梅罗、迪米特里奥斯·齐奥纳斯和迈克尔·J·布莱克。2017年,《化身手:手和身体的建模和捕捉》。ACM事务处理。图表。第36、6条,第245条(2017年11月),17页。https://doi.org/10.1145/313080.3130883
    [51]
    阿布杜·沙拉比(Abdou Shalaby)、穆罕默德·埃尔莫吉(Mohammed Elmogy)和艾哈迈德·阿布·埃尔费托(Ahmed Abo El-Fetouh)。2017.运动结构(SFM)的算法和应用:一项调查。算法6,06(2017)。
    [52]
    尚嘉诚和吴杰。2017年。具有多个Wi-Fi设备的强大手语识别系统。在不断发展的互联网架构中的移动性研讨会论文集中。19--24.
    [53]
    Toby Sharp、Cem Keskin、Duncan Robertson、Jonathan Taylor、Jamie Shotton、David Kim、Christoph Rhemann、Ido Leichter、Alon Vinnikov、Yichen Wei等,2015年。准确、可靠、灵活的实时手跟踪。第33届ACM计算机系统人为因素年会论文集。3633--3642.
    [54]
    史宝光、向白、丛瑶。2016.基于图像的序列识别的端到端可训练神经网络及其在场景文本识别中的应用。IEEE模式分析和机器智能汇刊39,11(2016),2298--2304。
    [55]
    Mohammad Sharif Shourijeh、Reza Sharif Razavian和John McPhee。2017年。使用肌肉骨骼动力学模拟估算最大手指敲击频率。《计算与非线性动力学杂志》12,5(2017)。
    [56]
    凯伦·西蒙扬和安德鲁·齐瑟曼。2014.用于大规模图像识别的超深卷积网络。arXiv预印本arXiv:1409.1556(2014)。
    [57]
    Thad Starner和Alex Pentland。1997年。使用隐马尔可夫模型从视频中实时识别美国手语。在基于运动的识别中。施普林格,227-243。
    [58]
    美国手语语言大学。【未注明日期】。ASL 1级分类器。https://www.lifeprint.com/asl101/pages-signs/classifiers/classifiers-main.htm
    [59]
    阿什什·瓦斯瓦尼(Ashish Vaswani)、诺姆·沙泽尔(Noam Shazeer)、尼基·帕尔玛(Niki Parmar)、雅各布·乌斯科雷特(Jakob Uszkoreit)、利昂·琼斯(Llion Jones)、艾丹·戈麦斯(Aidan N Gomez)、尤卡斯·凯泽(ukasz Kaiser。2017年。你所需要的就是关注。神经信息处理系统进展30(2017)。
    [60]
    威廉·G·牧师。1997年,美国手语大学。生命线研究所。
    [61]
    威廉·G·维卡。2017年,美国手语大学。http://www.lifeprint.com/index.htm
    [62]
    Sudhendra Vijayanarasimhan、Susanna Ricco、Cordelia Schmid、Rahul Sukthankar和Katerina Fragkiadaki。2017.Sfm-net:从视频中学习结构和运动。arXiv预印arXiv:1704.07804(2017)。
    [63]
    王志波、赵腾达、马金鑫、陈洪凯、刘开新、邵华杰、王倩和巨仁。2020年。听手语:实时端到端手语识别系统。IEEE移动计算汇刊21,7(2020),2398--2410。
    [64]
    美国手语大学William G.Vicars。2017年,前100个标志。http://www.lifeprint.com/asl101/pages-layout/concepts.htm
    [65]
    吴健(Jian Wu)、孙璐(Lu Sun)和贾法里(Roozbeh Jafari),2016年。使用IMU和表面肌电传感器实时识别美国手语的可穿戴系统。IEEE生物医学与健康信息学杂志20,5(2016),1281--1290。
    [66]
    扎胡尔·扎弗鲁拉(Zahour Zafrulla)、海伦娜·布拉舍尔(Helene Brashear)、萨德·斯塔纳(Thad Starner)、哈雷·汉密尔顿(Harley Hamilton)和彼得·普雷斯蒂(Peter Presti)。2011年,使用kinect识别美国手语。第13届多式联运接口国际会议论文集。279--286.
    [67]
    莫特扎·扎赫迪(Morteza Zahedi)、丹尼尔·凯泽斯(Daniel Keysers)和赫尔曼·内伊(Hermann Ney)。2005.基于外观的手语识别的发音聚类和可变性建模。在国际手势研讨会上。施普林格,68-79。
    [68]
    Cheng Zhang、Qiuyue Xue、Anandghan Waghmare、Ruichen Meng、Sumeet Jain、Yizeng Han、Xinyu Li、Kenneth Cunefare、Thomas Ploetz、Thad Starner等,2018年。手指敲击:使用主动声身体感应识别细粒度手的姿势。2018年CHI计算机系统人为因素会议论文集。1--10.
    [69]
    范张、瓦伦丁·巴扎列夫斯基、安德烈·瓦库诺夫、安德烈·阿卡琴卡、乔治·宋、张卓玲和马蒂亚斯·格兰德曼。2020年。Mediapipe手:设备上实时手跟踪。arXiv预印本arXiv:2006.10214(2020)。
    [70]
    张倩、JiaZhen Jing、Dong Wang和Run Zhao。2022.WearSign:使用惯性和肌电可穿戴设备推动手语翻译的极限。ACM互动、移动、可穿戴和普及技术会议录6,1(2022),1-27。
    [71]
    张倩、王冬、赵润和于英刚。2019.MyoSign:通过可穿戴设备实现端到端手语识别。第24届智能用户界面国际会议论文集。650--660.
    [72]
    克里斯蒂安·齐默尔曼和托马斯·布罗克斯。2017.学习从单个RGB图像估计3D手势。在IEEE国际计算机视觉会议论文集上。4903--4911.

    引用人

    查看全部
    • (2024)CAvatar公司ACM互动、移动、穿戴和普及技术会议录10.1145/36314247:4(1-24)在线发布日期:2024年1月12日
    • (2023)TFSemantic:一种利用无线信号进行非平衡分类的时频语义GAN框架传感器网络ACM事务10.1145/3614096在线发布日期:2023年8月8日
    • (2023)公平通用计算系统的设计框架2023年ACM普及和普适计算国际联合会议暨2023年AC M可穿戴计算国际研讨会的附属会议记录10.1145/3594739.3610677(366-373)在线发布日期:2023年10月8日

    建议

    评论

    信息和贡献者

    问询处

    发布于

    ACM关于交互式、移动、可穿戴和无处不在技术的封面图片会议录
    ACM互动、移动、穿戴和普及技术会议录 第7卷第3期
    2023年9月
    1734页
    EISSN公司:2474-9567
    内政部:10.1145/3626192
    期刊目录
    如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护].

    出版商

    计算机协会

    美国纽约州纽约市

    出版历史

    出版:2023年9月27日
    在IMWUT中发布体积7,问题

    权限

    请求对此文章的权限。

    检查更新

    作者标记

    1. 人机交互
    2. 计算机视觉
    3. 数据增强
    4. 手语识别

    限定符

    • 研究文章
    • 研究
    • 推荐

    贡献者

    其他指标

    文献计量学和引文

    文献计量学

    文章指标

    • 下载次数(过去12个月)450
    • 下载次数(最近6周)27

    其他指标

    引文

    引用人

    查看全部
    • (2024)CAvatar公司ACM互动、移动、穿戴和普及技术会议录10.1145/36314247:4(1-24)在线发布日期:2024年1月12日
    • (2023)TFSemantic:一种利用无线信号进行非平衡分类的时频语义GAN框架传感器网络ACM事务10.1145/3614096在线发布日期:2023年8月8日
    • (2023)一种设计公平的普适计算系统的框架2023年ACM普及和普适计算国际联合会议暨2023年AC M可穿戴计算国际研讨会的附属会议记录10.1145/3594739.3610677(366-373)在线发布日期:2023年10月8日

    视图选项

    获取访问权限

    登录选项

    完全访问权限

    视图选项

    PDF格式

    以PDF文件查看或下载。

    PDF格式

    电子阅读器

    使用联机查看电子阅读器.

    电子阅读器

    媒体

    数字

    其他

    桌子

    分享

    分享

    共享此出版物链接

    在社交媒体上分享