跳到主要内容
研究论文

Lipwatch:使用声音感应在智能手表上启用无声语音识别

出版:2024年5月15日 出版历史
  • 获取引文提醒
  • 摘要

    移动设备上的无声语音接口(SSI)为传统的语音输入方法提供了一种私密的替代方法。此前的研究主要集中在智能手机上。在本文中,我们介绍了Lipwatch,这是一种利用声学传感技术在智能手表上启用SSI的新型系统。Lipwatch利用手表扬声器发出的听不见的声波来捕捉嘴唇的运动,然后分析回声以启用SSI。与智能手机上基于声学感知的SSI相比,我们的Lipwatch开发充分考虑了与智能手表相关的特定场景和要求。首先,我们详细阐述了一种无需唤醒的机制,允许用户无需唤醒短语或按键即可进行交互。该机制利用智能手表上的惯性传感器检测手势,并结合检测嘴唇运动的声音信号来确定是否应激活SSI。其次,我们设计了一种灵活的无声语音识别机制,该机制探索了有限的词汇识别,以理解更广泛的用户命令,即使是那些没有出现在训练数据集中的命令,使用户不再严格遵守预定义的命令。我们使用智能手表上80个最常见的交互命令对15个人进行了Lipwatch评估。该系统在用户独立测试中实现了13.7%的误字率。即使用户发出包含训练集中没有的单词的命令,Lipwatch仍显示出88.7%的前三准确率。我们在商业智能手表上实现了实时版本的Lipwatch。用户研究表明,Lipwatch是在智能手表上启用SSI的一个实用且有前景的选项。

    工具书类

    [1]
    Triantafyllos Afouras、Joon Son Chung、Andrew Senior、Oriol Vinyals和Andrew Zisserman。2018年,深度视听语音识别。IEEE模式分析和机器智能汇刊(2018),1-1。
    [2]
    Fouad Alallah、Ali Neshati、Yumiko Sakamoto、Khalad Hasan、Edward Lank、Andrea Bunt和Poulang Irani。2018.表演者与观察者:在检查佩戴式显示器输入方式的社会可接受性时,我们应该考虑谁的舒适度?。第24届ACM虚拟现实软件与技术研讨会论文集(日本东京)(VRST'18)。美国纽约州纽约市计算机协会,第10条,共9页。https://doi.org/10.1145/3281505.3281541
    [3]
    福阿德·阿拉拉(Fouad Alallah)、阿里·内沙蒂(Ali Neshati)、尼玛·谢巴尼(Nima Sheibani)、坂本由美子(Yumiko Sakamoto)、安德烈亚·邦特(Andrea Bunt)、普朗·伊拉尼(Pourang Irani)和哈拉德·。2018年,众包与实验室式社会可接受性研究?检查头戴式显示器空间用户交互的社会可接受性。2018年CHI计算机系统人为因素会议记录(加拿大蒙特利尔QC)(CHI'18)。美国纽约州纽约市计算机协会,1-7。https://doi.org/10.1145/3173574.3173884
    [4]
    Yannis M Assael、Brendan Shillingford、Shimon Whiteson和Nando De Freitas。2016年,Lipnet:前后句子水平的唇读。arXiv预印arXiv:1611.01599(2016)。
    [5]
    阿列克谢·巴耶夫斯基(Alexei Baevski)、徐维宁(Wei-Ning Hsu)、亚历克西斯·康诺(Alexis Conneau)和迈克尔·奥利(Michael Auli)。2021.无监督语音识别。神经信息处理系统进展34(2021),27826--27839。
    [6]
    埃里克·巴滕伯格(Eric Battenberg)、陈季彤(Jitong Chen)、瑞沃·查尔德(Rewon Child)、亚当·科茨(Adam Coates)、亚什什·高尔·伊丽(Yashesh Gaur Yi Li)、刘海蓉(Hairong Liu)、桑吉夫·萨蒂什(Sanjeev。2017.探索用于端到端语音识别的神经传感器。2017年IEEE自动语音识别与理解研讨会(ASRU)。IEEE,206-213。
    [7]
    Abdelkareem Bedri、Himanshu Sahni、Pavleen Thukral、Thad Starner、David Byrd、Peter Presti、Gabriel Reyes、Maysam Ghovanloo和Zehua Guo。2015年,消费者可穿戴设备的无声语音控制。计算机48,10(2015),54-62。
    [8]
    曹世瑞、李栋、李成宏、熊洁。2023.动力手机:释放智能手机的声音感应能力。第29届移动计算与网络国际年会论文集。1--16.
    [9]
    郑家良(Ka Leong Cheng)、杨兆阳(Zhaoyang Yang)、陈奇峰(Qifeng Chen)和泰宇文(Yu-Wing Tai)。2020年。用于连续手语识别的全卷积网络。2020年8月23日至28日在英国格拉斯哥举行的第16届欧洲会议《计算机愿景—ECCV 2020》,会议记录,第二十四部分16。施普林格,697-714。
    [10]
    Joon Son Chung、Andrew Senior、Oriol Vinyals和Andrew Zisserman。2017.野外唇读句子。2017年IEEE计算机视觉和模式识别会议(CVPR)。IEEE,3444--3453。
    [11]
    B Denby、Tanja Schultz、K Honda、Thomas Hueber、James M Gilbert和Jonathan S Brumberg,2010年。无声语音界面。《言语交际》52,4(2010),270--287。
    [12]
    丁峰、王东、张茜和赵润。2019.ASSV:使用声学信号进行手写签名验证。《ACM互动、移动、穿戴和普及技术会议录》(2019年),274-277。
    [13]
    韩鼎、王一战、郝丽、崔钊、格旺、魏熙和赵继忠。2022.UltraSpeech:通过超声波和语音之间的交互增强语音。ACM互动、移动、可穿戴和普及技术会议录6,3(2022),1-25。
    [14]
    克里斯托弗·加埃塔。2016.停止玩手表:对智能手表使用的看法。(2016).
    [15]
    杨高、金银成、李济阳、崔世民和金展鹏。2020年。回声耳语:为智能手机用户探索基于声学的无声语音接口。ACM互动、移动、可穿戴和普及技术会议录4,3(2020),1-27。
    [16]
    亚历克斯·格雷夫斯(Alex Graves)、圣地亚哥·费尔南德斯(Santiago Fernández)和福斯蒂诺·戈麦斯(Faustino Gomez)。2006.连接时间分类:用递归神经网络标记未分段序列数据。在机器学习国际会议上。
    [17]
    何开明、张湘玉、任少清、孙建军。2016.图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议记录中。770--778.
    [18]
    Shota Horiguchi、Daiki Ikami和Kiyoharu Aizawa。2019.基于softmax的特征与基于距离度量学习的特征相比的重要性。IEEE模式分析和机器智能事务42,5(2019),1279-1285。
    [19]
    金银成、杨高、徐旭海、崔世民、李济阳、刘峰、李正雄和金展鹏。2022.EarCommand:在耳朵里“听”你的无声演讲命令。ACM互动、移动、可穿戴和普及技术会议录6,2(2022),1-28。
    [20]
    Arnav Kapur、Shreyas Kapur和Pattie Maes。2018.Alterego:个性化可穿戴无声语音界面。在第23届智能用户界面国际会议上。43--53.
    [21]
    木村直树(Naoki Kimura)、河野美彦(Michinari Kono)和雷基莫托(Jun Rekimoto)。2019.SottoVoce:使用深层神经网络的基于超声波成像的无声语音交互。2019年CHI计算机系统人为因素会议论文集。
    [22]
    李东、刘佳林、李成宏、熊洁。2020年。FM跟踪:利用声波信号推动非接触多目标跟踪的极限。在第18届嵌入式网络传感器系统大会论文集上。150--163.
    [23]
    李东、刘佳林、李成宏、熊洁。2022.激光传感:利用声波信号推动细粒度活动传感的极限。ACM互动、移动、可穿戴和普及技术会议录6,1(2022),1-27。
    [24]
    李东、刘佳林、李成宏、熊洁。2022.使用智能扬声器的房间级手势识别。第20届ACM嵌入式网络传感器系统会议论文集。462--475.
    [25]
    李柯、张瑞东、梁博、弗朗索瓦·吉姆布雷蒂尔和张成。2022.Eario:一种低功耗的声音传感装置,可连续跟踪面部的详细动作。ACM互动、移动、可穿戴和普及技术会议录6,2(2022),1-24。
    [26]
    李子苏、陈亮、王云涛、岳琴、春雨、颜玉康、范明明和史元春。2023.使用跨设备感应实现语音与手对脸手势识别。2023年CHI计算机系统人为因素会议记录。1--17.
    [27]
    K.Ling、H.Dai、Y.Liu和A.X.Liu。2018.超手势:精细手势感知和识别。2018年第15届IEEE传感、通信和网络国际年会(SECON)。1--9.
    [28]
    刘嘉林、李东、王磊和熊洁。2021.BlinkListener:使用智能手机“聆听”你的眨眼。ACM互动、移动、可穿戴和普及技术会议录5,2(2021),1-27。
    [29]
    刘嘉林、李东、王磊、张福桑和熊洁。2022.在设备运动下实现非接触式声学传感。ACM互动、移动、可穿戴和普及技术会议录6,3(2022),1-27。
    [30]
    Minh Thang Luong、Hieu Pham和Christopher D.Manning。2015.基于注意的神经机器翻译的有效方法。(2015).
    [31]
    哈里·麦高克和约翰·麦克唐纳。1976年,听到嘴唇,看到声音。《自然》2645588(1976),746--748。
    [32]
    Rajalakshmi Nandakumar、Shyamnath Gollakota和Nathaniel Watson。2015.智能手机上的非接触式睡眠呼吸暂停检测。第13届移动系统、应用程序和服务国际年会论文集。45--57.
    [33]
    Laxmi Pandey、Khalad Hasan和Ahmed Sabbir Arif.2021。在私人和公共场合,语音和无声语音输入方法的可接受性。2021年CHI计算机系统人为因素会议记录。1--13.
    [34]
    蒲俊福、周文刚、李厚强,2019年。用于连续手语识别的迭代对齐网络。IEEE/CVF计算机视觉和模式识别会议论文集。4165--4174.
    [35]
    岳琴、春雨、李兆亨、钟明远、颜玉康和史元春。2021.近距离:通过单个麦克风检测到的近距离语音,方便地激活语音。2021年CHI计算机系统人为因素会议记录。1--12.
    [36]
    Tanja Schultz、Michael Wand、Thomas Hueber、Dean J.Krusienski、Christian Herff和Jonathan S.Brumberg,2017年。基于生物信号的口语交际:一项调查。IEEE/ACM音频语音和语言处理汇刊25,12(2017),2257--2271。
    [37]
    Rico Sennrich、Barry Haddow和Alexandra Birch。2015.使用单语数据改进神经机器翻译模型。arXiv预印arXiv:1511.06709(2015)。
    [38]
    Tanmay Srivastava、Prerna Khanna、Shijia Pan、Phuc Nguyen和Shubham Jain。2022.静音:使用可听见的基于下颚运动的清音命令识别。ACM互动、移动、可穿戴和普及技术会议录6,3(2022),1-26。
    [39]
    孙珂、于春、石伟南、刘岚和石元春。2018.唇语互动:使用无声语音命令改善移动设备交互。第31届ACM用户界面软件和技术年度研讨会论文集。581--593.
    [40]
    孙珂和张新余。2021.UltraSE:使用超声波的单通道语音增强。第27届移动计算和网络国际年会论文集。160--173.
    [41]
    谭嘉尧、阮锦涛和王晓亮。2017.无声对话:通过手机上的超声波感应进行唇读。在IEEE INFOCOM 2017-IEEE计算机通信会议上。IEEE,1-9。
    [42]
    阿什什·瓦斯瓦尼(Ashish Vaswani)、诺姆·沙泽尔(Noam Shazeer)、尼基·帕尔玛(Niki Parmar)、雅各布·乌斯科雷特(Jakob Uszkoreit)、利昂·琼斯(Llion Jones)、艾丹·戈麦斯(Aidan N.Gomez)、不确定的杜卡斯·凯泽(undef。2017年。关注是你所需要的。第31届神经信息处理系统国际会议论文集(NIPS’17)。6000--6010.
    [43]
    王京贤、潘成峰、金浩坚、瓦比哈夫·辛格、亚什·贾恩、杰森·洪一世、卡梅尔·马吉迪和斯瓦伦·库马尔。2019.RFID纹身:语音识别无线平台。ACM互动、移动、可穿戴和普适技术会议录3,4(2019),1-24。
    [44]
    王天本(Tianben Wang)、张大庆(Daqing Zhang)、郑元庆(Yuanqing Zheng)、陶谷(Tao Gu)、周星社(Xingshe Zhou)和贝纳黛特·多里兹(Bernadette Dorizzi)。2018.基于C-FMCW的非接触式呼吸检测,使用声波信号。ACM互动、移动、可穿戴和普及技术会议录1,4(2018),1-20。
    [45]
    Wei Wang、Alex X Liu和Ke Sun。2016.使用声音信号进行无设备手势跟踪。第22届国际移动计算与网络年会论文集。82--94.
    [46]
    詹姆斯·威廉姆斯。1998.多媒体教学使用指南。《人类因素和人类工效学学会年会论文集》,第42卷。SAGE Publications SAGE CA:加利福尼亚州洛杉矶,1447-1451。
    [47]
    Xiangyu Xu、Gao Hang、Jiadi Yu、Ying Ying Chen和Minglu Li.2017年。ER:利用智能手机上的音频设备进行疏忽驾驶的早期识别。在IEEE INFOCOM 2017-IEEE计算机通信会议上。
    [48]
    杨志灿(Zhican Yang)、春雨(Chun Yu)、郑凤石(Fengshi Zheng)和史元春(Yuanchun Shi)。2019.ProxiTalk:通过将智能手机带到嘴边激活语音输入。ACM互动、移动、可穿戴和普适技术会议录3,3(2019),1-25。
    [49]
    尹亚凤,王政,夏康,谢雷,路桑璐.2023。移动设备的基于声学的唇读:数据集、基准和基于自蒸馏的方法。IEEE移动计算汇刊(2023)。
    [50]
    桑基云、陈一超、郑慧煌、邱丽丽和毛文光。2017年。Strata:基于细颗粒声学的无设备跟踪。(2017), 15--28.
    [51]
    张福桑、熊洁、张兆新、马俊奇和张大庆。2022.Mobi2Sense:为无线传感提供移动性。第28届移动计算与网络国际年会论文集。268--281.
    [52]
    张倩、刘珂和王冬。2024.通过记忆感知听觉:无真实超声信号的超声波语音增强。ACM互动、移动、可穿戴和普及技术会议录8,2(2024),1-31。
    [53]
    张倩、王冬、赵润和于英刚。2021.Soundlip:为智能设备实现单词和句子级的唇语交互。ACM互动、移动、穿戴和普及技术会议录5,1,1--28。
    [54]
    张倩、王冬、赵润、于英刚和沈俊杰。2021.听觉感知:使用声音信号对移动设备进行语音增强。ACM互动、移动、可穿戴和普及技术会议录5,3(2021),1-30。
    [55]
    张瑞东(Ruidong Zhang)、陈明阳(Mingyang Chen)、本杰明·斯蒂珀(Benjamin Steeper)、李雅轩(Yaxuan Li)、严子翰(Zihan Yan)、陈一卓(Yizhao Chen),陶松云(Songyun Tao)、陈拓超。2021.SpeeChin:无声语音识别的智能项链。ACM互动、移动、可穿戴和普及技术会议录5,4(2021),1-23。
    [56]
    张瑞东(Ruidong Zhang)、李珂(Ke Li)、郝一红(Yihong Hao)、王玉凡(Yufan Wang)、赖正南(Zhengnan Lai)、弗朗索瓦·吉姆布雷蒂埃(François Guimbretire)和张成(Cheng。2023.EchoSpeech:基于声学传感的最小干扰眼镜上的连续无声语音识别。2023年CHI计算机系统人为因素会议记录。1--18.
    [57]
    张永钊、黄伟雄、杨志云、王文平、陈一超、庄文友、黄大元、薛光焘和余嘉迪。2020.白内障:利用基于声学的成像发出无接触无声语音命令。程序。ACM互动。暴徒。可穿戴的无所不在技术。4, 1 (2020).
    [58]
    赵润、王东、张倩、金学毅和刘珂。2021.使用声音信号进行基于智能手机的手写签名验证。美国计算机学会人机交互会议录5,国际空间站(2021年),1-26。
    [59]
    2019年,赵世文(Shiwen Zhao)、布兰特·韦斯汀(Brandt Westing)、肖恩·斯库利(Shawn Scully)、赫里·尼托(Heri Nieto)、罗曼·霍伦斯坦(Roman Holenstein)、明宇·琼(Minwoo Jeong)、克里希纳·斯里达尔(Krishna Sridhar)、布兰登·纽恩多普(Brandon Newend。提高说话能力:一种准确、低功耗的检测器,用于激活智能手表上的语音助手。第25届ACM SIGKDD知识发现与数据挖掘国际会议论文集(KDD’19)。美国纽约州纽约市计算机机械协会,2736-22744。https://doi.org/10.1145/3292500.3330761
    [60]
    周冰、杰伊·洛霍卡、高瑞鹏、范晔,2018。EchoPrint:在智能手机上使用声学和视觉进行双重认证。第24届移动计算和网络国际年会会议记录。321--336.
    [61]
    周子恒、赵国英、洪晓鹏和马蒂·皮提卡宁。2014年,视觉语音解码最新进展综述。图像和视觉计算32,9(2014),590--605。

    引用人

    查看全部
    • (2024)通过记忆感知听觉ACM互动、移动、穿戴和普及技术会议录10.1145/36595988:2(1-31)在线发布日期:2024年5月15日

    索引术语

    1. Lipwatch:使用声音感应在智能手表上启用无声语音识别

      建议

      评论

      信息和贡献者

      问询处

      发布于

      ACM关于交互式、移动、可穿戴和无处不在技术的封面图片会议录
      ACM互动、移动、穿戴和普及技术会议录 第8卷第2期
      2024年5月
      1330页
      EISSN公司:2474-9567
      内政部:10.1145/3665317
      期刊目录
      如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护].

      出版商

      计算机协会

      美国纽约州纽约市

      出版历史

      出版:2024年5月15日
      在IMWUT中发布体积8,问题2

      权限

      请求对此文章的权限。

      检查更新

      作者标记

      1. 声传感
      2. 无声语音接口
      3. 智能手表

      限定符

      • 研究文章
      • 研究
      • 推荐

      资金来源

      • 国家自然科学基金

      贡献者

      其他指标

      文献计量学和引文

      文献计量学

      文章指标

      • 下载次数(过去12个月)190
      • 下载次数(最近6周)183

      其他指标

      引文

      引用人

      查看全部
      • (2024)通过记忆感知听觉ACM互动、移动、穿戴和普及技术会议录10.1145/36595988:2(1-31)在线发布日期:2024年5月15日

      视图选项

      获取访问权限

      登录选项

      完全访问权限

      视图选项

      PDF格式

      以PDF文件查看或下载。

      PDF格式

      电子阅读器

      使用联机查看电子阅读器.

      电子阅读器

      媒体

      数字

      其他

      桌子

      分享

      分享

      共享此出版物链接

      在社交媒体上分享