跳到主要内容
10.1145/3242587.3242599acm会议文章/章节视图摘要出版物页面犹太教学者会议记录会议集合
研究论文

唇部相互作用:使用无声语音命令改进移动设备交互

出版:2018年10月11日 出版历史
  • 获取引文提醒
  • 摘要

    我们介绍了Lip Interact,这是一种交互技术,允许用户通过无声语音在智能手机上发出命令。唇交改变了前摄像头的用途,以捕捉用户的口腔运动,并通过端到端的深度学习模型识别发出的命令。我们的系统支持44条命令,用于访问系统级功能(启动应用程序、更改系统设置和处理弹出窗口)和应用程序级功能(两个应用程序的集成操作)。我们通过三个用户实验验证了Lip-Interact的可行性:评估识别准确性,与触摸输入效率进行比较,以及与浊音命令在个人隐私和社会规范方面进行比较。我们证明了唇形互动可以帮助用户在一个步骤中高效地访问功能,在另一只手被占用时启用单手输入,并帮助触摸使交互更加流畅。

    补充材料

    suppl.mov公司 (ufp1075.mp4)
    补充视频
    供应.mov (ufp1075p.mp4)
    补充视频
    MP4文件 (p581-sun.mp4)

    工具书类

    [1]
    杰萨琳·阿尔维纳(Jessalyn Alvina)、卡拉·格里乔(Carla F.Griggio)、毕晓军(Xiaojun Bi)和温迪·麦凯(Wendy E.Mackay)。2017.CommandBoard:为软键盘创建通用命令手势输入空间。在第30届ACM用户界面软件和技术研讨会(UIST’17)的会议记录中。ACM,美国纽约州纽约市,17-28。
    [2]
    卡罗琳·阿佩尔和翟淑敏。2009.使用笔划作为命令快捷方式:认知优势和工具包支持。《SIGCHI计算机系统人为因素会议论文集》(CHI'09)。ACM,美国纽约州纽约市,2289-2298。
    [3]
    苹果。2018年,iOS-Siri-Apple。(2018). https://www.apple.com/ios/siri/。
    [4]
    Yannis M Assael、Brendan Shillingford、Shimon Whiteson和Nando de Freitas。2016年,LipNet:端到端句子级唇读。(2016).
    [5]
    Patrick Baudisch和Gerry Chu。2009年。后台设备交互允许创建非常小的触摸设备。《SIGCHI计算机系统人为因素会议论文集》(CHI'09)。1923-1932年,美国纽约州纽约市ACM。
    [6]
    乔纳森·布伦伯格(Jonathan S Brumberg)、阿方索·尼托·卡斯塔农(Alfonso Nieto-Castanon)、菲利普·肯尼迪(Philip R Kennedy)和弗兰克·冈瑟(Frank H Guenther)。2010年,用于语音通信的大脑-计算机接口。言语交际52,4(2010),367--379。
    [7]
    亚历克斯·巴特勒、沙赫拉姆·伊扎迪和史蒂夫·霍奇斯。2008.SideSight:小型设备周围的多“触摸”交互。在第21届ACM用户界面软件和技术年度研讨会(UIST’08)的会议记录中。ACM,美国纽约州纽约市,201-204。
    [8]
    陈向东和杨莉,2016年。使用离线学习概率表示引导用户定义的身体敲击识别。第29届用户界面软件与技术年度研讨会(UIST’16)会议记录。ACM,美国纽约州纽约市,359-364。
    [9]
    Chen,Julia Schwarz,Chris Harrison,Jennifer Mankoff和Scott E.Hudson。2014.空运
    [10]
    触摸:交织触摸&空中手势。第27届ACM用户界面软件与技术年度研讨会(UIST’14)会议记录。ACM,美国纽约州纽约市,519-525。
    [11]
    Kyunghyun Cho、Bart Van Merriönboer、Caglar Gulcehre、Dzmitry Bahdanau、Fethi Bougares、Holger Schwenk和Yoshua Bengio。2014.使用RNN编码器-解码器学习短语表示,用于统计机器翻译。arXiv预印本arXiv:1406.1078(2014)。
    [12]
    Joon Son Chung、Andrew Senior、Oriol Vinyals和Andrew Zisserman。2016年,野外唇读句子。arXiv预印本arXiv:1611.05358 2(2016)。
    [13]
    Joon Son Chung和Andrew Zisserman。2016年,野外唇读。在亚洲计算机视觉会议上。87--103.
    [14]
    安迪·科克伯恩(Andy Cockburn)、卡尔·古特温(Carl Gutwin)和索尔·格林伯格(Saul Greenberg),2007年。菜单性能的预测模型。《SIGCHI计算机系统人为因素会议论文集》(CHI'07)。美国纽约州纽约市ACM,627--636。
    [15]
    菲利普·科恩(Philip Cohen)、大卫·麦基(David McGee)和乔什·克劳(Josh Clow)。2000.基于地图的任务的多模式交互效率。第六届应用自然语言处理会议记录(ANLC'00)。计算语言学协会,美国宾夕法尼亚州斯特鲁兹堡,331-338。
    [16]
    Philip R.Cohen、Michael Johnston、David McGee、Sharon Oviatt、Jay Pittman、Ira Smith、Liang Chen和Josh Clow。1997年。QuickSet:分布式应用程序的多模式交互。《第五届ACM多媒体国际会议记录》(Multimedia’97)。ACM,美国纽约州纽约市,31-40。
    [17]
    B.Denby、T.Schultz、K.Honda、T.Hueber、J.M.Gilbert和J.S.Brumberg,2010年。无声语音接口。语音通信。52, 4 (2010), 270--287.
    [18]
    Michael J Fagan、Stephen R Ell、James M Gilbert、E Sarrazin和Peter M Chapman。2008年,为喉切除术后患者开发(无声)语音识别系统。医学工程与物理学30,4(2008),419--425。
    [19]
    Victoria M Florescu、Lise Crevier Buchman、Bruce Denby、Thomas Hueber、Antonia Colazo Simon、Claire Pillot Loiseau、Pierre Roussel、Cédric Gendrot和Sophie Quattrocchi。2010年,基于便携式超声波的无声语音接口的无声发音与发声发音。在国际言语交际协会第十一届年会上。
    [20]
    谷歌。2018年,谷歌助理。(2018). https://assistant.google.com/。
    [21]
    Otmar Hilliges、Shahram Izadi、Andrew D.Wilson、Steve Hodges、Armando Garcia-Mendoza和Andreas Butz。2009年。空中互动:为互动桌面增添更多深度。在第22届ACM用户界面软件和技术年度研讨会(UIST'09)的会议记录中。ACM,美国纽约州纽约市,139-148。
    [22]
    平原达也(Tatsuya Hirahara)、大田真彦(Makoto Otani)、清水昭和(Shota Shimizu)、东田友子(Todoki Toda)、中村圭吾(Keigo Nakamura)、中岛吉隆(Yoshitaka Nakajima)和Shikano清弘(Kiyohiro)。2010.使用身体传导声道共振信号的无声语音增强。《言语交际》52,4(2010),301-313。
    [23]
    托马斯·休伯(Thomas Hueber)、伊莱·劳伦特·贝纳罗亚(Elie-Laurent Benaroya)、杰拉德·霍利特(Gérard Chollet)、布鲁斯·丹比(Bruce Denby)、杰拉尔·德雷福斯(Gé)和莫琳·斯通。2010年,由超声波和舌头和嘴唇的光学图像驱动的无声语音界面的开发。《言语交际》52,4(2010),288--300。
    [24]
    谢尔盖·洛夫和克里斯蒂安·塞格迪。2015.批量规范化:通过减少内部协变量转移加快深度网络培训。arXiv预印arXiv:1502.03167(2015)。
    [25]
    马克斯·贾德伯格(Max Jaderberg)、凯伦·西蒙扬(Karen Simonyan)、安德鲁·齐瑟曼(Andrew Zisserman)等。2015年,空间变压器网络。神经信息处理系统进展。2017--2025.
    [26]
    Ji Waiwang、Wei Xu、Ming Yang和Kai Yu。2013.用于人类行为识别的3D卷积神经网络。IEEE模式分析和机器智能事务35,1(2013),221--231。
    [27]
    Arnav Kapur、Shreyas Kapur和Pattie Maes。2018年,AlterEgo:一款可佩戴的个性化无声语音界面。第23届智能用户界面国际会议(IUI’18)。ACM,美国纽约州纽约市,43-53。
    [28]
    瓦希德·卡泽米和约瑟芬·沙利文。2014.使用回归树集成的一毫秒人脸对齐。2014年IEEE计算机视觉和模式识别会议论文集(CVPR’14)。IEEE计算机学会,华盛顿特区,美国,1867-1874年。
    [29]
    伊蒙·基奥(Eamonn Keogh)、谢丽娜·朱棣文(Selina Chu)、大卫·哈特(David Hart)和迈克尔·帕扎尼(Michael Pazzani)。1993年。时间序列分割:一项调查和新方法。在编辑的卷中,时间序列数据库中的数据挖掘。世界科学出版社出版。出版公司,1-22。
    [30]
    戴维斯·E·金。2009年,Dlib-ml:机器学习工具包。《机器学习研究杂志》10期,2009年7月,1755-1758。
    [31]
    Diederik P Kingma和Jimmy Ba.2014年。亚当:一种随机优化方法。arXiv预印arXiv:1412.6980(2014)。
    [32]
    Sven Kratz和Michael Rohs。2009年,《气垫流:拓展周边设备交互的设计空间》。《第十一届移动设备和服务人机交互国际会议论文集》(MobileHCI'09)。ACM,美国纽约州纽约市,4:1--4:8。
    [33]
    佩尔·奥拉·克里斯滕森(Per Ola Kristensson)和翟淑敏(Shumin Zhai)。2007.带预览和不带预览的命令笔划:使用键盘上的笔手势进行命令选择。《SIGCHI计算机系统人为因素会议论文集》(CHI'07)。ACM,美国纽约州纽约市,1137-1146。
    [34]
    戈登·库登巴赫和威廉·巴克斯顿。1991年,标记和直接操作技术相结合的问题。在第四届ACM用户界面软件和技术研讨会的会议记录中。美国医学会,137--144。
    [35]
    杨莉.2010。手势搜索:快速移动数据访问工具。第23届年度ACM用户界面软件和技术研讨会(UIST'10)会议记录。ACM,美国纽约州纽约市,87-96。
    [36]
    郝璐、杨莉.2015。手势开启:启用Always-On Touch手势,从设备待机模式快速访问移动设备。第33届ACM计算机系统人为因素年会论文集(CHI'15)。美国纽约州纽约市ACM,3355-3364。
    [37]
    中岛义孝、卡斯奥卡Hideki、尼克·坎贝尔(Nick Campbell)和石野清弘(Kiyohiro Shikano)。2006.非听觉杂音(NAM)识别。IEICE信息与系统交易89,1(2006),1--8。
    [38]
    沙伦·奥维亚特。2003.多模式接口。《人机交互手册:基本原理、发展中的技术和新兴应用》14(2003),286-304。
    [39]
    Ken Pfeuffer、Jason Alexander、Ming Ki Chong和Hans Gellersen。2014.凝视触控:将凝视与多点触控相结合,实现同一表面上的交互。第27届ACM用户界面软件与技术年度研讨会(UIST’14)会议记录。美国纽约州纽约市ACM,509-518。
    [40]
    Anne Porbadnick、Marek Wester和Tanja Schultz Jan-p Calliess。2009.基于EEG的语音识别对时间效应的影响。(2009).
    [41]
    S.Prabhakar、S.Pankanti和A.K.Jain。2003.生物识别:安全和隐私问题。IEEE安全隐私1,2(2003年3月),33-42。
    [42]
    J罗斯·昆兰。2014年4月4日。5:机器学习程序。爱思唯尔。
    [43]
    凯蒂·西克(Katie A.Siek)、伊冯·罗杰斯(Yvonne Rogers)和凯·康奈利(Kay H.Connelly)。2005年,《胖手指的担忧:老年人和年轻人如何与PDA进行身体互动》。2005年人机交互。施普林格-柏林-海德堡,柏林,海德堡。
    [44]
    尼蒂什·斯利瓦斯塔瓦(Nitish Srivastava)、杰弗里·欣顿(Geoffrey Hinton)、亚历克斯·克利舍夫斯基(Alex Krizhevsky)、伊利亚·萨茨克沃(Ilya Sutskever)和鲁斯兰·萨拉库丁诺夫。2014.辍学:防止神经网络过度拟合的简单方法。机器学习研究杂志15,1(2014),1929-1958。
    [45]
    Du Tran、Lubomir Bourdev、Rob Fergus、Lorenzo Torresani和Manohar Paluri,2015年。利用三维卷积网络学习时空特征。2015年IEEE国际计算机视觉会议(ICCV)(ICCV'15)会议记录。IEEE计算机学会,美国华盛顿特区,4489-4497。
    [46]
    Michael Wand、Jan Koutn’ik和Jürgen Schmidhuber。2016年,长短期记忆唇读。《声学、语音和信号处理(ICASSP)》,2016年IEEE国际会议,IEEE,6115-6119。
    [47]
    Michael Wand和Tanja Schultz。2011.基于会话相关EMG的语音识别。在生物信号中。295--300.
    [48]
    王赛文(Saiwen Wang)、宋杰(Jie Song)、连杰美(Jaime Lien)、伊万·波佩里夫(Ivan Pouperiv)和奥特玛·希利格斯(Otmar Hilliges)。2016年,与Soli互动:探索射频频谱中的精细动态手势识别。第29届用户界面软件与技术年度研讨会(UIST’16)会议记录。美国纽约州纽约市ACM,851--860。
    [49]
    克里斯托弗·德威肯斯(Christopher D Wickens)、贾斯汀·霍兰德斯(Justin G Hollands)、西蒙·班伯里(Simon Banbury)和拉贾·帕拉苏拉曼(Raja Parasuraman)。2015.工程心理学与人类绩效。心理学出版社。
    [50]
    Daniel Wigdor、Clifton Forlines、Patrick Baudisch、John Barnwell和Chia Shen。2007.Lucid Touch:透明移动设备。在第20届ACM用户界面软件和技术年度研讨会(UIST'07)的会议记录中。ACM,美国纽约州纽约市,269--278。

    引用人

    查看全部
    • (2024)基于喉咙振动的语音自动识别系统设计模型制作与模拟试验10.12677/MOS.2024.13103513:01(365-376)在线发布日期:2024年
    • (2024)Lipwatch:使用声音感应在智能手表上启用无声语音识别ACM互动、移动、穿戴和普及技术会议录10.1145/36596148:2(1-29)在线发布日期:2024年5月15日
    • (2024)WhisperMask:一种用于耳语的噪声抑制面具式麦克风2024年增强人类国际会议记录10.1145/3652920.3652925(1-14)在线发布日期:2024年4月4日
    • 显示更多引用者

    建议

    评论

    信息和贡献者

    问询处

    发布于

    封面图片ACM会议
    UIST’18:第31届ACM用户界面软件与技术年度研讨会论文集
    2018年10月
    1016页
    国际标准图书编号:9781450359481
    内政部:10.1145/3242587
    如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]

    赞助商

    出版商

    计算机协会

    美国纽约州纽约市

    出版历史

    出版:2018年10月11日

    权限

    请求对此文章的权限。

    检查更新

    作者标记

    1. 唇部相互作用
    2. 移动交互
    3. 语义手势
    4. 无声演讲
    5. 无触控的
    6. 基于视觉的识别

    限定符

    • 研究文章

    资金来源

    • 国家重点研发计划
    • 清华大学研究基金
    • 中国自然科学基金

    会议

    2018年UIST

    接受率

    UIST’18论文接受率375份中的80份,21%;
    3967份提交文件中的总体接受率为842份,占21%

    即将召开的会议

    24年UIST
    第37届ACM用户界面软件与技术年会
    2024年10月13日至16日
    匹兹堡,宾夕法尼亚州,美国

    贡献者

    其他指标

    文献计量学和引文

    文献计量学

    文章指标

    • 下载量(最近12个月)127
    • 下载次数(最近6周)14

    其他指标

    引文

    引用人

    查看全部
    • (2024)基于喉咙振动的语音自动识别系统设计模型制作与模拟试验10.12677/MOS.2024.13103513:01(365-376)在线发布日期:2024
    • (2024)Lipwatch:使用声音感应在智能手表上启用无声语音识别ACM互动、移动、穿戴和普及技术会议录10.1145/36596148:2(1-29)在线发布日期:2024年5月15日
    • (2024)WhisperMask:一种用于耳语的噪声抑制面具式麦克风2024年增强人类国际会议记录10.1145/3652920.3652925(1-14)在线发布日期:2024年4月4日
    • (2024)MELDER:移动设备实时无声语音识别器的设计与评估CHI计算机系统人为因素会议记录10.1145/3613904.3642348(1-23)在线发布日期:2024年5月11日
    • (2024)ReHEarSSE:识别隐藏在背后的无声拼写表达式CHI计算机系统人为因素会议记录10.1145/3613904.3642095(1-16)在线发布日期:2024年5月11日
    • (2024)注意你的嘴巴:带深度感应的无声语音识别CHI计算机系统人为因素会议记录10.1145/3613904.3642092(1-15)在线发布日期:2024年5月11日
    • (2024)KuchiNavi:基于唇读的导航应用程序第十五届国际图形和图像处理会议(ICGIP 2023)10.1117/12.3021118(47)在线发布日期:2024年3月25日
    • (2024)基于声学的移动设备唇读:数据集、基准和基于自蒸馏的方法IEEE移动计算汇刊10.1109/TMC.2023.3294416(1-18)在线发布日期:2024年
    • (2024)中国HCI研究与创新:10年展望国际人机交互杂志10.1080/10447318.2024.2323858(1-33)在线发布日期:2024年3月22日
    • (2024)基于sEMG信号的无声语音识别系统的设计与实现:一种神经网络方法生物医学信号处理与控制2016年10月10日/j.bspc.2024.10605292(106052)网上发布日期:2024年6月
    • 显示更多引用者

    视图选项

    获取访问权限

    登录选项

    完全访问权限

    查看选项

    PDF格式

    以PDF文件查看或下载。

    PDF格式

    电子阅读器

    使用联机查看电子阅读器.

    电子阅读器

    媒体

    数字

    其他

    桌子

    分享

    分享

    共享此出版物链接

    在社交媒体上分享