研究论文

唇部相互作用：使用无声语音命令改进移动设备交互

作者:

Ke（克）太阳,

局域网线路接口单元、和

元春施作者信息和声明

UIST’18：第31届ACM用户界面软件和技术年度研讨会会议记录

2018年10月

页581-593

https://doi.org/10.1145/3242587.3242599

出版:2018年10月11日出版历史

获取访问权限

摘要

我们介绍了Lip Interact，这是一种交互技术，允许用户通过无声语音在智能手机上发出命令。唇交改变了前摄像头的用途，以捕捉用户的口腔运动，并通过端到端的深度学习模型识别发出的命令。我们的系统支持44条命令，用于访问系统级功能（启动应用程序、更改系统设置和处理弹出窗口）和应用程序级功能（两个应用程序的集成操作）。我们通过三个用户实验验证了Lip-Interact的可行性：评估识别准确性，与触摸输入效率进行比较，以及与浊音命令在个人隐私和社会规范方面进行比较。我们证明了唇形互动可以帮助用户在一个步骤中高效地访问功能，在另一只手被占用时启用单手输入，并帮助触摸使交互更加流畅。

补充材料

suppl.mov公司（ufp1075.mp4）

补充视频

下载
72.11 MB

供应.mov （ufp1075p.mp4）

补充视频

下载
1081百万

MP4文件（p581-sun.mp4）

下载
256.32 MB

工具书类

[1]

杰萨琳·阿尔维纳（Jessalyn Alvina）、卡拉·格里乔（Carla F.Griggio）、毕晓军（Xiaojun Bi）和温迪·麦凯（Wendy E.Mackay）。2017.CommandBoard：为软键盘创建通用命令手势输入空间。在第30届ACM用户界面软件和技术研讨会（UIST’17）的会议记录中。ACM，美国纽约州纽约市，17-28。

数字图书馆

[2]

卡罗琳·阿佩尔和翟淑敏。2009.使用笔划作为命令快捷方式：认知优势和工具包支持。《SIGCHI计算机系统人为因素会议论文集》（CHI'09）。ACM，美国纽约州纽约市，2289-2298。

数字图书馆

[3]

苹果。2018年，iOS-Siri-Apple。(2018). https://www.apple.com/ios/siri/。

[4]

Yannis M Assael、Brendan Shillingford、Shimon Whiteson和Nando de Freitas。2016年，LipNet：端到端句子级唇读。(2016).

[5]

Patrick Baudisch和Gerry Chu。2009年。后台设备交互允许创建非常小的触摸设备。《SIGCHI计算机系统人为因素会议论文集》（CHI'09）。1923-1932年，美国纽约州纽约市ACM。

数字图书馆

[6]

乔纳森·布伦伯格（Jonathan S Brumberg）、阿方索·尼托·卡斯塔农（Alfonso Nieto-Castanon）、菲利普·肯尼迪（Philip R Kennedy）和弗兰克·冈瑟（Frank H Guenther）。2010年，用于语音通信的大脑-计算机接口。言语交际52，4（2010），367--379。

数字图书馆

[7]

亚历克斯·巴特勒、沙赫拉姆·伊扎迪和史蒂夫·霍奇斯。2008.SideSight：小型设备周围的多“触摸”交互。在第21届ACM用户界面软件和技术年度研讨会（UIST’08）的会议记录中。ACM，美国纽约州纽约市，201-204。

数字图书馆

[8]

陈向东和杨莉，2016年。使用离线学习概率表示引导用户定义的身体敲击识别。第29届用户界面软件与技术年度研讨会（UIST’16）会议记录。ACM，美国纽约州纽约市，359-364。

数字图书馆

[9]

Chen，Julia Schwarz，Chris Harrison，Jennifer Mankoff和Scott E.Hudson。2014.空运

数字图书馆

[10]

触摸：交织触摸&#38；空中手势。第27届ACM用户界面软件与技术年度研讨会（UIST’14）会议记录。ACM，美国纽约州纽约市，519-525。

数字图书馆

[11]

Kyunghyun Cho、Bart Van Merriönboer、Caglar Gulcehre、Dzmitry Bahdanau、Fethi Bougares、Holger Schwenk和Yoshua Bengio。2014.使用RNN编码器-解码器学习短语表示，用于统计机器翻译。arXiv预印本arXiv:1406.1078（2014）。

[12]

Joon Son Chung、Andrew Senior、Oriol Vinyals和Andrew Zisserman。2016年，野外唇读句子。arXiv预印本arXiv:1611.05358 2（2016）。

[13]

Joon Son Chung和Andrew Zisserman。2016年，野外唇读。在亚洲计算机视觉会议上。87--103.

[14]

安迪·科克伯恩（Andy Cockburn）、卡尔·古特温（Carl Gutwin）和索尔·格林伯格（Saul Greenberg），2007年。菜单性能的预测模型。《SIGCHI计算机系统人为因素会议论文集》（CHI'07）。美国纽约州纽约市ACM，627--636。

数字图书馆

[15]

菲利普·科恩（Philip Cohen）、大卫·麦基（David McGee）和乔什·克劳（Josh Clow）。2000.基于地图的任务的多模式交互效率。第六届应用自然语言处理会议记录（ANLC'00）。计算语言学协会，美国宾夕法尼亚州斯特鲁兹堡，331-338。

数字图书馆

[16]

Philip R.Cohen、Michael Johnston、David McGee、Sharon Oviatt、Jay Pittman、Ira Smith、Liang Chen和Josh Clow。1997年。QuickSet：分布式应用程序的多模式交互。《第五届ACM多媒体国际会议记录》（Multimedia’97）。ACM，美国纽约州纽约市，31-40。

数字图书馆

[17]

B.Denby、T.Schultz、K.Honda、T.Hueber、J.M.Gilbert和J.S.Brumberg，2010年。无声语音接口。语音通信。52, 4 (2010), 270--287.

数字图书馆

[18]

Michael J Fagan、Stephen R Ell、James M Gilbert、E Sarrazin和Peter M Chapman。2008年，为喉切除术后患者开发（无声）语音识别系统。医学工程与物理学30，4（2008），419--425。

[19]

Victoria M Florescu、Lise Crevier Buchman、Bruce Denby、Thomas Hueber、Antonia Colazo Simon、Claire Pillot Loiseau、Pierre Roussel、Cédric Gendrot和Sophie Quattrocchi。2010年，基于便携式超声波的无声语音接口的无声发音与发声发音。在国际言语交际协会第十一届年会上。

[20]

谷歌。2018年，谷歌助理。(2018). https://assistant.google.com/。

[21]

Otmar Hilliges、Shahram Izadi、Andrew D.Wilson、Steve Hodges、Armando Garcia-Mendoza和Andreas Butz。2009年。空中互动：为互动桌面增添更多深度。在第22届ACM用户界面软件和技术年度研讨会（UIST'09）的会议记录中。ACM，美国纽约州纽约市，139-148。

数字图书馆

[22]

平原达也（Tatsuya Hirahara）、大田真彦（Makoto Otani）、清水昭和（Shota Shimizu）、东田友子（Todoki Toda）、中村圭吾（Keigo Nakamura）、中岛吉隆（Yoshitaka Nakajima）和Shikano清弘（Kiyohiro）。2010.使用身体传导声道共振信号的无声语音增强。《言语交际》52，4（2010），301-313。

数字图书馆

[23]

托马斯·休伯（Thomas Hueber）、伊莱·劳伦特·贝纳罗亚（Elie-Laurent Benaroya）、杰拉德·霍利特（Gérard Chollet）、布鲁斯·丹比（Bruce Denby）、杰拉尔·德雷福斯（Gé）和莫琳·斯通。2010年，由超声波和舌头和嘴唇的光学图像驱动的无声语音界面的开发。《言语交际》52，4（2010），288--300。

数字图书馆

[24]

谢尔盖·洛夫和克里斯蒂安·塞格迪。2015.批量规范化：通过减少内部协变量转移加快深度网络培训。arXiv预印arXiv:1502.03167（2015）。

数字图书馆

[25]

马克斯·贾德伯格（Max Jaderberg）、凯伦·西蒙扬（Karen Simonyan）、安德鲁·齐瑟曼（Andrew Zisserman）等。2015年，空间变压器网络。神经信息处理系统进展。2017--2025.

数字图书馆

[26]

Ji Waiwang、Wei Xu、Ming Yang和Kai Yu。2013.用于人类行为识别的3D卷积神经网络。IEEE模式分析和机器智能事务35，1（2013），221--231。

数字图书馆

[27]

Arnav Kapur、Shreyas Kapur和Pattie Maes。2018年，AlterEgo：一款可佩戴的个性化无声语音界面。第23届智能用户界面国际会议（IUI’18）。ACM，美国纽约州纽约市，43-53。

数字图书馆

[28]

瓦希德·卡泽米和约瑟芬·沙利文。2014.使用回归树集成的一毫秒人脸对齐。2014年IEEE计算机视觉和模式识别会议论文集（CVPR’14）。IEEE计算机学会，华盛顿特区，美国，1867-1874年。

数字图书馆

[29]

伊蒙·基奥（Eamonn Keogh）、谢丽娜·朱棣文（Selina Chu）、大卫·哈特（David Hart）和迈克尔·帕扎尼（Michael Pazzani）。1993年。时间序列分割：一项调查和新方法。在编辑的卷中，时间序列数据库中的数据挖掘。世界科学出版社出版。出版公司，1-22。

[30]

戴维斯·E·金。2009年，Dlib-ml：机器学习工具包。《机器学习研究杂志》10期，2009年7月，1755-1758。

数字图书馆

[31]

Diederik P Kingma和Jimmy Ba.2014年。亚当：一种随机优化方法。arXiv预印arXiv:1412.6980（2014）。

[32]

Sven Kratz和Michael Rohs。2009年，《气垫流：拓展周边设备交互的设计空间》。《第十一届移动设备和服务人机交互国际会议论文集》（MobileHCI'09）。ACM，美国纽约州纽约市，4:1--4:8。

数字图书馆

[33]

佩尔·奥拉·克里斯滕森（Per Ola Kristensson）和翟淑敏（Shumin Zhai）。2007.带预览和不带预览的命令笔划：使用键盘上的笔手势进行命令选择。《SIGCHI计算机系统人为因素会议论文集》（CHI'07）。ACM，美国纽约州纽约市，1137-1146。

数字图书馆

[34]

戈登·库登巴赫和威廉·巴克斯顿。1991年，标记和直接操作技术相结合的问题。在第四届ACM用户界面软件和技术研讨会的会议记录中。美国医学会，137--144。

数字图书馆

[35]

杨莉.2010。手势搜索：快速移动数据访问工具。第23届年度ACM用户界面软件和技术研讨会（UIST'10）会议记录。ACM，美国纽约州纽约市，87-96。

数字图书馆

[36]

郝璐、杨莉.2015。手势开启：启用Always-On Touch手势，从设备待机模式快速访问移动设备。第33届ACM计算机系统人为因素年会论文集（CHI'15）。美国纽约州纽约市ACM，3355-3364。

数字图书馆

[37]

中岛义孝、卡斯奥卡Hideki、尼克·坎贝尔（Nick Campbell）和石野清弘（Kiyohiro Shikano）。2006.非听觉杂音（NAM）识别。IEICE信息与系统交易89，1（2006），1--8。

数字图书馆

[38]

沙伦·奥维亚特。2003.多模式接口。《人机交互手册：基本原理、发展中的技术和新兴应用》14（2003），286-304。

数字图书馆

[39]

Ken Pfeuffer、Jason Alexander、Ming Ki Chong和Hans Gellersen。2014.凝视触控：将凝视与多点触控相结合，实现同一表面上的交互。第27届ACM用户界面软件与技术年度研讨会（UIST’14）会议记录。美国纽约州纽约市ACM，509-518。

数字图书馆

[40]

Anne Porbadnick、Marek Wester和Tanja Schultz Jan-p Calliess。2009.基于EEG的语音识别对时间效应的影响。(2009).

[41]

S.Prabhakar、S.Pankanti和A.K.Jain。2003.生物识别：安全和隐私问题。IEEE安全隐私1，2（2003年3月），33-42。

数字图书馆

[42]

J罗斯·昆兰。2014年4月4日。5：机器学习程序。爱思唯尔。

数字图书馆

[43]

凯蒂·西克（Katie A.Siek）、伊冯·罗杰斯（Yvonne Rogers）和凯·康奈利（Kay H.Connelly）。2005年，《胖手指的担忧：老年人和年轻人如何与PDA进行身体互动》。2005年人机交互。施普林格-柏林-海德堡，柏林，海德堡。

数字图书馆

[44]

尼蒂什·斯利瓦斯塔瓦（Nitish Srivastava）、杰弗里·欣顿（Geoffrey Hinton）、亚历克斯·克利舍夫斯基（Alex Krizhevsky）、伊利亚·萨茨克沃（Ilya Sutskever）和鲁斯兰·萨拉库丁诺夫。2014.辍学：防止神经网络过度拟合的简单方法。机器学习研究杂志15，1（2014），1929-1958。

数字图书馆

[45]

Du Tran、Lubomir Bourdev、Rob Fergus、Lorenzo Torresani和Manohar Paluri，2015年。利用三维卷积网络学习时空特征。2015年IEEE国际计算机视觉会议（ICCV）（ICCV'15）会议记录。IEEE计算机学会，美国华盛顿特区，4489-4497。

数字图书馆

[46]

Michael Wand、Jan Koutn’ik和Jürgen Schmidhuber。2016年，长短期记忆唇读。《声学、语音和信号处理（ICASSP）》，2016年IEEE国际会议，IEEE，6115-6119。

数字图书馆

[47]

Michael Wand和Tanja Schultz。2011.基于会话相关EMG的语音识别。在生物信号中。295--300.

[48]

王赛文（Saiwen Wang）、宋杰（Jie Song）、连杰美（Jaime Lien）、伊万·波佩里夫（Ivan Pouperiv）和奥特玛·希利格斯（Otmar Hilliges）。2016年，与Soli互动：探索射频频谱中的精细动态手势识别。第29届用户界面软件与技术年度研讨会（UIST’16）会议记录。美国纽约州纽约市ACM，851--860。

数字图书馆

[49]

克里斯托弗·德威肯斯（Christopher D Wickens）、贾斯汀·霍兰德斯（Justin G Hollands）、西蒙·班伯里（Simon Banbury）和拉贾·帕拉苏拉曼（Raja Parasuraman）。2015.工程心理学与人类绩效。心理学出版社。

[50]

Daniel Wigdor、Clifton Forlines、Patrick Baudisch、John Barnwell和Chia Shen。2007.Lucid Touch：透明移动设备。在第20届ACM用户界面软件和技术年度研讨会（UIST'07）的会议记录中。ACM，美国纽约州纽约市，269--278。

数字图书馆

引用人

陆心(2024)基于喉咙振动的语音自动识别系统设计模型制作与模拟试验10.12677/MOS.2024.13103513:01(365-376)在线发布日期：2024年
https://doi.org/10.12677/MOS2024.131035
张Q兰·Y郭克王D(2024)Lipwatch：使用声音感应在智能手表上启用无声语音识别ACM互动、移动、穿戴和普及技术会议录10.1145/36596148:2(1-29)在线发布日期：2024年5月15日
https://dl.acm.org/doi/10.1145/3659614
Hiraki H公司金泽SMiura T公司吉田MMochimaru M公司雷基莫托J(2024)WhisperMask：一种用于耳语的噪声抑制面具式麦克风2024年增强人类国际会议记录10.1145/3652920.3652925(1-14)在线发布日期：2024年4月4日
https://dl.acm.org/doi/10.1145/365292.3652925
显示更多引用者

索引术语

唇语互动：使用无声语音命令改善移动设备交互
1. 以人为中心的计算
  1. 人机交互（HCI）
    1. HCI设计和评估方法
      1. 用户研究
    2. 交互技术
  2. 交互设计
    1. 交互设计过程和方法
      1. 接口设计原型

建议

SottoVoce：一种基于超声成像的深度神经网络无声语音交互
CHI'19：2019年CHI计算机系统人为因素会议记录

通过语音操作的数字设备的可用性正在迅速扩大。然而，语音接口的应用仍然受到限制。例如，在公共场所讲话会让周围的人感到厌烦，而秘密信息。。。
阅读更多信息
触摸和交互：与旅游应用程序进行基于触摸的交互
MobileHCI'08：第十届移动设备和服务人机交互国际会议记录

触摸与交互是一种结合手机和公共显示器的交互技术。该项目的动机是克服手机固有的输出限制。触摸和交互将手机输出扩展到公共显示。。。
阅读更多信息
WESPER：零击和实时低语到正常语音转换，用于基于低语的语音交互
CHI’23：2023年CHI计算机系统人为因素会议记录

识别耳语并将其转换为正常语音为语音交互创造了许多可能性。由于耳语的声压明显低于正常语音，因此可以用作半无声语音。。。
阅读更多信息

评论

信息和贡献者

问询处

发布于

封面图片ACM会议

UIST’18：第31届ACM用户界面软件与技术年度研讨会论文集

2018年10月

1016页

国际标准图书编号：9781450359481

内政部：10.1145/3242587

一般主席：
帕特里克·鲍迪施
德国哈索-普拉特纳研究所
,
阿尔布雷赫特·施密特
德国LMU
,
项目主席：
安迪·威尔逊
微软研究院，美国

版权所有©2018 ACM。

如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]

赞助商

出版商

计算机协会

美国纽约州纽约市

出版历史

出版：2018年10月11日

权限

请求对此文章的权限。

检查更新

作者标记

限定符

研究文章

资金来源

国家重点研发计划
清华大学研究基金
中国自然科学基金

会议

2018年UIST

赞助商：

UIST’18：第31届ACM用户界面软件与技术年度研讨会

2018年10月14日

德国柏林

接受率

UIST’18论文接受率375份中的80份，21%；

3967份提交文件中的总体接受率为842份，占21%

即将召开的会议

24年UIST

赞助商：
西奇
西奇

第37届ACM用户界面软件与技术年会

2024年10月13日至16日

匹兹堡，宾夕法尼亚州，美国

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

85
引文总数
查看引文
1,473
总下载次数

下载量（最近12个月）127
下载次数（最近6周）14

其他指标

查看作者指标

引文

引用人

陆心(2024)基于喉咙振动的语音自动识别系统设计模型制作与模拟试验10.12677/MOS.2024.13103513:01(365-376)在线发布日期：2024
https://doi.org/10.12677/MOS.2024.131035
张Q兰·Y郭克王D(2024)Lipwatch：使用声音感应在智能手表上启用无声语音识别ACM互动、移动、穿戴和普及技术会议录10.1145/36596148:2(1-29)在线发布日期：2024年5月15日
https://dl.acm.org/doi/10.1145/3659614
Hiraki H公司金泽S三浦T吉田MMochimaru M公司雷基莫托J(2024)WhisperMask：一种用于耳语的噪声抑制面具式麦克风2024年增强人类国际会议记录10.1145/3652920.3652925(1-14)在线发布日期：2024年4月4日
https://dl.acm.org/doi/10.1145/365292.3652925
潘迪·L阿里夫A(2024)MELDER:移动设备实时无声语音识别器的设计与评估CHI计算机系统人为因素会议记录10.1145/3613904.3642348(1-23)在线发布日期：2024年5月11日
https://dl.acm.org/doi/10.1145/3613904.3642348
东X陈毅西山YSezaki K公司王毅克里斯托弗森K马里亚卡基斯A(2024)ReHEarSSE:识别隐藏在背后的无声拼写表达式CHI计算机系统人为因素会议记录10.1145/3613904.3642095(1-16)在线发布日期：2024年5月11日
https://dl.acm.org/doi/10.1145/3613904.3642095
王X苏Z雷基莫托J张Y(2024)注意你的嘴巴：带深度感应的无声语音识别CHI计算机系统人为因素会议记录10.1145/3613904.3642092(1-15)在线发布日期：2024年5月11日
https://dl.acm.org/doi/10.1145/3613904.3642092
Kanamaru T公司Saitoh T公司(2024)KuchiNavi:基于唇读的导航应用程序第十五届国际图形和图像处理会议（ICGIP 2023）10.1117/12.3021118(47)在线发布日期：2024年3月25日
https://doi.org/10.1117/12.3021118网址
阴Y王Z夏克谢莉卢S(2024)基于声学的移动设备唇读：数据集、基准和基于自蒸馏的方法IEEE移动计算汇刊10.1109/TMC.2023.3294416(1-18)在线发布日期：2024年
https://doi.org/10.1109/TMC.2023.3294416
施Y彝族X梁C秦Y王毅严Y郑Z朱平张S李毅刘毅王X陈杰周伟王毅赵D杜氏F(2024)中国HCI研究与创新：10年展望国际人机交互杂志10.1080/10447318.2024.2323858(1-33)在线发布日期：2024年3月22日
https://doi.org/10.1080/10447318.2024.2323858
黄B邵Y张H王平（Wang P）陈X李Z杜L方Z赵H汉族B(2024)基于sEMG信号的无声语音识别系统的设计与实现：一种神经网络方法生物医学信号处理与控制2016年10月10日/j.bspc.2024.10605292(106052)网上发布日期：2024年6月
https://doi.org/10.1016/j.bspc.2024.106052
显示更多引用者

视图选项

获取访问权限

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

查看选项

PDF格式

以PDF文件查看或下载。

电子阅读器

使用联机查看电子阅读器.

电子阅读器

媒体

数字

其他

桌子