研究论文

开放式访问

侦听器反向信道预测的多模式和多任务方法：Turn-changing和Turn-management意愿的预测能够改进反向渠道建模吗？

作者:

米歇尔穆申斯基、和

路易·菲利普莫伦西作者信息和声明

IVA’21：第21届ACM智能虚拟代理国际会议记录

2021年9月

页131-138

https://doi.org/10.1145/3472306.3478360

出版:2021年9月14日出版历史

PDF格式电子阅读器

摘要

听者的反向通道具有重要的功能，可以鼓励当前的说话者保持轮流并继续讲话，从而使谈话顺利进行。监听者监控说话者的话轮管理（也称为说和听）意愿以及他/她自己显示反向行为的意愿。许多研究侧重于预测回传的适当时间，以便会话代理能够显示回传行为，以响应正在讲话的用户。据我们所知，他们中没有一个人在二人互动的反向渠道预测模型中加入了转回预测和参与者的转回管理意愿。在本文中，我们提出了一种新的反向预测模型，该模型可以联合预测转换和转换管理意愿。我们研究了转向变化建模的影响以及改进反向通道预测的意愿。我们提出的模型基于三模态输入，即来自对话的声学、语言和视觉线索。我们的研究结果表明，在多模式多任务学习方法中，将turn-management witness添加为预测任务可以提高反向信道预测的性能，而添加turn-changing预测对提高反向信道的预测性能没有帮助。

工具书类

[1]

Tadas Baltrusaitis、Amir Zadeh、Yao Chong Lim和Louis-Philippe Morency。2018.OpenFace 2.0：面部行为分析工具包。在FG.59--66中。

[2]

P.Blache、Massina Abderrahmane、S.Rauzy和R.Bertrand。2020年。预测反向通道反馈的综合模型。在IVA中。

[3]

陈雷和玛丽·哈珀。2009.多模式地板控制移位检测。在ICMI中。15--22.

[4]

Kyunghyun Cho、Bart van Merrienboer、Jo aglar Gülçehre、Dzmitry Bahdanau、Fethi Bougares、Holger Schwenk和Yoshua Bengio。2014.使用RNN编码器-解码器学习短语表示，用于统计机器翻译。在EMNLP中。1724--1734.

[5]

史蒂芬·C·莱文森。2016.人类交流中的话轮转换——语言处理的起源和意义。《认知科学趋势》20（2016），6-14。

[6]

伊万·德科和德克·海伦。2009年，多党会议中的多式结局预测。在ICMI中。91--98.

[7]

雅各布·德夫林（Jacob Devlin）、张明伟（Ming Wei Chang）、肯顿·李（Kenton Lee）和克里斯蒂娜·图塔诺娃（Kristina Toutanova）。2019.BERT：深度双向变形金刚语言理解预培训。在NAACL中。4171--4186.

[8]

Alfred Dielmann、Giulia Garau和Herve Bourrard。2010年。会议中的发言权检测和结束发言预测。在INTERSPEECH中。2306--2309.

[9]

Florian Eyben、Felix Weninger、Florian Gross和Björn Schuler。2013年，慕尼黑开源多媒体功能提取器OpenSMILE的最新发展。在ACM MM.835--838中。

[10]

露西亚娜·费雷尔（Luciana Ferrer）、伊丽莎白·施里贝格（Elizabeth Shriberg）和安德烈亚斯·斯托尔克（Andreas Stolcke）。2002.演讲者完成了吗？在人机对话中使用韵律进行更快速、更准确的结束语检测。INTERSPEECH，第3卷。2061--2064.

[11]

藤江信也、福岛健太和小林哲也。2005.使用语言和非语言信息的后向反馈生成及其在口语对话系统中的应用。在INTERSPEECH中。889--892.

[12]

Jort F.Gemmeke、Daniel P.W.Ellis、Dylan Freedman、Aren Jansen、Wade Lawrence、R.Channing Moore、Manoj Plakal和Marvin Ritter。2017.音频集：音频事件的本体论和人类标记数据集。在ICASSP中。776--780.

[13]

小平原、井上孝二、高崎克也和川原达也。2018年，使用多任务学习预测往返路线，并预测回道和填料。在INTERSPEECH中。991--995.

[14]

何开明、张湘玉、任少清、孙建军。2016.图像识别的深度剩余学习。在CVPR中。770--778.

[15]

肖恩·赫尔希（Shawn Hershey）、索里什·乔杜里（Sourish Chaudhuri）、丹尼尔·普·沃·埃利斯（Daniel P.W.Ellis）、乔特·杰梅克（Jort F.Gemmeke）、阿伦·詹森（Aren Jansen）、查宁·摩尔（Channing Moore）、马诺·普拉卡尔（Manoj Plakal）、德文·普拉特（Devin Platt）、里夫·。2017年，美国有线电视新闻网（CNN）大型音频分类架构。在ICASSP中。131--135.

[16]

朱迪思·霍勒和科宾·H·肯德里克。2015.未解决参与者在多人互动中的凝视：优化互惠。心理学前沿6（2015），515--535。

[17]

朱迪思·霍勒（Judith Holler）、科宾·H·肯德里克（Kobin H.Kendrick）和斯蒂芬·C·莱文森（Stephen C.Levinson）。2018.面对面的对话中处理语言：带手势的问题得到更快的响应。《心理通报评论》6（2018），25。

[18]

黄立行、Louis-Philippe Morency和Jonathan Gratch。2010.准社会共识抽样：结合多个视角学习虚拟人类行为。AAMAS 2，1265-1272。

[19]

黄立兴（Lixing Huang）、路易斯·菲利普·莫伦西（Louis-Philippe Morency）和乔纳森·格拉奇（Jonathan Gratch）。2011年，《多模式期末预测模型：从准社会共识抽样中学习》。在AAMAS中。

[20]

Paul Hömke、Judith Holler和Stephen C.Levinson。2017.在面对面对话中，眨眼作为收件人反馈。《语言与社会互动研究》50（2017），54-70。

[21]

石井隆夫、熊野史郎和大冢和弘。2015.使用呼吸和凝视进行多式融合，预测多方会议的下一位发言人。在ICMI中。99--106.

[22]

石井隆夫、熊野史郎和大冢和弘。2015年，在多党会议中利用领导运动预测下一位发言人。在ICASSP中。2319--2323.

[23]

石井隆夫、熊野史郎和大冢和弘。2017.利用多党会议中的头部运动预测下一次演讲时间。在医院。181--187.

[24]

石井良彦、大冢和弘、熊野世郎、东中良彦和丰田俊二。2019.预测谁将成为下一位演讲者以及何时在多方对话中使用开口模式。多式联运技术与互动3，4（2019），70。

[25]

石井良彦、大冢隆弘、熊野史郎和山本俊二。2016.预测谁将成为下一位发言人以及何时在多方会议中使用凝视行为。ACM TiiS 6，1（2016），4。

[26]

石井良彦、大冢隆弘、熊野史郎和山本俊二。2016.使用呼吸预测谁将在下一次会议上发言以及何时在多方会议上发言。ACM TiiS 6，2（2016），20。

[27]

石井良彦、任旭彤、米查尔·穆辛斯基和路易斯·菲利佩·莫伦西。2020年，营业额管理意愿预测能否改善营业额变化模型？。在IVA中。

[28]

Kristiina Jokinen、Hirohisa Furukawa、Masafumi Nishida和Seiichi Yamamoto。2013.随意对话互动中的凝视和转身行为。ACM TiiS 3，2（2013），12。

[29]

Jeffrey Kahn、Reneée Tobin、Audra Massey和Jennifer Anderson。2007年，通过语言调查和词汇量测量情感表达。心理学杂志120（2007），263-86。

[30]

Tatsuya Kawahara、Takuma Iwatate和Katsuya-Takanashii。2012.通过在海报对话中结合韵律和眼色信息预测话轮转换。在INTERSPEECH中。726--729.

[31]

Diederik P.Kingma和Jimmy Ba.2015年。亚当：一种随机优化方法。在ICLR中。13

[32]

N.Kitaoka、M.Takeuchi、Ryota Nishimura和Seiichi NAKAGAWA。2005.使用韵律和语言信息对人性化口语对话系统进行响应计时检测。事务处理。日本人工智能学会20（2005），220-228。

[33]

小野佳彦（Hanae Koiso）、平井裕久（Yasuo Horiuchi）、图提雅（Syun Tutiya）、一川昭（Akira Ichikawa）和安丸登（Yasuharu Den）。1998。基于日语地图任务对话中的韵律和句法特征的转向和后退通道分析。《语言与演讲》，第41卷。295--321.

[34]

迪维什·拉拉（Divesh Lala）、井上康二（Koji Inoue）和川原达也（Tatsuya Kawahara）。2018年，评估多对话场景的实时深度学习轮换模式。在ICMI中。78--86.

[35]

伊姆·兰默丁克（Imme Lammertink）、玛丽莎·卡西利亚斯（Marisa Casillas）、蒂蒂亚·本德斯（Titia Benders）、布莱希捷邮报（Brechtje Post）和保拉·菲克特（Paula Fikkert）。2015年，荷兰和英国幼儿在预测即将到来的转折时使用语言线索。心理学前沿（2015），6。

[36]

Kornel Laskowski、Jens Edlund和Mattias Heldner。2011.多方对话中转向的单端口非参数模型。在ICASSP中。5600--5603.

[37]

Ryo Masumura、Mana Ihori、Tomohiro Tanaka、Atsushi Ando、Ryo Ishii、Takanobu Oba和Ryuichiro Higashinaka。2019.通过带标点文本数据的交叉模式表示学习改进基于语音的转弯结束检测。ASRU（2019），1062-1069。

[38]

Ryo Masumura、Tomohiro Tanaka、Atsushi Ando、Ryo Ishii、Ryuichiro Higashinaka和Yushi Aono。2018年，神经对话环境在线末端检测。在SIGdial中。224--228.

[39]

路易斯·菲利佩·莫伦西（Louis-Philippe Morency）、伊万·德科（Iwan de Kok）和乔纳森·格拉奇（Jonathan Gratch）。2008.预测侦听器反向通道：概率多模态方法。在IVA中。176--190.

[40]

马库斯·米勒（Markus Mueller）、大卫·卢施纳（David Leuschner）、拉尔斯·布里姆（Lars Briem）、玛丽亚·施密特（Maria Schmidt）、凯文·基尔古尔（Kevin Kilgour）、塞巴斯蒂安·斯图克（Sebastian Stueker。2015.使用神经网络进行数据驱动的反向信道预测：输入特征和训练技术的调查。人机交互：交互技术。329--340.

[41]

马修·罗迪（Matthew Roddy）、加布里埃尔·斯坎茨（Gabriel Skantze）和内奥米·哈特（Naomi Harte）。2018年，使用多尺度RNN进行多模式连续往返预测。在ICMI中。186--190.

[42]

罗宾·鲁德（Robin Ruede）、马库斯·米勒（Markus Müller）、塞巴斯蒂安·施蒂克（Sebastian Stüker）和亚历克斯·韦贝尔（Alex Waibel）。2019.是的，没错，嗯哼：一个深度学习的反向预测器。247--258.

[43]

奥尔加·鲁萨科夫斯基（Olga Russakovsky）、贾登（Jia Deng）、郝苏（Hao Su）、乔纳森·克劳斯（Jonathan Krause）、桑吉夫·萨蒂什（Sanjeev Satheesh）、肖恩·马（Sean Ma）、黄志恒（Zhiheng Huang）、安德烈·卡帕蒂（Andrej Karpathy。2015.ImageNet大规模视觉识别挑战。IJCV 115，3（2015），211-252。

数字图书馆

[44]

大卫·施兰根。2006.从反应到预测：转弯计算模型实验。在INTERSPEECH中。17--21.

[45]

凯伦·西蒙扬和安德鲁·齐瑟曼。2015.用于大规模图像识别的极深卷积网络。在ICLR中。

[46]

Mohammad Soleymani、Kalin Stefanov、Sin-Hwa Kang、Jan Ondras和Jonathan Gratch。2019.亲密自我披露的多模态分析和估计。在ICMI中。59--68.

[47]

凯特·特朗（Khiet P.Truong）、罗纳德·波普（Ronald Poppe）和德克·海伦（Dirk Heylen）。2010年，使用音高和暂停信息的基于规则的反向信道预测模型。在INTERSPEECH中。ISCA。

[48]

N.病房。1996.使用韵律线索来决定何时产生反腔话语。在第四届国际口语处理会议上。ICSLP’96，第3卷。1728-1731卷3。

[49]

奈杰尔·沃德（Nigel Ward）、迭戈·阿吉雷（Diego Aguirre）、杰拉尔多·塞万提斯（Gerardo Cervantes）和奥拉克·富恩特斯（Olac Fuentes）。2018年，使用LSTM递归神经网络进行跨语言和体裁的转换预测。SLT。831--837.

[50]

Nigel Ward和Wataru Tsukahara。2000.在英语和日语中提示回切反应的韵律特征。《语用学杂志》32，8（2000），1177--1207。

引用人

颗粒罗斯坦A伯特兰R布丁ARauzy S公司Blache P公司(2023)对话参与建模的多模态方法计算机科学前沿10.3389/fc比较2023.10623425在线发布日期：2023年3月2日
https://doi.org/10.3389/fcomp.2023.1062342
Onishi K公司田中HNakamura S公司(2023)多模式语音活动预测：专家新手对话中的转折事件检测第十一届人与代理人互动国际会议记录10.1145/3623809.3623837(13-21)在线发布日期：2023年12月4日
https://dl.acm.org/doi/10.1145/3623809.3623837
埃利特JBönsch A公司Nossol P公司埃尔默特C莫哈纳塔桑CSchlittmeier S公司费尔斯J库伦T卢格林BLatoschik M公司冯·曼曼S科普公司Pécune F公司Pelachaud C公司(2023)下一个是谁？第23届ACM智能虚拟代理国际会议论文集10.1145/3570945.3607312(1-8)在线发布日期：23年9月19日
https://dl.acm.org/doi/10.1145/3570945.3607312
显示更多引用者

索引术语

多模式多任务听者反向通道预测方法：对话轮转换和话轮管理意愿的预测能改进反向通道建模吗？
1. 以人为中心的计算
  1. 协作和社交计算
    1. 协作和社会计算理论、概念和范式
  2. 人机交互（HCI）
    1. HCI理论、概念和模型
    2. 交互范例
      1. 协作交互

建议

确定最适合说话人说话的听众反向通道类型
IVA’22：第22届ACM智能虚拟代理国际会议记录

要实现一个能够顺利对话的对话系统，一个主要障碍是确定如何对用户的话语产生适当的反应。以前的研究主要集中在估计是否在。。。
阅读更多信息
Turn-changing模型能否通过对Turn-chamging管理意愿的预测来改进？
IVA’20：第20届ACM智能虚拟代理国际会议论文集

为了使对话顺利进行，参与者必须仔细监控其他对话伙伴的话轮管理意愿，并相应调整话轮转换行为。许多研究侧重于预测。。。
阅读更多信息
基于多模态信息的各种后信道语音预测
IVA’23：第23届ACM智能虚拟代理国际会议记录

听者的反向通道是对话的重要组成部分。通过适当的反向渠道，人们能够顺利地促进对话。因此，反向通道被认为不仅在人类之间，而且在人类和……之间的对话中都很重要。。。
阅读更多信息

评论

信息和贡献者

问询处

发布于

封面图片ACM会议

IVA’21：第21届ACM智能虚拟代理国际会议记录

2021年9月

238页

国际标准图书编号：9781450386197

内政部：10.1145/3472306

版权所有©2021 ACM。

如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]

赞助商

SIGAI:ACM人工智能特别兴趣小组

出版商

计算机协会

美国纽约州纽约市

出版历史

出版：2021年9月14日

权限

请求对此文章的权限。

检查更新

作者标记

限定符

研究文章
研究
推荐有限公司

会议

21年IVA

赞助商：

锡盖

IVA’21：ACM智能虚拟代理国际会议

2021年9月14日至17日

虚拟活动，日本

接受率

总体接受率196份提交文件中的53份，27%

即将召开的会议

24年IVA

赞助商：
西盖

ACM智能虚拟代理国际会议

2024年9月16日至19日

格拉斯哥，大不列颠联合王国

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

9
引文总数
查看引文
786
总下载次数

下载量（最近12个月）221
下载次数（最近6周）45

其他指标

查看作者指标

引文

引用人

护球A伯特兰R布丁ARauzy S公司Blache P公司(2023)对话参与建模的多模态方法计算机科学前沿10.3389/fcomp.2023.1062342（邮编：10.3389/fcomp.2023.1062342）5在线发布日期：2023年3月2日
https://doi.org/10.3389/fcomp.2023.1062342网址
Onishi K公司田中HNakamura S公司(2023)多模态语音活动预测：专家-新手对话中的话轮转换事件检测第十一届人与代理人互动国际会议记录10.1145/3623809.3623837(13-21)在线发布日期：2023年12月4日
https://dl.acm.org/doi/10.1145/3623809.3623837
埃利特JBönsch A公司Nossol P公司埃尔默特C莫哈纳塔桑CSchlittmeier S公司费尔斯J库伦T卢格林BLatoschik M公司冯·曼曼S科普公司Pécune F公司Pelachaud C公司(2023)下一个是谁？第23届ACM智能虚拟代理国际会议论文集10.1145/3570945.3607312(1-8)在线发布日期：23年9月19日
https://dl.acm.org/doi/10.1145/3570945.3607312
Onishi T公司阿祖玛N基诺西塔S石井R富山A中村T宫田A卢格林BLatoschik M公司冯·马门S科普SPécune F公司Pelachaud C公司(2023)基于多模态信息的各种回声信道预测第23届ACM智能虚拟代理国际会议论文集10.1145/3570945.3607298(1-4)在线发布日期：23年9月19日
https://dl.acm.org/doi/10.1145/3570945.3607298
抓斗J(2023)交互式具身代理在研究非言语交际中的前景和风险：机器学习的视角英国皇家学会哲学学报B：生物科学10.1098/rstb.2021.0475378:1875在线发布日期：2023年3月6日
https://doi.org/10.1098/rstb.2021.0475
布丁A(2022)基于跨学科语料库的多模态会话反馈研究2022年多式联运国际会议记录10.1145/3536221.3557029(705-710)在线发布日期：2022年11月7日
https://dl.acm.org/doi/10.1145/3536221.3557029
森川A石井R诺托H富山ANakamura T公司马提尼奥C直径J坎波斯J海伦D(2022)确定最适合说话人说话的听众反向通道类型第22届ACM智能虚拟代理国际会议论文集10.1145/3514197.3549619(1-3)在线发布日期：2022年9月6日
https://dl.acm.org/doi/10.1145/3514197.3549619
米勒·P迪茨M席勒D托马斯·D林赛·HGebhard P公司安德烈·E斗牛A马加莱斯J德尔·宾博A佐藤S塞贝N阿拉米达·皮内达X金Q奥里亚五世托尼·L(2022)多介质'22第30届ACM国际多媒体会议记录10.1145/3503161.3551589(7109-7114)在线发布日期：2022年10月10日
https://dl.acm.org/doi/10.1145/3503161.3551589
杨莉（Yang L）阿查德CPelachaud C公司(2022)中断的多模态分析健康、安全、人机工程学和风险管理中的数字人体建模和应用。人体测量学、人类行为与交流10.1007/978-3-031-05890-5_24(306-325)在线发布日期：2022年6月26日
https://dl.acm.org/doi/10.1007/978-3-031-05890-5_24

视图选项

查看选项

PDF格式

以PDF文件查看或下载。

电子阅读器

使用联机查看电子阅读器.

电子阅读器

获取访问权限

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

媒体

数字

其他

桌子