期刊上的下一篇文章
社交媒体分析作为文化空间的工具——以推特趋势话题为例
特刊下一篇
A ika:一个用于人工智能推理的分布式边缘系统
期刊上的上一篇文章
利用肌电图探索阿凡达性别(性)与现实主义中不和谐谷的新方法
特刊上一篇文章
大尺度图像检索中降维方法的新比较研究
 
 
订购文章重印
字体类型:
宋体 佐治亚州 宋体,Verdana
字体大小:
澳大利亚 澳大利亚 澳大利亚
行距:
列宽:
背景:
第条

合成一个会说话的儿童阿凡达来训练采访受虐待儿童的采访者

通过
佩加·萨利希
1,*,
赛义德·佐哈伊布·哈桑
1,
肉豆蔻
2,
赛义德·沙菲Sabet
1,
Ingvild Riiser公司
2,
罗恩希尔德·克林根贝格·罗伊德
2,
米里亚姆·S·约翰逊
2,
瓦吉拉·坦巴维塔
1,
史蒂文·希克斯
1,
马丁·鲍威尔
,
迈克尔·兰姆
4,
冈恩·阿斯特里德·鲍格鲁德(Gunn Astrid Baugerud)
2,
波尔·哈沃森
1,2
迈克尔·里格勒
1,5
1
SimulaMet,0167奥斯陆,挪威
2
挪威奥斯陆0130奥斯陆城市大学计算机科学系
澳大利亚布里斯班4122格里菲斯大学格里菲斯犯罪学研究所调查访谈中心
4
剑桥大学心理学系,剑桥CB2 3RQ,英国
5
挪威特罗姆瑟大学计算机科学系,9037
*
应向其寄送信件的作者。
大数据认知。计算。 2022,6(2), 62;https://doi.org/10.3390/bdcc6020062
收到的提交文件:2022年4月30日/修订日期:2022年5月20日/接受日期:2022年5月21日/发布日期:2022年6月1日
(本文属于特刊多媒体大数据多媒体系统)

摘要

:
在回应有关儿童性虐待、身体虐待和心理虐待的指控时,儿童保护局(CPS)工作人员和警察需要获得有关虐待的详细和准确的描述,以协助决策和起诉。当前的研究强调了面试官遵循经验指导原则的能力的重要性。为此,必须为面试官提供经济、科学的培训课程。由于人工智能的最新进展,我们建议生成一个逼真的交互式儿童化身,旨在模仿儿童。我们正在进行的研究涉及不同组件之间的集成和交互,包括如何处理化身的语言、听觉、情感和视觉组件。本文提出了三项主观研究,调查和比较了实现儿童化身多个方面的各种最新方法。第一次用户研究对整个系统进行了评估,表明该系统受到了专家的好评,并强调了其现实性的重要性。第二项用户研究调查了情感成分以及如何将其与视频和音频集成,第三项用户研究则调查了通过不同方法创建的化身的听觉和视觉成分的真实性。这些研究的见解和反馈有助于我们在这里展示的儿童化身系统的精细和改进架构。

1.简介

儿童性虐待(CSA)、暴力和忽视是主要的全球公共卫生问题,对相关儿童以及整个社会都有深远的直接和长期影响[1]. 虐待儿童对儿童的生存和发展构成风险。研究证明,它对孩子有重大影响,导致认知、行为和社会问题,以及药物滥用、严重的心理健康问题和死亡[2]. 世界卫生组织(WHO)认定,仅CSA一项就对全球疾病负担做出了实质性贡献[]. 为了调查这个问题,儿童保护服务(CPS)和执法人员在计划应对此类虐待时必须采访相关儿童;因此,访谈在保护儿童、促进他们的福利和保护他们免受伤害方面发挥了重要作用[4]. 儿童经常作为虐待事件的受害者和主要证人接受采访[5]. 由于在这些案件中往往缺乏确凿证据,与儿童投诉人的信息面谈在他们的调查中起着至关重要的作用[6].
大多数受虐待的儿童没有任何身体虐待的迹象[7]. 这意味着调查的进展取决于孩子对事件描述的信息性。因此,面试官提出好问题的能力至关重要,这样才能最大限度地提高孩子所提供信息的质量和数量。因此,调查性面谈是全面虐待儿童调查的一个重要组成部分,也是调查员从据称的虐待儿童受害者那里获取准确详细信息的绝佳机会[8]. 大量关于儿童认知和社会发展的研究,以及对儿童描述经历过的压力和创伤事件的能力的实地研究,已经确定了如何对受虐待儿童进行调查性访谈的最佳实践[9]. 这些最佳实践调查性面谈指南为面谈者提供了明确的指示,说明在面谈过程中应如何以非暗示的方式询问和支持儿童证人,以最大限度地发挥其证词的价值[10,11]. 特别是,这包括向儿童提供开放式提示,同时避免强迫选择和暗示性问题,因为自由回忆问题鼓励儿童做出更准确、更长的回答[12,13](例如,“接下来发生了什么?”,孩子没有得到可能影响他们答案的信息)。面试官还应避免提出暗示性或引导性问题(例如,“那个人摸了你的私人部位。这是真的吗?”或任何其他可能导致孩子讲述特定故事的问题)。然而,不幸的是,大多数面试官都没有遵守这样的最佳实践准则[14].
Powell等人[15]发现基于计算机的交互式学习活动可以提高调查面试官的效率和生产力。此外,人工智能教育领域(AIE)促进了学习过程,并通过仿人机器人或虚拟化身传递知识。同样,近年来在合成真实数字人、化身、角色和代理方面也取得了重大进展[16]. 我们打算遵循的方法是开发一个真实的儿童化身,它涉及不同组件之间的集成和交互,包括化身的对话模型、听觉、情感和视觉组件。我们的初始原型[17,18]展示了这样一个化身的潜力,并在改进交互式儿童化身的过程中,我们利用尖端技术合成了一个真实的儿童化身;例如,我们使用RASA和GPT-3进行对话,使用IBM Watson服务进行听觉,使用GPT-3和BART进行情感,使用GAN和Unity游戏引擎进行虚拟形象的视觉外观。在本文中,我们系统地讨论了使用这些不同的工具和技术所获得的结果。
此外,本文在三项用户研究中比较和对比了各种最先进的方法,这些方法结合了儿童化身的多种特征。第一次用户研究评估了整个系统,发现它受到了强调现实主义重要性的专家的好评;第二项用户研究着眼于情感成分以及如何将其与视频和音频功能相结合;第三项用户研究考察了使用各种方法创建的虚拟形象的听觉和视觉组件的真实感。基于这三项调查的结果和用户评论,本文描述了我们的儿童化身系统的架构。总之,我们工作的主要贡献是:
  • 对系统潜在学习效果和用户体验的调查。
  • 对合成声音和自然声音的真实性进行比较的研究。
  • 基于调查性访谈中儿童回答的不同模型的情绪提取检验。
  • 研究了几种生成有声化身外观的方法的真实性。
  • 关于各种系统组件的集成和交互的系统架构的调查。
论文的其余部分组织如下:第2节概述了不同系统组件的最新技术,并强调了儿童化身访谈培训系统的重要性。第3节概述了系统,并讨论了用于开发系统各个组件的材料和方法。第4节评估各种系统组件的性能,并讨论使用系统组件进行的三次用户研究的结果,以及第5节讨论了结果及其局限性,以及对未来研究的建议。最后,第6节总结论文并强调主要发现。

2.相关工作

本节分别回顾了我们每个研究问题的相关工作。

2.1. 调查性面试培训

已经制定了一些培训方法,以提供关于如何按照最佳实践指南进行这些访谈的基本信息。向警察和CPS工作人员传授知识的最普遍方法之一是传统的课堂教学。然而,来自世界各地的大量儿童调查性访谈研究[9]已经表明,使用这种基于课堂的传统指导来提高调查性访谈质量的尝试并没有取得成效[14]. 专业人士往往不遵循推荐的提问策略。相反,他们倾向于提出许多风险性的选择性和暗示性问题,而不是偏爱的开放式问题,导致孩子们对自己经历的报告不可靠[19,20,21,22]. 在大多数培训项目之后,参与者都需要参加模拟交互活动,其中包括由讲师/专业演员扮演受虐待儿童,并由培训师提供反馈。最近,在面试官培训中使用机械化身被证明是有利的,特别是当与反馈结合时[9,15,23,24,25,26]. 通过培训面试官采用推荐的最佳实践面试策略,使用动态化身,包括鼓励儿童尽可能充分利用其认知和沟通能力的问题类型,同时避免暗示性问题等策略,有可能是有益的。进行模拟面试可能特别适合基础培训以及实践和进修培训,众所周知,这些培训对保持技能特别重要。在训练中使用动态化身可能是获取和训练实用技能的一种非常有效的方式。此外,与传统的面对面培训相比,基于人工智能的面试培训成本更低,可以长期使用,而且用户可能更容易获得[15,27].

2.2. 情绪

情商是感知、使用、理解和管理情绪的能力[28]. 调查面试官描述的情绪智力水平影响情绪劳动的执行和表现[29]. 这是指员工需要识别情绪并采取相应行动的工作。这些工作有需要遵循的指导方针和规则,以确保完成的工作质量[30]. 对成年人进行调查性采访的结果取决于官员如何处理受访者的情绪。如果访谈是以一种情绪化的方式进行的,那么访谈的结果、被访谈者的幸福以及治疗法理学都会受到积极的影响[31]. 针对儿童访谈中情绪智力的研究有限,但Albaek等人[32]显示出需要在一个定性的综合集成中解决专业人员在虐待儿童案件中的情绪困扰。为了培训CPS工作人员和警察有效地进行调查访谈,培训模块强调对儿童情绪的正确情感表达反应非常重要。通过让化身表达不同的情绪,就像真实的孩子会描述他们一样,采访者可以练习在不同场景中处理情绪,例如,在采访孩子时提供非暗示的情绪支持。
研究表明,通过识别面部线索对情绪进行分类,我们可以区分七种普遍的情绪[33,34,35]. 这七种情绪是喜悦、悲伤、愤怒、厌恶、蔑视、恐惧和惊讶。这些情绪既可以用言语表达,也可以用非言语表达。Katz和Hunter[36]和Karni-Visel等人[37]根据真实访谈对非言语情感进行分类,发现非言语表达的频率是言语情感表达的10倍。然而,受创伤的儿童可能不会表现出任何积极或消极的情绪[38]. 这种现象被称为麻木。表达更多非语言情感和麻木的矛盾组合为会说话的儿童化身创造了一个困难的场景。因此,根据不同的儿童头像角色,在对话中用不同程度的表达来描绘这些情绪是很重要的。我们必须注意不同的人物角色表达不同情绪的程度,因为这在孩子之间可能会有很大差异。情绪的表达在视觉和听觉输出中都会很明显,比如面部表情或音调的变化。

2.3. 查特博特

聊天机器人的典型应用包括呼叫中心、电子商务客户服务和互联网游戏。这些领域的聊天机器人使用不同的机器学习算法与最终用户进行听觉或文本对话[39]. 模仿据称受虐待儿童的聊天机器人要比简单的问答甚至开放式社交聊天机器人复杂得多[40]. 最近几年,社交聊天机器人变得更加现实和先进。社交聊天机器人的目标是与使用它的人建立情感联系。社交聊天机器人不同于调查培训模块,它还必须能够识别情绪并跟踪对话过程中的情绪变化。言语或非言语情感是谈话的重要组成部分,可以传达大量所需信息。然而,有一些聊天机器人的实现可以与特定的情感组件对话[41]. 小冰是微软开发的社交聊天机器人[42]它在响应之前检测输入中反映的情绪。然而,识别、理解和表达情绪,以及建模情绪对谈话质量的影响,是我们目前正在解决的具有挑战性的任务。除了对话中表达的情感外,还需要设计和生成不同的人物角色,这些角色不仅能够以不同的方式表达情感,而且能够对充满情感的对话做出反应。Li等人[43]展示了基于神经的方法如何建模不同的人物角色。将情感和人物角色参数化到聊天机器人中,可以真正提高最终用户的真实感和沉浸感,即在我们的案例中,CPS受训人员。因此,这个社交聊天机器人旨在识别情绪并呈现出一致的个性。这种个性包括根据给定的年龄、性别、语言、说话风格、态度、知识水平等进行操作。我们已经开始研究聊天机器人的各个方面,我们将在下面的部分中进行讨论。

2.4. 听觉的

对话是双向信息流。人类要使用语音与计算机程序进行通信,必须找到在文本域和听觉域之间进行转换的方法。这需要所谓的语音对文本(STT)和文本对语音(TTS)方法,它们在低延迟下工作,以确保自然的会话流。随着CNN功能的最新进展[44]和递归神经网络[45]STT方法接近人类平价[46]. LibriSpeech等基准[47]和2000年NIST说话人识别评估[48]已经表明,当前最先进的深度学习方法可以识别很少错误的语音[49,50]. 由于听觉言语比纯文本信息丰富,我们也可以提取副语言信息,例如情感。数据库,如IEMOCAP[51],可用于训练语音情感分类器。此类分类器的示例包括CNN长短期记忆(LSTM)网络[52]和CNN[53],以音频和/或(log-mel)频谱图作为输入。近年来,TTS研究也有了很大发展。Wavenet等型号[54,55]和Waveglow[55]在使用生成模型从输入文本生成非常逼真的语音方面显示出巨大的潜力。这些方法都是最先进的,并且工作效率很高,这使得它们适合这里介绍的系统[56].

2.5. 视觉

由于大规模数据集的免费访问和深度学习技术的快速发展,特别是生成对抗网络(GAN)[57]及其变体,在生成真实的多媒体内容方面取得了前所未有的成功。
在最近的人形化身创新中,Uneeq(https://digitalhumans.com/(于2022年5月24日访问)设计了一个基于视频和音频组件的对话人工智能系统,具有自然语音和高度逼真的面部表情,以及灵魂机器(https://www.soulmachines.com/(于2022年5月24日访问)开发了一种模拟人类认知过程的数字大脑。
在下文中,我们提供了一个基本分类,以了解不同面部操作技术在操作量方面的差异(如所示图1). 下面对每一项进行简要说明。
全脸合成(或无条件脸生成)指在现实世界中制作不存在的肖像图像,例如PGGAN[58]和StyleGAN(https://thispersondoesnotexist.com/,于2022年5月24日访问)[59]陷入这种操纵,它生成了实际上并不存在的人类的超现实照片;即使是人类也很难评估自己的真实性。
面属性操纵包括编辑面部的一些属性,如头发、肤色、眼镜、性别和年龄,就像使用StarGAN时一样[60]. 此外,FaceApp(https://www.faceapp.com/,于2022年5月24日访问)已将面部属性编辑作为应用程序普及。
DeepFake(或FaceSwap)通常用另一个人的脸替换图像或视频中的一个人的面孔。在这方面,源视频的组合会产生一个虚假视频,该视频显示了一个在现实中从未发生过的动作或事件,例如,创建虚假新闻[61]. 以同样的方式,开发了一个数字化身,用于在视频聊天中交换面部表情(https://blog.siggraph.org/2021/01/ai-avatars-virtual-assistants-and-deepfakes-a-realtime-look.html/,于2022年5月24日访问)。DeepFace实验室(https://github.com/iperov/DepFaceLab网站,于2022年5月24日访问)[62]也是一个开源软件包,用于构建高保真的翻拍视频。
代言人通过捕捉一个或多个输入信号,可以合成特定人的精确嘴唇同步、头部姿势运动和自然面部表情。根据输入数据类型的不同,现有的话头生成方法可分为两大类:音频驱动和视频驱动。许多音频驱动的方法避免直接从音频映射到图像,而是首先将音频映射到中间步骤,如2D面部标志[63,64,65,66,67]或3D面部形状[68,69,70,71,72],然后渲染照片级真实感视频。音频驱动的话头生成天生就很困难,因为它只根据音频信号生成手和嘴的运动。因此,一些提议的作品通过一个或多个额外的视频作为输入来控制对象的运动,这些视频分为视频驱动的方法(也称为面部再造) [73,74,75,76,77,78]. 类似地,Face2Face[73]支持目标视频序列的实时面部再现,即,使用源演员对目标视频的面部表情进行动画制作,并以照片级真实感的方式重新呈现操作的输出视频。一些模型还侧重于使用特定人员培训其模型[79,80]. 音频驱动方法在最近的研究中受到了更多的关注,因为它们的目标是为各种学科和应用合成通用的说话人模型。

2.6. 儿童访谈培训化身

授权面试官培训(EIT)[27]是一个调查性面试培训项目。子响应在系统中预定义,并使用基于规则的算法选择响应。基于所选择的响应,由操作员选择预先录制的儿童表现出不同情绪的视频,并将其显示给用户。Pomedda等人使用该系统进行了多项研究,分析了多次模拟面试后的培训效果、反馈和反思对提高调查面试质量的影响[24,81,82,83]. 在瑞典,林诺美国大学和AvBIT实验室也推出了在线面试培训系统。他们还使用预先录制的儿童头像和人类操作员的音频响应和视频。通过Skype界面,用户可以通过Wirecast软件控件看到适当的视频响应和适当的情绪控制[84,85]. 尽管这些系统的开发和测试成功地转移了采访受虐待儿童所需的调查技能,但这些系统在反应生成过程中并不是动态的,在反应选择阶段也有人为的输入。这使它们变得僵硬,更难操作。
我们提出了一个AI驱动的培训系统,该系统可以动态响应问题,并在培训面试中提供更高的真实性。此外,我们提出了一个完全独立于人类输入的系统。

3.材料和方法

图2概述了儿童调查访谈化身的整个架构。我们提出的不同系统组件之间的交互流以及它们之间的数据/信息流的想法在体系结构中具有良好的可追踪性。黄色部分标记语言模型,其中GPT-3是在真实和模拟访谈中训练的,绿色部分是从生成的文本中提取情感并提供输入以应用于虚拟形象的视觉和听觉输出的情感引擎,蓝色部分是听觉系统,它使用IBM Watson API将文本转换为音频,将音频转换为文本,紫色部分显示视觉部分,其中将生成的虚拟形象的音频和视觉方面结合在一起,以创建一张会说话的脸。
尽管所有这些模块都可以单独开发,但仍需要集成所有组件。本节讨论了每个组件的未来研究和正在进行的工作。

3.1. 语言

有两种数据来源,模拟访谈和真实访谈,它们将为我们的聊天机器人提供培训数据。澳大利亚格里菲斯大学调查面试中心[15]提供了1000份模拟采访的笔录,作为对社会工作者、警察和心理学家进行调查培训的一部分。在这些模拟采访中,一名训练有素的演员模仿一名据称受到虐待的儿童。现实生活中的儿童调查访谈将在稍后阶段添加到系统中,因为我们希望最初有一个更严格和可控的虚拟形象版本。
当前的聊天机器人是使用Rasa开发的(https://rasa.com/,于2022年5月24日访问)。它提供了一个开源框架来开发基于文本的对话的自动化解决方案。在这个阶段选择RASA是因为我们缺乏足够的数据来从头开发解决方案,并且目标是开发用于概念验证的原型。此外,RASA使用少量数据提供了一个控制对话流的环境。在开发第一个聊天机器人时,我们有200份经过良好训练的访谈记录。我们创建的数据集包括5-7岁儿童与面试官之间的对话。RASA由TensorFlow提供支持[86]后端框架。RASA有多个模块,采用不同的深度学习模型来开发完整的对话模型。每个模块以特定于模块的格式接收培训数据。NLU模块采用双重意图和实体变换器(DIET)[87]用于训练以共同预测话语中的意图和实体。
我们根据场景手动聚类,从可用的文本中提取人物角色,并选择其中一个角色来开发我们的RASA聊天机器人。我们的目标是构建一个可以显示不同人物角色的聊天机器人,我们正在与GPT-3合作以实现这一目标。我们计划在成绩单上使用微调GPT-3,以便动态捕捉具有不同角色的儿童的行为。我们将采访者提出的问题分为15个不同类别,儿童的回答分为有成效和无成效。我们计划使用这些数据来开发确定性模型,这些模型可用于反馈机制,并在对话过程中调节GPT-3,以根据所问问题的类型改变儿童机器人的行为。
我们根据ITU-T Rec.P.809进行了一项互动研究[88]测试范式建议参与者在特定场景中与系统交互后,应使用特定的方法进行评估。在本研究中,我们邀请了来自CPS机构的参与者,他们有一些采访受虐待儿童的经验[17]. 他们被要求采访模仿一名六岁儿童的儿童化身,该儿童化身被指控受到性虐待。本研究的目的是评估用户的体验质量,并评估系统增强学习体验以及获取与受虐待儿童沟通的知识和技能的能力。

3.2. 听觉的

我们测试了不同的语音合成服务,看看哪个听起来最像孩子。我们选择使用IBM Watson服务进行文本到语音转换(https://www.ibm.com/cloud/watson-text-to-speech网址,于2022年5月24日访问)(TTS)和演讲到文本(https://www.ibm.com/no-en/cloud/watson-speech-to-text网站,于2022年5月24日访问)(STT)合成,因为合成语音的范围和内置的速度和音高调整选项。Watson TTS和STT是云服务API,充当语言(后端)和视觉(前端)组件之间的通信桥梁。用户与前端进行口头交流,将用户提出的问题发送到IBMSTTAPI,与响应一起转录,然后转发到后端。对话模型在后端处理用户的话语并生成适当的响应。然后将此响应发送到IBMTTSAPI,并将音频响应发送给前端的用户。

3.3. 情绪

不幸的是,由于隐私问题,很难获得视听现场采访。因此,对情绪的预测完全基于书面文本,而不是来自模拟采访笔录的文本、音频和视频输入的组合[15]. 由于缺少带注释的数据,我们开始使用预处理的变压器模型进行序列分类实验。来自HuggingFace库(https://huggingface.co/(于2022年5月24日访问)我们结合BART大型模型使用了零快照分类管道。BART大型模型[89]是用于预处理序列到序列模型的自动编码器。此模型是专门为GLUE任务制作的[90],将情绪分类作为子任务。我们用一组标签展示模型。然后,模型返回类标签及其相应的概率。我们还试验了GPT-3的使用[91]并用不同的方法从七个选项中预测和选择正确的情绪。只使用一个句子预测情绪,整个故事一直持续到当前句子,并使用带有或不带阈值的滑动窗口重新启动窗口。窗口大小实验随窗口大小3、5、7、10和15而变化。如果设置了阈值,并且单句预测的概率高于某个阈值,则会重新启动窗口。选择包括这样一个阈值是为了能够识别情绪突然发生重大变化的可能性。例如,如果一个孩子开始讲述他们是如何开始哭泣的,情绪很快就会变得非常悲伤,因此背景的影响较小。
我们开始使用前面提到的七种普遍情绪。然而,我们也进行了同样的实验,只使用了四种基本情绪,即喜悦、悲伤、愤怒和恐惧[92]而不是七个人。将情绪亚类从4分改为7分的原因是,在七个维度的实验中,类内相关系数得分较低,因为它在平均测量中仅得分0.537。
当情绪分类部分被整合到完整的系统中时,它的重要性就变得可认知了。它通过根据特定的情感改变输出,在视觉和音频输出中起着不可或缺的作用。我们创建了一个情绪管道,可以预测面试官输入和聊天机器人输出的情绪效价。由于RASA环境封闭,因此不可能在环境中直接对机器人程序的响应进行分类。然而,可以在RASA环境中对输入进行分类。使用请求包(https://github.com/psf/requests网站,于2022年5月24日访问)在连接到运行RASA机器人的本地主机地址的Python中,我们能够接收和分类人工输入和RASA输出。这是必要的,因为对RASA响应进行分类对我们的系统非常重要。情感管道接收这些文本作为输入,然后为音频和视频部分提供输入。

3.4. 视觉

我们早期致力于研究和概念验证开发。为了发现生成可视儿童头像的正确方法,我们经历了一个试错过程,其中涉及三个原型:Faceswap接口,Unity多用途阿凡达(UMA)代言人。以下是对每种类型的描述。
在第一个原型中,我们将范围缩小到一个系统,该系统可以通过操纵一个人的视频或图像来对指定的音频流进行唇形同步。同样,我们选择了Faceswap[93]它允许我们交换两个人的脸,这是一个开源的deepfake软件,它基于两个自动编码器和一个共享的编码器,其中编码器学习源脸和目标脸的共同特征,而两个解码器学习生成源脸和目标脸。该方法需要传输完整视频和许多人脸图像,每个新人脸都需要单独的神经网络。在第二种方法中,使用开源项目Unity Multipurpose Avatar(UMA)开发了儿童化身(https://github.com/umasteringgroup/UMA,于2022年5月24日访问)系统。我们通过合并网格和纹理来定制角色,音频与虚拟形象同步。使用Unity游戏引擎资产SALSA LipSync套件(https://assetstore.unity.com/packages/tools/animation/salsa-lipsyn-suite-148442,于2022年5月24日访问),我们生成了与音频同步的眼睛、头部和嘴巴运动。
阅读了大量出版物后[94,95,96],我们转向了使用GAN进行真实化身合成的音视频翻译方法,这种方法在用于生成奥巴马的假视频时得到了普及(https://www.youtube.com/watch?v=cQ54GDm1eL0,于2022年5月24日访问)[63,97]. 在对ObamaNet的两种方法进行检查之后[97]以及Suwajanakorn等人提出的方法[63]在我们之前的工作中[98],我们试验了ICface[74]这是一个面向面部动画师的轻量级模型,由人类可解释的控制信号驱动。该方法属于视频驱动的话头生成(也称为面部再现),因为它使用另一个视频作为输入来调节表情、姿势、嘴巴、眼睛和眉毛运动。
接下来,我们使用了两种当代最先进的程序,在收集了关于说话头方法的必要理解后,获得了更多结果,包括:PC-AVS[75]和MakeItTalk[65]. 所有方法都采用了相同的通用方法:将IBM Watson TTS生成的音频流作为输入提供给网络,以合成唇同步视频。
MakeItTalk接受了VoxCeleb2的培训[99]数据集,它包含来自各种扬声器的视频片段,可以合成富有表现力的有声头部视频,其中只有音频流和肖像面部图像作为输入。它还可以很好地推广到看不见的面部图像。MakeItTalk提供了一种基于自我关注的LSTM,能够解开音频中的内容和风格,并导致产生一种有扬声器意识的通话头。PC-AVS以单个面部图像作为输入,生成一个说话头,其姿势由另一源视频上的姿势控制。该方法隐式设计了一个不含嘴形或身份的姿势代码,然后将视听表示模块化为音频内容、头部运动和身份空间,而不依赖任何中间信息,如地标和3D人脸形状。
我们进行了一项用户研究,以评估两种前景看好的Unity游戏引擎和对讲机技术。下一节将简要介绍调查结果。

4.结果

最终,学习进行专家调查访谈的用户将直接使用会说话的儿童化身。因此,对人的主观评价是至关重要的一步。在本节中,将描述每种语言、听觉、情感和视觉组件的提取结果。

4.1. 语言

第一项互动研究涉及专家用户与一名6岁遭受性虐待的儿童进行互动,以验证我们的第一个原型,作为拟议的调查面试官培训系统的概念证明。系统的核心使用RASA作为对话模型。这项用户研究的结果表明,它受到了CPS工作人员的好评。 72 % 认为这可以帮助他们获得与受虐待儿童沟通的知识和技能 81 % 表示这可以提高他们的自我效能。当前的聊天机器人是根据最佳实践指南专门开发的,其灵感来自美国国家儿童健康与人类发展研究所(NICHD)的研究人员对访谈方法的研究[11]. 尽管对话模式可以回答有关孩子生活的问题,但这些问题可能与指称的事件无关,它仍然无法与孩子进行一般性对话。很难用RASA对闲聊建模,因为它会导致许多意图定义,从而对意图分类模型的性能产生负面影响。我们相信,我们可以使用GPT-3解决RASA聊天机器人的缺点,以保持故事的连贯性,同时还能回答一般的闲聊。RASA提供了对我们希望对话如何进行的更多控制,但它不是一个可扩展的解决方案。

4.2. 听觉的

该用户研究使用IBM Watson TTS生成的合成语音,并记录两种不同性别的自然语音作为测试条件。本节研究了计算机生成的声音是否可以像人声一样逼真,以及与每个角色相关的声音是否合适。图3显示了用户研究的结果,该研究比较了计算机和人类发出的声音。因子方差分析比较了动画和GAN生成的化身,其中每个化身都有合成和自然声音。因子方差分析显示,嗓音类型没有显著的主效应( F类 ( 1 , 35 ) = 1.39 , 第页 = 0.24 )这意味着计算机生成的声音被评为与人声相当,两者之间没有显著差异。

4.3. 情绪

如中所述第3节,我们从GPT-3和BART开始,一次预测一句话。将此与用户研究的结果进行比较,得出了有希望的结果。然而,这些结果在更大的背景下并不总是有意义的。以“我在操场上”这句话为例。这句话是无辜的,如果单独看,它就意味着享受,但在虐待的情况下,它可能不再有积极的含义。单句预测忽略了上下文的重要性。当根据整个故事预测情绪时,情况正好相反。在某种程度上,由于上下文太多,模型无法捕捉到微妙的情感变化。因此,单句预测不那么复杂,但并不准确,因为它错过了重要的上下文。相比之下,整个故事的背景太多,导致结果也不准确。滑动窗口似乎为这个问题提供了完美的解决方案。使用包含3到7个句子的窗口是理想的。然而,阈值并没有像预期的那样起作用。假设这将有助于发现故事中突然发生的重大情绪变化,例如,如果一个孩子开始哭泣。然而,窗口的重启经常会出现被归类为“享受”的句子。因此,由于阈值的实施,模型预测变得更糟。
在将七种情绪作为选项的数据摘录进行分类时,人类很难达成共识。在二十一个问题中,只有一个问题得到了一致同意,那就是一句话的摘录。尽管有11个问题明显胜出,但基于平均测量的类内相关系数(ICC)在七个维度上都很低,平均得分仅为0.537。国际商会描述了同一组中的元素彼此之间的相似程度。ICC在0.40到0.59之间为中等分数。然而,ICC得分最好至少为0.75[100]. 当我们将情绪数量减少到四个时,参与者更容易就最适合的课程达成一致。减少类别的数量会带来比以前更明确的获胜者。ICC也从0.537增加到0.788:四个维度的ICC显著高于七个维度。
GPT-3和BART之间的比较基于对21名参与者的调查中的人类注释。52.4%的参与者认为自己是女性,47.6%的参与者认为是男性。大多数参与者的年龄在26岁至35岁之间,但18岁至25岁、36岁至45岁、56岁至65岁的人也参加了此次活动。该调查包括八个单句摘录和每个窗口大小的12个摘录。我们使用的窗口大小为3、5和7。
结果表明,BART能够正确预测更多的单句,而GPT-3在预测上下文中的句子方面表现更好。用户研究中的一句话是“我们看了一部电影,然后吃了一些冰淇淋,然后上床睡觉。”。人类共识、GPT-3模型和BART将其归类为享受。对诸如“It really hurt”这样的句子进行分类变得更加困难,BART和人类参与者将其归类为悲伤,而GPT-3则认为这是愤怒。
有时模型和用户研究结果是一致的。这发生在中所示的摘录中图4一致认为这属于阶级恐惧。
然而,也有两种模型与人类参与者进行不同分类的情况。这发生在中所示的对话中图5两个模型都只看到了孩子给我们的回应,因此,将这段摘录归类为快乐,而参与者看到了整个对话,并将其归类为恐惧。
并非总是有一个或两个模型都是错误的。有时,这是一个解释问题。如上所述,GPT-3在涉及上下文时更好图6这两个模型都根据给他们的文本预测了不同的情绪。

4.4. 视觉

在这里,我们使用介绍的工具报告调查结果和经验教训第3.4节首先,我们调查了deepfake模型,以及为什么它们不适合创建逼真的化身。然后,使用主观研究,我们评估了游戏引擎创建的会说话的头部技术和化身的真实性,作为集成到儿童化身系统中的解决方案。
Faceswap接口[93]是领先的免费开源多平台Deepfakes软件,使用计算机图形和可视化技术。Faceswap用于交换两个人的脸。根据已发表的研究结果[98]当一个男人的脸被用在孩子身上时,Faceswap并不会产生一个现实的结果。虽然两个外表非常相似的人可以创造更好的结果,但我们不能依赖于用例的相似性。因此,Faceswap似乎不适合创建逼真的头像。
ICface接口[74]可以将表情从驾驶视频传输到源面部图像(如所示图7)视频驱动的通话头(参见第2.5节). 尽管ICface可以应用于任意人脸图像,但其结果在视觉上并不可信。此外,使用人头运动角度和动作单位(AU)等人类可理解的控制信号操纵图像中的表情是繁琐、耗时的,并且会导致面部表情重复。因此,该方法的效率不足以用于生成真实的化身。
我们通过开展一项众包用户研究,调查了使用GAN和基于Unity游戏引擎生成对话头的两种方法的效果。在这两种情况下,用作输入的音频流都是从IBM Watson(引入于第3.2节)并录制了自然的人声。我们使用两种开源的对话头方法MakeItTalk生成了18个化身[65]和PC-AVS[75],可以很好地概括任何所需的面部图像。这里,StyleGAN[59,101]用于创建一些儿童肖像图像。显示了输入的面部图像和由此生成的几帧视频图像图8。我们还使用Unity游戏引擎开发了十个动画化身。最后,使用基于GAN或Unity游戏引擎的方法提供了28个10秒的虚拟化身视频剪辑。
这项研究是通过众包和微型工作者进行的(https://www.microworkers.com/(于2022年5月24日访问)被用作招募环境,用户可以参考包含视频的独立服务器上的问卷工具。为了确保所收集数据的有效性和可靠性,只邀请在测试中表现最好的高绩效众包工作者参加。
总的来说,39名群众工作者在这项研究中提供了有效的结果,其中包括10名女性、27名男性和两名其他性别的人群。19至54岁的人群工作人员(中位数 = 28 ,平均值 = 29.58 ,SD = 8.36 )在欧洲、亚洲和美洲(北部和南部)之间分布均匀。
参与者被要求根据三个陈述来评估每个视频:“会说话的化身有多逼真?”化身的外观有多逼真?“,”你对虚拟形象的总体体验如何?”以及“音频和嘴/嘴唇是如何同步的?”评分范围为1到5(5-强烈同意,4-同意,3-既不同意也不反对,2-不同意,1-强烈不同意)。有关数据集和研究设计的更多详细信息,请参阅[18].
我们首先检查MakeItTalk和[65]和PC-AVS[75]作为来自不同视角的音频驱动模型。从我们的角度来看,PC-AVS可以生成正确的嘴唇同步,但它不能保持输入人脸图像的身份和分辨率,并且它还生成没有眨眼动作的说话头。另一方面,MakeItTalk可以执行眨眼动作,并通过精确的面部标志来保持输入面部图像的分辨率。然而,它并没有精确地同步嘴巴的形状。此外,头部的自然运动是现实世界中有效沟通的最重要方面之一。MakeitTalk可以生成细微的头部运动,与大多数现有方法不同,这些方法使用固定的头部姿势生成面部动画。这些动作涉及到许多重复的行为和运动模式,这些行为和模式只会轻微地摆动。相反,PC-AVS采用简短的目标视频和音频流作为输入,以传递头部位置,从而根据输入的视频片段产生更多不同的头部节奏运动。然而,由于该策略依赖于另一个视频短片,因此在我们的情况下并不特别有用。
酒吧里的酒吧图9描述了四个不同角色的用户评分,显示MakeItTalk和PC-AVS模型之间没有显著差异。我们希望MakeItTalk从用户的角度看起来更真实,但事实并非如此。使用四个重复测量因子方差分析来比较模型和特征的主要影响以及它们在所有四个质量维度上的交互作用。根据说话、外表、经验和嘴唇同步这四个质量标准,两个模型(MakeItTalk和PC-AVS)和角色(所选面部图像)之间没有显著差异。为了现实主义说话,该模型没有显著的主要影响(第页-价值(第页)大于<0.05)( 第页 < 0.6 )、或字符( 第页 < 0.5 )模型和角色之间没有明显的交互作用( 第页 < 0.06 ). 对于外观,未观察到模型的主要影响( 第页 < 0.09 )、或字符( 第页 < 0.21 )模型和角色之间没有显著的交互作用( 第页 < 0.09 ). 对于总体经验,没有模型的主要影响( 第页 < 0.86 ),没有字符的主要效果( 第页 < 0.29 )模型和角色之间没有交互( 第页 < 0.38 ). 对于lip-sync,没有模型的主要影响( 第页 < 0.52 ),没有字符的主要效果( 第页 < 0.17 )模型和角色之间没有交互( 第页 < 0.07 ).
与虚拟化身的互动需要技术来生成高保真的会说话的头框架,同时保持人类观察者的信任和同理心。根据Uncanny Valley理论[102,103]如果一个化身是类人的但不完美,那么它的非人类特征会给观众带来困惑甚至恐惧。因此,我们使用Unity游戏引擎开发了面部动画化身,以查看儿童访谈中是否存在神秘山谷。
为了调查游戏引擎创建的化身,对总体体验和外观的平均值进行了单向重复测量方差分析(ANOVA)。数据分析中没有探讨唇形同步质量,因为所有动画角色都使用相同的技术,利用Unity游戏引擎中的Salsa组件生成唇形同步。动画化身的质量评级如所示图10.
接下来,将用GAN创建的评级最高的化身与Unity游戏引擎创建的动画化身进行比较。GAN中最好的化身是PC-AVS模型中的Omid和Darya,他们是根据他们的逼真程度来选择的外观说话已评级。这两个化身与Sarah和Liam在Unity游戏中创建的动画化身进行了比较。图10显示了这四个化身的质量评级。莎拉的角色被评为略低于其他角色,这可能是因为嘴唇同步性较差,但没有统计学上的显著差异。因子方差分析表明,尽管GAN创建的视频中普遍存在着更真实感的趋势,但真实感对说话  F类 ( 1 , 37 ) = 2.54 , 第页 = 0.12 ,外观 F类 ( 1 , 37 ) = 2.66 , 第页 = 0.11 总体经验 F类 ( 1 , 37 ) = 1.09 , 第页 = 0.30 总的来说,结果表明,尽管GAN生成的虚拟形象稍微更逼真,但它们不一定能为用户创造更高质量的体验和真实感。
除了质量方面,我们还向参与者提出了一个开放性问题,询问他们为什么在问卷末尾喜欢一个字符而不喜欢另一个字符。几乎所有人都认为由GAN生成的化身更真实。四名参与者表示,在GAN生成的化身中,嘴唇同步比在动画化身中更好。一位参与者甚至表示,“GAN生成的化身可能会欺骗我,让我以为是一个真实的人在说话。”三位参与者明确表示,这些会说话的脸看起来很吓人,一位参与者提到有些不对劲,感觉不对劲。这是因为GAN生成的阿凡达天生不太可能,除非它们是完美和自然的,正如神秘谷理论所解释的那样。

5.讨论和未来工作

当儿童成为性虐待、身体虐待和精神虐待的受害者时,加强对儿童虐待的披露可以促进早期保护、预防和起诉,从而可能对个人的心理健康和整个社会的未来产生巨大影响。本文描述了虚拟角色辅助培训模式如何帮助CPS工作人员和警察学习如何有效地采访遭受性虐待和身体虐待的儿童。由于人工智能的最新发展,我们提议合成一个真实的数字儿童化身,试图模仿一个受虐待的儿童。我们正在进行的工作侧重于集成各种组件,包括化身的语言、听觉、情感和视觉组件。该系统能够动态响应问题,在培训面试期间提供更高水平的真实感,并且完全独立于人工输入。因此,与以前的响应生成过于严格、缺乏通用性且需要人工输入的系统不同,我们提出的系统可以在无需人工操作的情况下生成动态响应。这样一个系统将更具活力和成本效益,因为它可以降低人力资源支出。本研究讨论了采用各种技术取得的经验教训和成果。此外,还进行了三项用户研究,以全面评估这些方法的数量。
第一项用户研究表明,尽管RASA提供了一个环境来管理简短模拟访谈中的对话流,但用RASA模拟闲聊并不容易,因为它会导致许多意图定义,对模型意图的分类产生负面影响。我们相信,通过使用GPT-3,我们可以解决RASA聊天机器人的缺点,这将保持故事的连贯性,同时还可以回答一般的闲聊。RASA让我们能够更好地控制对话的流程,但它不是一个可靠的解决方案,因为它没有接受过开放域数据的培训,无法明智地回答培训期间未使用的笔录中的问题。
关于情绪成分,也有令人鼓舞的初步结果。然而,重要的是要分析更多的注释数据,并将其与现有模型的输出进行比较。我们可以将正确的模型融入我们的情绪管道。之后,我们可以开始在听觉和视觉组件中实现管道,然后用户可以评估哪些有效,哪些无效。但是,在这一阶段,如果可以将注释文本数据与相应的视频结合使用,则会取得最大的改进。同样值得研究的是,如果面试官的问题也被分类,是否会获得更好的结果。图5表明这可能会产生积极影响。然而,它可能会对其他当前正确分类的示例产生负面影响,因此值得调查。
另一项用户研究是为了探索虚拟形象的听觉和视觉组件的真实性。对于音频组件,使用计算机生成的合成语音和自然人声测试化身。结果表明,IBM Watson TTS生成的合成语音可以像自然语音一样逼真。基于这些结果,我们决定使用化身的合成语音。
对于视觉组件,使用FaceSwap和视频驱动的对话头方法进行面部操作是无效的。因此,我们转向使用GAN和Unity游戏引擎的音频驱动的对讲机,然后进行用户研究以进行比较。与我们的预测相反,GAN生成的和Unity游戏引擎的化身的评级类似。使用这两种方法生成的最佳化身的评级没有不同。结果更令人震惊,因为超过一半的参与者声称更喜欢与使用Unity游戏引擎开发的化身进行对话,尽管化身的外观和整体对话不太真实。一些参与者指出,在回答一个公开问题时,由GAN生成的化身看起来很可怕。这可能是一个神秘山谷存在的证据[102,103]):如果一个化身是人形的,但有缺陷,观众可能会因为化身的非人类特性而感到奇怪的不安,甚至反感。我们的目标是在未来提高GAN生成的化身的真实感,从而减少产生的伪影。此外,我们将尝试将这两种方法结合起来,使用动画面部图像作为输入形成的说话头。此外,未来的工作将探索人类影响因素及其对用户体验的影响。人类影响因素包括人口特征,如年龄、性别和社会经济背景、身心素质以及用户的情绪状态[104]所有这些都会对用户体验产生影响。
此外,我们打算考虑通用且新颖的LSP模型[67]LSP引入了一个实时系统,该系统仅使用每秒30帧以上的音频信号,生成具有自然头部运动、嘴唇同步和眨眼功能的会说话的头部。此外,该系统需要对所需角色的几分钟视频进行培训。我们可以提供使用GAN或现有谈话动画生成的真实人类的视频。因此,由于其高保真视频创建和实时功能,LSP看起来非常实用,非常适合开发数字儿童化身。

6.结论

在法医面谈中,从被忽视或虐待的儿童那里获得有价值的信息需要面谈者具备良好的面谈技能。我们正在进行的工作旨在实时合成一个交互式虚拟儿童化身,模拟儿童,以便能够有效地培训执法和CPS工作人员学习和提高这些技能。本文介绍了一个模仿受虐儿童的交互式儿童化身系统。该系统使用不同的基于人工智能的技术进行设计,例如化身的语言、听觉、情感和视觉组件。此外,使用三项主观研究,对各种系统组件进行了调查。第一次用户研究的结果表明,参与者认为儿童化身系统可以有效提高会话技能,并受到CPS工作人员的好评。此外,第二项研究检验了使用不同模型的情绪提取,并讨论了如何将情绪与听觉和视觉组件相结合。第三项用户研究首先表明,计算机生成的合成语音可以与自然语音一样逼真,然后研究了生成儿童化身的各种技术的逼真度。结果表明,基于GAN和基于游戏引擎的化身可以创建最真实的化身。利用这三项用户研究提供的见解,提出了改进的儿童化身系统架构,并讨论了各种组件的集成和交互。

作者贡献

调查,P.S.、S.Z.H.、M.L.、S.S.S.和I.R。;方法论,P.S.、S.Z.H.、M.L.和S.S.S。;项目管理、S.S.S.、G.A.B.、P.H.和M.A.R。;书面原稿,P.S.、S.Z.H.和M.L。;Writing review&editing,P.S.、S.Z.H.、M.L.、S.S.S.、I.R.、R.K.R.、M.S.J.、V.T.、S.A.H.、MP.、M.E.L.、G.A.B.、P.H.和M.A.R.所有作者均已阅读并同意手稿的出版版本。

基金

这项研究由挪威研究委员会赞助,项目编号为314690(“儿童福利和执法专业人员访谈培训,访谈通过人工化身支持的受虐待儿童”)。

机构审查委员会声明

不适用。

知情同意书

不适用。

数据可用性声明

不适用。

利益冲突

作者声明没有利益冲突。

工具书类

  1. Sethi博士。;贝利斯,M。;休斯,K。;吉尔伯特,R。;Mitis,F。;盖利亚,G。欧洲防止虐待儿童报告; 世界卫生组织,欧洲区域办事处:瑞士日内瓦,2013年。[谷歌学者]
  2. Widom,C.S.虐待儿童的长期后果。儿童虐待手册; 施普林格:德国柏林/海德堡,2014年;第225-247页。[谷歌学者]
  3. 世界卫生组织。全球健康风险:可归因于选定主要风险的疾病死亡率和负担; 世界卫生组织:瑞士日内瓦,2009年。[谷歌学者]
  4. Dixon,L。;Perkins,D.F。;Hamilton-Gaachritis,C。;洛杉矶克雷格。《威利儿童虐待工作手册:基于证据的儿童保护评估和干预方法》; John Wiley&Sons:美国新泽西州霍博肯,2017年。[谷歌学者]
  5. D.布朗。;兰姆·M·福克斯(M.Lamb),《道路上的福克斯》(the road),《选择的路线,以及招手的旅程:对儿童证词学术研究的选择性回顾》。申请。干邑。精神病。 2019,33, 480–488. [谷歌学者] [交叉参考]
  6. 兰姆,M.E。;拉鲁伊,D.J。;马里兰州。;C·卡茨。儿童证词:心理研究和法医实践手册; 约翰·威利父子公司:美国新泽西州霍博肯,2011年;第53卷。[谷歌学者]
  7. 亚当斯,J.A。;Farst,K。;北卡罗来纳州凯洛格对疑似儿童性虐待的医学发现的解释:2018年最新情况。《儿科杂志》。阿道莱斯克。妇科。 2018,31, 225–231. [谷歌学者] [交叉参考] [公共医学] [绿色版本]
  8. 纽林,C。;斯蒂尔,L.C。;Chamberlin,A。;安德森,J。;Kenniston,J。;罗素(A.Russell)。;Stewart,H。;沃恩-伊登,V。儿童取证面谈:最佳实践; 美国司法部,司法项目办公室,青少年办公室:华盛顿特区,美国,2015年。
  9. 兰姆,M.E。;布朗,D.A。;赫什科维茨,I。;奥巴赫,Y。;埃斯普林,P.W。告诉我发生了什么:向孩子们提问虐待; 约翰·威利父子公司:美国新泽西州霍博肯,2018年。[谷歌学者]
  10. 兰姆,M.E。;奥巴赫,Y。;赫什科维茨,I。;埃斯普林,P.W。;Horowitz,D.结构化法医访谈协议提高了儿童调查访谈的质量和信息量:使用NICHD调查访谈协议的研究综述。虐待儿童。否定。 2007,31, 1201–1231. [谷歌学者] [交叉参考] [公共医学] [绿色版本]
  11. 鲍威尔,M.B。;标准访谈方法的起源、实验基础和应用:信息收集框架。澳大利亚。精神病。 2020,55, 645–659. [谷歌学者] [交叉参考]
  12. Lyon,T.D.采访儿童。每年。法律科学评论。 2014,10, 73–89. [谷歌学者] [交叉参考]
  13. 鲍威尔,M.B。;Hughes-Scholes,C.H。;史密斯,R。;Sharman,S.J.调查性采访经验与开放式问题使用之间的关系。警察实践。物件。 2014,15, 283–292. [谷歌学者] [交叉参考] [绿色版本]
  14. Lamb,M.将法医采访实践研究转化为从业者的困难:找水,牵马,但我们能让他们喝水吗?美国心理医生。 2016,71, 710–718. [谷歌学者] [交叉参考] [公共医学] [绿色版本]
  15. 鲍威尔,M.B。;Guadagno,B。;Benson,M.通过基于计算机的学习活动提高儿童调查面试官的表现。警察。Soc公司。 2016,26, 365–374. [谷歌学者] [交叉参考]
  16. 西摩,M。;Riemer,K。;Kay,J.演员、化身和代理:自然面孔技术在创造真实视觉存在方面的潜力和影响。J.协会信息系统。 2018,19, 4. [谷歌学者] [交叉参考]
  17. 哈桑,S.Z。;Salehi,P。;罗伊德,R.K。;Halvorsen,P。;Baugerud,G.A。;约翰逊,M.S。;Lison,P。;里格勒,M。;兰姆,M.E。;Griwodz,C。;等。在虚拟现实中面向AI驱动的会说话的阿凡达,用于儿童调查性访谈。2022年6月14日至17日,爱尔兰阿瑟隆,第二版游戏系统研讨会(GameSys’22)会议记录。[谷歌学者]
  18. Salehi,P。;哈桑,S.Z。;萨贝特,S.S。;Baugerud,G.A。;约翰逊,M.S。;里格勒,M。;Halvorsen,P.更现实更好吗?游戏引擎和基于GAN的虚拟形象在儿童调查性访谈中的比较。2022年6月27日至30日,美国新泽西州纽瓦克ACM ICMR 2022,ICDAR研讨会会议记录。[谷歌学者]
  19. 塞德堡,A.C。;奥巴赫,Y。;斯特恩伯格,K.J。;Lamb,M.E.对瑞典儿童证人的调查性采访。虐待儿童。否定。 2000,24, 1355–1361. [谷歌学者] [交叉参考]
  20. Baugerud,G.A。;约翰逊,M.S。;Hansen,H.B。;马格努森,S。;Lamb,M.E.对学龄前儿童的法医访谈:对挪威扩展访谈的分析(2015-2017)。申请。干邑。精神病。 2020,34, 654–663. [谷歌学者] [交叉参考]
  21. Korkman,J。;Santtila,P。;Sandnabba,N.K.采访儿童性虐待受害者时采访者和儿童之间言语互动的动态。扫描。《心理学杂志》。 2006,47, 109–119. [谷歌学者] [交叉参考] [公共医学]
  22. 兰姆,M.E。;奥巴赫,Y。;斯特恩伯格,K.J。;奥尔德里奇,J。;皮尔逊,S。;Stewart,H.L。;埃斯普林,P.W。;Bowler,L.使用结构化调查协议可以提高对英国儿童性虐待指控受害者的调查访谈的质量。申请。干邑。精神病。关J.Soc.申请。Res.Mem公司。认知。 2009,23, 449–467. [谷歌学者] [交叉参考]
  23. 布鲁巴赫,S.P。;舒尔曼,E.P。;医学博士Bearman。;Powell,M.B.教授儿童调查性访谈技能:长期记忆需要累积训练。精神病。公共政策法 2021,28, 123–136. [谷歌学者] [交叉参考]
  24. 克劳斯,N。;F.蓬佩达。;Antfolk,J。;扎帕拉,A。;Santtila,P.《反馈和反思对模拟儿童性虐待访谈中未经训练的访谈者提问风格的影响》。申请。干邑。精神病。 2017,31, 187–198. [谷歌学者] [交叉参考]
  25. Haginoya,S。;山本,S。;F.蓬佩达。;Naka,M。;Antfolk,J。;Santtila,P.关于儿童性虐待的在线模拟培训——有反馈的访谈提高了日本大学生的访谈质量。前面。精神病。 2020,11, 998. [谷歌学者] [交叉参考]
  26. Haginoya,S。;山本,S。;Santtila,P.儿童性虐待访谈在线模拟培训中反馈和建模的结合提高了临床心理学家的访谈质量。虐待儿童。否定。 2021,115, 105013. [谷歌学者] [交叉参考]
  27. F.蓬佩达。;扎帕拉,A。;Santtila,P.使用化身与反馈相结合的方式模拟儿童性虐待访谈,可以提高访谈质量。精神病。犯罪法 2015,21, 28–52. [谷歌学者] [交叉参考]
  28. Mayer,J.D。;Salovey,P.什么是情商?情绪发展与情绪智力:教育意义; 基础图书:纽约,纽约,美国,1997年;第3-33页。[谷歌学者]
  29. 约瑟夫·D.L。;Newman,D.A.情绪智力:一个综合的元分析和级联模型。J.应用。精神病。 2010,95, 54–78. [谷歌学者] [交叉参考]
  30. A.R.霍奇希尔德。被管理的心:人类情感的商业化; 加利福尼亚大学出版社:美国加利福尼亚州伯克利;英国伦敦,2012年。[谷歌学者]
  31. Risan,P。;粘结剂,P.E。;Milne,R.J.《警察访谈中的情绪智力——方法、培训和概念的实用性》。《法医心理学杂志》。实际。 2016,16, 410–424. [谷歌学者] [交叉参考] [绿色版本]
  32. Albaek,A.U。;Kinn,L.G。;Milde,A.M.《让孩子们穿过雷区:专业人士如何探索不良童年经历》。资格。健康研究。 2018,28, 231–244. [谷歌学者] [交叉参考] [公共医学] [绿色版本]
  33. 埃克曼,P。;弗里森,W.V.一种新的泛文化面部表情。动机。埃莫特。 1986,10, 159–168. [谷歌学者] [交叉参考] [绿色版本]
  34. 埃克曼,P。;海德,K.G.轻蔑表达的普遍性:复制。动机。埃莫特。 1988,12, 303–308. [谷歌学者] [交叉参考]
  35. 松本,D.藐视表达普遍性的更多证据。动机。埃莫特。 1992,16, 363–368. [谷歌学者] [交叉参考]
  36. 卡茨,L.F。;Hunter,E.C.母体元运动哲学与青少年抑郁症状学。社会发展。 2007,16, 343–360. [谷歌学者] [交叉参考]
  37. Karni-Visel,Y。;赫什科维茨,I。;兰姆,M.E。;Blasbalg,U。《披露虐待儿童时的非言语情绪:采访者支持的作用》。儿童虐待 2021,29, 10775595211063497. [谷歌学者] [交叉参考]
  38. 凯里格,P.K。;Bennett,哥伦比亚特区。;查普洛,S.D。;莫德罗斯基,C.A。;McGee,A.B.积极、消极和一般情绪的消融:司法介入青少年中创伤暴露、创伤后压力和抑郁症状的关系:积极、消极或一般情绪消融。J.创伤。强调 2016,29, 111–119. [谷歌学者] [交叉参考]
  39. Young,T。;哈扎里卡,D。;波利亚,S。;Cambria,E.基于深度学习的自然语言处理的最新趋势。计算机集成制造 2018,13, 55–75. [谷歌学者]
  40. 葡萄酒,O。;Le,Q.一种神经对话模型。arXiv公司 2015,arXiv:1506.05869。[谷歌学者]
  41. 周,H。;黄,M。;张,T。;朱,X。;刘,B。情感聊天机:具有内部和外部记忆的情感对话生成。2018年2月2日至7日,美国洛杉矶新奥尔良,第三十二届AAAI人工智能会议记录。[谷歌学者]
  42. 周,L。;高杰。;李,D。;Shum,H.Y.《XiaoIce的设计与实现》,一款移情社交聊天机器人。arXiv公司 2019,arXiv:1812.08989。[谷歌学者] [交叉参考]
  43. 李,J。;M.加利。;布罗克特,C。;Spithourakis,G.P。;高杰。;Dolan,B.一种基于人物角色的神经对话模型。arXiv公司 2016,arXiv:1603.06155。[谷歌学者]
  44. Tachibana,H。;Uenoyama,K。;Aihara,S.基于深度卷积网络的高效可训练文本语音系统,具有引导注意力。2018年IEEE声学、语音和信号处理国际会议(ICASSP)会议记录,加拿大阿联酋卡尔加里,2018年4月15日至20日;IEEE:美国新泽西州皮斯卡塔韦,2018年;第4784–4788页。[谷歌学者]
  45. Amberkar,A。;阿瓦沙莫尔,P。;Deshmukh,G。;Dave,P.使用递归神经网络进行语音识别。2018年3月1日至3日在印度哥印拜陀举行的2018年汇聚技术当前趋势国际会议论文集;IEEE:美国新泽西州皮斯卡塔韦,2018年;第1-4页。[谷歌学者]
  46. 熊,W。;Droppo,J。;黄,X。;塞德,F。;萨尔茨,M.L。;Stolcke,A。;Yu,D。;茨威格,G.《对话语音识别中的人类对等》。IEEE/ACM传输。语音语言程序。 2017,25, 2410–2423. [谷歌学者] [交叉参考]
  47. 帕克,D.S。;Chan,W。;Zhang,Y。;Chiu,C.C。;Zoph,B。;库布克,E.D。;Le,Q.V.Specengaret:一种简单的自动语音识别数据增强方法。arXiv公司 2019,arXiv:1904.08779。[谷歌学者]
  48. 萨贾迪,O。;格林伯格,C。;辛格,E。;梅森,L。;雷诺兹,D。NIST 2021说话人认可评估计划; NIST:美国马里兰州盖瑟斯堡,2021年。
  49. Zhang,Y。;秦,J。;帕克,D.S。;韩,W。;Chiu,C.C。;庞,R。;Le,Q.V。;Wu,Y.突破了语音自动识别的半监督学习的局限性。arXiv公司 2020,arXiv:2010.10504。[谷歌学者]
  50. Y.A.钟。;Zhang,Y。;Han,W。;Chiu,C.C。;秦,J。;庞,R。;Wu,Y.W2v-bert:结合对比学习和屏蔽语言建模进行自我监督的语音预训练。arXiv公司 2021,arXiv:2108.06209。[谷歌学者]
  51. Busso,C。;布卢特,M。;Lee,C.C。;Kazemzadeh,A。;Mower Provost,E。;Kim,S。;Chang,J。;Lee,S。;Narayanan,S.IEMOCAP:交互式情感二元运动捕捉数据库。语言资源。评估。 2008,42, 335–359. [谷歌学者] [交叉参考]
  52. 赵,J。;毛,X。;Chen,L.使用深度1D和2D CNN LSTM网络进行语音情感识别。生物识别。信号处理。控制 2019,47, 312–323. [谷歌学者] [交叉参考]
  53. Fayek,H。;Lech,M。;Cavedon,L.评估语音情感识别的深度学习架构。神经网络。 2017,92, 60–68. [谷歌学者] [交叉参考]
  54. 沈杰。;庞,R。;韦斯,R.J。;舒斯特,M。;北卡罗来纳州贾特利。;杨,Z。;陈,Z。;Zhang,Y。;Wang,Y。;Skerrv-Ryan,R。;等。通过调节mel谱图预测的波长网络来合成天然tts。2018年IEEE声学、语音和信号处理国际会议(ICASSP)会议记录,加拿大阿联酋卡尔加里,2018年4月15日至20日;IEEE:美国新泽西州皮斯卡塔韦,2018年;第4779–4783页。[谷歌学者]
  55. 普伦格,R。;瓦莱,R。;Catanzaro,B.Waveglow:用于语音合成的基于流的生成网络。2019年5月12日至19日在英国布莱顿举行的2019-2019年IEEE声学、语音和信号处理国际会议(ICASSP)会议记录;IEEE:美国新泽西州皮斯卡塔韦,2019年;第3617–3621页。[谷歌学者]
  56. Kalchbrenner,N。;Elsen,E。;Simonyan,K。;努里,S。;北卡罗来纳州卡萨格兰德。;洛克哈特,E。;斯汀伯格,F。;奥德,A.V.D。;迪尔曼,S。;Kavukcuoglu,K.高效神经音频合成。arXiv公司 2018,arXiv:1802.08435。[谷歌学者]
  57. 古德费罗,I。;Pouget-Abadie,J。;米尔扎,M。;徐,B。;Warde-Farley,D。;Ozair,S。;库尔维尔,A。;Bengio,Y.生成对抗网。高级神经信息处理。系统。 2014,27, 2672–2680. [谷歌学者]
  58. Karras,T。;艾拉,T。;莱恩,S。;Lehtinen,J.为提高质量、稳定性和变异性而进行的甘草生长。arXiv公司 2017,arXiv:1710.10196。[谷歌学者]
  59. Karras,T。;莱恩,S。;艾塔拉,M。;Hellsten,J。;Lehtinen,J。;Aila,T.分析和改善stylegan的图像质量。2020年6月14日至19日,美国华盛顿州西雅图,IEEE/CFF计算机视觉和模式识别会议记录;第8110–8119页。[谷歌学者]
  60. Choi,Y。;Choi,M。;Kim,M。;Ha,J.W。;Kim,S。;Choo,J.Stargan:用于多域图像到图像转换的统一生成对抗网络。2018年6月18日至22日,美国犹他州盐湖城,IEEE计算机视觉和模式识别会议记录;第8789–8797页。[谷歌学者]
  61. 阿加瓦尔,S。;法里德,H。;顾毅。;他,M。;K.长野。;Li,H.保护世界领导人免受深度假冒。2019年6月16日至20日,美国加利福尼亚州长滩,CVPR研讨会会议记录;第1卷。[谷歌学者]
  62. 佩罗夫,I。;高,D。;北切沃尼。;刘凯。;南卡罗来纳州马兰贡达。;C·尤美。;Dpfks,M。;Facenheim,C.S。;RP,L。;姜杰。;DeepFaceLab:集成的、灵活的和可扩展的face-swapping框架。arXiv公司 2020,arXiv:2005.05535。[谷歌学者]
  63. Suwajanakorn,S。;塞茨,S.M。;Kemelmacher-Shlizerman,I.合成奥巴马:从音频中学习唇形同步。ACM事务处理。图表。ToG公司 2017,36, 1–13. [谷歌学者] [交叉参考]
  64. Chen,L。;马多克斯,R.K。;段,Z。;Xu,C.动态像素损失的层次化跨模态人脸生成。2019年6月15日至20日在美国加利福尼亚州长滩举行的IEEE/CVF计算机视觉和模式识别会议记录;第7832–7841页。[谷歌学者]
  65. 周,Y。;韩,X。;谢赫特曼,E。;埃切瓦里亚,J。;Kalogerakis,E。;Li,D.Makelttalk:支持扬声器的有声头部动画。ACM事务处理。图表。TOG公司 2020,39, 1–15. [谷歌学者] [交叉参考]
  66. 梅什里,M。;苏里,S。;戴维斯,L.S。;Shrivastava,A.学习了少说话的头部合成的空间表征。2021年10月11日至17日,加拿大不列颠哥伦比亚省蒙特利尔,IEEE/CVF国际计算机视觉会议记录;第13829–13838页。[谷歌学者]
  67. 卢,Y。;Chai,J。;曹,X。现场演讲肖像:实时照片级真实感有声头部动画。ACM事务处理。图表。TOG公司 2021,40, 1–17. [谷歌学者] [交叉参考]
  68. Yi,R。;Ye,Z。;张,J。;Bao,H。;Liu,Y.J.Audio-driven talking face video generation with learning-based personalized head pose.音频驱动人脸视频生成,基于学习的个性化头部姿势。arXiv公司 2020,arXiv:2002.10137。[谷歌学者]
  69. Thies,J。;Elgharib,M。;Tewari,A。;Theobalt,C。;尼纳(Nießner),M.神经声音木偶:音频驱动的面部再现。《欧洲计算机视觉会议论文集》,英国格拉斯哥,2020年8月23日至28日;施普林格:德国柏林/海德堡,2020年;第716-731页。[谷歌学者]
  70. Chen,L。;崔,G。;刘,C。;李,Z。;寇,Z。;Xu,Y。;Xu,C.用有节奏的头部运动讲述一代人。《欧洲计算机视觉会议论文集》,英国格拉斯哥,2020年8月23日至28日;施普林格:德国柏林/海德堡,2020年;第35-51页。[谷歌学者]
  71. A.理查德。;Lea,C。;马,S。;加尔,J。;De la Torre,F。;Sheikh,Y.音频和视觉驱动的编解码器化身面部动画。《IEEE/CVF计算机视觉应用冬季会议论文集》,美国HI威科洛,2021年8月11日;第41-50页。[谷歌学者]
  72. 宋,L。;Wu,W。;钱,C。;He,R。;Loy,C.C.每个人都在说话:让我说你想说的话。IEEE传输。Inf.法医安全。 2022,17, 585–598. [谷歌学者] [交叉参考]
  73. Thies,J。;佐尔霍费尔,M。;Stamminger,M。;Theobalt,C。;Nießner,M.Face2face:实时人脸捕获和rgb视频重演。2016年6月26日至7月1日,美国内华达州拉斯维加斯,IEEE计算机视觉和模式识别会议记录;第2387–2395页。[谷歌学者]
  74. Tripathy,S。;坎纳拉,J。;Rahtu,E.Icface:使用gans进行可解释和可控的面部再现。《IEEE/CVF计算机视觉应用冬季会议论文集》,美国HI威科洛亚,2020年1月4日至8日;第3385–3394页。[谷歌学者]
  75. 周,H。;孙,Y。;Wu,W。;罗伊,C.C。;王,X。;Liu,Z.通过隐式模块化视听表示生成可控制的谈话人脸。2021年6月20日至25日在美国田纳西州纳什维尔举行的IEEE/CVF计算机视觉和模式识别会议记录;第4176-4186页。[谷歌学者]
  76. 周,H。;刘,Y。;刘,Z。;罗,P。;王,X。通过对抗性分离的视听再现进行面部生成。2019年1月27日至2月1日在美国夏威夷州火奴鲁鲁举行的AAAI人工智能会议记录;第33卷,第9299–9306页。[谷歌学者]
  77. 威尔斯,O。;Koepke,A。;Zisserman,A.X2face:使用图像、音频和姿势代码控制人脸生成的网络。2018年9月8日至14日在德国慕尼黑举行的欧洲计算机视觉会议(ECCV)会议记录;第670-686页。[谷歌学者]
  78. 哈,S。;科斯纳,M。;Kim,B。;Seo,S。;金·D·马里奥内特(Kim,D.Marionette):少有的面部重演,保留了看不见的目标的身份。美国纽约州纽约市AAAI人工智能会议记录,2020年2月7日至12日;第34卷,第10893–10900页。[谷歌学者]
  79. 班萨尔,A。;马,S。;拉马南,D。;Sheikh,Y.Recycle-gan:无监督视频重定目标。2018年9月8日至14日在德国慕尼黑举行的欧洲计算机视觉会议(ECCV)会议记录;第119-135页。[谷歌学者]
  80. Kim,H。;加里多,P。;Tewari,A。;徐,W。;Thies,J。;Niessner,M。;佩雷斯,P。;Richardt,C。;Zollhöfer,M。;Theobalt,C.深度视频肖像。ACM事务处理。图表。TOG公司 2018,37, 1–14. [谷歌学者] [交叉参考]
  81. F.蓬佩达。;Antfolk,J。;扎帕拉,A。;Santtila,P.结果和过程反馈的结合提高了使用化身模拟儿童性虐待访谈的性能。前面。精神病。 2017,8, 1474. [谷歌学者] [交叉参考] [绿色版本]
  82. F.蓬佩达。;Palu,A。;Kask,K。;希夫,K。;Soveri,A。;Antfolk,J。;Santtila,P.将模拟面试训练效果转化为对参加模拟活动的儿童的面试。北欧心理学。 2020,73, 43–67. [谷歌学者] [交叉参考]
  83. F.蓬佩达。;Zhang,Y。;Haginoya,S。;Santtila,P.《反馈对虚拟人物模拟儿童性虐待访谈质量影响的大型分析》。J.警察犯罪。精神病。 2022, 1–14. [谷歌学者] [交叉参考]
  84. Dalli,K.C.《基于阿凡达的面试培训应用程序的技术接受:AvBIT应用程序的开发和技术接受研究》。2021年,瑞典瓦克斯约林奈大学硕士论文。[谷歌学者]
  85. Johansson,D.儿童访谈培训用虚拟中介系统的设计与评估。2015年,日本神奈川Line大学硕士论文。[谷歌学者]
  86. M.阿巴迪。;阿加瓦尔,A。;巴勒姆,P。;Brevdo,E。;陈,Z。;Citro,C。;Corrado,G.S。;A.戴维斯。;迪安·J。;德文,M。;等人Tensorflow:异构分布式系统上的大规模机器学习。arXiv公司 2016,arXiv:1603.04467。[谷歌学者]
  87. Bunk,T。;瓦什内亚,D。;弗拉索夫,V。;Nichol,A.Diet:对话系统的轻量级语言理解。arXiv公司 2020,arXiv:2004.09936。[谷歌学者]
  88. ITU-T建议P.809。游戏质量的主观评价方法; 国际电信联盟:瑞士日内瓦,2018年。[谷歌学者]
  89. 刘易斯,M。;刘,Y。;戈亚尔,N。;Ghazvininejad,M。;Mohamed,A。;利维,O。;斯托亚诺夫,V。;Zettlemoyer,L.BART:自然语言生成、翻译和理解的去噪序列对序列预训练。arXiv公司 2019,arXiv:1910.13461。[谷歌学者] [交叉参考]
  90. 王,A。;辛格,A。;J·迈克尔。;希尔,F。;利维,O。;Bowman,S.GLUE:自然语言理解的多任务基准和分析平台。2018年EMNLP BlackboxNLP研讨会论文集:为NLP分析和解释神经网络,比利时布鲁塞尔,2018年11月1日;计算语言学协会:比利时布鲁塞尔,2018年;第353–355页。[谷歌学者] [交叉参考] [绿色版本]
  91. 布朗,T.B。;曼恩,B。;莱德,N。;Subbiah,M。;卡普兰,J。;Dhariwal,P。;Neelakantan,A。;Shyam,P。;萨斯特里,G。;Askell,A。;语言模型是少数快速学习者。arXiv公司 2020,arXiv:2005.14165。[谷歌学者]
  92. 杰克,R.E。;加罗德,O.G.B。;Schyns,P.G.情绪的动态面部表情随着时间的推移传递不断演变的信号层次。货币。生物。 2014,24, 187–192. [谷歌学者] [交叉参考] [绿色版本]
  93. 深水假货。github。2019.在线提供:https://github.com/deepfakes/faceswap(于2022年5月20日访问)。
  94. Sha,T。;张伟。;沈,T。;李,Z。;Mei,T.深度人物生成:从面部、姿势和服装合成角度进行的调查。arXiv公司 2021,arXiv:2109.02081。[谷歌学者]
  95. 朱,H。;罗,M。;王,R。;郑,A。;深度视听学习:一项调查。国际汽车杂志。计算。 2021,18, 351–376. [谷歌学者] [交叉参考]
  96. 托洛萨纳,R。;维拉·罗德里格斯(Vera-Rodriguez,R.)。;Fierrez,J。;莫拉莱斯,A。;Ortega-Garcia,J.Deepfakes及其他:面部操纵和假冒检测调查。信息融合 2020,64, 131–148. [谷歌学者] [交叉参考]
  97. 库马尔,R。;索特洛,J。;库马尔,K。;de Brébisson,A。;Bengio,Y.ObamaNet:从文本进行照片真实感唇形同步。arXiv公司 2018,arXiv:1801.01442。[谷歌学者]
  98. Baugerud,G.A。;约翰逊,M.S。;Klingenberg Röed,R。;兰姆,M.E。;鲍威尔,M。;塔姆巴维塔,V。;希克斯公司。;Salehi,P.等人。;哈桑,S.Z。;Halvorsen,P。;等。用于儿童调查访谈的多模式虚拟化身。2021年8月21日,台湾台北,《2021年智能交叉数据分析和检索研讨会论文集》;第2-8页。[谷歌学者]
  99. Chung,J.S。;Nagrani,A。;Zisserman,A.Voxceleb2:深度说话人识别。arXiv公司 2018,arXiv:1806.05622。[谷歌学者]
  100. Koo,T.K。;Li,M.Y.《可靠性研究类内相关系数的选择和报告指南》。J.Chiropr。医学。 2016,15, 155–163. [谷歌学者] [交叉参考] [公共医学] [绿色版本]
  101. Karras,T。;莱恩,S。;Aila,T.生成性对抗网络的基于样式的生成器体系结构。2019年6月16日至19日在美国加利福尼亚州长滩举行的IEEE/CVF计算机视觉和模式识别会议记录;第4401-4410页。[谷歌学者]
  102. 莫里,M。;麦克道曼,K.F。;Kageki,N.神奇的山谷[来自野外]。IEEE机器人。自动。美格。 2012,19, 98–100. [谷歌学者] [交叉参考]
  103. 麦克道曼,K.F。;绿色,R.D。;Ho,C.C。;科赫,C.T.太真实了吗?对计算机生成的人脸的不一致响应。计算。嗯。行为。 2009,25, 695–710. [谷歌学者] [交叉参考] [绿色版本]
  104. Brunnström,K。;Beker,S.A.公司。;De Moor,K。;末日,A。;艾格,S。;M.N.加西亚。;Hossfeld,T。;Jumisko-Pyykkö,S。;凯梅尔,C。;Larabi,医学博士。;等。Qualinet关于经验质量定义的白皮书; HAL:印度班加罗鲁,2013年。[谷歌学者]
图1。一种全面的面部操作技术。
图1。一种全面的面部操作技术。
Bdcc 06 00062 g001公司
图2。系统架构。绿色块表示交互部分,黄色块表示语言相关部分,蓝色块表示音频相关部分,粉红色块表示与可视化相关的系统部分。
图2。系统架构。绿色块表示交互部分,黄色块表示语言相关部分,蓝色块表示音频相关部分,粉红色块表示与可视化相关的系统部分。
Bdcc 06 00062 g002
图3。基于单位和基于GAN的动画化身中自然和合成声音的比较。
图3。基于单位和基于GAN的动画化身中自然和合成声音的比较。
Bdcc 06 00062 g003公司
图4。摘自窗口大小为5的用户研究,两种模型都符合人类的观点。
图4。摘自窗口大小为5的用户研究,两种模型都符合人类的观点。
Bdcc 06 00062 g004
图5。这是用户研究的一部分,窗口大小为3,这两种模型都与人类评分者不一致。
图5。这是用户研究的一部分,窗口大小为3,这两种模型都与人类评分者不一致。
Bdcc 06 00062 g005
图6。GPT-3和人类评分员一致认为,这应该被归类为恐惧,而BART模型将其归类为愤怒。
图6。GPT-3和人类评分员一致认为,这应该被归类为恐惧,而BART模型将其归类为愤怒。
Bdcc 06 00062 g006公司
图7。给定由styleGAN生成的任意源人脸图像[59,101]和驾驶视频ICface[74]产生了一个会说话的孩子。
图7。给定由styleGAN生成的任意源人脸图像[59,101]和驾驶视频ICface[74]产生了一个会说话的孩子。
Bdcc 06 00062 g007
图8。使用两种方法生成的会说话的头部视频插图,PCAVS[75]和MakeItTalk[65]. 输入是使用styleGAN生成的图像和使用IBMWatson生成的音频。前两行:PCAVS和后两行:MakeItTalk。
图8。使用PCAVS两种方法生成的有声视频的图示[75]和MakeItTalk[65]. 输入是使用styleGAN生成的图像和使用IBMWatson生成的音频。前两行:PCAVS,后两行:MakeItTalk。
Bdcc 06 00062 g008
图9。比较MakeItTalk的条形图(95%置信区间)[65]和PC-AVS[75].
图9。比较MakeItTalk的条形图(95%置信区间)[65]和PC-AVS[75].
Bdcc 06 00062 g009
图10。Bar-plot(95%置信区间)显示用户研究的结果,用于评估为基于GAN和基于游戏引擎的方法创建的两个最佳女性和男性角色。
图10。Bar-plot(95%置信区间)显示用户研究的结果,用于评估为基于GAN和基于游戏引擎的方法创建的两个最佳女性和男性角色。
Bdcc 06 00062 g010公司
出版商备注:MDPI对公布的地图和机构关联中的管辖权主张保持中立。

分享和引用

MDPI和ACS样式

Salehi,P。;哈桑,S.Z。;Lammerse,M。;萨贝特,S.S。;里瑟,I。;罗伊德,R.K。;约翰逊,M.S。;塔姆巴维塔,V。;希克斯公司。;鲍威尔,M。;等。合成一个会说话的儿童阿凡达来训练采访受虐待儿童的采访者。大数据认知。计算。 2022,6, 62.https://doi.org/10.3390/bdcc6020062

AMA风格

Salehi P、Hassan SZ、Lammerse M、Sabet SS、Riiser I、Röed RK、Johnson MS、Thambawita V、,Hicks SA、Powell M、,等。合成一个会说话的儿童阿凡达来训练采访受虐待儿童的采访者。大数据与认知计算. 2022; 6(2):62.https://doi.org/10.3390/bdcc6020062(网址:https://doi.org/10.3390/bdcc6020062)

芝加哥/图拉宾风格

Salehi、Pegah、Syed Zohaib Hassan、Myrth Lammerse、Saeed Shafiee Sabet、Ingvild Riiser、Ragnhild Klingenberg Røed、Miriam S.Johnson、,瓦吉拉·坦巴维塔(Vajira Thambawita)、史蒂文·希克斯(Steven A.Hicks)、马丁·鲍威尔(Martine Powell)、,等。2022年。“合成一个会说话的儿童阿凡达来训练采访受虐待儿童的采访者”大数据与认知计算6,编号2:62。https://doi.org/10.3390/bdcc6020062

文章指标

返回页首顶部