跳到主要内容
研究论文
公共访问

动漫导引语音合成

出版:2019年11月8日 出版历史
  • 获取引文提醒
  • 摘要

    我们介绍了一种为漫画合成逼真演讲的新颖方法。使用漫画页面作为输入,我们的方法根据阅读流程为每个漫画角色合成演讲。它采用级联策略将语音合成分为两个阶段:喜剧视觉分析和喜剧语音合成。在第一阶段,对输入的漫画页面进行分析,以确定角色的性别和年龄,以及每个角色所说的文本和相应的情感。在这个分析的指导下,在第二阶段,我们的方法为每个角色合成真实的演讲,这与视觉观察一致。我们的实验表明,所提出的方法可以为不同类型的漫画合成逼真生动的演讲。对多个样本漫画的合成结果进行的感知研究验证了我们的方法的有效性。

    补充材料

    ZIP文件 (a187-wang.zip)
    补充文件。

    工具书类

    [1]
    瓦利德·阿卜杜拉。2017.屏蔽R-CNN,用于Keras和TensorFlow上的对象检测和实例分割。https://github.com/matterport/Mask_RCNN。
    [2]
    Olivier Augereau、Motoi Iwata和Koichi Kise。2018年,计算机科学漫画研究调查。成像杂志4, 7 (2018), 87.
    [3]
    Rainer Banse和Klaus R Scherer。1996年。声音情感表达的声学特征。人格与社会心理学杂志70, 3 (1996), 614.
    [4]
    Pascal Belin、Patricia EG Bestelmeyer、Marianne Latinus和Rebecca Watson。2011.了解声音感知。英国心理学杂志102, 4 (2011), 711--725.
    [5]
    帕斯卡·贝林(Pascal Belin)、雪莉·费克图(Shirley Fecteau)和凯瑟琳·贝达德(Catherine Bedard)。2004.思考声音:声音感知的神经相关性。认知科学趋势8, 3 (2004), 129--135.
    [6]
    P.普拉特·博尔斯马。2002年,《计算机语音教学系统》。格洛特国际5, 9/10 (2002), 341--345.
    [7]
    维姬·布鲁斯和安迪·杨。1986.了解人脸识别。英国心理学杂志77, 3 (1986), 305--327.
    [8]
    Salvatore Campanella和Pascal Belin。2007年,将面部和声音融入人的感知。认知科学趋势11, 12 (2007), 535--543.
    [9]
    陈曹、吴洪志、翁燕林、邵天嘉、周坤。2016年。使用基于图像的动态头像进行实时面部动画。TOG公司35, 4 (2016), 126.
    [10]
    曹颖(Ying Cao)、陈安东(Antoni B.Chan)和刘永生(Rynson W.H.Lau)。2012.自动风格的漫画布局。TOG公司31, 6 (2012), 1--10.
    [11]
    曹颖、刘龙生和陈安东尼。2014.看这里:漫画元素的注意力导向构成。TOG公司33, 4 (2014), 1--11.
    [12]
    Wei-Ta Chu和Wei-Wei Li.2017。漫画脸网:基于深度神经网络的漫画人脸检测国际资本市场规则。美国医学会,412--415。
    [13]
    魏塔柱和李伟伟,2019年。融合全局和局部信息的深度神经网络人脸检测。模式识别86 (2019), 62--72.
    [14]
    K Dimos、L Dick和V Dellwo。2015.言语韵律中情绪水平的感知。苏格兰ICPhS联合会(2015).
    [15]
    Alexander Dunst、Jochen Laubrock和Janina Wildfeuer。2018实证漫画研究:数字、多模态和认知方法。劳特利奇。
    [16]
    马雷克·德沃罗泽纳克、威尔莫特·李、弗拉基米尔·G·金和丹尼尔·斯科拉。2018.Toonsynth:基于示例的手绘卡通动画合成。TOG公司37, 4 (2018), 167.
    [17]
    杰西·恩格尔、辛琼·雷斯尼克、亚当·罗伯茨、桑德·迪尔曼、穆罕默德·诺鲁齐、道格拉斯·埃克和凯伦·西蒙扬。2017.使用WaveNet自动编码器进行音乐音符的神经音频合成。国际资本市场协会。1068--1077.
    [18]
    Haytham M Fayek、Margaret Lech和Lawrence Cavedon。2017.评估语音情感识别的深度学习架构。神经网络92 (2017), 60--68.
    [19]
    比亚克·费尔博(Bjarke Felbo)、阿兰·米斯洛夫(Alan Mislove)、安德斯·瑟加德(Anders Sögaard)、伊亚德·拉旺(Iyad Rahwan)和苏恩·莱曼(Sune Lehmann)。2017.使用数百万次表情符号来学习任意域表示法,以检测情绪、情感和讽刺。自然语言处理中的放射方法会议。
    [20]
    亚当·芬克尔斯坦(Adam Finkelstein)、亚当·芬克尔斯坦(亚当·芬克斯坦)、亚当·芬克尔斯斯坦(Adam芬克尔斯坦因)、亚当·芬克尔斯坦(Adam-Finkelstein)和亚当·芬克尔斯坦(Adam-Binkelstei)。2017.VoCo:音频叙事中基于文本的插入和替换。TOG公司36, 4 (2017), 96.
    [21]
    Brendan J Frey和Delbert Dueck。2007.通过在数据点之间传递消息进行聚类。科学315, 5814 (2007), 972--976.
    [22]
    Aviv Gabbay、Asaph Shamir和Shmuel Peleg。2018年,视觉语音增强。Interspeech公司。1170--1174.
    [23]
    阿西夫·加赞法尔和德鲁·伦达尔。2008年,人类发声的演变。当代生物学18、11(2008),R457--R460。
    [24]
    Ankush Gupta、Andrea Vedaldi和Andrew Zisserman。2016.自然图像中文本本地化的合成数据。CVPR公司。2315--2324.
    [25]
    Raia Hadsell、Sumit Chopra和Yann LeCun。2006.通过学习不变映射降低维数。CVPR公司,第2卷。IEEE,1735-1742年。
    [26]
    W基思·黑斯廷斯。1970.使用马尔可夫链的蒙特卡罗抽样方法及其应用。生物特征57, 1 (1970), 97--109.
    [27]
    Iben Have和Birgitte Stougard Pedersen。2013.书的声音调解:有声读物的启示。MedieKulture:媒体与传播研究杂志29、54(2013),18-p。
    [28]
    胡立文、齐藤顺介、魏玲玉、长野小木、徐在武、延斯·富松德、伊曼·萨德吉、孙嘉莉、陈彦春和郝丽,2017年。从单个图像进行虚拟形象数字化以进行实时渲染。TOG公司36, 6 (2017), 195.
    [29]
    安德鲁·亨特和艾伦·W·布莱克。1996年。使用大型语音数据库的级联语音合成系统中的单元选择。ICASSP公司,第1卷。373--376.
    [30]
    Nal Kalchbrenner、Erich Elsen、Karen Simonyan、Seb Noury、Norman Casagrande、Edward Lockhart、Florian Stimberg、Aaron van den Oord、Sander Dieleman和Koray Kavukcuoglu。2018年,高效神经音频合成。ICML公司,第80卷。2410--2419.
    [31]
    Miyuki Kamachi、Harold Hill、Karen Lander和Eric Vatikiotis-Bateson。2003.把脸对着声音:跨模态匹配身份。当代生物学13, 19 (2003), 1709--1714.
    [32]
    川原秀树、莫里斯、高桥彻、西村良治、伊里诺和班诺。2008.串联序列:周期信号的时间稳定功率谱表示,以及无干扰谱、F0和非周期性估计的应用。ICASSP。3933--3936.
    [33]
    Bernhard Kratzwald、Suzana Ilić、Mathias Kraus、Stefan Feuerriegel和Helmut Prendinger。2018.情感计算的深度学习:决策支持中基于文本的情感识别。决策支持系统115 (2018), 24--35.
    [34]
    Andy SY Lai、Chris YK Wong和Oscar CH Lo。2015年,将增强现实技术应用于图书出版业务。国际电子商务工程会议。IEEE,281--286。
    [35]
    伊宁郎、魏亮、王玉佳和于兰飞。2019.个性印象驱动的三维人脸合成。AAAI公司,第33卷。1707--1714.
    [36]
    Norman J Lass、Karen R Hughes、Melanie D Bowyer、Lucille T Waters和Victoria T Bourne。1976年。通过浊音、耳语和过滤的孤立元音识别说话人性别。美国声学学会杂志59, 3 (1976), 675--678.
    [37]
    李永根、阿扎姆·拉比和李秀英。2017.情感端到端神经语音合成器。NIPS研讨会。
    [38]
    李承泽、刘雪婷和黄天仙。2017年,漫画结构线的深度提取。TOG公司36, 4 (2017), 117.
    [39]
    郝丽、康永国和王振宇。2018.EMPHASIS:语音合成系统的基于情感音素的声学模型。arXiv预打印arXiv:1806.09276(2018).
    [40]
    刘紫薇、罗萍、王晓刚和唐晓鸥。2015年,深入学习野外面部特征。ICCV。3730--3738.
    [41]
    马建奇、邵伟远、郝晔、王丽、王红、郑迎斌和薛向阳。2018.通过旋转方案进行任意方向的场景文本检测。TMM公司20, 11 (2018), 3111--3122.
    [42]
    松井优助、伊藤高塔、荒木由纪夫、藤本固木、小川彻、山崎俊彦和爱泽清原。2017.使用manga109数据集进行基于草图的漫画检索。多媒体工具和应用程序76, 20 (2017), 21811--21838.
    [43]
    Phil McAleer、Alexander Todorov和Pascal Belin。2014.你怎么说“你好”?简短的新奇声音给人的个性印象。PLOS ONE系列9,3(2014),e90779。
    [44]
    Rachel Mcdonnell、Cathy Ennis、Simon Dobbyn和Carol O'Sullivan。2009.谈话主体:对谈话失同步的敏感性。TAP接头6, 4 (2009), 1--8.
    [45]
    索鲁什·梅赫里(Soroush Mehri)、昆丹·库马尔(Kundan Kumar)、伊沙安·古拉贾尼(Ishaan Gulrajani)、丽瑟斯·库马尔、舒巴姆·贾因(Shubham Jain)、何塞·索特洛(Jose Sotelo。2017.SampleRNN:一种无条件的端到端神经音频生成模型。国际解放卢旺达民主共和国。
    [46]
    大卫·S·米尔。1989年:超越给定的图式:对文学叙事的情感理解。3, 1 (1989), 55--78.
    [47]
    Seyed Hamidreza Mohammadi和Alexander Kain。2017年,语音转换系统概述。语音通信88, 88 (2017), 65--82.
    [48]
    Masanori Morise、Fumiya Yokomori和Kenji Ozawa。2016.WORLD:基于声码器的实时应用高质量语音合成系统。Ieice信息与系统交易99, 7 (2016), 1877--1884.
    [49]
    R.W.Morris和M.A.Clements。2002年,从耳语中重建言语。医学工程与物理学24, 7 (2002), 515--520.
    [50]
    Nhu-Van Nguyen、Christophe Rigaud和Jean-Christophe Burie,2017年。使用深度学习检测漫画字符。IAPR文件分析和识别国际会议,第3卷。IEEE,41-46。
    [51]
    小川彻(Toru Ogawa)、大佐忠寿(Atsushi Otsubo)、成田丽(Rei Narita)、松井优助(Yusuke Matsui)、山崎俊彦(Toshihiko Yamasaki)和爱泽清(Kiyoharu Aizawa)。2018年,使用Manga109注释对漫画进行目标检测。CoRR公司abs/1803.08670(2018)。
    [52]
    Jan Ondřej、Cathy Ennis、Niamh A Merriman和Carol O'sullivan。2016年,弗兰肯·福克:声音和动作的独特性和吸引力。TAP接头13, 4 (2016), 20.
    [53]
    欧大一和马克卓明。2017.通过修改边界条件优化板结构的固有频率。美国声学学会杂志142,1(2017),EL56--EL62。
    [54]
    彭旭芳(Xufang Pang)、曹颖(Ying Cao)、刘永生(Rynson WH Lau)和陈安东(Antoni B Chan)。2014.一种稳健的漫画面板提取方法。国际多媒体会议。美国医学会,1125-1128。
    [55]
    罗伯特·彼得森。2011漫画、漫画和平面小说:平面叙事的历史。ABC-CLIO公司。
    [56]
    齐思远、王文冠、贾宝雄、沈建兵和朱松春。2018年。通过图形解析神经网络学习人机交互。ECCV公司。401--417.
    [57]
    秦晓冉、周亚峰、何哲琦、王永涛和智堂。2017.基于R-CNN的快速漫画人物面部检测方法。IAPR文件分析和识别国际会议,第1卷。IEEE,1074--1080。
    [58]
    曲英戈、彭伟文、黄天仙和冯安恒。2008年,《财富》杂志评选。TOG公司27, 5 (2008), 1--8.
    [59]
    屈英戈、黄天仙和冯安恒。2006.漫画着色。TOG公司25, 3 (2006), 1214--1220.
    [60]
    理查德·里曼(Richard Rieman)。2016《音频电子书创作指南》。布雷肯里奇出版社。
    [61]
    克里斯托夫·里戈尔(Christophe Rigaud)、克莱门特·盖林(Clément Guérin)、迪莫斯坦尼斯·卡拉茨(Dimostenis Karatzas)、珍妮·克里斯托普·布里(Jean-Christophe Burie)和珍妮·马尔克·奥吉尔(Jean-Marc Ogier)。2015.知识驱动的对漫画中图像的理解。国际文献分析与识别杂志18, 3 (2015), 199--221.
    [62]
    Ethan M Rudd、Manuel Günther和Terrance E Boult。2016年,Moon:面部特征识别的混合目标优化网络。ECCV公司。19--35.
    [63]
    Jonathan Shen、Ruoming Pang、Ron J Weiss、Mike Schuster、Navdeep Jaitly、Zongheng Yang、Zhifeng Chen、Yu Zhang、Yuxuan Wang、Rj Skerrv-Ryan等人,2018年。通过对梅尔谱图预测的波长网进行调节来合成天然tts。ICASSP。IEEE,4779--4783。
    [64]
    史宝光、杨明坤、王兴刚、吕鹏远、姚聪和白翔。2018年。Aster:一种具有灵活纠错功能的注意力场景文本识别器。TPAMI公司(2018).
    [65]
    埃德加·西莫·塞拉(Edgar Simo-Serra)、稻冢聪(Satoshi Iizuka)、佐佐木一郎(Kazuma Sasaki)和石川浩(Hiroshi Ishikawa)。2016.学习简化:草图清理的完全卷积网络。TOG公司35, 4 (2016), 121.
    [66]
    RJ Skerry-Ryan、Eric Battenberg、Ying Xiao、Yuxuan Wang、Daisy Stanton、Joel Shor、Ron J Weiss、Rob Clark和Rif A Saous。2018年。使用Tacotron实现表达性语音合成的端到端韵律转换。ICML中。4700--4709.
    [67]
    Jose Sotelo、Soroush Mehri、Kundan Kumar、Joao Felipe Santos、Kyle Kastner、Aaron Courville和Yoshua Bengio。2017.Char2wav:端到端语音合成。学习代表国际会议讲习班。
    [68]
    Marco Stricker、Olivier Augereau、Koichi Kise和Motoi Iwata。2018年,漫画图像的面部地标检测。arXiv预打印arXiv:1811.03214(2018).
    [69]
    苏帕索恩·苏瓦贾纳科恩(Supasorn Suwajanakorn)、史蒂文·塞茨(Steven M.Seitz)、伊拉·凯梅尔马赫·什利泽曼(Ira Kemelmacher-Shlizerman)、苏帕索恩·苏瓦贾纳科恩(Subasorn Sowajanacorn)、史蒂文·塞茨(史蒂文·赛茨)、伊拉·凯梅尔马赫-什利泽尔曼(Ila Kemelmacher-Shizerman)和苏瓦贾那科恩(。2017.合成奥巴马:从音频中学习唇形同步。TOG公司36, 4 (2017), 1--13.
    [70]
    黛布拉·特拉佩(Debra Trampe)、乔迪·奎德巴赫(Jordi Quoidbach)和马克西姆·塔奎特(Maxime Taquet)。2015.日常生活中的情绪。PLOS ONE系列10, 12 (2015).
    [71]
    Aaron van den Oord、Sander Dieleman、Heiga Zen、Karen Simonyan、Oriol Vinyals、Alex Graves、Nal Kalchbrenner、Andrew Senior和Koray Kavukcuoglu。2016.WaveNet:原始音频的生成模型。第九届ISCA语音合成研讨会。125--125.
    [72]
    罗宾·瓦纳姆和克里斯蒂娜·吉本斯。2007漫画的语言:文字和图像。密西西比大学出版社。
    [73]
    Christophe Veaux、Junichi Yamagishi、Kirsten MacDonald等,2016年。SUPERSEDEDCSTR VCTK语料库:CSTR语音克隆工具包的英语多扬声器语料库。(2016).
    [74]
    王文冠、沈建兵和凌海滨。2018年a。一个深度网络解决方案,用于关注和美学意识的照片裁剪。TPAMI公司41, 7 (2018), 1531--1544.
    [75]
    王文冠、徐元禄、沈建兵和朱松春。2018年c。关注时尚语法网络,用于时尚地标检测和服装类别分类。CVPR公司。4271--4280.
    [76]
    王玉佳、魏亮、沈建兵、贾云德和于兰飞。2019.根据合成数据进行头部姿势估计的深度粗-精网络。模式识别94 (2019), 196--206.
    [77]
    王宇轩(Yuxuan Wang)、RJ Skerry-Ryan、戴西·斯坦顿(Daisy Stanton)、吴永辉(Yonghui Wu)、罗恩·杰斯(Ron J Weiss)、Navdeep Jaitly、杨宗衡(Zongheng Yang)、肖英(Ying Xiao)、陈志峰(Zhifeng Chen)、萨米·本吉奥(Samy Bengio)等,2017年。塔科顿:走向端到端语音合成。Interspeech会议记录。4006--4010.
    [78]
    王宇轩、黛西·斯坦顿、张宇、RJ Skerry Ryan、Eric Battenberg、Joel Shor、Ying Xiao、Fei Ren、Ye Jia和Rif A Saurous。2018年b月。风格标记:端到端语音合成中的无监督风格建模、控制和传输。国际资本市场协会。
    [79]
    王忠秋和伊凡·塔舍夫。2017年。使用深层神经网络学习言语情感和年龄/性别识别的话语级表征。ICASSP。IEEE,5150--5154。

    引用人

    查看全部
    • (2024)CIGMA:通过生成模型自动生成3D房屋布局第七届数据科学与数据管理联合国际会议记录(第十一届ACM IKDD CODS和第二十九届COMAD)10.1145/3632410.3632490(542-546)在线发布日期:2024年1月4日
    • (2024)DFAMNet:LiDAR点云语义分割的双融合注意力多模态网络应用智能2007年10月10日/10489-024-05302-754:4(3169-3180)在线发布日期:2024年2月1日
    • (2023)PU-FPG公司智能与模糊系统杂志:工程与技术应用10.3233/JIFS-23249045:5(8595-8612)在线发布日期:2023年11月4日
    • 显示更多引用者

    建议

    评论

    信息和贡献者

    问询处

    发布于

    封面图片ACM图形事务
    ACM图形事务 第38卷第6期
    2019年12月
    1292页
    国际标准编号:0730-0301
    EISSN公司:1557-7368
    内政部:10.1145/3355089
    期刊目录
    如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]

    出版商

    计算机协会

    美国纽约州纽约市

    出版历史

    出版:2019年11月8日
    在TOG中发布体积38,问题6

    权限

    请求对此文章的权限。

    检查更新

    作者标记

    1. 漫画
    2. 深度学习
    3. 语音合成

    限定符

    • 研究文章

    资金来源

    贡献者

    其他指标

    文献计量学和引文

    文献计量学

    文章指标

    • 下载次数(过去12个月)272
    • 下载次数(最近6周)11

    其他指标

    引文

    引用人

    查看全部
    • (2024)CIGMA:通过生成模型自动生成3D房屋布局第七届数据科学与数据管理联合国际会议记录(第十一届ACM IKDD CODS和第二十九届COMAD)10.1145/3632410.3632490(542-546)在线发布日期:2024年1月4日
    • (2024)DFAMNet:LiDAR点云语义分割的双融合注意力多模态网络应用智能2007年10月10日/10489-024-05302-754:4(3169-3180)在线发布日期:2024年2月1日
    • (2023)PU-FPG公司智能与模糊系统杂志:工程与技术应用10.3233/JIFS-23249045:5(8595-8612)在线发布日期:2023年11月4日
    • (2023)通过学习人类场景交互生成活动片段ACM图形事务10.1145/359209642:4(1-15)在线发布日期:2023年7月26日
    • (2023)三维点云对比学习中的图谱扰动第31届ACM国际多媒体会议记录10.1145/3581783.3612469(5389-5398)在线发布日期:2023年10月26日
    • (2023)ReCo:住宅小区布局规划数据集第31届ACM国际多媒体会议记录10.1145/3581783.3612465(397-405)在线发布日期:2023年10月26日
    • (2023)基于变换器的点云生成网络第31届ACM国际多媒体会议记录10.1145/3581783.3612226(4169-4177)在线发布日期:2023年10月26日
    • (2023)探索大尺度点云的双重表示:一个简单的弱监督语义分割框架第31届ACM国际多媒体会议论文集10.1145/3581783.3612224(2371-2380)在线发布日期:2023年10月26日
    • (2023)Ada3Diff:通过自适应扩散防御3D对抗点云第31届ACM国际多媒体会议记录10.1145/3581783.3612018(8849-8859)在线发布日期:2023年10月26日
    • (2023)FloorGAN:用于自动生成楼层布局的生成网络第六届数据科学与数据管理联合国际会议记录(第十届ACM IKDD CODS和第二十八届COMAD)10.1145/3570991.3571057(140-148)在线发布日期:2023年1月4日
    • 显示更多引用者

    视图选项

    视图选项

    PDF格式

    以PDF文件查看或下载。

    PDF格式

    电子阅读器

    使用联机查看电子阅读器.

    电子阅读器

    获取访问权限

    登录选项

    完全访问权限

    媒体

    数字

    其他

    桌子

    分享

    分享

    共享此出版物链接

    在社交媒体上分享