×

WaveNet公司

swMATH ID: 38795
软件作者: Aaron van den Oord、Sander Dieleman、Heiga Zen、Karen Simonyan、Oriol Vinyals、Alex Graves、Nal Kalchbrenner、Andrew Senior、Koray Kavukcuoglu
描述: WaveNet:原始音频的生成模型。本文介绍了用于生成原始音频波形的深度神经网络WaveNet。该模型是完全概率和自回归的,每个音频样本的预测分布以所有先前的样本为条件;尽管如此,我们还是证明了它可以在每秒数万个音频样本的数据上进行有效训练。当应用于文本到语音转换时,它产生了最先进的性能,人类听众将其评为比英语和汉语的最佳参数和级联系统更自然的发音。单个WaveNet可以以同样的保真度捕获许多不同说话人的特征,并且可以通过调节说话人身份在它们之间切换。当我们接受音乐建模训练时,我们发现它会产生新颖且往往高度真实的音乐片段。我们还表明,它可以用作一个判别模型,为音素识别返回有希望的结果。
主页: https://arxiv.org/abs/1609.03499
源代码:  https://github.com/ibab/sensorflow-wavenet
关键词: 声音;arXiv_cs。标准偏差;机器学习;arXiv_cs。LG公司;WaveNet公司;原始音频;深度神经网络
相关软件: 亚当;Tensor2传感器;ImageNet公司;AlexNet公司;PyTorch公司;BERT(误码率);TensorFlow公司;凯拉斯;Wasserstein甘;达奇;字节网;PRMLT公司;GNMT公司;XGBoost公司;时尚GAN;辉光;像素x像素;CycleGAN公司;F3DAM公司;github
引用于: 48文件
全部的 前5名

157位作者引用

2 马西莫·福纳西耶
2 侯佳根
2 斯蒂芬·曼特
2 约瑟夫·马里诺
2 塔潘·穆克吉
2 宋遂宏
2 孙伟庆
2 尼古拉斯·弗拉西斯。
1 费迪·阿拉贾吉
1 阿拉米达·皮内达(Alameda-Pineda),泽维尔(Xavier)
1 罗塞拉·阿库奇
1 迈克尔·奥利
1 鲍成龙
1 别、小雨
1 Stepan A.Bogdanov。
1 贝诺阀盖
1 马特科·博什尼亚克
1 努雷丁·布姆莱克
1 克里斯蒂安·布拉沃
1 约翰·布雷默
1 菲利普·伯琳娜
1 拉尔斯·比辛
1 阿尔哈桑·卡塞
1 张旭婷
1 菲利普·查蒂尼
1 陈磊
1 陈伟
1 程浩
1 程乐
1 程磊
1 程伟
1 克里斯蒂娜·西普里亚尼
1 迪迪埃·克鲁托
1 汤姆·柯林斯
1 克兰默,凯尔
1 崔晓东
1 蒂塔拉吉·达什
1 法比奥·德科尔
1 朱利安·迪亚德
1 Henk A.Dijkstra。
1 博伊科·多多夫
1 董敖祥
1 杜维涛
1 卡提克省杜莱萨米
1 马克西姆·杜瓦尔
1 凯文·埃利斯
1 范建生
1 克里斯托夫·费赫滕霍夫
1 冯慧芳
1 菲德勒,克里斯蒂安
1 罗伯特·菲尔德斯
1 佩德罗·弗雷尔。
1 高岳
1 菲利波·加蒂
1 克里斯托夫·盖斯勒
1 劳伦·吉林
1 大卫·格兰杰
1 郭一科
1 韩、珍
1 何嘉伟
1 彼得·霍夫。
1 黄慧
1 黄俊浩
1 黄磊
1 黄子汉
1 托马斯·休伯
1 纪水旺
1 姜浩天
1 姜新通
1 Takuya加藤
1 鲁斯兰·哈利托夫
1 迈克尔·基尔古尔
1 蒂莫·科洛克
1 罗伯特·诺布洛赫
1 科利,普希米特
1 科兰吉,卡梅什
1 拉尔夫·科恩
1 彼得·克雷奇默
1 基里亚齐斯(Kyriazis,Dimostenis)
1 弗朗索瓦·洛朗
1 西蒙·莱莱夫
1 克里斯蒂安·莱斯格
1 李德忠
1 李倩晓
1 刘浩
1 刘建伟
1 基尔斯·卢佩
1 马少辉
1 马志明
1 乔治·马克里迪斯
1 Jean-Baptiste马森
1 菲利普·马夫拉皮斯
1 孟,齐
1 尼古拉斯·莫里泽特
1 克利斯朵夫·缪斯
1 克里斯托弗·佩恩(Christopher C.Pain)。
1 Jean-Marc Patenude公司
1 威廉·保罗
1 胡安·帕维兹
1 达里奥·巴韦罗
…还有57位作者

按年份列出的引文