Vox电影

关于

VoxMovies是一个音频数据集，包含来自不同情感、口音和背景噪音电影的声音。

为了提高说话人识别系统在这个全新领域的性能，VoxMovies包含了许多领域自适应评估集。

856
扬声器

VoxMovies包含VoxCeleb1和VoxCelet2（说话人识别训练数据集）中说话人的语音，允许调查同一身份中的域更改。

1452年
影视

VoxMovies来源于浓缩电影数据集。这些电影涵盖了许多不同的类型，如喜剧、动作片、浪漫片和恐怖片。

8,905
言语

VoxMovies由音频剪辑组成。平均而言，每个身份都有2.7部不同电影的话语。因此，在每个身份内以及身份之间都可以看到情绪和背景噪音的变化。

VoxMovies中的电影类型

言语长度

下载并编码

数据集由训练和测试分区组成，以及几个领域自适应评估集。对于更多详细信息，请查看这个纸张.评估代码可以是建立在这里.

此网站暂时无法提供音频文件。

许可证

VoxMovies数据集可以下载用于商业/研究目的Creative Commons Attribution 4.0国际许可。版权归视频的原始所有者所有。可以找到许可证的完整版本在这里。

注意：我们注意到，VoxMovies数据集中的身份分布可能无法代表全球人口。在培训或部署根据此数据进行培训或评估的模型时，请注意意外的社会、性别、种族和其他偏见。

如果您对数据集有任何疑问，请联系以下作者。

出版物

如果您使用数据集，请引用以下内容。

A.布朗*,J.嗯*,A.纳格拉尼*,J.S.钟,A.齐瑟曼

扮演角色：电影中的演讲者验证

2021年国际声学、语音和信号处理会议

Biptex公司|摘要|PDF格式

@诉讼中{Brown20b，title={扮演角色：在电影中验证演讲者}，作者＝{Andrew Brown和Jaesung Huh和Arsha Nagrani和Joon Son Chung和Andrew Zisserman}，年份={2020年}，booktitle={声学、语音和信号处理国际会议（ICASSP），2021}}

A.纳格拉尼*,J.S.钟*,谢伟东（W.Xie）,A.齐瑟曼

Voxceleb：野外大型扬声器验证

2019年计算机科学与语言

Biptex公司|摘要|PDF格式

@第{Nagrani19条，author=“Arsha Nagrani和Joon~宋忠、谢伟迪和安德鲁·齐瑟曼”，title=“Voxceleb:野外大型扬声器验证”，journal=“计算机科学与语言”，year=“2019”，publisher=“爱思唯尔”，}

M.贝恩,A.纳格拉尼,A.布朗,A.齐瑟曼

浓缩电影：基于故事的上下文嵌入检索

2020年亚洲计算机视觉大会。

Biptex公司|摘要|PDF格式

@诉讼中{Bain20，author=“Max Bain和Arsha Nagrani以及Andrew Brown和Andrew Zisserman”，title=“压缩电影：基于故事的检索和上下文嵌入”，booktitle=“亚洲计算机视觉会议”，年=“2020”，}

*同等贡献

数据集示例

关于

856
扬声器

1452年
影视

8,905
言语

下载并编码

许可证

如果您对数据集有任何疑问，请联系以下作者。

出版物

如果您使用数据集，请引用以下内容。

鸣谢

这项工作得到了EPSRC计划拨款的支持参见bibyte EP/M013774/1：大数据时代的可视化搜索。

数据集示例

关于

856 扬声器

1452年 影视

8,905 言语

下载并编码

许可证

如果您对数据集有任何疑问，请联系以下作者。

出版物

如果您使用数据集，请引用以下内容。

鸣谢

这项工作得到了EPSRC计划拨款的支持参见bibyte EP/M013774/1：大数据时代的可视化搜索。

856
扬声器

1452年
影视

8,905
言语