大规模高质量的注释音符数据集。
目录
动机
图像生成建模的最新突破是基于高质量和大规模数据库的可用性,如MNIST、CIFAR和ImageNet。我们认识到需要一个音频数据集像在图像域中那样容易接近。
在野外发现的音频信号包含多尺度相关性,证明特别难以建模,导致之前在数据驱动方面的许多努力音频合成专注于更受约束的领域,如纹理合成或者训练小参数模型。
我们鼓励更广泛的社区使用NSynth作为基准和切入点进入音频机器学习。我们还将NSynth视为未来的构建块数据集,并为以下任务设想一个高质量的多注释数据集涉及学习复杂语言的生成和转录依赖关系。
描述
NSynth是一个包含305979个音符的音频数据集,每个音符都有一个独特的音高、音色和包络。对于来自商业样品的1006个仪器库,我们生成了四个第二单声道16kHz音频片段,被称为音符,通过在标准MIDI pian的每个音高上进行测距o(21-108)以及五种不同的速度(25、50、75、100、127)。注释在前三秒被保持,并在最后一秒被允许衰减。
有些乐器不能在这个范围内产生全部88个音高,导致每台乐器平均65.4个音高。此外商业样本包偶尔包含多个重复的声音速度,每个节距的平均独特速度为4.75。
我们还为每个注释添加了三条附加信息基于人类评估和启发式算法的组合:
-
来源:音符乐器的发声方法。这个可以成为其中之一声学的
或电子的
对于记录自的仪器声学或电子仪器,或合成的
对于合成仪器。查看他们的频率如下所示。
-
家庭:注释工具所属的高级系列。每件乐器都是一个家族的成员。请参见完整的列表和他们的频率如下所示。
-
质量:音符的音质。查看质量描述和他们的共现如下所示。每个音符都带有零个或多个音符。
文件夹
NSynth数据集可以两种格式下载:
整个数据集分为三组:
下面我们详细介绍注释特征在示例协议中是如何编码的缓冲区和JSON文件。
示例功能
每个示例都包含以下功能。
功能 |
类型 |
描述 |
笔记 |
整数64 |
注释的唯一整数标识符。 |
注释str |
字节 |
格式中注释的唯一字符串标识符<instrument_str>-<pitch>-<velocity(速度)> . |
工具 |
整数64 |
用于合成注释的仪器的唯一顺序标识符。 |
仪器str |
字节 |
此注释是根据以下格式合成的乐器的唯一字符串标识符<instrument_family_str>-<instrumental_production_str>-<instrument名称> . |
抛 |
整数64 |
范围[0127]中基于0的MIDI音高。 |
速度 |
整数64 |
范围[0127]中基于0的MIDI速度。 |
采样速率(_R) |
整数64 |
的每秒采样数音频 功能。 |
音频* |
[浮动] |
以[-1,1]范围内的浮点值表示的音频采样列表。 |
质量 |
[int64] |
一个二进制向量,表示声波品质出现在本说明中。 |
质量_str |
[字节] |
从声波质量列表. |
仪器家族 |
整数64 |
的索引仪器系列该文书是的成员。 |
仪器系列str |
字节 |
的ID仪器系列该文书是的成员。 |
仪器源 |
整数64 |
的索引声源用于此仪器。 |
仪器源str |
字节 |
的ID声源用于此仪器。 |
*注释:“音频”功能是从JSON编码的示例中忽略的,因为音频数据分别存储在由“notestr”键控的WAV文件中。
功能编码
本节包括指定中使用的功能名称和指示的表示例原型。
仪器来源
音符乐器的发声方法。每个仪器(及其所有注释)都标有一个。
索引 |
身份证件 |
0 |
声学的 |
1 |
电子的 |
2 |
合成的 |
仪器系列
纸币工具所属的高级系列。每个仪器(及其所有音符)都标有一个。
索引 |
身份证件 |
0 |
低音 |
1 |
黄铜 |
2 |
长笛 |
三 |
吉他 |
4 |
键盘 |
5 |
木槌 |
6 |
器官 |
7 |
芦苇 |
8 |
一串 |
9 |
合成读取 |
10 |
发声的 |
注释质量
我们为描述的10种不同音符质量提供质量注释如下所示。根据定义,除了“明亮”外,所有标签都不是互斥的和“黑暗”。然而,音符可能既不“明亮”也不“黑暗”。
索引 |
身份证件 |
描述 |
0 |
明亮的 |
高频含量大,高次谐波强。 |
1 |
黑暗的 |
明显缺乏高频内容,发出柔和的低音。有时也称为“温暖”。 |
2 |
扭曲 |
产生独特的脆声和许多谐波的波形。有时与非谐波噪声配对。 |
三 |
fast_decay(快速_日期) |
所有谐波的振幅包络在3秒的“注释”点之前大幅衰减。 |
4 |
长期租赁 |
振幅包络在“记录”点之后缓慢衰减,有时在采样结束4秒时仍然存在。 |
5 |
多声速的 |
存在与一个以上基频相关的泛音频率。 |
6 |
非线性env |
具有不同于音符单调衰减的不同包络行为的声音调制。还可以包括过滤器封套和动态封套。 |
7 |
冲击的 |
音符开始时响亮的非谐波声音。 |
8 |
混响 |
无法从原始样本中删除的房间声学。 |
9 |
速度同步 |
将声音按固定的节奏进行节奏调制。 |
例子
下面是单个注释的Example protocol buffer的字符串视图在数据集中,音频部分被抑制:
{ #(张量流示例)大小=250.4K 特征以下为: { #(张量流特征)大小=250.4K 特征以下为: { #(tensorflow.Features.FeatureEntry)大小=21B 钥匙 以下为: “采样率(_R)” #大小=11 价值以下为: { #(张量流特征)大小=6B int64_列表以下为: { #(tensorflow.Int64List)大小=4B 价值以下为: [ 16000 ]
} #功能。功能[0].value.int64_list } #功能。功能[0].value } #功能。功能[0] 特征以下为: { #(tensorflow.Features.FeatureEntry)大小=25B 钥匙 以下为: “质量_str” #大小=13 价值以下为: { #(张量流特征)尺寸=8B 字节列表以下为: { #(tensorflow.BytesList)大小=6B 价值以下为: [ “黑暗” ]
} #功能。功能[1]。值。字节列表 } #功能。功能[1]。值 } #功能。功能[1] 特征以下为: { #(tensorflow.Features.FeatureEntry)大小=42B 钥匙 以下为: “注释_str” #大小=8 价值以下为: { #(张量流特征)大小=30B 字节列表以下为: { #(tensorflow.BytesList)大小=28B 价值以下为: [ “低音合成_033-022-050” ] #尺寸=26 } #功能。功能[2]。值。字节列表 } #功能。功能[2]。值 } #功能。功能[2] 特征以下为: { #(tensorflow.Features.FeatureEntry)大小=27B 钥匙 以下为: “品质” #大小=9 价值以下为: { #(张量流特征)大小=14B int64_列表以下为: { #(tensorflow.Int64List)大小=12B 价值以下为: [ 0, 1, 0, 0, 0, 0, 0, 0, 0, 0 ]
} #功能.功能[3].值.int64_list } #功能。功能[3]。值 } #功能。功能[3] 特征以下为: { #(tensorflow.Features.FeatureEntry)大小=250.0K 钥匙 以下为: “音频” #大小=5 价值以下为: { #(张量流特征)大小=250.0K float_list(浮动列表)以下为: { #(tensorflow.FloatList)大小=250.0K 价值以下为: [ -1.3311218e-07号, ..., 1.3244664e-07号 ]
} #功能。功能[4].value.float_list } #功能。功能[4]。值 } #功能。功能[4] 特征以下为: { #(tensorflow.Features.FeatureEntry)大小=26B 钥匙 以下为: “仪器家族” #尺寸=17 价值以下为: { #(张量流特征)尺寸=5B int64_列表以下为: { #(tensorflow.Int64List)大小=3B 价值以下为: [ 0 ]
} #功能。功能[5].value.int64_list } #特征.特征[5].值 } #功能。功能[5] 特征以下为: { #(tensorflow.Features.FeatureEntry)大小=14B 钥匙 以下为: “音高” #大小=5 价值以下为: { #(张量流特征)尺寸=5B int64_列表以下为: { #(tensorflow.Int64List)大小=3B 价值以下为: [ 22 ]
} #features.feature[6].value.int64列表 } #特征.特征[6].值 } #功能。功能[6] 特征以下为: { #(tensorflow.Features.FeatureEntry)大小=26B 钥匙 以下为: “工具源” #大小=17 价值以下为: { #(张量流特征)尺寸=5B int64_列表以下为: { #(tensorflow.Int64List)大小=3B 价值以下为: [ 2 ]
} #功能。功能[7].value.int64_list } #特征.特征[7].值 } #功能。功能[7] 特征以下为: { #(tensorflow.Features.FeatureEntry)大小=40B 钥匙 以下为: “仪器_str” #大小=14 价值以下为: { #(张量流特征)大小=22B 字节列表以下为: { #(tensorflow.BytesList)大小=20B 价值以下为: [ “低音合成_033” ] #大小=18 } #功能.功能[8].值.字节列表 } #特征.特征[8].值 } #功能。功能[8] 特征以下为: { #(tensorflow.Features.FeatureEntry)大小=38B 钥匙 以下为: “仪器源str” #大小=21 价值以下为: { #(张量流特征)大小=13B 字节列表以下为: { #(tensorflow.BytesList)大小=11B 价值以下为: [ “合成” ] #大小=9 } #功能.feature[9].value.bytes_list } #特征.feature[9].value } #功能。功能[9] 特征以下为: { #(tensorflow.Features.FeatureEntry)大小=15B 钥匙 以下为: “备注”
价值以下为: { #(张量流特征)大小=7B int64_列表以下为: { #(tensorflow.Int64List)大小=5B 价值以下为: [ 201034 ] #196.32Ki;[如果是秒]:2天7小时 } #功能.feature[10].value.int64_list } #功能。功能[10].value } #功能。功能[10] 特征以下为: { #(tensorflow.Features.FeatureEntry)大小=20B 钥匙 以下为: “仪器” #大小=10 价值以下为: { #(张量流特征)大小=6B int64_列表以下为: { #(tensorflow.Int64List)大小=4B 价值以下为: [ 417 ]
} #功能。功能[11].value.int64_list } #特征.特征[11].值 } #特征。特征[11] 特征以下为: { #(tensorflow.Features.FeatureEntry)大小=33B 钥匙 以下为: “仪器家族_str” #尺寸=21 价值以下为: { #(张量流特征)尺寸=8B 字节列表以下为: { #(tensorflow.BytesList)大小=6B 价值以下为: [ “低音” ]
} #features.feature[12].value.bytes_list功能 } #特征.特征[12].值 } #功能。功能[12] 特征以下为: { #(tensorflow.Features.FeatureEntry)大小=17B 钥匙 以下为: “速度” #大小=8 价值以下为: { #(张量流特征)尺寸=5B int64_列表以下为: { #(tensorflow.Int64List)大小=3B 价值以下为: [ 50 ]
} #features.feature[13].value.int64_列表 } #特征.特征[13].值 } #特征。特征[13] } #功能}
这是JSON格式的同一示例的视图:
“低音合成_033-022-050”以下为: {
“备注”以下为: 201034,
“采样率(_R)”以下为: 16000,
“仪器家族”以下为: 0,
“质量”以下为: [
0,
1,
0,
0,
0,
0,
0,
0,
0,
0
],
“仪器源str”以下为: “合成”,
“注释_str”以下为: “低音合成_033-022-050”,
“仪器家族_str”以下为: “低音”,
“仪器_str”以下为: “低音合成_033”,
“音高”以下为: 22,
“仪器”以下为: 417,
“速度”以下为: 50,
“工具源”以下为: 2,
“质量_str”以下为: [
“黑暗”
]
}
统计
仪器类别
源为列、系列为列的仪器类的频率计数排。
家庭 |
声学 |
电子 |
合成 |
总计 |
低音的 |
200 |
8,387 |
60,368 |
68,955 |
黄铜 |
13,760 |
70 |
0 |
13,830 |
长笛 |
6,572 |
35 |
2,816 |
9,423 |
吉他 |
13343个 |
16,805 |
5,275 |
35423个 |
键盘 |
8,508 |
42,645 |
3,838 |
54,991 |
锤子 |
27,722 |
5,581 |
1,763 |
35,066 |
器官 |
176 |
36,401 |
0 |
36,577 |
里德 |
14,262 |
76 |
528 |
14,866 |
字符串 |
20,510 |
84 |
0 |
20,594 |
合成领奏 |
0 |
0 |
5,501 |
5,501 |
嗓音的 |
3,925 |
140 |
6,688 |
10753人 |
总计 |
108,978 |
110,224 |
86,777 |
305,979 |
质量共现
质量注释的共现概率和边际频率。两者均以百分比表示。
质量 |
明亮 |
深色 |
扭曲 |
快速衰退 |
长期释放 |
多声道 |
非线性包络 |
打击乐器 |
混响 |
速度同步 |
深色 |
0 |
|
|
|
|
|
|
|
|
|
扭曲 |
25.9 |
2.5 |
|
|
|
|
|
|
|
|
快速衰退 |
10 |
7.5 |
8.1 |
|
|
|
|
|
|
|
长期释放 |
9 |
5.2 |
9.8 |
0 |
|
|
|
|
|
|
多声道 |
6 |
1.5 |
5.4 |
2.8 |
6.9 |
|
|
|
|
|
非线性包络 |
8.5 |
1.4 |
6.6 |
2.1 |
6.7 |
8.6 |
|
|
|
|
打击乐器 |
6.2 |
5.1 |
3 |
52 |
0.8 |
2.4 |
0.9 |
|
|
|
混响 |
6.6 |
8.9 |
0.3 |
13 |
13.7 |
0.7 |
3.5 |
12.4 |
|
|
速度同步 |
2.4 |
1.8 |
5.2 |
0.4 |
6.4 |
9.3 |
2.3 |
1.5 |
0 |
|
频率 |
13.5 |
11 |
17 |
14.7 |
8.5 |
3.4 |
3.2 |
10.2 |
16.8 |
1.8 |
许可证
该数据集由谷歌公司根据Creative Commons Attribution 4.0 International(CC BY 4.0)许可证.
如何引用
如果您在工作中使用NSynth数据集,请引用纸张介绍地点:
杰西·恩格尔(Jesse Engel)、辛琼·雷斯尼克(Cinjon Resnick)、亚当·罗伯茨(Adam Roberts)、桑德·迪尔曼(Sander Dieleman)、道格拉斯·埃克(Douglas Eck)、,凯伦·西蒙扬(Karen Simonyan)和穆罕默德·诺鲁齐(Mohammad Norouzi)。“音符的神经音频合成使用WaveNet自动编码器。" 2017.
您也可以使用以下BibTeX条目:
@杂项{nsynth2017,作者={Jesse Engel、Cinjon Resnick和Adam Roberts桑德·迪尔曼(Sander Dieleman)、道格拉斯·埃克(Douglas Eck)、凯伦·西蒙扬(Karen Simonyan)和穆罕默德·诺鲁齐},Title={使用WaveNet自动编码器进行音乐音符的神经音频合成},年份={2017年},印记={arXiv:1704.01279},}
更新
- 2017年10月4日:从列车组中删除64条重复注释。