大规模高质量的注释音符数据集。

下载

动机

图像生成建模的最新突破是基于高质量和大规模数据库的可用性，如MNIST、CIFAR和ImageNet。我们认识到需要一个音频数据集像在图像域中那样容易接近。

在野外发现的音频信号包含多尺度相关性，证明特别难以建模，导致之前在数据驱动方面的许多努力音频合成专注于更受约束的领域，如纹理合成或者训练小参数模型。

我们鼓励更广泛的社区使用NSynth作为基准和切入点进入音频机器学习。我们还将NSynth视为未来的构建块数据集，并为以下任务设想一个高质量的多注释数据集涉及学习复杂语言的生成和转录依赖关系。

描述

NSynth是一个包含305979个音符的音频数据集，每个音符都有一个独特的音高、音色和包络。对于来自商业样品的1006个仪器库，我们生成了四个第二单声道16kHz音频片段，被称为音符，通过在标准MIDI pian的每个音高上进行测距o（21-108）以及五种不同的速度（25、50、75、100、127）。注释在前三秒被保持，并在最后一秒被允许衰减。

有些乐器不能在这个范围内产生全部88个音高，导致每台乐器平均65.4个音高。此外商业样本包偶尔包含多个重复的声音速度，每个节距的平均独特速度为4.75。

我们还为每个注释添加了三条附加信息基于人类评估和启发式算法的组合：

来源：音符乐器的发声方法。这个可以成为其中之一声学的或电子的对于记录自的仪器声学或电子仪器，或合成的对于合成仪器。查看他们的频率如下所示。
家庭：注释工具所属的高级系列。每件乐器都是一个家族的成员。请参见完整的列表和他们的频率如下所示。
质量：音符的音质。查看质量描述和他们的共现如下所示。每个音符都带有零个或多个音符。

格式

文件夹

NSynth数据集可以两种格式下载：

TF记录序列化的文件TensorFlow协议缓冲区示例带有一个示例原型每个注释。
JSON文件包含非音频功能以及16位PCM WAV音频文件。

整个数据集分为三组：

列车[tf记录|json/波]：包含289205个示例的培训集。仪器不与有效或测试重叠。
有效[tf记录|json/wav格式]：包含12678个示例的验证集。仪表不与列车重叠。
测试[tf记录|json/波]：包含4096个示例的测试集。仪表不与列车重叠。

下面我们详细介绍注释特征在示例协议中是如何编码的缓冲区和JSON文件。

示例功能

每个示例都包含以下功能。

功能	类型	描述
笔记	`整数64`	注释的唯一整数标识符。
注释str	`字节`	格式中注释的唯一字符串标识符`<instrument_str>-<pitch>-<velocity（速度）>`.
工具	`整数64`	用于合成注释的仪器的唯一顺序标识符。
仪器str	`字节`	此注释是根据以下格式合成的乐器的唯一字符串标识符`<instrument_family_str>-<instrumental_production_str>-<instrument名称>`.
抛	`整数64`	范围[0127]中基于0的MIDI音高。
速度	`整数64`	范围[0127]中基于0的MIDI速度。
采样速率（_R）	`整数64`	的每秒采样数`音频`功能。
音频*	`[浮动]`	以[-1,1]范围内的浮点值表示的音频采样列表。
质量	`[int64]`	一个二进制向量，表示声波品质出现在本说明中。
质量_str	`[字节]`	从声波质量列表.
仪器家族	`整数64`	的索引仪器系列该文书是的成员。
仪器系列str	`字节`	的ID仪器系列该文书是的成员。
仪器源	`整数64`	的索引声源用于此仪器。
仪器源str	`字节`	的ID声源用于此仪器。

*注释：“音频”功能是从JSON编码的示例中忽略的，因为音频数据分别存储在由“notestr”键控的WAV文件中。

功能编码

本节包括指定中使用的功能名称和指示的表示例原型。

仪器来源

音符乐器的发声方法。每个仪器（及其所有注释）都标有一个。

索引	身份证件
0	声学的
1	电子的
2	合成的

仪器系列

纸币工具所属的高级系列。每个仪器（及其所有音符）都标有一个。

索引	身份证件
0	低音
1	黄铜
2	长笛
三	吉他
4	键盘
5	木槌
6	器官
7	芦苇
8	一串
9	合成读取
10	发声的

注释质量

我们为描述的10种不同音符质量提供质量注释如下所示。根据定义，除了“明亮”外，所有标签都不是互斥的和“黑暗”。然而，音符可能既不“明亮”也不“黑暗”。

索引	身份证件	描述
0	明亮的	高频含量大，高次谐波强。
1	黑暗的	明显缺乏高频内容，发出柔和的低音。有时也称为“温暖”。
2	扭曲	产生独特的脆声和许多谐波的波形。有时与非谐波噪声配对。
三	fast_decay（快速_日期）	所有谐波的振幅包络在3秒的“注释”点之前大幅衰减。
4	长期租赁	振幅包络在“记录”点之后缓慢衰减，有时在采样结束4秒时仍然存在。
5	多声速的	存在与一个以上基频相关的泛音频率。
6	非线性env	具有不同于音符单调衰减的不同包络行为的声音调制。还可以包括过滤器封套和动态封套。
7	冲击的	音符开始时响亮的非谐波声音。
8	混响	无法从原始样本中删除的房间声学。
9	速度同步	将声音按固定的节奏进行节奏调制。

例子

下面是单个注释的Example protocol buffer的字符串视图在数据集中，音频部分被抑制：

{     #（张量流示例）大小=250.4K  特征以下为： {   #（张量流特征）大小=250.4K    特征以下为： {  #（tensorflow.Features.FeatureEntry）大小=21B      钥匙  以下为： “采样率（_R）”      #大小=11      价值以下为： {  #（张量流特征）大小=6B        int64_列表以下为： {   #（tensorflow.Int64List）大小=4B          价值以下为： [ 16000 ]
        }       #功能。功能[0].value.int64_list      } #功能。功能[0].value    }   #功能。功能[0]    特征以下为： {  #（tensorflow.Features.FeatureEntry）大小=25B      钥匙  以下为： “质量_str”    #大小=13      价值以下为： {  #（张量流特征）尺寸=8B        字节列表以下为： {   #（tensorflow.BytesList）大小=6B          价值以下为： [ “黑暗” ]
        }       #功能。功能[1]。值。字节列表      } #功能。功能[1]。值    }   #功能。功能[1]    特征以下为： {  #（tensorflow.Features.FeatureEntry）大小=42B      钥匙  以下为： “注释_str” #大小=8      价值以下为： {  #（张量流特征）大小=30B        字节列表以下为： {   #（tensorflow.BytesList）大小=28B          价值以下为： [ “低音合成_033-022-050” ]       #尺寸=26        }       #功能。功能[2]。值。字节列表      } #功能。功能[2]。值    }   #功能。功能[2]    特征以下为： {  #（tensorflow.Features.FeatureEntry）大小=27B      钥匙  以下为： “品质”        #大小=9      价值以下为： {  #（张量流特征）大小=14B        int64_列表以下为： {   #（tensorflow.Int64List）大小=12B          价值以下为： [ 0, 1, 0, 0, 0, 0, 0, 0, 0, 0 ]
        }       #功能.功能[3].值.int64_list      } #功能。功能[3]。值    }   #功能。功能[3]    特征以下为： {  #（tensorflow.Features.FeatureEntry）大小=250.0K      钥匙  以下为： “音频”    #大小=5      价值以下为： {  #（张量流特征）大小=250.0K        float_list（浮动列表）以下为： {   #（tensorflow.FloatList）大小=250.0K          价值以下为： [ -1.3311218e-07号, ...,  1.3244664e-07号 ]
        }       #功能。功能[4].value.float_list      } #功能。功能[4]。值    }   #功能。功能[4]    特征以下为： {  #（tensorflow.Features.FeatureEntry）大小=26B      钥匙  以下为： “仪器家族”        #尺寸=17      价值以下为： {  #（张量流特征）尺寸=5B        int64_列表以下为： {   #（tensorflow.Int64List）大小=3B          价值以下为： [ 0 ]
        }       #功能。功能[5].value.int64_list      } #特征.特征[5].值    }   #功能。功能[5]    特征以下为： {  #（tensorflow.Features.FeatureEntry）大小=14B      钥匙  以下为： “音高”    #大小=5      价值以下为： {  #（张量流特征）尺寸=5B        int64_列表以下为： {   #（tensorflow.Int64List）大小=3B          价值以下为： [ 22 ]
        }       #features.feature[6].value.int64列表      } #特征.特征[6].值    }   #功能。功能[6]    特征以下为： {  #（tensorflow.Features.FeatureEntry）大小=26B      钥匙  以下为： “工具源”        #大小=17      价值以下为： {  #（张量流特征）尺寸=5B        int64_列表以下为： {   #（tensorflow.Int64List）大小=3B          价值以下为： [ 2 ]
        }       #功能。功能[7].value.int64_list      } #特征.特征[7].值    }   #功能。功能[7]    特征以下为： {  #（tensorflow.Features.FeatureEntry）大小=40B      钥匙  以下为： “仪器_str”   #大小=14      价值以下为： {  #（张量流特征）大小=22B        字节列表以下为： {   #（tensorflow.BytesList）大小=20B          价值以下为： [ “低音合成_033” ]       #大小=18        }       #功能.功能[8].值.字节列表      } #特征.特征[8].值    }   #功能。功能[8]    特征以下为： {  #（tensorflow.Features.FeatureEntry）大小=38B      钥匙  以下为： “仪器源str”    #大小=21      价值以下为： {  #（张量流特征）大小=13B        字节列表以下为： {   #（tensorflow.BytesList）大小=11B          价值以下为： [ “合成” ]        #大小=9        }       #功能.feature[9].value.bytes_list      } #特征.feature[9].value    }   #功能。功能[9]    特征以下为： {  #（tensorflow.Features.FeatureEntry）大小=15B      钥匙  以下为： “备注”
      价值以下为： {  #（张量流特征）大小=7B        int64_列表以下为： {   #（tensorflow.Int64List）大小=5B          价值以下为： [ 201034 ]     #196.32Ki；[如果是秒]：2天7小时        }       #功能.feature[10].value.int64_list      } #功能。功能[10].value    }   #功能。功能[10]    特征以下为： {  #（tensorflow.Features.FeatureEntry）大小=20B      钥匙  以下为： “仪器”       #大小=10      价值以下为： {  #（张量流特征）大小=6B        int64_列表以下为： {   #（tensorflow.Int64List）大小=4B          价值以下为： [ 417 ]
        }       #功能。功能[11].value.int64_list      } #特征.特征[11].值    }   #特征。特征[11]    特征以下为： {  #（tensorflow.Features.FeatureEntry）大小=33B      钥匙  以下为： “仪器家族_str”    #尺寸=21      价值以下为： {  #（张量流特征）尺寸=8B        字节列表以下为： {   #（tensorflow.BytesList）大小=6B          价值以下为： [ “低音” ]
        }       #features.feature[12].value.bytes_list功能      } #特征.特征[12].值    }   #功能。功能[12]    特征以下为： {  #（tensorflow.Features.FeatureEntry）大小=17B      钥匙  以下为： “速度” #大小=8      价值以下为： {  #（张量流特征）尺寸=5B        int64_列表以下为： {   #（tensorflow.Int64List）大小=3B          价值以下为： [ 50 ]
        }       #features.feature[13].value.int64_列表      } #特征.特征[13].值    }   #特征。特征[13]  }     #功能}

这是JSON格式的同一示例的视图：

“低音合成_033-022-050”以下为： {
    “备注”以下为： 201034,
    “采样率（_R）”以下为： 16000,
    “仪器家族”以下为： 0,
    “质量”以下为： [
        0,
        1,
        0,
        0,
        0,
        0,
        0,
        0,
        0,
        0
    ],
    “仪器源str”以下为： “合成”,
    “注释_str”以下为： “低音合成_033-022-050”,
    “仪器家族_str”以下为： “低音”,
    “仪器_str”以下为： “低音合成_033”,
    “音高”以下为： 22,
    “仪器”以下为： 417,
    “速度”以下为： 50,
    “工具源”以下为： 2,
    “质量_str”以下为： [
        “黑暗”
    ]
}

统计

仪器类别

源为列、系列为列的仪器类的频率计数排。

家庭	声学	电子	合成	总计
低音的	200	8,387	60,368	68,955
黄铜	13,760	70	0	13,830
长笛	6,572	35	2,816	9,423
吉他	13343个	16,805	5,275	35423个
键盘	8,508	42,645	3,838	54,991
锤子	27,722	5,581	1,763	35,066
器官	176	36,401	0	36,577
里德	14,262	76	528	14,866
字符串	20,510	84	0	20,594
合成领奏	0	0	5,501	5,501
嗓音的	3,925	140	6,688	10753人
总计	108,978	110,224	86,777	305,979

质量共现

质量注释的共现概率和边际频率。两者均以百分比表示。

质量	明亮	深色	扭曲	快速衰退	长期释放	多声道	非线性包络	打击乐器	混响	速度同步
深色	0
扭曲	25.9	2.5
快速衰退	10	7.5	8.1
长期释放	9	5.2	9.8	0
多声道	6	1.5	5.4	2.8	6.9
非线性包络	8.5	1.4	6.6	2.1	6.7	8.6
打击乐器	6.2	5.1	3	52	0.8	2.4	0.9
混响	6.6	8.9	0.3	13	13.7	0.7	3.5	12.4
速度同步	2.4	1.8	5.2	0.4	6.4	9.3	2.3	1.5	0
频率	13.5	11	17	14.7	8.5	3.4	3.2	10.2	16.8	1.8

许可证

该数据集由谷歌公司根据Creative Commons Attribution 4.0 International（CC BY 4.0）许可证.

如何引用

如果您在工作中使用NSynth数据集，请引用纸张介绍地点：

杰西·恩格尔（Jesse Engel）、辛琼·雷斯尼克（Cinjon Resnick）、亚当·罗伯茨（Adam Roberts）、桑德·迪尔曼（Sander Dieleman）、道格拉斯·埃克（Douglas Eck）、，凯伦·西蒙扬（Karen Simonyan）和穆罕默德·诺鲁齐（Mohammad Norouzi）。“音符的神经音频合成使用WaveNet自动编码器。" 2017.

您也可以使用以下BibTeX条目：

@杂项{nsynth2017，作者={Jesse Engel、Cinjon Resnick和Adam Roberts桑德·迪尔曼（Sander Dieleman）、道格拉斯·埃克（Douglas Eck）、凯伦·西蒙扬（Karen Simonyan）和穆罕默德·诺鲁齐}，Title={使用WaveNet自动编码器进行音乐音符的神经音频合成}，年份={2017年}，印记={arXiv:1704.01279}，}

更新

2017年10月4日：从列车组中删除64条重复注释。

NSynth数据集

下载

目录

动机

描述

格式

文件夹