跟踪单音信号的音高
CREPE于2018年发布,是一个基于深度卷积神经网络的最先进系统,直接对时域波形进行操作。该体系结构基于六个卷积堆栈的链,然后是分类器。网络输出一个向量,该向量表示基音处于360个频率类别中的一个频率类别的概率,该频率类别以非线性间隔。
层数:41|参数计数:22244328|训练大小:89 MB|
训练集信息
-
MIR-1K型由1000个歌曲片段组成,并用旋律的音高轮廓进行注释。巴赫10由10首巴赫合唱团的录音组成。RWC Synth,一个未发布的数据集,包含6.16小时的音频合成RWC音乐数据库.MedleyDB,一组歌曲,包括旋律f0注释以及用于评估自动乐器识别的乐器激活。NSynth公司,一个包含305979个音符的音频数据集,每个音符都具有独特的音高、音色和包络。MDB-STEM-Synth,一个由230个单音音杆组成的未发布集合,取自MedleyDB并使用分析/合成方法重新合成,以生成具有完美f0注释的合成曲目,从而保持原曲目的音色和动态。这个数据集由230首曲目和25种乐器组成,总共有15.56小时的音频。
性能
示例
评价功能
定义将用于解码网络输出的隐马尔可夫过程:
该网络采用单声道音频信号,并以对数音高标度输出信号的音高估计值。编写求值函数,将结果转换为时间序列包含预测频率(Hz)和预测置信度:
基本用法
检测单音信号的音高:
使用映射到不透明度的置信度绘制预测频率:
绩效评估
使用正弦振荡器生成信号:
将网络预测的频率与地面实况进行比较:
净信息
检查网络中所有阵列的参数数量:
获取参数总数:
获取层类型计数:
显示主网络的摘要图形:
导出到MXNet
导出将网络转换为可在MXNet中打开的格式:
导出还创建了网络参数包含参数的文件:
获取参数文件的大小:
大小与资源对象的字节数类似:
将MXNet网络表示为图形:
资源历史记录
参考