计算机科学>声音
职务: 原声吉他实时打击技术识别与嵌入学习
摘要: 实时音乐信息检索(RT-MIR)在增强传统声学乐器的性能方面具有很大潜力。 我们开发了RT-MIR技术,旨在增强打击性指法,将原声吉他演奏与吉他身体打击相结合。 我们为增强仪器性能的RT-MIR系统制定了几个设计目标:(i)因果约束,(ii)可忽略的动作-声音延迟,(iii)控制亲密度支持,(iv)综合控制支持。 我们提出并评估了基于卷积神经网络(CNN)和与可变自动编码器(VAE)联合训练的CNN的实时吉他弹奏识别和嵌入学习技术。 我们介绍了一种基于手部和位置的吉他身体打击分类。 我们遵循跨数据集评估方法,收集三个根据分类法标记的数据集。 模型的嵌入质量通过对应于不同分类类别的分布的KL-Divergence进行评估。 结果表明,该网络是强分类器,特别是在简化的2类识别任务中,与CNN相比,VAE产生了更好的类分离,这体现在分布之间的KL-D差异增加。 我们认为,当潜在空间的参数用于控制外部合成引擎时,VAE嵌入质量可以支持控制亲密度和丰富的交互。 已经确定了围绕不同数据集的推广的进一步设计挑战。