OrchestrAI

灵感

今天的新闻媒体很快就发布了现代人工智能在大多数领域是如何成为超人的，推动了我们社会和经济组织方式的系统性变革。尽管人工智能产生了深远的影响，但它的可访问性从未如此之低。似乎在击败围棋、为我们的图像添加字幕以及驾驶自动驾驶汽车的过程中，人工智能已经失去了它的人性化。我们希望以一种能够培养创造力并认可人和机器优势的方式恢复这种联系。我们相信像人工智能这样强大的东西应该有灵魂，最重要的是，扩展人类的灵魂。我们希望赋予音乐制作人、艺术家和爱好者权力，让他们能够接触到由人工代理组成的整个管弦乐队来创作、创作和即兴创作音乐。我们没有使用人工智能来取代人类天赋，而是将其视为一种增强和增强现有人类设施和直觉的手段，让人类作曲家通过实时即兴提示和程序生成的音乐作品达到前所未有的创作高度。

它的作用

我们已经建立了一个人工智能乐队，能够实时即兴创作音乐片段，激励和适应与它一起演奏的人类，并根据其经验生成全新的歌曲。我们在平台中的两条不同的管道中组织了这三种功能。

即兴创作和程序生成是通过我们的神经管道完成的。管道本身由两种不同的模型驱动。一个由字符生成递归神经网络组成，能够读取音频MIDI文件并学习其结构。然后，这个网络可以在钢琴、小提琴、大提琴和小号上产生创意作品。我们创作的歌曲听起来既悦耳又富有攻击性，与正常人创作的歌曲大不相同。看到这些结果后，我们对实际音乐理论家设计的网络能做什么非常感兴趣六面体的双轴递归网络在我们的管道中。该模型通过使用音乐理论和多个递归维度（时间和音符空间）明确地学习曲目，以生成优美的音乐。这些结果让我们非常兴奋，思考不同AI架构可以创建的不同类型的音乐。

实时自适应播放通过即兴管道完成。这包括一个Arduino和两个麦克风（一个来自一组苹果耳罩），安装在古典小提琴上，用于拾取小提琴上正在演奏的音符。我们根据节拍采样来分离这些音符。通过对接收到的信号进行快速傅里叶变换，然后提取最显著的频率（音符本质上是一个特定的频率）来确定音符本身。最后，这些提取出来的音符被映射到基于音乐理论的新音符，使用诸如五声音阶、完全四分音阶等概念。

我们是如何建造的

该项目广泛使用了WolframAPI和Mathematica，主要用于将小提琴信号转换为midi文件。我们还使用Mathematica将经过处理的音符作为各种乐器输出到我们的即兴管道中。最后，我们的神经管道利用了Mathematica内置乐器的多样性和丰富性，为我们使用RNN的管弦乐作品生成了不同的声音轮廓。

神经模块构建在张量流中，广泛使用了当时可用的RNN模块。用于创作一些歌曲的char-rnn架构将输入文本化MIDI文件，并通过2个隐藏层对其进行处理。训练过程结束后，网络能够生成文本化的MIDI数据，然后可以通过Wolfram API将其转换为实际的音乐。双轴RNN由两个相互连接的LSTM-RNN节点的垂直堆栈组成，分别是注释网络和时间网络，每个节点都有两个隐藏层。输入将包括一个向量，该向量包含向量的MIDI音符以及音符附近的一些信息和所播放音符的历史。然后，输入将通过一个普通的递归时间轴来学习一些结构。然后，时间网络的输出将传递给注释轴，注释轴与其他注释节点一起进行循环连接。这确保了网络能够在多个音乐作品中学习不同音符之间的联系及其相互之间的关系

临时管道由数字信号处理提供动力。数字信号处理的基本技术是快速傅里叶变换O（n log n）该算法在范围和应用方面具有难以置信的通用性。在我们的项目中，它允许我们通过不同的音符的频率来过滤它们。由于FFT只是小组中三个计算机科学专业的学生在理论上学习过的东西，所以在实现它来构建我们的应用程序时，看到它的威力真是令人难以置信。

我们遇到的挑战

即使在我们的演示中，延迟也一直阻碍着我们发出悦耳的声音。我们发现缓解这种情况的最佳方法是对延迟进行计时，使其始终落后于小提琴乐曲每分钟的节拍。这是所有基于采样的方法的基本限制，需要更复杂的预测模型才能完全消除。

神经网络也有问题。最基本的是训练时间，因为神经网络需要10个小时对所有数据集进行训练。然而，最关键的挑战是我们无法控制的。我们在让char-RNN学习音乐结构时遇到了几个问题，因为它经常会演奏出笨拙的音符组合，花费大量时间不演奏任何东西，然后在几秒钟内压缩几十个音符。更多的训练时代有助于解决这个问题，但建筑仍然需要更好的音乐结构表现形式才能更有效。