【前沿】音乐人工智能的发展与思考-文章 | 工控客

【前沿】音乐人工智能的发展与思考

人工智能 • 发布时间：2020年11月10日 22:40 • 收录时间：2020年12月1日 23:12 • 作者：中国自动化学会 • 来源：微信公众号

CAA

智慧起航，共创未来

2020年11月8日在山西太原中北大学举行的“第八届全国声音与音乐技术会议”上做了一个Keynotes报告，也是三天会议keynotes中唯一一个线下报告的。这里，我就报告中关于音乐人工智能的内容，做下分段式的文字总结，分享给有兴趣了解的同仁们。——复旦大学教授张军平

图1：第八届全国声音与音乐技术会议

一、人工智能现状

自2012年以来，人工智能因为深度学习网络预测性能的显著提升得到了迅猛发展，论文发表数量在近两年更是呈现井喷。尽管数量众多，但事实上离不开程咬金的三板斧，即深层、隐结构和良态化。

图2：人工智能三板斧

深层是为了模仿人的大脑结构，如从视网膜到视觉中枢一般认为是五层的通道。但人脑结构的复杂性和运作机理远没有到了解清楚的地步，简单的五层并不能达到人脑相应的能力。所以，人工智能想到了，用深层结构来实现预测，实际效果也确实不错。

隐结构是因为我们观测到的内容往往是表面的，需要找到更多的隐特征来发现其内在的控制机理，所以，这个方向上早期是以图模型的理论和算法框架来展开研究的。

良态化，因为我们处理的多数问题都是病态问题，即一个结果可以由多个原因引起，要找到真正的单个原因是一对多问题，也就是病态问题。在此前提下，常用的策略是引入约束条件，将问题限定后寻找最优解，即良态化。

现在的人工智能基本上脱离不了这三个大框架的组合。在此前提下，我们能看到有保持信息在经过深层特征提取后不至于衰减的跳连接策略，有模拟人类能选择性关注目标的注意力选择模型，有模拟人可以在不同尺度下关注目标的多尺度或金字塔技巧，也有基于信号处理中残差熵的编码更短的残差深度模型。还值得注意的是，近两年图神经网络似乎有一统天下的想法，希望把隐结构、深层与良态化结合起来。但因为模型相对复杂，目前只有两层的图神经网络比较好处理。因此，图神经网络的前景还有待观望。

除此以外，在音乐人工智能方面，还值得关注三个新的人工智能方向。一是元学习。它的发展时间其实也有五六年历史了，但在音乐这块可能还比较新。与需要大量有标签的监督学习相比，元学习可以用少量的、不同类型的任务集来学习新任务集的预测。以歌曲为例。它可以将每个风格下的歌曲和标签的预测看成是一个元训练样本，不同风格的则组成一组元训练样本集。通过对这组训练样本的学习，可以获得一组参数集。该参数集的用处，是在出现新的未知风格的歌曲和标签集时，可以直接调整参数集的权重来实现元学习。

图3：元学习示例

其次，是自监督学习。这一方向是近两年出现的，它主要是希望利用大量未标注样本的结构关系来获得特征表达辅助信息(Pretext)，以帮助下游任务得到更好的预测。在图像处理中，常见的结构关系寻找有在图像不同位置上增加图像块，并标注不同图像块间的位置关系。另外，还有着色、旋转、多尺度排序等。而在声音与音乐方面，最近三年，Zisserman教授组发表了三篇相关的工作，旨在发现视频中演奏乐器与音频中的语义一致性和同步性。他们将乐器演奏的视频帧与相同时刻的音频对应起来，以构造正样本；再将不同时间的音视频，或不同乐器声音的音视频作为负样本。通过构造能令正样本间距离变小、负样本间距离变大的对比损失(contrastiveloss)，并优化自监督模型，以获得辅助任务的有效特征表达。该模型可用于多个下游任务如音视频的跟踪、检测说话人说话与否，音源分离等。

图4：自监督学习在有声视频上的应用

第三是蒸馏学习。它的目的在利用教师模型来从大数据中学习一个相对粗略的特征表达，并基于这一结果再精细化训练一个小的学生模型。这一技术的好处在于，我们可以减少对深度学习最核心的运算硬件GPU的依赖，甚至可以让这些模型，在模型压缩后能进到手机上去处理。这样的话，就有可能更有利于实用化基于音乐人工智能的各种应用了。

图5：知识蒸馏

二、音乐智能的思考

这里谈几点人工智能在音乐领域的潜在应用和思考。

1、模仿与示教

因为深度学习的兴起，近年来通过模仿专家学习策略的强化学习也从早期比较复杂的理论性研究，转到了相对实用且模型性能优异的深度强化学习模型上。同时，为了能更好地学习专家决策，而不用去理解专家内在的脑电活动，示教、行为克隆等理论和算法也得到了发展。

这对于音乐领域来说，可能比较有用的一块是需要老师教学的部分，如指挥家是如何指挥的、钢琴及其他学习的指法练习等等。如果将这些专家的知识收集，并形成演示数据以及基于演示数据的强化、示教模型，则有可能能帮助机械臂或人类的初学者更好地学习相关的技法。

图6：艺术的可学习性与模仿示教学习

2、幸存者偏差与艺术的留白

艺术有一个不同于人工智能的地方，就是有些作品、风格甚至艺术家本身之所以有名，不是因为其学习了大量的知识，反而是因为其没有学习太多共性的知识，而是保留了其独有的个性，俗称“留白”。

与人工智能算法相比，似乎是不能依赖大数据训练，才有可能得到这一品质。但事实上，我们也许可以换个角度来思考。“留白”或许有部分是属于“幸存者偏差”的。就像二战时期的飞机设计，美国哥伦比亚大学统计学沃德教授(AbrahamWald)通过观察联军轰炸机遭遇攻击后的数据，发现尽管飞机上机翼最容易被击中的位置、而机尾是最少的位置，但这一观察是因为机尾被击中的飞机都没有飞回来导致的，因此，不能依靠幸存的飞机来给出判断，而应该考虑所有的可能性。在此前提下，强化机尾的防护才是最合理的。

从人工智能角度来看，它属于反事实推理(CounterfactualInference)，即需要通过引入更多的信息来寻找其真正的答案，而非仅基于手头的数据。艺术留白，也许部分原因是因为我们过多依赖共有的数据，却很少对其引入不同的决策评判来分析其独特性导致的。

那么，如果能够多研究人工智能的反事实推理，有可能在未来的音乐人工智能研究中，艺术的留白这一问题也有可能能被智能算法部分解决。

图7：艺术的留白与反事实推理

3、核磁共振与歌唱、乐器吹奏研究

人在吹奏乐器、歌唱时，头部里的呼吸通道、口腔里舌头和天花板的位置以及其它部分的变化，都影响着吹奏乐器或歌唱的性能。以歌唱为例，不同风格的歌手唱歌时，声音的位置处理是完全不同的。但因为头部的器官和共鸣位置相关的空间都隐藏在面部肌肉以下，往往很难直接观测到。因此，有可能可以通过伤害性较小的核磁或脑磁设备去监测，从而帮助更有效的分析和学习专业歌手或吹奏乐器的技能。

需要指出的是，近年来不少新型检测设备在时间分辨率和空间分辨率两方面都已经得到了大幅度的性能提升，这为我们更好地分析歌唱和乐器吹奏提供了可能。

图8：核磁共振与歌唱、乐器吹奏的研究。右图视频参见：https://www.ixigua.com/6891559714136542475

4、短视频里的对口型辨识

近年来，短视频是智能手机中最热门的应用，其催生了大量的网红。为了能快速成为网红，有一些人会抄袭、挪用他人的音乐作品，形成对口型的短视频。但由于其有可能会在制作短视频前，去对原作品进行变调、加电音、混响等处理，以至于有的时候一般人不太容易辨识出是否有抄袭或其他不端行为。可是，这种行为并不利于短视频的良序发展，因为如果纵容这一行为，也许会让更多的人不愿意花代价做原创。考虑到短视频的用户群很大，因此，利用人工智能去寻找对口型或相似问题作品中的辨识度特征，并基于此来判定是否有不端行为，就很有实际的应用价值。

图9：短视频中对口型辨识的应用

5、AI作曲

关于这一问题，音乐界一直有不少争论，更多的是不太认同AI作曲的水准，以及偏离了人类的审美风格、缺乏大局观。我认为这个问题，与我们从何种角度来评价AI作曲的品质有关。这里不妨想想周星驰的《大话西游》里唐僧对妖怪说的一句话“人是人生的，妖是妖生的，妖如果有了仁兹的心，就不是妖了，是人妖”。

图10：AI作曲的思考

如果我们把AI作曲定义成是为人类服务的，那很有可能就会出现上述情况。但如果想想，未来的AI本身就是主体呢，也许它的作品不一定是需要为人类服务的。据报道，日本曾经让一组机器人相互交流，结果，它们最终似乎发明了人类听不懂的语言，并能用之来交流。

也许，AI作曲也有可能会发展出机器能欣赏但人类不知道如何欣赏的作品。考虑到机器的计算速度极其地高，有可能它们会作出毫秒级的音乐作品，来供其自我欣赏。

三、音乐智能的市场

尽管音乐和人工智能在很多特质上是有明显差异的，但必须承认的是，音乐市场中智能化的蛋糕还相当地大。毕竟人的精力是有限的，一个专业的音乐人不可能同时指导太多学习者，而机器由于有强大的算力支持，它是可以大幅度减少指导过程中不必要的专家指导行为和降低学习成本，以及提高学习效率的。比如钢琴练习中，每周老师可能也就指导一至两次，期间的空档需要学生自己去练习。如果人工智能能在学生练习期间给予适当的指导、纠错，显然可以更好地提高学习效率。我们也不难想象，其中可以指导的人数有多大，市场有多大。

四、问题：大数据对音乐风格和学习的影响

音乐风格一直有很多新的形式在出现着，但大数据有可能帮助我们发现更多人类未见过的风格。这一点类似于AlphaGo下围棋。它通过短时间3000万局的训练，发现了人类300年棋谱中未见的绝妙棋着，以至于现在很多围棋比赛中国棋选手都开始选择用AlphaGO用过的落子方式下棋。

人类在学习音乐时，也存在同样的情况。因为人不可能做像机器这样的学习，所以一旦模型用对了，机器就有可能通过大数据、海量计算发现更多新的音乐风格或有趣的旋律。当然，它和人类是有着本质区别的，人类可以通过有限量的学习来实现直觉、顿悟和创作，但目前的机器还是通过时间换空间的方式，依靠强大的硬件计算能力来实现这一功能的。

图11：音乐的美与平衡智能

五、音乐的美与人工智能的预测

对我们来说，音乐是美的。这种美往往是来自于一种平衡，它有点像国人常说的阴阳八卦，是一种相互制衡后形成的。它既有节奏、伴奏、人声与乐器声等因素的平衡，也有对各种情绪的平衡，还有个体主观感受和大人感受的平衡，因此我们在研究音乐的时候，可能需要更多的考虑其中的平衡，而不能像目前人工智能绝大多数研究那样，只关注预测性能的优越。如果过多的关注后者，很有可能会走入类似量子力学中的不确定性原理的一个极端，即得到了优异的预测性能，却丢失了美或平衡。

这一点，可能需要从事音乐人工智能的研究者多多思考下，如何在音乐的美与人工智能的预测之间找到平衡点。（注：部分用图来自网络）

来源：平猫科技

大树分割线