已开源 | 混音分离神器：直接提取人声、钢琴等各种乐器效果超赞

2019-11-07

Deezer是法国在线音乐网站，可以简单理解为中国的网易云音乐。

近日，Deezer开源了一个名为Spleeter项目，该项目利用深度学习对音乐曲目进行源分离。它使用Keras和TensorFlow构建，开箱即用！

Spleeter可以帮助音乐信息检索（MIR）领域的研究机构，充分利用最先进的源分离算法的强大功能，它以基于Tensorflow的Python库的形式出现，包含针对2、4和5个词干分隔的预训练模型。

谷歌AI研究员、Keras创建者Francois Chollet在社交媒体上也对此项目大加称赞。

什么是源分离？

音乐录音通常是几个单独乐器音轨的组合（主音，鼓，贝斯，钢琴等）。

音乐源分离的任务是：给定混合音我们是否可以恢复这些分离的音轨（有时称为tems）？

这个任务的应用范围非常广泛：比如混音、上混音、主动聆听、教育目的，还可以预处理其他任务，例如转录。

通过多种乐器的混合，像Spleeter这样的源分离引擎会输出一组单独的音轨或词干。

有趣的是，我们的大脑非常擅长分离乐器。只需专注于该曲目中的一种乐器，您就可以与其他乐器完全区别开来，并且听到它。但这并不是真正的分离，您仍然可以听到所有其他部分。

在许多情况下，可能无法准确恢复已混合在一起的各个音轨。因此，面临的挑战是尽可能地逼近它们，也就是说，在不造成太多失真的情况下，尽可能地接近原作。

多年来，来自世界各地的数十个杰出研究团队探索了许多策略。

近来，取得了突破性的进步，这主要归功于机器学习方法的进步。

为了跟踪最新进展，人们一直在国际评估活动中比较他们的算法。所以我们知道Spleeter的性能与提出的最佳算法相匹配。

此外，Spleeter非常快。如果您运行的是GPU版本，则预期分离速度比实时速度快100倍，这使其成为处理大型数据集的理想选择。

如果您是一名研究音乐信息检索的研究人员，并且一直认为源分离工件不适合作为管道中的预处理步骤……那么，您可能应该重新考虑并尝试使用Spleeter。

如果您是音乐黑客，并且想要使用Spleeter构建一些很棒的东西，那就去做吧。其实Spleeter是MIT许可的，所以你能够以你想要的任何方式来使用它。不用说，如果您打算在受版权保护的歌曲上使用Spleeter，请确保事先获得权利所有者的适当授权。

如何使用Spleeter？

在后台，Spleeter是一个相当复杂且精巧的引擎，但实际的分隔可以通过单个命令行来实现，并且无论您使用什么操作系统，它都可以在笔记本电脑上工作。对于更高级的用户，有一个名为的Python API类Separator，您可以直接在常规管道中进行操作。

GitHub：

https://github.com/Deezer/spleeter/wiki

为什么要发布Spleeter？

研究人员表示，他们一直致力于源分离的相关研究工作（已经在ICASSP 2019上发布了论文：https://ieeexplore.ieee.org/document/8683555）

并且已经将Spleeter与Open-Unmix（ Inria的一个研究小组最近发布的另一种开源模型）进行了基准测试，并报告了速度提高时性能稍好一些（请注意，训练数据集是不同的）。

MIR研究人员面临的硬限制之一是由于版权问题而缺乏公开可用的数据集。

在Deezer，可以访问建立Spleeter所利用的相当大的目录。由于无法共享此数据，因此将其变成可访问的工具是我们使所有人都能复制其研究的一种方式。从更道德的角度来看，他们认为研究人员之间不应存在基于获得版权材料或缺乏版权的不公平竞争。

还有很重要的一点谁，训练这种模型需要大量的时间和精力。通过一次完成并共享结果，研究人员希望为他人节省一些麻烦和资源。

参考链接：

https://deezer.io/releasing-spleeter-deezer-r-d-source-separation-engine-2b88985e797e