「MD23」一个优于UVR的免费开源声音分离项目

该整合包修改自https://github.com/jarredou/MVSEP-MDX23-Colab_v2,修改部分代码使其本地运行

整合包地址:https://pan.baidu.com/s/1Y2dPT_WKWrtMhQOpmU2Y5w?pwd=bqla

摘要

本文介绍了MD23,一个优于UVR的免费开源声音分离项目。该方案在mvsep.com的SDR Vocals评价中取得了惊人的10.2196分,截止整合包打包日成为开源模型中得分最高的方案。本文将对该方案的技术细节、评价结果以及其在实际测试中的表现进行详细描述,最后分享该整合包的使用教学。

1,介绍

声音分离是音频信号处理领域的重要研究方向,它涉及将混合的音频信号分解为单独的声音源。MD23作为一个新型声音分离项目,通过采用先进的分离算法,在SDR Vocals评价中获得了显著的高分,显示了其在声音分离领域的突破性成果。

升级了主要MDX23C 8K FFT模型,可以将音轨分离成人声和器乐部分。在MultiSong数据集和合成数据集上的SDR指标得到了提升。相应地,在Ensemble 4和Ensemble 8模型上,分离结果也得到了改善。请参见下表中的变化。

算法名称

MultiSong数据集 人声SDR

MultiSong数据集 器乐SDR

Synth数据集 人声SDR

Synth数据集 器乐SDR

MDX23 排行榜 人声SDR

8K FFT,全频段(旧版本)

10.01

16.32

12.07

11.77

10.85

8K FFT,全频段(新版本)

10.17

16.48

12.35

12.06

11.04

添加了两个新模型,MVSep钢琴(演示版)和MVSep吉他(演示版)。这两个模型都基于MDX23C架构。这些模型可以将音乐高质量地分离成钢琴/吉他部分和其他部分。每个模型都有两个变体。在第一个变体中,神经网络模型直接应用于整个音轨。在第二个变体中,音轨首先分为人声和器乐两部分,然后神经网络模型只应用于器乐部分。在第二种情况下,分离质量通常会稍微更高。我们还准备了一个小型内部验证集,以比较模型在从主音轨中分离钢琴/吉他的分离质量上的表现。我们的模型与另外两个模型(Demucs4HT(6个声道)和GSEP)进行了比较。对于钢琴,我们有两个验证集。第一个集合包括电钢琴作为钢琴部分的一部分,第二个集合只包括原声钢琴。

注:所使用的度量标准是SDR(信号到失真比):数值越大表示分离效果越好。

评分榜

2,下载与安装使用

该整合包修改自https://github.com/jarredou/MVSEP-MDX23-Colab_v2,修改部分代码使其本地运行

整合包地址:MDX23-v2-2.2-barbara.zip_免费高速下载|百度网盘-分享无限制 (baidu.com)

下载解压

将要分离的歌曲文件放置到 input目录 双击开始分离 .bat



分离过程还是比较慢的,耐心等待

输出目录

输出所示

视频加载中...


视频加载中...

总结

MDX23 是一个在分离质量方面表现出色的声音分离模型,特别是在多首歌曲数据集和合成数据集上,其SDR指标明显优于之前版本。然而,在易用性方面相对于 UVR 有所不足。

如果你对分离质量有着高要求,MDX23 显然是一个值得一试的选择。你可以通过下载并尝试使用该模型来亲身体验其性能和效果。

展开阅读全文

页面更新:2024-04-19

标签:声音   变体   神经网络   器乐   人声   音轨   钢琴   模型   质量   项目   数据

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top