立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 856|回复: 0

[讨论] 浅谈音乐分离技术

[复制链接]
发表于 2024-10-28 18:15 | 显示全部楼层 |阅读模式

登陆有奖并可浏览互动!

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录 手机动态码快速登录

×
在大数据时代,互联网上的音乐数据呈现爆炸性增长,各种音视频软件中嵌入的音乐负载着巨大的信息量。这些音乐数据,往往是由人声演唱和乐器伴奏这两种音乐信号混合而成的,它们共同构建了音乐作品的丰富层次和情感表达。然而,由于人声与伴奏在节奏和旋律上的高度相似性与协同性,从混合的音乐信号中单独提取出这两部分信息,成为数字音乐处理领域的一项挑战性工作。音乐分离技作为音乐信息检索(MIR)领域的基础性研究之一,它为后续的音乐情感识别、旋律提取、歌声检测、歌手识别等高级应用提供了关键性的支持。





技术应用

较早的一款音乐分离工具是由自法国的音乐流媒体公司Deezer开发的spleeter,它利用了基于U-Net架构的卷积神经网络对音频信号进行精细的切割和训练。通过U-Net架构的卷积神经网络,该工具能够区分音频中的人声和伴奏信号,并将它们分别输出到不同的通道。在训练过程中,Spleeter采用了一个大型数据集,其中包括了带有已知人声和伴奏信号的音频文件,以确保网络能够准确地完成音频分离任务。[1]

Facebook Research团队推出了Demucs,且经历过4个大版本的迭代,每一代的模型结构都被大改,Demucs的生成质量从v3开始大幅质变,一度领先行业平均水平,性能最好的V4版本引入了混合Transformer Demucs(HTDemucs),这是一个基于混合Demucs 架构的混合时域/频谱双U-Net,其中最内层被跨域Transformer编码器所取代,该编码器在一个域内使用自注意力机制,在跨域之间使用交叉注意力机制。但由于Transformer结构的存在,在推理时速度格外慢,而且显存占用极高,必须要求有GPU才能完成推理。[2]

此外,由HitnMix发布的RipXDAW也内置了音源分离和乐器分离工具,允许用户将混合音轨分割为其组成部分,并对生成的音频进行单独的编辑控制。RipX DAW PRO进一步扩展了功能,可以将各个部分分离为完全可编辑的音符、和弦和无音高的音频。PRO版本还引入了Audioshop声音操纵工具,该工具与软件的 Harmonic Editor、Repair Panel和RipPython脚本工具一起,对单音、和声、噪音和无音高音频提供前所未有的控制。[3]

学术研究

音乐分离是伴随着语音分离而发展起来的,二者在研究进程上具有部分交叉和同步性。音乐和语音在数据类型上具有一致性,因此一些语音分离模型对音乐中的人声和伴奏具备一定的分离能力,在下文研究现状的分析中会有所涉及。但是,由于音乐分离与语音分离在分离目标的数据特征上具有差异性,并且音乐相较于语音拥有更丰富的声学特征,如节奏、节拍、旋律等,单纯通过语音分离模型去分离音乐中的人声和伴奏,获得的目标音乐纯净度有限。并且,由于乐音复杂的发声机理及多样性,音乐分离比语音分离更具挑战性。[4]

最早用于音乐分离的是非负矩阵分解(Non-negative Matrix Factorization, NMF)方法,Vembu等人的研究展示了如何通过NMF将复杂的音乐信号拆分为多个独立的源信号,并利用分类器来区分这些信号是否来自人声或伴奏[5]。Channmgutai等人通过提取时间增益系数矩阵中的伴奏分量,成功地将歌声与伴奏分离[6]。然而,值得注意的是,基于NMF的模型在应用中通常依赖于一定的先验知识来区分不同的声源。因此,它通常被视为音乐分离过程中的一个初步处理阶段。对于流行音乐,伴奏部分常具有明确的周期性特征,而人声则展现出更高的时变性和非重复性。鉴于此,研究者们倾向于利用声源和旋律特征来优化音乐分离技术。Rafii等人提出的基于反复结构的音乐分离算法(Repeating Pattern Extraction Technique, REPETT),以及后续融合音乐节拍谱和相似矩阵等分析方法的研究,为音乐分离领域带来了新的研究视角[7][8]。此外,King等人通过识别不同乐器间的差异性特征,并结合NMF的系数矩阵和字典矩阵进行聚类,实现了对各个声源信号的精确重构[9]。而F. J. Canadas-Quesada等人的研究则将音乐的韵律特征与NMF技术相结合,通过识别混合音乐信号中的代表性激活模式,并自动分类有节奏和无节奏的模式,进一步提升了音乐分离的效果[10]。

近年来,深度学习技术的蓬勃发展推动了深度神经网络在音乐分离领域的应用。Wang等人[11]首先将盲源分离问题定义为二分类问题,并引入深度神经网络(DNN)来处理此问题,采用支持向量机实现IBM(理想二值掩蔽)的二分类。然而,这种方法在错误估计时会导致信息大量丢失,且难以捕捉音频的时序相关性。为克服这些局限性,Huang[12]引入递归神经网络,结合IRM(理想比例掩蔽)优化伴奏和歌声的预测,成功规避了IBM和DNN的缺陷,取得了显著效果。Hershey等人[13]则提出了一个深度聚类语音分离模型,通过频谱聚类生成音源的理想分布,显著提升了分离信号的质量,为后续研究提供了新思路。受此启发,Chen等人进一步提出了深度吸引子算法(Deep Attractor Net, DANet)[14],在高维空间中嵌入吸引子,通过整合时频信息来训练网络,实现无需知道混合源数量的端到端训练。基于DANet的框架,Luo和Chen[15]利用神经网络将混合信号的时频表示映射至高维嵌入空间,并创建每个音源的吸引子,使各说话者信号围绕相应的吸引子聚类,进而实现音源分离。在此基础上,Luo等人[16]提出了端到端的全卷积时域语音分离网络Conv-TasNet,直接对波形数据进行卷积,摒弃了传统的时频分解方法,取得了突破性的效果。之后,Luo等人又在此基础上提出了双路径递归神经网络模型DPRNN[17],该模型在复杂声学环境下展现了优越的性能。同年,Chen等人将Conv-TasNet与注意力机制结合,推出了DPTNet[18],这一模型在处理长序列特征时展现出了强大的学习能力。

[1]Spleeter: a fast andefficient music source separation tool with pre-trained models
[2]https://www.bilibili.com/read/cv25687432/
[3]https://www.sohu.com/a/737758982_121124710
[4]基于时域卷积网络的单通道音乐分离研究
[5]Separation of Vocalsfrom Polyphonic Audio Recordings
[6]Singing voiceseparation for mono-channel music using non-negative matrix factorization
[7]A simple music/voiceseparation method based on the extraction of the repeating musical structure
[8]Adaptive filtering formusic/voice separation exploiting the repeating musical structure
[9]Optimal cost functionand magnitude power for NMF-based speech separation and music interpolation
[10]Harmonic-percussivesound separation using rhythmic information from non-negative matrixfactorization in single-channel music recordings
[11]Towards scaling upclassification-based speech separation
[12]Singing-VoiceSeparation from Monaural Recordings using Deep Recurrent Neural Networks
[13]Deep clustering:Discriminative embeddings for segmentation and separation
[14]Deep attractor networkfor single-microphone speaker separation
[15]Speaker-independentspeech separation with deep attractor network
[16]Conv-TasNet: Surpassingideal time–frequency magnitude masking for speech separation
[17]Dual-path rnn:efficient long sequence modeling for time-domain single-channel speechseparation
[18]Dual-path transformernetwork: Direct context-aware modeling for end-to-end monaural speechseparation

<hr/>
关于我们

21dB声学人是中国科学院声学研究所苏州电声产业化基地旗下科技媒体,专注于声学新技术、音频测试与分析、声学市场调研、声学创业孵化、知识产权服务等。

合作推广

稿件投稿|创业支持|知产服务| 技术转化

请发送需求至以下邮箱,我们将派专人与您联系
21db@ioasonic.com

版权声明
文中所有图片和文字版权归21dB声学人所有
如需转载或媒体合作,请与我们联系





原文地址:https://zhuanlan.zhihu.com/p/704326145
楼主热帖
回复

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表