业界比较流行的人声分离算法模型

007 · 发表于 2025-2-27 10:40

登陆有奖并可浏览互动！

您需要登录才可以下载或查看，没有账号？立即注册

×

人声分离是将混合音频中的人声和背景音乐分离的过程。
目前比较流行的人声分离采用的算法技术以及常用的深度学习方法

分别包括:

音频分解技术：NMF (Non-negative Matrix Factorization)、Sparse Coding、DICT
统计方法：GMM (Gaussian Mixture Model)、HMM (Hidden Markov Model)
基于神经网络的方法：Deep Learning、CNN (Convolutional Neural Network)、RNN (Recurrent Neural Network)
基于深度学习的方法：U-Net、Wave-U-Net、WaveGlow、Deep Clustering
基于噪声估计的方法：Wiener Filtering、Spectral Subtraction
基于自然语言处理的方法：LSA (Latent Semantic Analysis)、LDA (Latent Dirichlet Allocation)
基于注意力机制的方法：TasNet、Conv-TasNet
基于音频合成的方法：WORLD、STFT-iSTFT
基于语音识别的方法：ASR (Automatic Speech Recognition)
基于声纹识别的方法：VoicePrint
深度循环网络(Deep Recurrent Network, DRN)
连续时间建模(Continuous Time Modeling, CTM)
音频信号段的深度自动编码器(Deep Autoencoder for Audio Segment, DAE)
声学注意力机制(Acoustic Attention Mechanism, AAM)
基于频谱的卷积神经网络(Spectrogram-based Convolutional Neural Network, SCNN)
基于多源信息的深度学习(Deep Learning Based on Multi-source Information, DLBMI)
基于时间建模的深度卷积网络(Deep Convolutional Network Based on Time Modeling, DCNTM)
音频信号的深度独立子空间建模(Deep Independent Subspace Modeling for Audio Signals, DISMAS)
基于声学特征的深度卷积网络(Deep Convolutional Network Based on Acoustic Features, DCNAF)
基于时域信号的深度稠密网络(Deep Dense Network Based on Time Domain Signals, DDNTDS)
音频信号的深度学习时域建模(Deep Learning Time Domain Modeling for Audio Signals, DLTDMAS)
基于频谱的深度稀疏编码(Deep Sparse Coding Based on Spectrogram, DSCCS)
基于时频建模的深度学习(Deep Learning Based on Time-Frequency Modeling, DLBTFM)
音频信号的深度自动编码器(Deep Autoencoder for Audio Signals, DAAS)
基于时频分析的深度网络(Deep Network Based on Time-Frequency Analysis, DNBTF)
基于卷积神经网络的方法，如 U-Net、DeepConvSep、Deep Speaker-aware Network 等。
基于长短期记忆（LSTM）的方法，如 LSTM-based Audio Source Separation、LSTM-based Single-channel Audio Separation 等。
基于隐马尔可夫模型（HMM）的方法，如 HMM-based Audio Separation、HMM-based Audio Source Separation 等。
基于注意力机制的方法，如 Attention-based Audio Source Separation、Attention-based Audio Separation 等。
基于协同过滤（CF）的方法，如 CF-based Audio Separation、CF-based Audio Source Separation 等。
基于约束的方法，如 Constraint-based Audio Separation、Constraint-based Audio Source Separation 等。
基于多源信息熵的方法，如 Multi-source Information Entropy-based Audio Separation、Multi-source Information Entropy-based Audio Source Separation 等。
基于声纹识别的方法，如 Speaker Recognition-based Audio Separation、Speaker Recognition-based Audio Source Separation 等。
基于语音增强的方法，如 Speech enhancement-based Audio Separation、Speech enhancement-based Audio Source Separation 等。
基于二进制分类的方法，如 Binary Classification-based Audio Separation、Binary Classification-based Audio Source Separation 等。
基于深度学习的方法，如 Deep Learning-based Audio Separation、Deep Learning-based Audio Source Separation 等。
基于非负矩阵分解（NMF）的方法，如 NMF-based Audio Separation、NMF-based Audio Source Separation 等。
基于独立成分分析（ICA）的方法，如 ICA-based Audio Separation、ICA-based Audio Source Separation 等。

这只是一个简略列表，在实际应用中，还可能有更多的算法模型可供选择。
python 人声分离模型

Spleeter：基于 TensorFlow 的音频分离工具，可将音频文件中的人声、乐器和背景声分离开来。
DeepVoice3：一种可以自动分离人声和乐器的模型，基于时域网络和神经机器翻译技术。
SampleRNN：一种可以从音频文件中分离出人声的循环神经网络模型。
U-Net：一种基于卷积神经网络的音频分离模型，可以将音频文件中的人声和乐器分离开来。
Wave-U-Net：一种基于 U-Net 架构的音频分离模型，可以将音频文件中的人声和乐器分离开来。
Wavenet：一种基于深度学习的音频分离模型，可以将音频文件中的人声和乐器分离开来。
Open-Unmix：一种基于卷积神经网络的音频分离模型，可以将音频文件中的人声和乐器分离开来。
DSD100：一种用于音频分离的深度学习模型，可以将音频文件中的人声和乐器分离开来。

C/C++版本的人声分离模型

C/C++版本的人声分离模型是指使用 C/C++ 语言实现的人声分离模型。人声分离是指从音频中分离出人声的过程，通常用于将人声从背景噪声中分离出来，使得人声更加清晰。可以使用C/C++ 语言实现人声分离模型，但需要有一定的信号处理和机器学习知识。

下面的模型一般情况下是可以使用C/C++调用：

Deep Learning Toolkit for Audio (DLTK): 这是一个开源的人声分离模型，使用 TensorFlow 和 Python 实现。
Open-Unmix: 这是一个使用 PyTorch 和 Python 实现的开源的人声分离模型。
Demucs: 这是一个使用 Python 和 TensorFlow 实现的开源的人声分离模型。
Spleeter: 这是一个使用 Python 和 TensorFlow 实现的开源的人声分离模型，它具有较快的运行速度和较高的分离质量。

这些模型都可以在 GitHub 上找到。

原文地址：https://zhuanlan.zhihu.com/p/596605101

图文播报

[讨论] 业界比较流行的人声分离算法模型

登陆有奖并可浏览互动！

发表回复

浏览过的版块

官方推荐 /3

个人中心