金桔
金币
威望
贡献
回帖0
精华
在线时间 小时
|
人声分离是将混合音频中的人声和背景音乐分离的过程。
目前比较流行的人声分离采用的算法技术以及常用的深度学习方法
分别包括:
- 音频分解技术:NMF (Non-negative Matrix Factorization)、Sparse Coding、DICT
- 统计方法:GMM (Gaussian Mixture Model)、HMM (Hidden Markov Model)
- 基于神经网络的方法:Deep Learning、CNN (Convolutional Neural Network)、RNN (Recurrent Neural Network)
- 基于深度学习的方法:U-Net、Wave-U-Net、WaveGlow、Deep Clustering
- 基于噪声估计的方法:Wiener Filtering、Spectral Subtraction
- 基于自然语言处理的方法:LSA (Latent Semantic Analysis)、LDA (Latent Dirichlet Allocation)
- 基于注意力机制的方法:TasNet、Conv-TasNet
- 基于音频合成的方法:WORLD、STFT-iSTFT
- 基于语音识别的方法:ASR (Automatic Speech Recognition)
- 基于声纹识别的方法:VoicePrint
- 深度循环网络(Deep Recurrent Network, DRN)
- 连续时间建模(Continuous Time Modeling, CTM)
- 音频信号段的深度自动编码器(Deep Autoencoder for Audio Segment, DAE)
- 声学注意力机制(Acoustic Attention Mechanism, AAM)
- 基于频谱的卷积神经网络(Spectrogram-based Convolutional Neural Network, SCNN)
- 基于多源信息的深度学习(Deep Learning Based on Multi-source Information, DLBMI)
- 基于时间建模的深度卷积网络(Deep Convolutional Network Based on Time Modeling, DCNTM)
- 音频信号的深度独立子空间建模(Deep Independent Subspace Modeling for Audio Signals, DISMAS)
- 基于声学特征的深度卷积网络(Deep Convolutional Network Based on Acoustic Features, DCNAF)
- 基于时域信号的深度稠密网络(Deep Dense Network Based on Time Domain Signals, DDNTDS)
- 音频信号的深度学习时域建模(Deep Learning Time Domain Modeling for Audio Signals, DLTDMAS)
- 基于频谱的深度稀疏编码(Deep Sparse Coding Based on Spectrogram, DSCCS)
- 基于时频建模的深度学习(Deep Learning Based on Time-Frequency Modeling, DLBTFM)
- 音频信号的深度自动编码器(Deep Autoencoder for Audio Signals, DAAS)
- 基于时频分析的深度网络(Deep Network Based on Time-Frequency Analysis, DNBTF)
- 基于卷积神经网络的方法,如 U-Net、DeepConvSep、Deep Speaker-aware Network 等。
- 基于长短期记忆(LSTM)的方法,如 LSTM-based Audio Source Separation、LSTM-based Single-channel Audio Separation 等。
- 基于隐马尔可夫模型(HMM)的方法,如 HMM-based Audio Separation、HMM-based Audio Source Separation 等。
- 基于注意力机制的方法,如 Attention-based Audio Source Separation、Attention-based Audio Separation 等。
- 基于协同过滤(CF)的方法,如 CF-based Audio Separation、CF-based Audio Source Separation 等。
- 基于约束的方法,如 Constraint-based Audio Separation、Constraint-based Audio Source Separation 等。
- 基于多源信息熵的方法,如 Multi-source Information Entropy-based Audio Separation、Multi-source Information Entropy-based Audio Source Separation 等。
- 基于声纹识别的方法,如 Speaker Recognition-based Audio Separation、Speaker Recognition-based Audio Source Separation 等。
- 基于语音增强的方法,如 Speech enhancement-based Audio Separation、Speech enhancement-based Audio Source Separation 等。
- 基于二进制分类的方法,如 Binary Classification-based Audio Separation、Binary Classification-based Audio Source Separation 等。
- 基于深度学习的方法,如 Deep Learning-based Audio Separation、Deep Learning-based Audio Source Separation 等。
- 基于非负矩阵分解(NMF)的方法,如 NMF-based Audio Separation、NMF-based Audio Source Separation 等。
- 基于独立成分分析(ICA)的方法,如 ICA-based Audio Separation、ICA-based Audio Source Separation 等。
这只是一个简略列表,在实际应用中,还可能有更多的算法模型可供选择。
python 人声分离模型
- Spleeter:基于 TensorFlow 的音频分离工具,可将音频文件中的人声、乐器和背景声分离开来。
- DeepVoice3:一种可以自动分离人声和乐器的模型,基于时域网络和神经机器翻译技术。
- SampleRNN:一种可以从音频文件中分离出人声的循环神经网络模型。
- U-Net:一种基于卷积神经网络的音频分离模型,可以将音频文件中的人声和乐器分离开来。
- Wave-U-Net:一种基于 U-Net 架构的音频分离模型,可以将音频文件中的人声和乐器分离开来。
- Wavenet:一种基于深度学习的音频分离模型,可以将音频文件中的人声和乐器分离开来。
- Open-Unmix:一种基于卷积神经网络的音频分离模型,可以将音频文件中的人声和乐器分离开来。
- DSD100:一种用于音频分离的深度学习模型,可以将音频文件中的人声和乐器分离开来。
C/C++版本的人声分离模型
C/C++版本的人声分离模型是指使用 C/C++ 语言实现的人声分离模型。人声分离是指从音频中分离出人声的过程,通常用于将人声从背景噪声中分离出来,使得人声更加清晰。可以使用C/C++ 语言实现人声分离模型,但需要有一定的信号处理和机器学习知识。
下面的模型一般情况下是可以使用C/C++调用:
- Deep Learning Toolkit for Audio (DLTK): 这是一个开源的人声分离模型,使用 TensorFlow 和 Python 实现。
- Open-Unmix: 这是一个使用 PyTorch 和 Python 实现的开源的人声分离模型。
- Demucs: 这是一个使用 Python 和 TensorFlow 实现的开源的人声分离模型。
- Spleeter: 这是一个使用 Python 和 TensorFlow 实现的开源的人声分离模型,它具有较快的运行速度和较高的分离质量。
这些模型都可以在 GitHub 上找到。
原文地址:https://zhuanlan.zhihu.com/p/596605101 |
|