立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 205|回复: 0

[讨论] ICLR 2025 | TIGER:用「频带拆解+注意力交错」实现低资源语音分离

[复制链接]
发表于 2025-3-2 09:32 | 显示全部楼层 |阅读模式

登陆有奖并可浏览互动!

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录 手机动态码快速登录

×
背景动机:效率与实战的困局

语音分离技术常被视为语音处理链路的“守门人”,既要滤除环境噪声,又要拆分重叠人声。过去几年学界追逐性能指标的风潮下,两个根本性问题被长期忽视:
问题1:算力需求与现实场景的错配



当前SOTA模型如TF-GridNet虽在WSJ0-2mix等标准数据集上表现惊艳,但动辄数亿参数和秒级推理延迟,难以部署在手机、耳机等终端设备。我们测试发现,即使是轻量化的TDANet,在真实会议室场景分离双人对话时,单句响应延迟仍高达300ms以上。
问题2:数据集与真实声场的差距



主流数据集存在两大缺陷: 1. 声场简化:WSJ0-2mix仅有人声叠加而无噪声与混响;WHAMR!的混响采用点声源传播模型,忽略了墙体材质、家具遮挡等物理特性 2. 重叠模式单一:现有数据的声源重合度普遍固定(如100%重叠),而真人对话的语音交织比例呈现复杂分布(见图中现实数据统计)
<hr/>解法拆解:从“人耳机制”到数学实现

核心框架:TIGER的三级递进策略

我们的方案受人类听觉系统启发:当多人同时说话时,人脑会分层筛滤声音特征——先通过耳蜗实现频带分解(对应Band-Split),再通过神经回路融合时空线索(对应FFI模块)。技术实现上可分为三步:
Step1:频带智能切分(Band-Split)

关键设计:抛弃传统的均匀频带切割,对语音敏感频段(如85-1100Hz)实施精细划分。例如在0-1kHz区间采用25Hz细粒度划分,而高频段放宽到2kHz宽幅划分。这种先验知识引导的分割策略相比均等切分方案(EvenSplit)可提升SI-SDRi 0.3dB(见表)。



切分方案



不同切分方案的性能比较

▲ 频带切分策略对比(低频频段更密集)
Step2:注意力矩阵交错(Frequency-Frame Interleaved Block)

FFI模块通过双路交替建模破解时-频耦合难题: - 频率路径:使用MSA模块提取多尺度频域特征(类似感知不同音高) - 时间路径:通过F³A模块捕捉长时程时序依赖(类似理解语音节奏) 此设计的MACS相比纯时域建模的TDANet降低82%(见表)


Step3:级联特征重组(Band-Restoration)

采用参数复用恢复全频段信息,避免传统方法逐频点处理的计算冗余。在相同参数量下,重构精度提升14%。
<hr/>实验:

我们新推出的EchoSet数据集整合了三大现实要素:
特性实现方式物理意义
多材质混响SoundSpaces 2.0路径追踪算法模拟声波多次反射/衍射
动态噪声WHAM!噪声配比随机采样模拟真实环境背景声
可变重叠度从0到100%渐变混合模拟自然对话场景
在这个更贴近真实的数据集上,TIGER以仅0.82M参数量,在模型端到端推理耗时(GPU Time)上比TF-GridNet快4倍,分离精度却反超了5%(详见表2)。
意外发现:参数压缩下的“纠错能力”

值得关注的是,在频带切分与注意力交错的耦合设计下,模型甚至展现出对训练数据缺陷的鲁棒性: - 当输入音频存在突发性噪声脉冲时,TIGER的信噪比波动幅度较基线模型降低37% - 在电影音轨分离任务中,模型对音乐伴奏和谐波失真的抑制效果超越专用音乐分离模型BSRNN。
<hr/>技术边界与未来进路

当前方案的局限性: 1. 低信噪比场景短板:当输入SDR<-15dB时,频带划分易受噪声主导 2. 多语言泛化待验证:目前主要针对英语语音特性优化。
未来拟探索方向: - 动态频带调节机制:根据输入特征自适应调整分割粒度
<hr/>TIGER的价值不仅在于一款高效语音分离工具,更给出一个重要启发:先验知识引导的模型压缩可能比纯数据驱动方案更适合边缘计算场景。当学界追逐Transformer堆叠时,我们回归听觉生理学本质,以94%的参数削减换来效能突破——这或许正是AI模型轻量化的一条新路。
完整论文及Demo体验:https://github.com/JusperLee/TIGER

原文地址:https://zhuanlan.zhihu.com/p/26359943877
楼主热帖
回复

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表