立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 132|回复: 0

[分享] 15.1K Star!Fish Speech 1.5 正式上线!全球领先的多语言 TTS 工具!可本地部署“调教”。

[复制链接]
发表于 2024-12-16 20:36 | 显示全部楼层 |阅读模式

登陆有奖并可浏览互动!

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录 手机动态码快速登录

×
如果说语音合成是未来 AI 的一个重要分支,那么 Fish Speech 1.5 的发布毫无疑问让这一领域变得更加精彩。


作为新一代的 TTS 工具,这款模型不仅在准确性、稳定性和跨语言能力上遥遥领先,还新增了五种语言支持,真正实现了“听得懂、说得好、用得广”的目标。
在介绍1.5的版本亮点之前,我们先回顾关于 Fish Speech 的项目信息。
项目介绍

FishSpeech 是由 FishAudio 团队开发的一款TTS语音生成工具,与ChatTTS属于同时期(2024年6-7月)开源的超热门的TTS项目。
而说起其团队成员,更是GitHub上的各类SVC大佬,也就是专做AI声音克隆的教父们。


FishSpeech 在我刚开始看到它的时候,在GitHub上就有了3.1k Star量,如今5个月过去了,已经揽获了15.1k Star量。


可见用户增长之快,因为确实好用,质量也上乘。
主要功能


  • 零样本 & 小样本 TTS:只需 10-30 秒的声音样本,即可生成高质量语音,完美支持语音克隆需求。
  • 无音素依赖的强泛化能力:Fish Speech 的模型对音素无依赖,可以轻松处理任何文字表示的语言,让 TTS 应用场景更加广泛。
  • 超高准确率:在 5 分钟的英文文本上,字符错误率(CER)和词错误率(WER)仅约 2%。
  • 用户友好的多界面支持
  • WebUI:基于 Gradio 的网页用户界面,兼容主流浏览器(Chrome、Firefox、Edge)。
  • GUI 推理:提供 PyQt6 图形界面,与 API 服务器无缝协作。
  • 轻松部署:无论是本地还是云端,都支持快速部署,最大限度减少速度损失,为开发者提供极大的便利性。
Fish Speech 1.5 的亮点
1、全球第二的强悍性能
在 TTS-Arena 排名中,Fish Speech 1.5(匿名参赛)获得了全球第二名,这足以证明其技术实力!


2、超大规模训练数据及多语言支持
使用了 100万 小时的多语言训练数据,支持多达 13 种语言,包括 英语、中文、日语、韩语、法语、德语、西班牙语 等,真正实现了跨语言自由切换。
3、极速语音合成
延迟低于 150ms,满足即时语音克隆的需求。
4、预训练模型开源
预训练模型完全开源,开发者可以自由探索和定制。
5、新增实时无缝对话功能(即将推出)
后期将支持用户随时切换语音库进行交互式聊天,体验感进一步提升。
快速上手

今天就不详细说本地部署上的步骤了。喜欢折腾的小伙伴可以参考speech.fish.audio文档研究。


官方也提供了两种可以体验 Fish Speech 1.5 的体验站点。
第一个就是已上线的官网首页 fish.audio,特别多人在用。
其次是在抱抱脸(HuggingFace)上部署的简易版。


直接看看官网上线的项目,比较有看头一些。
界面功能
首页进入主页后,就可以立即体验1.5的文生语音及语音转文本的功能了。


「发现」标签页下有海量人物音色可以直接使用,包括明星人物、游戏角色、动漫角色等。


这里上传了许多创作者训练的各种人物音色,比如理塘丁真、郭德纲等明星音色,还有游戏及动漫角色纳西妲、赛马娘等,还有海量音色可直接使用。
这也是其他开源TTS模型所不具备的,如果有现成的创作者训练好的音色模型,也不用我们自己去找,去训练,可以直接使用。
语音合成,一秒即用

打开「语音合成」标签页,输入需要进行语音转换的文本,选择想要转换的声音音色(可直接用上面的海量音色库),点击创建即可完成文本转语音功能。


自定义训练声音模型

FishSpeech 训练不像So-VITS-SVC需要填写一大堆训练参数,有时候还需要进行微调。
点击「构建声音」标签页,即可跳转到声音训练界面,只需要提前准备好相关的同一个角色的音频文件,所有文件合集不可大于150M,填写好角色模型名称即可开始训练。


同时它支持私有训练选项,训练完成后只供个人使用,别人在FishSpeech是看不到的。
写在最后

Fish Speech 1.5 的更新,对于语音克隆爱好者及配音人员,是真的利好。
不论是用来自训练语音模型,还是借助它进行动漫角色配音、AI翻唱或是搞怪剪辑都是可以轻松实现的。
可以收藏起来,将来让你的项目“声”动起来!
官网主页:fish.audio
GitHub 项目地址: http://github.com/fishaudio/fish-speech
HF Demo:http://huggingface.co/spaces/fishaudio/fish-speech-1

原文地址:https://zhuanlan.zhihu.com/p/11065397127
楼主热帖
回复

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表