文本转语音(TTS)技术近年来随着AI的快速发展突飞猛进,但要在真实感、情绪表达和实时性上达到顶尖水平,仍是巨大挑战。
但零样本TTS和情感控制的兴起,涌现了一大批优秀的TTS模型,让语音合成进入了新的纪元。
最近,开源 TTS 领域迎来了一位超级重磅新星,它叫:Chatterbox,开源 2 天即冲上 GitHub 热榜,星标狂飙超 3K!
截止到我昨晚写这篇文章时,GitHub上已有 3.2K Star!成为近年来增长最快的开源 TTS 模型之一!
Chatterbox 是 Resemble AI 推出的首个生产级开源 TTS 模型,它还是首个支持情感夸张控制的开源 TTS 模型。
支持情绪控制、超低延迟(<200ms),还能嵌入神经水印确保AI安全。
凭借LLaMA架构(0.5B参数)、50万小时训练数据和创新的情绪夸张控制,它不仅媲美闭源巨头 ElevenLabs,还在最新盲测中超越对手。
它经过了两年的线上检验,处理了数百万个请求,有 63.75% 听众认为 Chatterbox 的音质优于 ElevenLabs,堪称史上最真实的开源语音合成模型之一。
Chatterbox 的安装也极其友好且简单,官方将其直接打包为一个Python包,可通过 pip 命令直接安装。
pip install chatterbox-tts
三行代码即可解锁超真实语音生成体验。
import torchaudio as ta
from chatterbox.tts import ChatterboxTTS
model = ChatterboxTTS.from_pretrained(device="cuda")
text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)
# 如果你想使用不同的声音进行合成,请指定音频提示
AUDIO_PROMPT_PATH="YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)
同时 Chatterbox 在 HuggingFace 上也有部署好的Demo在线体验版本,有兴趣的小伙伴可以前往体验。
Tips:默认设置(exaggeration=0.5, cfg_weight=0.5)适合大多数场景,快速语音用cfg_weight=0.3,戏剧化场景用exaggeration=0.7。
Chatterbox的情感控制和低延迟让它适用于多种场景,直击TTS痛点:
Chatterbox 发布仅两天,GitHub 星标已达 3K+,增长速度令人惊叹!
Resemble AI 后续还计划优化模型效率,增加多语言支持和更细粒度的情绪控制。
作为一名互联网科技博主,我对 Resemble AI 的开源精神和 Chatterbox 的卓越性能佩服不已。无论是创意视频、游戏配音还是实时助手,Chatterbox 都能让你的内容“开口说话”,充满生命力。
而且其真实度、控制力均超行业领先的 ElevenLabs,是当前最接近人类表现力的 TTS 模型之一!
GitHub 项目地址:
https://github.com/resemble-ai/chatterbox
HF 在线体验:
https://huggingface.co/spaces/ResembleAI/Chatterbox
更新时间:2025-06-06
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号