ai 初创企业 resemble ai 正式推出开源文本转语音模型 “chatterbox turbo”,仅需 5 秒语音样本即可完成高质量人声克隆。

官方表示,该模型在语音自然度与保真度方面超越 ElevenLabs 和 Cartesia 等主流方案,首句响应延迟控制在 150 毫秒以内,可广泛适配实时智能体、自动化客服、互动游戏、数字人应用及社交平台等低延迟需求场景。

Chatterbox Turbo 遵循 MIT 开源协议,允许免费商用、自由修改及二次分发。目前模型已上线 Hugging Face、RunPod、Modal、Replicate 与 Fal 等主流平台,全部源代码托管于 GitHub。
https://www.php.cn/link/1fe6eda65dcd46c3a5ad1789c3bf08f5
https://www.php.cn/link/0a8f8b227be2d04a675082cc9d51c127
Resemble AI 同步提供云托管服务,并正研发面向极致实时性的优化版本。模型内嵌名为 “PerTh” 的可检测音频水印,助力监管机构与内容平台识别 AI 生成语音。
源码地址:点击下载










