elevenlabs 正式发布 scribe v2 转录模型,专为离线批量语音转写与字幕生成场景打造。该模型在英语上的词错误率(wer)低至约 5%,对印地语等全球超 90 种语言的识别准确率均控制在 10% 以内。

Scribe v2 已深度集成至 ElevenLabs Studio 平台,支持单次处理时长超过 10 小时的超长音频文件,并全面满足 GDPR、HIPAA 等国际主流数据合规标准。其核心能力涵盖基于关键词引导的 Keyterm Prompting 功能,以及具备上下文感知能力的智能多说话人日志识别。

核心优势
- 面向大规模转录与字幕任务优化:Scribe v2 专为高吞吐量语音转写、自动字幕生成及标题提取而设计,在稳定性与准确性方面显著优于前代 Scribe v1,可稳健应对长时音频、自然停顿、语调起伏及长时间静音等复杂语音现象;原生支持 90+ 语种,轻松覆盖多语言混合内容场景。
- 关键词引导式转录(Keyterm Prompting):用户最多可预设 100 个专业术语、品牌名称或技术词汇,模型将结合语境智能判断并精准还原这些关键表达,大幅提升垂直领域文本质量。
- 内置细粒度实体识别:支持识别涵盖个人身份、医疗健康、金融支付等在内的 56 类敏感实体,并为每个实体标注毫秒级时间戳,便于后续合规审查与内容编辑。
- 多语种无缝混识:无需人工切分或标注语种,即可自动识别并准确转录同一音频文件中交替出现的多种语言内容。
- 企业级增强能力:集成智能说话人分离、字级别精确时间轴、动态非语音事件标签(如笑声、脚步声、键盘敲击等),并通过 SOC 2、ISO/IEC 27001、PCI DSS Level 1、HIPAA、GDPR 等多项权威安全与隐私认证,支持零数据留存模式。
- 开箱即用与灵活接入:Scribe v2 已上线 ElevenLabs Studio 用户界面,同时开放标准化 API 接口,供开发者快速集成至自有系统。
此外,为适配实时交互类应用场景(如 AI Agent 对话流处理),官方同步推出 Scribe v2 Realtime 版本,针对极低延迟与流式语音输入进行了专项优化。
了解更多:https://www.php.cn/link/8d9efdc11d3f363405846f3c09c5567f
源码获取:点击下载










