Web Speech API 的 SpeechRecognition 是浏览器原生语音识别首选方案,支持 Chrome/Edge(Chromium),需 HTTPS/localhost、用户授权及云端服务;Safari/Firefox 不支持。

JavaScript 实现语音识别主要依靠浏览器原生支持的 Web Speech API,目前最常用、最成熟的是 SpeechRecognition 接口(也叫 Web Speech Recognition),它允许网页实时捕获并转录用户语音为文本。
SpeechRecognition:主流语音识别接口
这是 Web Speech API 中负责语音转文字的核心接口,已稳定支持于 Chrome(桌面和 Android)、Edge(基于 Chromium 版本)等浏览器。Safari 和 Firefox 目前不支持该接口(截至 2024 年)。
使用前需注意:
- 必须在 HTTPS 或 localhost 环境 下运行,HTTP 非本地站点会被拒绝访问麦克风
- 需用户主动授权麦克风权限(首次调用时会弹出浏览器提示)
- 识别过程依赖云端服务(Chrome 会将音频发送至 Google 语音服务处理,离线不可用)
基础使用示例(简洁可运行)
以下是最小可用代码片段:
立即学习“Java免费学习笔记(深入)”;
const recognition = new (window.SpeechRecognition || window.webkitSpeechRecognition)();
recognition.lang = 'zh-CN'; // 设置中文识别
recognition.interimResults = true; // 允许返回中间结果(实时显示)
recognition.maxAlternatives = 1;
recognition.onresult = (event) => {
const transcript = Array.from(event.results)
.map(result => result[0].transcript)
.join('');
console.log('识别结果:', transcript);
};
recognition.onerror = (event) => {
console.error('语音识别出错:', event.error);
};
// 开始监听
recognition.start();
调用 recognition.start() 后,浏览器会请求麦克风权限;成功后自动开始录音与识别。
配套接口:SpeechSynthesis(语音合成)
虽然不属于“识别”,但常与 SpeechRecognition 搭配使用,实现“听—说”闭环。它通过 window.speechSynthesis 提供文本转语音能力:
- 支持多语言、语速/音调调节(
utterance.rate,pitch,volume) - 可通过
getVoices()获取系统可用发音人(需等待voiceschanged事件) - 同样仅限 HTTPS / localhost,且部分浏览器(如 Safari)对中文 TTS 支持有限
替代方案(当 Web Speech 不可用时)
若需兼容 Safari、Firefox 或追求离线/隐私优先,可考虑:
- WebAssembly + Whisper.cpp / Vosk:将轻量语音模型(如 Vosk)编译为 WASM,在前端本地运行,完全离线、无网络传输,但模型体积较大(5–50 MB)、识别延迟略高
-
Web Audio API + 自定义后端:用
MediaRecorder录制音频 Blob,上传至自有语音识别服务(如部署 Whisper、FunASR),适合对数据隐私或定制化有要求的场景 - 第三方 SDK:如讯飞开放平台、百度语音识别、腾讯云 ASR 的 JS SDK,提供更稳定中文支持和丰富功能(标点、热词、语义解析),但依赖厂商服务与密钥管理
Web Speech API 的 SpeechRecognition 是当前浏览器中开箱即用、零依赖的首选方案;其他方式则用于补足兼容性、离线需求或业务定制化场景。











