0

0

Siri越来越“大众”,未来智能语音会有哪些突破?

王林

王林

发布时间:2023-05-06 13:07:06

|

1601人浏览过

|

来源于51CTO.COM

转载

对于人机交互来说,如何让机器具备良好的听觉,一直是近些年来 AI 领域不懈追求的目标。2009 年前后,深度学习模型用于开始走出学术界,而以语音唤醒、识别、增强和合成为代表的智能语音技术,也逐渐走向成熟。

一个早期典型的例子是,2011 年 siri 的诞生。智能语音成了人与机器之间的沟通交互方式的新跃迁。而后经过十余年的发展,"嘿,siri"式的人机问答已经不再局限于移动终端设备,走进千家万户,广泛应用于各个场景:家居陪伴智能音箱,方便网购的天猫精灵,会议上的同声翻译,出行时的车载语音导航助手等等。

随着越来越多的互联网企业及上游厂商在智能语音赛道的积极布局,智能语音客服、对话式 AI 应用、AI 虚拟助手等产品的取得了进一步质量提升,响应语音更自然,理解问题更准确,并且有了自己的"小情绪"。

身处数字化浪潮的时代,万物互联的趋势不可阻挡。而智能语音作为当下人机交互的关键接口,正处于与实体经济深度融合碰撞的时期。随着应用场景的进一步下沉和拓展,我们也看到不少挑战性的问题,比如:如何识别说话人身份、如何识别方言、如何消除歧义等等都是最新的研究热点。

一项技术走向成熟的背后,往往蕴含着一些潜质,这其中包括它在实际应用中的创新能力,以及它更有潜力的演进方向。展望下一个阶段,智能语音技术也必会出现新的演进趋势,例如:深度集成的AI语音芯片能否取代云端运行模型的模式?多模态融合、无监督学习、脑学科交叉融合的创新研究能否取得突破性成果?我们拭目以待。

那么,智能语音技术在各大企业中实践探索中都遇到了哪些真实的生产问题?又是如何解决的?取得了哪些进展?行业出现了哪些新变化?下一步的发展趋势又会有哪些?"AISummit全球人工智能技术大会"智能语音技术专场带给你深度思考!

8月7日,51CTO倾力打造的“AISummit全球人工智能技术大会”智能语音专场重磅来袭!

专场有哪些你感兴趣的专题内容?

专题一:作业帮语音技术实践

1.语音识别技术探索:分享端到端、高效利用数据等大规模实际应用场景下的语音识别技术,并提出了基于前缀自动机的热词技术方案。

2.语音评测技术实践:语音发音纠错技术方面结合作业帮的高并发场景,提出了多任务知识迁移、多模态特征融融合方案,很大程度上提升提升模型的因素区分能力和噪声环境下的检错能力。并针对语音评测落地难的痛点,提出了高性能的云端一体化测评技术。

3.语音合成技术框架:分享作业帮基于现有的小数据量语音技术框架进一步改进的思考与实践。

专题二:字节语音识别技术在飞书中的应用

1.语音识别技术在办公场景中的应用进程:办公邮件、即时通讯中的语音输入办公语音助手、实时字幕&会后转写。

2.解决思考:会议智能化、效率提升。

3.挑战与机遇:语音识别任务的挑战、下游任务带来的挑战、会议提供额外的信息。

4.重点算法工作介绍(端到端语音识别系统):Transducer & CIF、动态+静态热词、Context-aware。

专题三:构建高水平的语音合成系统实践

1.高水平语音合成系统背景介绍及问题分析。

2.高水平语音合成系统设计思考与实现。

Haiper
Haiper

一个感知模型驱动的AI视频生成和重绘工具,提供文字转视频、图片动画化、视频重绘等功能

下载

3.实验评估。

4.未来工作展望。

专题四:SOUL社交场景下的智能语音技术实践之路

1.SOUL社交元宇宙场景下的端到端语音识别

2.多模态语音合成技术的构建路线

3.在语音安全和语音交互等业务场景下的应用

专题五:端到端语音识别技术在58同城的探索实践

1.语音识别在58同城的应用场景:AI智能语音应用、语音识别链路介绍、挑战与技术路线

2.基于WeNet的模型优化工作:半监督训练、Efficient Conformer、模型压缩

3.端到端语音识别的部署方案:自研引擎架构、Wenet解码服务部署、流式/非流式解码性能测试

都有哪些重量级嘉宾?

一、宋旸,作业帮首席算法专家、智能中台负责人、专场出品人

宋旸在百度工作7年,从事算法研发工作。2015年加入作业帮,为智能中台部负责人,为公司各业务输出包括数据挖掘、NLP、语音在内的中台技术能力,先后负责搜索答疑、个性化推荐、智能质检、语音评测、服务智能化调度等方向。

二、王强强,作业帮语音技术团队负责人

在加入作业帮之前,王强强曾任职于清华大学电子工程系语音处理与机器智能实验室,负责语音识别算法落地,搭建工业级解决方案。2018 年加入作业帮,负责语音相关算法研究和落地,主导了语音识别、评测、合成等算法在作业帮的落地实践, 为公司提供整套语音技术解决方案。

三、张骏,字节跳动AI Lab语音识别算法研究员

张骏长期从事语音识别、语音唤醒等语音算法研究与应用,经验丰富。2018 年加入字节跳动AI Lab智能语音团队,目前主要负责智能办公、智能硬件、智能客服等方向的语音技术方案建设。

四、谭旭,微软亚洲研究院主管研究员

谭旭,研究领域包括深度学习、自然语言/语音/音乐、AI内容生成等。研发的机器翻译和语音合成系统获得多项比赛冠军并在学术评测集上达到人类水平,研究工作如预训练语言模型MASS、语音合成模型FastSpeech/NaturalSpeech、AI音乐项目Muzic受到业界广泛关注。

五、刘忠亮,SOUL语音算法负责人

刘忠亮硕士毕业于中科院研究生院,目前在SOUL担任语音算法负责人,曾任职于搜狗AI交互部和陌陌大数据部。近10年主要从事语音唤醒、语音识别、语音合成、音频音乐理解等语音技术体系的研发工作,主要应用于输入法、手机助手、智能硬件、语音安全等语音交互和语音理解业务场景,致力于打造最好的可落地的语音技术。

六、周维,58同城 AI Lab语音算法部负责人、算法架构师

周维,58同城AI Lab语音算法部负责人、算法架构师,负责语音识别、语音合成算法研发。2016年硕士毕业于中国科学院大学,毕业后参与对话式AI产品方向创业,2018年5月加入58同城,曾先后参与智能客服、智能外呼、智能写稿等AI项目的NLP算法研发,2019年开始主攻语音算法方向,带领团队从0到1自主研发58同城语音处理引擎中的语音算法。

还有哪些精彩活动?

除了精彩的AI技术大咖的精彩的实践创新干货分享外,AISummit全球人工智能技术大会还为与会的朋友们准备了丰富的场前、场中互动福利。加入这场盛会,在拓展技术能力和人脉资源的同时,顺便惊喜礼品带回家!

活动包括"当人不让"、"工享幸运"、"智同道合"等四大妙趣横生的互动游戏,总有一款精美礼品惊艳到你!那么,传说中神秘的终极大奖会是什么呢?等待热爱技术的你来现场揭秘!(PS:听说越早预约报名,中大奖几率越高哦!)

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Siri越来越“大众”,未来智能语音会有哪些突破? 

怎么快速预约报名?

点击进入​​AISummit 全球人工智能技术大会​​ 官方网站,按提示完整填写、提交信息即可完成报名。

扫码加入大会官方群,参与抽奖,赢取SONY音响、冰墩墩、AI技术书籍等精美礼品,还有红包雨掉落。

Siri越来越“大众”,未来智能语音会有哪些突破?

Siri越来越“大众”,未来智能语音会有哪些突破?

相关专题

更多
php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

7

2025.12.31

php网站源码教程大全
php网站源码教程大全

本专题整合了php网站源码相关教程,阅读专题下面的文章了解更多详细内容。

4

2025.12.31

视频文件格式
视频文件格式

本专题整合了视频文件格式相关内容,阅读专题下面的文章了解更多详细内容。

7

2025.12.31

不受国内限制的浏览器大全
不受国内限制的浏览器大全

想找真正自由、无限制的上网体验?本合集精选2025年最开放、隐私强、访问无阻的浏览器App,涵盖Tor、Brave、Via、X浏览器、Mullvad等高自由度工具。支持自定义搜索引擎、广告拦截、隐身模式及全球网站无障碍访问,部分更具备防追踪、去谷歌化、双内核切换等高级功能。无论日常浏览、隐私保护还是突破地域限制,总有一款适合你!

7

2025.12.31

出现404解决方法大全
出现404解决方法大全

本专题整合了404错误解决方法大全,阅读专题下面的文章了解更多详细内容。

42

2025.12.31

html5怎么播放视频
html5怎么播放视频

想让网页流畅播放视频?本合集详解HTML5视频播放核心方法!涵盖<video>标签基础用法、多格式兼容(MP4/WebM/OGV)、自定义播放控件、响应式适配及常见浏览器兼容问题解决方案。无需插件,纯前端实现高清视频嵌入,助你快速打造现代化网页视频体验。

4

2025.12.31

关闭win10系统自动更新教程大全
关闭win10系统自动更新教程大全

本专题整合了关闭win10系统自动更新教程大全,阅读专题下面的文章了解更多详细内容。

3

2025.12.31

阻止电脑自动安装软件教程
阻止电脑自动安装软件教程

本专题整合了阻止电脑自动安装软件教程,阅读专题下面的文章了解更多详细教程。

3

2025.12.31

html5怎么使用
html5怎么使用

想快速上手HTML5开发?本合集为你整理最实用的HTML5使用指南!涵盖HTML5基础语法、主流框架(如Bootstrap、Vue、React)集成方法,以及无需安装、直接在线编辑运行的平台推荐(如CodePen、JSFiddle)。无论你是新手还是进阶开发者,都能轻松掌握HTML5网页制作、响应式布局与交互功能开发,零配置开启高效前端编程之旅!

2

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Excel 教程
Excel 教程

共162课时 | 10.1万人学习

C# 教程
C# 教程

共94课时 | 5.7万人学习

C 教程
C 教程

共75课时 | 3.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号