0

0

谷歌AI歌手震撼来袭!AudioLM简单听几秒,便能谱曲写歌

WBOY

WBOY

发布时间:2023-04-11 21:10:06

|

1367人浏览过

|

来源于51CTO.COM

转载

图像生成模型卷起来了!视频生成模型卷起来了!

下一个,便是音频生成模型。

近日,谷歌研究团队推出了一种语音生成的AI模型——AudioLM。

只需几秒音频提示,它不仅可以生成高质量,连贯的语音,还可以生成钢琴音乐。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

论文地址:https://www.php.cn/link/b6b3598b407b7f328e3129c74ca8ca94

AudioLM是一个具有长期一致性的高质量音频生成框架,将输入的音频映射为一串离散的标记,并将音频生成任务转化为语言建模任务。

现有的音频标记器在音频生成质量和稳定的长期结构之间必须做出权衡,无法兼顾。

为了解决这个矛盾,谷歌采用「混合标记化」方案,利用预训练好的掩膜语言模型的离散化激活,并利用神经音频编解码器产生的离散代码来实现高质量的合成。

图片

AudioLM模型可以基于简短的提示,学习生成自然和连贯的连续词,当对语音进行训练时,在没有任何记录或注释的情况下,生成了语法上通顺、语义上合理的连续语音,同时保持说话人的身份和语调。

除了语音之外,AudioLM还能生成连贯的钢琴音乐,甚至不需要在任何音乐符号来进行训练。

从文本到钢琴曲:两大问题

近年来,在海量的文本语料库中训练出来的语言模型已经显示出其卓越的生成能力,实现了开放式对话、机器翻译,甚至常识推理,还能对文本以外的其他信号进行建模,比如自然图像。

AudioLM的思路是,利用语言建模方面的这些进展来生成音频,而无需在注释数据上进行训练。

不过这需要面对两个问题。

首先,音频的数据率要高得多,单元序列也更长。比如一个句子包含几十个字符表示,但转换成音频波形后,一般要包含数十万个值。

另外,文本和音频之间存在着一对多的关系。同一个句子可以由不同的说话人以不同的风格、情感内容和环境来呈现。

为了克服这两个挑战,AudioLM利用了两种音频标记。

首先,语义标记是从w2v-BERT这个自监督的音频模型中提取的。

这些标记既能捕捉到局部的依赖关系(如语音中的语音,钢琴音乐中的局部旋律),又能捕捉到全局的长期结构(如语音中的语言句法和语义内容,钢琴音乐中的和声和节奏),同时对音频信号进行大量的降采样,以便对长序列进行建模。

不过,从这些token中重建的音频的保真度不高。

为了提高音质,除了语义标记外,AudioLM还利用了SoundStream神经编解码器产生的声学标记,捕捉音频波形的细节(如扬声器特征或录音条件),进行高质量的合成。

如何训练?

AudioLM是一个纯音频模型,在没有任何文本或音乐的符号表示下进行训练。

它通过链接多个Transformer模型(每个阶段一个)从语义标记到精细的声学标记对音频序列进行分层建模。

每个阶段都会根据上次的标记为下一个标记预测进行训练,就像训练一个语言模型一样。

Peachly AI
Peachly AI

Peachly AI是一个一体化的AI广告解决方案,帮助企业创建、定位和优化他们的广告活动。

下载

第一阶段在语义标记上执行此任务,以对音频序列的高级结构进行建模。

图片

到了第二阶段,通过将整个语义标记序列与过去的粗声标记连接起来,并将两者作为条件反馈给粗声模型,然后预测未来的标记。

这个步骤模拟了声学特性,例如说话者特性或音乐中的音色。

图片

在第三阶段,使用精细的声学模型来处理粗糙的声学信号,从而为最终的音频增加了更多的细节。

最后,将声学标记输入SoundStream解码器以重建波形。

图片

训练完成后,可以在几秒钟音频上调整AudioLM,这能够让其生成连续性的音频。

为了展示AudioLM的普遍适用性,研究人员通过在不同音频领域的2个任务对其进行检验。

一是Speech continuation,该模型保留提示的说话人特征、韵律,同时还能输出语法正确且语义一致的新内容。

二是Piano continuation,该模型会生成在旋律、和声和节奏方面与提示一致的钢琴音乐。

如下所示,你听到的所有灰色垂直线之后的声音都是由AudioLM生成的。

为了验证效果如何,研究人员让人类评分者去听简短的音频片段,去判断是人类语音的原始录音还是由 AudioLM生成的录音。

根据收集到的评分,可以看到AudioLM有51.2%的成功率,意味着这一AI模型生成的语音对于普通听众来说很难与真正的语音区分开来。

在东北大学研究信息和语言科学的Rupal Patel表示,之前使用人工智能生成音频的工作,只有在训练数据中明确注释这些细微差别,才能捕捉到这些差别。

相比之下,AudioLM从输入数据中自动学习这些特征,同样达到了高保真效果。

随着 GPT3 和 Bloom(文本生成)、 DALLE和Stable Diffusion(图像生成)、RunwayML和Make-A-Video(视频生成)等多模态 ML 模型的出现,关于内容创建和创意工作正在发生变化。

未来的世界,便是人工智能生成的世界。

参考资料:

​https://www.php.cn/link/c11cb55c3d8dcc03a7ab7ab722703e0a​

​https://www.php.cn/link/b6b3598b407b7f328e3129c74ca8ca94​

​https://www.php.cn/link/c5f7756d9f92a8954884ec415f79d120​

​https://www.php.cn/link/9b644ca9f37e3699ddf2055800130aa9​

相关专题

更多
php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

65

2025.12.31

php网站源码教程大全
php网站源码教程大全

本专题整合了php网站源码相关教程,阅读专题下面的文章了解更多详细内容。

43

2025.12.31

视频文件格式
视频文件格式

本专题整合了视频文件格式相关内容,阅读专题下面的文章了解更多详细内容。

35

2025.12.31

不受国内限制的浏览器大全
不受国内限制的浏览器大全

想找真正自由、无限制的上网体验?本合集精选2025年最开放、隐私强、访问无阻的浏览器App,涵盖Tor、Brave、Via、X浏览器、Mullvad等高自由度工具。支持自定义搜索引擎、广告拦截、隐身模式及全球网站无障碍访问,部分更具备防追踪、去谷歌化、双内核切换等高级功能。无论日常浏览、隐私保护还是突破地域限制,总有一款适合你!

41

2025.12.31

出现404解决方法大全
出现404解决方法大全

本专题整合了404错误解决方法大全,阅读专题下面的文章了解更多详细内容。

204

2025.12.31

html5怎么播放视频
html5怎么播放视频

想让网页流畅播放视频?本合集详解HTML5视频播放核心方法!涵盖<video>标签基础用法、多格式兼容(MP4/WebM/OGV)、自定义播放控件、响应式适配及常见浏览器兼容问题解决方案。无需插件,纯前端实现高清视频嵌入,助你快速打造现代化网页视频体验。

9

2025.12.31

关闭win10系统自动更新教程大全
关闭win10系统自动更新教程大全

本专题整合了关闭win10系统自动更新教程大全,阅读专题下面的文章了解更多详细内容。

8

2025.12.31

阻止电脑自动安装软件教程
阻止电脑自动安装软件教程

本专题整合了阻止电脑自动安装软件教程,阅读专题下面的文章了解更多详细教程。

3

2025.12.31

html5怎么使用
html5怎么使用

想快速上手HTML5开发?本合集为你整理最实用的HTML5使用指南!涵盖HTML5基础语法、主流框架(如Bootstrap、Vue、React)集成方法,以及无需安装、直接在线编辑运行的平台推荐(如CodePen、JSFiddle)。无论你是新手还是进阶开发者,都能轻松掌握HTML5网页制作、响应式布局与交互功能开发,零配置开启高效前端编程之旅!

2

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
550W粉丝大佬手把手从零学JavaScript
550W粉丝大佬手把手从零学JavaScript

共1课时 | 0.2万人学习

尚硅谷JavaScript高级视频教程
尚硅谷JavaScript高级视频教程

共48课时 | 14.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号