讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

谷歌AI歌手震撼来袭！AudioLM简单听几秒，便能谱曲写歌

WBOY

发布时间：2023-04-11 21:10:06

|

1367人浏览过

|

来源于51CTO.COM

转载

图像生成模型卷起来了！视频生成模型卷起来了！

下一个，便是音频生成模型。

近日，谷歌研究团队推出了一种语音生成的AI模型——AudioLM。

只需几秒音频提示，它不仅可以生成高质量，连贯的语音，还可以生成钢琴音乐。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址：https://www.php.cn/link/b6b3598b407b7f328e3129c74ca8ca94

AudioLM是一个具有长期一致性的高质量音频生成框架，将输入的音频映射为一串离散的标记，并将音频生成任务转化为语言建模任务。

现有的音频标记器在音频生成质量和稳定的长期结构之间必须做出权衡，无法兼顾。

为了解决这个矛盾，谷歌采用「混合标记化」方案，利用预训练好的掩膜语言模型的离散化激活，并利用神经音频编解码器产生的离散代码来实现高质量的合成。

AudioLM模型可以基于简短的提示，学习生成自然和连贯的连续词，当对语音进行训练时，在没有任何记录或注释的情况下，生成了语法上通顺、语义上合理的连续语音，同时保持说话人的身份和语调。

除了语音之外，AudioLM还能生成连贯的钢琴音乐，甚至不需要在任何音乐符号来进行训练。

从文本到钢琴曲：两大问题

近年来，在海量的文本语料库中训练出来的语言模型已经显示出其卓越的生成能力，实现了开放式对话、机器翻译，甚至常识推理，还能对文本以外的其他信号进行建模，比如自然图像。

AudioLM的思路是，利用语言建模方面的这些进展来生成音频，而无需在注释数据上进行训练。

不过这需要面对两个问题。

首先，音频的数据率要高得多，单元序列也更长。比如一个句子包含几十个字符表示，但转换成音频波形后，一般要包含数十万个值。

另外，文本和音频之间存在着一对多的关系。同一个句子可以由不同的说话人以不同的风格、情感内容和环境来呈现。

为了克服这两个挑战，AudioLM利用了两种音频标记。

首先，语义标记是从w2v-BERT这个自监督的音频模型中提取的。

这些标记既能捕捉到局部的依赖关系（如语音中的语音，钢琴音乐中的局部旋律），又能捕捉到全局的长期结构（如语音中的语言句法和语义内容，钢琴音乐中的和声和节奏），同时对音频信号进行大量的降采样，以便对长序列进行建模。

不过，从这些token中重建的音频的保真度不高。

为了提高音质，除了语义标记外，AudioLM还利用了SoundStream神经编解码器产生的声学标记，捕捉音频波形的细节（如扬声器特征或录音条件），进行高质量的合成。

如何训练？

AudioLM是一个纯音频模型，在没有任何文本或音乐的符号表示下进行训练。

它通过链接多个Transformer模型（每个阶段一个）从语义标记到精细的声学标记对音频序列进行分层建模。

每个阶段都会根据上次的标记为下一个标记预测进行训练，就像训练一个语言模型一样。

Peachly AI

Peachly AI

Peachly AI是一个一体化的AI广告解决方案，帮助企业创建、定位和优化他们的广告活动。

下载

第一阶段在语义标记上执行此任务，以对音频序列的高级结构进行建模。

到了第二阶段，通过将整个语义标记序列与过去的粗声标记连接起来，并将两者作为条件反馈给粗声模型，然后预测未来的标记。

这个步骤模拟了声学特性，例如说话者特性或音乐中的音色。

在第三阶段，使用精细的声学模型来处理粗糙的声学信号，从而为最终的音频增加了更多的细节。

最后，将声学标记输入SoundStream解码器以重建波形。

训练完成后，可以在几秒钟音频上调整AudioLM，这能够让其生成连续性的音频。

为了展示AudioLM的普遍适用性，研究人员通过在不同音频领域的2个任务对其进行检验。

一是Speech continuation，该模型保留提示的说话人特征、韵律，同时还能输出语法正确且语义一致的新内容。

二是Piano continuation，该模型会生成在旋律、和声和节奏方面与提示一致的钢琴音乐。

如下所示，你听到的所有灰色垂直线之后的声音都是由AudioLM生成的。

为了验证效果如何，研究人员让人类评分者去听简短的音频片段，去判断是人类语音的原始录音还是由 AudioLM生成的录音。

根据收集到的评分，可以看到AudioLM有51.2%的成功率，意味着这一AI模型生成的语音对于普通听众来说很难与真正的语音区分开来。

在东北大学研究信息和语言科学的Rupal Patel表示，之前使用人工智能生成音频的工作，只有在训练数据中明确注释这些细微差别，才能捕捉到这些差别。

相比之下，AudioLM从输入数据中自动学习这些特征，同样达到了高保真效果。

随着 GPT3 和 Bloom（文本生成）、 DALLE和Stable Diffusion（图像生成）、RunwayML和Make-A-Video（视频生成）等多模态 ML 模型的出现，关于内容创建和创意工作正在发生变化。

未来的世界，便是人工智能生成的世界。

参考资料：

https://www.php.cn/link/c11cb55c3d8dcc03a7ab7ab722703e0a

https://www.php.cn/link/b6b3598b407b7f328e3129c74ca8ca94

https://www.php.cn/link/c5f7756d9f92a8954884ec415f79d120

https://www.php.cn/link/9b644ca9f37e3699ddf2055800130aa9

相关文章

AI 音乐创作工具体验：从零开始写歌的全新方式

苹果AI搜索引擎：挑战谷歌和ChatGPT？未来搜索新趋势

怎么用AI一键生成歌曲和弦进行？音乐创作小白也能玩

谷歌推测试检验AI靠谱度，Gemini 3 Pro准确率69%企业需谨慎

深度剖析Lorde《Team》歌词：隐喻、意象与社会反思

相关标签:

谷歌 ai

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：北大河图发布分布式训练神器Galvatron, 一键实现大模型高效自动并行下一篇：拟定外逃、接管推特，20多天GPT-4创造的20件最不可思议事情

作者最新文章

提升效率的夸克浏览器AI搜索_夸克AI搜索高效使用秘籍

2025-10-17 16:12

夸克浏览器AI搜索功能详解_几个实用的夸克AI搜索技巧分享

2025-10-17 17:20

手机版夸克浏览器AI搜索设置_移动端夸克AI搜索使用全攻略

2025-10-17 23:58

夸克浏览器AI搜索深度体验_夸克AI搜索与其他AI的对比

2025-10-18 22:34

夸克浏览器AI搜索入口在哪_一文读懂夸克AI搜索如何激活

2025-10-19 09:25

夸克浏览器如何调用AI搜索_夸克AI搜索的快捷指令大全

2025-10-19 11:02

夸克浏览器一键启用AI搜索_带你体验夸克AI搜索的强大之处

2025-10-19 18:42

玩转夸克浏览器的AI搜索模式_夸克AI搜索新手入门操作指南

2025-10-20 09:50

夸克浏览器AI搜索最新版教学_探索夸克AI搜索的隐藏功能

2025-10-24 20:48

夸克浏览器怎么用AI搜索_夸克AI搜索正确提问方式教学

2025-10-25 23:12

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

更多

php源码安装教程大全

php源码安装教程大全

本专题整合了php源码安装教程，阅读专题下面的文章了解更多详细内容。

65

2025.12.31

php网站源码教程大全

php网站源码教程大全

本专题整合了php网站源码相关教程，阅读专题下面的文章了解更多详细内容。

43

2025.12.31

视频文件格式

视频文件格式

本专题整合了视频文件格式相关内容，阅读专题下面的文章了解更多详细内容。

35

2025.12.31

不受国内限制的浏览器大全

不受国内限制的浏览器大全

想找真正自由、无限制的上网体验？本合集精选2025年最开放、隐私强、访问无阻的浏览器App，涵盖Tor、Brave、Via、X浏览器、Mullvad等高自由度工具。支持自定义搜索引擎、广告拦截、隐身模式及全球网站无障碍访问，部分更具备防追踪、去谷歌化、双内核切换等高级功能。无论日常浏览、隐私保护还是突破地域限制，总有一款适合你！

41

2025.12.31

出现404解决方法大全

出现404解决方法大全

本专题整合了404错误解决方法大全，阅读专题下面的文章了解更多详细内容。

204

2025.12.31

html5怎么播放视频

html5怎么播放视频

想让网页流畅播放视频？本合集详解HTML5视频播放核心方法！涵盖<video>标签基础用法、多格式兼容（MP4/WebM/OGV）、自定义播放控件、响应式适配及常见浏览器兼容问题解决方案。无需插件，纯前端实现高清视频嵌入，助你快速打造现代化网页视频体验。

9

2025.12.31

关闭win10系统自动更新教程大全

关闭win10系统自动更新教程大全

本专题整合了关闭win10系统自动更新教程大全，阅读专题下面的文章了解更多详细内容。

8

2025.12.31

阻止电脑自动安装软件教程

阻止电脑自动安装软件教程

本专题整合了阻止电脑自动安装软件教程，阅读专题下面的文章了解更多详细教程。

3

2025.12.31

html5怎么使用

html5怎么使用

想快速上手HTML5开发？本合集为你整理最实用的HTML5使用指南！涵盖HTML5基础语法、主流框架（如Bootstrap、Vue、React）集成方法，以及无需安装、直接在线编辑运行的平台推荐（如CodePen、JSFiddle）。无论你是新手还是进阶开发者，都能轻松掌握HTML5网页制作、响应式布局与交互功能开发，零配置开启高效前端编程之旅！

2

2025.12.31

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

550W粉丝大佬手把手从零学JavaScript

550W粉丝大佬手把手从零学JavaScript

共1课时 | 0.2万人学习

尚硅谷JavaScript高级视频教程

尚硅谷JavaScript高级视频教程

共48课时 | 14.4万人学习

尚硅谷自动化构建工具Maven视频教程

尚硅谷自动化构建工具Maven视频教程

共35课时 | 7.2万人学习

最新文章

更多

Midjourney怎么生成Logo MJ设计Logo图标及矢量图转绘方法【实操】

文心一言手机语音对话怎么设置实时语音助手功能操作指南

Depseek如何设计角色扮演提示词_Depseek角色设定提示词写法【攻略】

tofai怎么导出PDF格式 tofai文件格式转换教程【步骤】

豆包AI怎么开启登录保护_两步验证与账户安全设置教程

豆包AI怎么生成表格数据_创建与导出Markdown表格教程

tofai官网网址入口 tofai网页版在线平台

tofai免费在线网页版 tofai官网正版链接

ChatGPT怎样用提示词引导创意_ChatGPT创意引导方法【攻略】

DeepSeek 在复杂工程制图规范检查中的应用

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部