开元体育音乐人的“噩梦”？StabilityAI推出音乐生成工具StableAu

　　开元体育音乐人的“噩梦”？StabilityAI推出音乐生成工具StableAudio今年5月，“AI孙燕姿”翻唱的歌曲在全网获得百万播放，“AI孙燕姿”一夜之间爆火出圈，网友们喊话孙燕姿“再不出来就要被AI代替了”，孙燕姿本人对此显得尤为淡定，她回应“人类无法超越AI，做自己已然足够”。

　　能像孙燕姿这样坦然面对AI对职业挑战的艺人并不多，最近曾因“文生图”应用Stable Diffusion一战成名的Stability AI，又在“文生音”领域做了一款新工具——StableAudio，可能要威胁到音乐人的饭碗了。

　　StableAudio简化了用户生产音频的模式，用户只需要输入关键词，通常包含乐器名称、风格、情境、甚至节拍数，就可以一键生成音频。该工具采用“潜在扩散模型”，它能根据用户输入的文本生成丰富多彩、高质量的音频，范围涵盖了音乐、对话、环境音和特效声等。

　　StableAudio目前只有网页版，界面非常简单，用户进入后，可以输入关键词，一键生成音频。

　　想象一下，在金色的伊比沙岛海滩上，落日的余晖洒在细软的沙滩上开元体育(中国)官方网站IOS/安卓通用版/登录入口，微风带来海盐和自由的味道。在这样一个场景中，如果你有一首音乐的设想，StableAudio就能让你的“思绪”转化为“旋律”。只需将这个美好瞬间的描述输入系统，接下来你就可以坐下来，享受由AI生成的、符合情感和场景的音乐。

　　奇怪的是，如果将上面同样的Prompt翻译成中文输入：钢琴独奏，波兰风，鼓舞人心，112BPM

　　基本听不出来是钢琴这款乐器的演奏，更多的像是酒吧里一群年轻人热身用的伴奏，听起来也像是合成乐器，和Prompt最呼应的就是“鼓舞人心”，听起来很有动感。

　　确实是古筝弹出来的，不过听起来有点“山寨”，有了一些合成音乐的感觉，Prompt描绘的感受被比较完整地演绎出来。

　　从这几个基础体验来看，英文Prompt之下，StableAudio的演绎还是相当准确的，但它对中文Prompt的识别能力极差，基本只能抓住对音乐风格的描述。不过整体感受下来，懂音乐的人或许能将StableAudio运用地更得心应手，他们对不同的乐器，不同的音乐风格的Prompt描述可以更加准确，所生成的音乐美感差异也会比较大。

　　虽然在实际体验中，StableAudio的运行速度并不是非常快，通常需要用户在输入Prompt后大约10秒，才能生成音乐，但根据Stability AI对外公布的信息，它能在不到一秒的时间内，使用NVIDIA A100 GPU渲染出95秒的立体声音频，采样率为44.1 kHz。并且它提供免费试用机会，用户可以在不支付费用的情况下，可以生成20条音频，每条音频的时间不超过45秒。

　　除了免费试用外，StableAudio还提供专业版和企业版订阅计划，具备更多的音乐生成次数和时长，专业版用户可以生成90秒的音频，订阅费用为11.99美金每个月。是否免费的另一个大的区别，是所生成的音频能否被用于商用，专业版和企业版生成的均被允许商业用途，比如电影制作或游戏开发行业的人，可以通过StableAudio快速生成他们想要的背景音乐。

　　为了训练这款模型，Stability与音乐提供商AudioSparx合作，在超过800000个音频文件的数据集上进行了训练，其中包括音乐、音效和单乐器主干，以及相应的文本元数据。在将19500小时的音频输入模型后，StableAudio知道如何模仿它在命令中“听”到的某些声音描述。经过大量的训练的StableAudio，让用户通过文本提示就能直接生成摇滚、爵士、电子、嘻哈、重金属、民谣、流行、朋克、乡村等20多种类型背景音乐。

　　据称，在培训之前，AudioSparx创作人被问及是否愿意提供他们的歌曲，这个决定可能是对Stability在Stable Diffusion的培训素材涉及版权辩论中所面临的大规模反对的回应。

　　在过去几年，扩散模型在图像、视频、音频等领域获得发展，可提升训练和推理效率。但音频领域的扩散模型存在一个问题，通常只能生成固定大小的内容。例如，音频扩散模型可能在30秒的音频片段上进行训练，并且只能生成30秒的音频片段。

　　为了打破这个技术瓶颈，StableAudio使用了一种更先进的模型：潜在扩散模型（latent diffusion model）。这是一种基于扩散的生成模型，主要在预训练的自动编码器的潜在编码空间中使用，也是一种结合了自动编码器和扩散模型的方法。

　　潜在扩散模型的核心思想是将音频信号从一个高维空间（例如 44.1 kHz 的采样率）映射到一个低维空间（例如 64 x 64 的潜在空间），然后通过一个随机过程逐步恢复原始信号，同时加入文本信息作为条件。这样，就可以实现从文本到音频的生成，而不需要大量的数据和计算资源。

　　扩散过程的原理其实是训练了一个基于 U-Net 和噪音等级机制 (schedule）的噪音等级预测器。扩散过程包含如下阶段：

　　流程：从数据集中抽样得到清晰图像，从噪音等级机制中抽样得到某种级别的噪音样本，把该噪音和图像融合

　　输出：把噪音图像减去噪音样本，得到去噪图像。不断重复该过程，最终得到类似清晰图像的图像（并不一定完全相同)

　　和其他扩散模型相比，StableAudio优势在于它能增强音乐质量和音乐连贯性。它可以生成长达90秒的音乐，而其他模型通常只能生成几秒钟的音频片段。这一创新是通过潜在扩散技术实现的，StableAudio的模型可以逐渐减少噪音，从而使音乐更加连贯，符合用户的要求。

　　在一个充满数字震荡和创新潮流的世界里，Stability AI从2021年起就如一颗冉冉升起的新星，在开源生工智能领域展现了令人瞩目的活力和创造力。

　　虽然Stability AI推出的StableAudio在音乐界激起了不小的讨论开元体育(中国)官方网站IOS/安卓通用版/登录入口，但在市场上已有多个不同角度的尝试。

　　我们可以逐个体验一下这几款工具。例如，HuggingFace社区里的Music To Image拥有能将音乐转化为图片的能力，拖入一条音频，这款工具便可以将音乐表达的情境转化成图片。

　　2022年12月，第一个对Stable Diffusion的音频生成的尝试工具Riffusion出世，它可以生成光谱图，根据定制的音乐风格来产生声音。

　　2023年5月，谷歌发布将文本转化为音乐的工具MusicLM，用户可以键入“晚餐派对的灵魂爵士乐”或“创建催眠的工业技术声音”等提示，并让该工具创建歌曲的几个版本，它对Prompt的描述要求较高。

　　与以上相比，MusicGen最大的差别是在Prompt之外，用户可以插入一个参考性的音频文件开元体育(中国)官方网站IOS/安卓通用版/登录入口，帮助校准所生成的音频的效果。

　　总体而言，StableAudio作为一款“文生音”工具，古筝、钢琴的音色出乎意料的接近现实声音，还可以solo演奏，生成的音乐不但拥有主题，还有递进的结构，但生成的音频可以听到旋律有一定的重复。但在体验中也能感受到，有部分乐器会出现失真状况。

　　整体感受下来，StableAudio能够满足使用者对「文生音」的好奇心，并且适合对于音乐创作毫无经验的新手小白去进行创作，但懂音乐乐理和基础知识的玩家会更有优势。

　　在这个快速演变的数字时代，StableAudio不仅是一个AIGC工具，或许也是一个让音乐梦想成真、激发创意和情感的平台。人人都能成为音乐家的时代，或许很快到来。

　　本文由腾讯科技和适道（ID：survivalbiz）联合出品，如需交流欢迎加作者微信：aiyukuailetongzai ，烦请备注公司+职务。

返回目录在线咨询

上一篇：开元体育(中国)官方网站IOS/安卓通用版/登录入口超好用的几款设计素材网你用过
下一篇：开元体育网站建设公司费用报价为什么差距如此之大

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

全网整合营销服务商

开元体育音乐人的“噩梦”？StabilityAI推出音乐生成工具StableAu

您的项目需求