全网整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:021-69131181

开元体育音乐人的“噩梦”?StabilityAI推出音乐生成工具StableAu

  开元体育音乐人的“噩梦”?StabilityAI推出音乐生成工具StableAudio今年5月,“AI孙燕姿”翻唱的歌曲在全网获得百万播放,“AI孙燕姿”一夜之间爆火出圈,网友们喊话孙燕姿“再不出来就要被AI代替了”,孙燕姿本人对此显得尤为淡定,她回应“人类无法超越AI,做自己已然足够”。

  能像孙燕姿这样坦然面对AI对职业挑战的艺人并不多,最近曾因“文生图”应用Stable Diffusion一战成名的Stability AI,又在“文生音”领域做了一款新工具——StableAudio,可能要威胁到音乐人的饭碗了。

  StableAudio简化了用户生产音频的模式,用户只需要输入关键词,通常包含乐器名称、风格、情境、甚至节拍数,就可以一键生成音频。该工具采用“潜在扩散模型”,它能根据用户输入的文本生成丰富多彩、高质量的音频,范围涵盖了音乐、对话、环境音和特效声等。

  StableAudio目前只有网页版,界面非常简单,用户进入后,可以输入关键词,一键生成音频。

  想象一下,在金色的伊比沙岛海滩上,落日的余晖洒在细软的沙滩上开元体育(中国)官方网站IOS/安卓通用版/登录入口,微风带来海盐和自由的味道。在这样一个场景中,如果你有一首音乐的设想,StableAudio就能让你的“思绪”转化为“旋律”。只需将这个美好瞬间的描述输入系统,接下来你就可以坐下来,享受由AI生成的、符合情感和场景的音乐。

  奇怪的是,如果将上面同样的Prompt翻译成中文输入:钢琴独奏,波兰风,鼓舞人心,112BPM

  基本听不出来是钢琴这款乐器的演奏,更多的像是酒吧里一群年轻人热身用的伴奏,听起来也像是合成乐器,和Prompt最呼应的就是“鼓舞人心”,听起来很有动感。

  确实是古筝弹出来的,不过听起来有点“山寨”,有了一些合成音乐的感觉,Prompt描绘的感受被比较完整地演绎出来。

  从这几个基础体验来看,英文Prompt之下,StableAudio的演绎还是相当准确的,但它对中文Prompt的识别能力极差,基本只能抓住对音乐风格的描述。不过整体感受下来,懂音乐的人或许能将StableAudio运用地更得心应手,他们对不同的乐器,不同的音乐风格的Prompt描述可以更加准确,所生成的音乐美感差异也会比较大。

  虽然在实际体验中,StableAudio的运行速度并不是非常快,通常需要用户在输入Prompt后大约10秒,才能生成音乐,但根据Stability AI对外公布的信息,它能在不到一秒的时间内,使用NVIDIA A100 GPU渲染出95秒的立体声音频,采样率为44.1 kHz。并且它提供免费试用机会,用户可以在不支付费用的情况下,可以生成20条音频,每条音频的时间不超过45秒。

  除了免费试用外,StableAudio还提供专业版和企业版订阅计划,具备更多的音乐生成次数和时长,专业版用户可以生成90秒的音频,订阅费用为11.99美金每个月。是否免费的另一个大的区别,是所生成的音频能否被用于商用,专业版和企业版生成的均被允许商业用途,比如电影制作或游戏开发行业的人,可以通过StableAudio快速生成他们想要的背景音乐。

  为了训练这款模型,Stability与音乐提供商AudioSparx合作,在超过800000个音频文件的数据集上进行了训练,其中包括音乐、音效和单乐器主干,以及相应的文本元数据。在将19500小时的音频输入模型后,StableAudio知道如何模仿它在命令中“听”到的某些声音描述。经过大量的训练的StableAudio,让用户通过文本提示就能直接生成摇滚、爵士、电子、嘻哈、重金属、民谣、流行、朋克、乡村等20多种类型背景音乐。

  据称,在培训之前,AudioSparx创作人被问及是否愿意提供他们的歌曲,这个决定可能是对Stability在Stable Diffusion的培训素材涉及版权辩论中所面临的大规模反对的回应。

  在过去几年,扩散模型在图像、视频、音频等领域获得发展,可提升训练和推理效率。但音频领域的扩散模型存在一个问题,通常只能生成固定大小的内容。例如,音频扩散模型可能在30秒的音频片段上进行训练,并且只能生成30秒的音频片段。

  为了打破这个技术瓶颈,StableAudio使用了一种更先进的模型:潜在扩散模型(latent diffusion model)。这是一种基于扩散的生成模型,主要在预训练的自动编码器的潜在编码空间中使用,也是一种结合了自动编码器和扩散模型的方法。

  潜在扩散模型的核心思想是将音频信号从一个高维空间(例如 44.1 kHz 的采样率)映射到一个低维空间(例如 64 x 64 的潜在空间),然后通过一个随机过程逐步恢复原始信号,同时加入文本信息作为条件。这样,就可以实现从文本到音频的生成,而不需要大量的数据和计算资源。

  扩散过程的原理其实是训练了一个基于 U-Net 和噪音等级机制 (schedule)的噪音等级预测器。扩散过程包含如下阶段:

  流程:从数据集中抽样得到清晰图像,从噪音等级机制中抽样得到某种级别的噪音样本,把该噪音和图像融合

  输出:把噪音图像减去噪音样本,得到去噪图像。不断重复该过程,最终得到类似清晰图像的图像(并不一定完全相同)

  和其他扩散模型相比,StableAudio优势在于它能增强音乐质量和音乐连贯性。它可以生成长达90秒的音乐,而其他模型通常只能生成几秒钟的音频片段。这一创新是通过潜在扩散技术实现的,StableAudio的模型可以逐渐减少噪音,从而使音乐更加连贯,符合用户的要求。

  在一个充满数字震荡和创新潮流的世界里,Stability AI从2021年起就如一颗冉冉升起的新星,在开源生工智能领域展现了令人瞩目的活力和创造力。

  虽然Stability AI推出的StableAudio在音乐界激起了不小的讨论开元体育(中国)官方网站IOS/安卓通用版/登录入口,但在市场上已有多个不同角度的尝试。

  我们可以逐个体验一下这几款工具。例如,HuggingFace社区里的Music To Image拥有能将音乐转化为图片的能力,拖入一条音频,这款工具便可以将音乐表达的情境转化成图片。

  2022年12月,第一个 对Stable Diffusion的音频生成的尝试工具Riffusion出世,它可以生成光谱图,根据定制的音乐风格来产生声音。

  2023年5月,谷歌发布将文本转化为音乐的工具MusicLM,用户可以键入“晚餐派对的灵魂爵士乐”或“创建催眠的工业技术声音”等提示,并让该工具创建歌曲的几个版本,它对Prompt的描述要求较高。

  与以上相比,MusicGen最大的差别是在Prompt之外,用户可以插入一个参考性的音频文件开元体育(中国)官方网站IOS/安卓通用版/登录入口,帮助校准所生成的音频的效果。

  总体而言,StableAudio作为一款“文生音”工具,古筝、钢琴的音色出乎意料的接近现实声音,还可以solo演奏,生成的音乐不但拥有主题,还有递进的结构,但生成的音频可以听到旋律有一定的重复。但在体验中也能感受到,有部分乐器会出现失真状况。

  整体感受下来,StableAudio能够满足使用者对「文生音」的好奇心,并且适合对于音乐创作毫无经验的新手小白去进行创作,但懂音乐乐理和基础知识的玩家会更有优势。

  在这个快速演变的数字时代,StableAudio不仅是一个AIGC工具,或许也是一个让音乐梦想成真、激发创意和情感的平台。人人都能成为音乐家的时代,或许很快到来。

  本文由腾讯科技和适道(ID:survivalbiz)联合出品,如需交流欢迎加作者微信:aiyukuailetongzai ,烦请备注公司+职务。

您的项目需求

*请认真填写需求信息,我们会在24小时内与您取得联系。