【精华】AIGC之文生音乐及实践应用

【精华】AIGC之文生音乐及实践应用

    正在检查是否收录...

文章目录

AIGC之文生音乐及实践应用 (一)序言 (二)常见算法框架 (1)Mubert (2)Make-An-Audio (3)bark (三)研究里程碑 (四)当前挑战 (1)高自由度音频生成需要依靠大量文本 - 音频对数据 (2)长时波形建模存在诸多困难 (五)最新研究进展

AIGC之文生音乐及实践应用

(一)序言

近期 AIGC 如同上了热搜一般,火热程度居高不下,当然除了名头格外响亮,突破也是绝对斐然:输入自然语言就可自动生成图像、视频甚至是 3D 模型,你说意不意外?

但在音频音效的领域,AIGC 的福利似乎还差了一些。主要由于高自由度音频生成需要依靠大量文本 - 音频对数据,同时长时波形建模还有诸多困难。目前主流解决思路是将自然语言描述作为输入,而且是任意模态(例如文本、音频、图像、视频等)均可,同时输出符合描述的音频音效,广大网友很难不为其可控性以及泛化性点赞。

可以预见的是,音频合成 AIGC 将会在未来电影配音、短视频创作等领域发挥重要作用,而借助 Make-An-Audio 等模型,或许在未来人人都有可能成为专业的音效师,都可以凭借文字、视频、图像在任意时间、任意地点,合成出栩栩如生的音频、音效。但现阶段 Make-An-Audio 也并不是完美无缺的,可能由于丰富的数据来源以及不可避免的样本质量问题,训练过程中难免会产生副作用,例如生成不符合文字内容的音频,Make-An-Audio 在技术上被定位是 “辅助艺术家生成”,可以肯定的一点,AIGC 领域的进展确实令人惊喜。

(二)常见算法框架
(1)Mubert
官网: https://mubert.com/ GitHub:https://github.com/MubertAI/Mubert-Text-to-Music
(2)Make-An-Audio
论文链接: https://arxiv.org/abs/2301.12661 项目链接: https://text-to-audio.github.io
(3)bark
项目链接: https://github.com/suno-ai/bark
(三)研究里程碑
时间 所属机构 描述 2022年10月 Mubert 推出Mubert-Text-to-Music API 2023年1月 浙大+北大+火山语音 推出模型 Make-An-Audio,共同提出了Distill-then-Reprogram 文本增强策略,即使用教师模型获得音频的自然语言描述,再通过随机重组获得具有动态性的训练样本。
(四)当前挑战
(1)高自由度音频生成需要依靠大量文本 - 音频对数据
(2)长时波形建模存在诸多困难
(五)最新研究进展
AIGC基于文本生成音乐,现在压力来到配乐行业这边 这段音频火爆外网!文字、图片一键生成逼真音效,音频界AIGC来了 最新语音合成变声器轻松克隆你的声音,SoVits AI体验 语音合成工具_bark

aigcbertgitbarkgithub自然语言音频生成语音合成url文字内容ai体验图片一键生成文本增强api音频合成3d 模型文本生成一键生成艺术家自动生成视频创作短视频arxiv
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-2305.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

Fooocus-开源AI绘画工具 无需繁琐配置 一键下载安装

上一篇

Stable Diffusion 使用教程

下一篇
  • 复制图片
按住ctrl可打开默认菜单