AIGC音乐生成#riff + diffusion 以生成频谱图图像来转换为音乐 | 无界日报 第2期

AIGC音乐生成#riff + diffusion 以生成频谱图图像来转换为音乐 | 无界日报 第2期

    正在检查是否收录...

小杜

无界日报第2期,本期头条 - stable diffusion 微调模型 riff + diffusion 以生成频谱图图像来转换为音乐。

无界日报

2022.12.16

第02期

- 头条 -

riff + diffusion

#AIGC# #工具#

riff + diffusion 是 stable diffusion 的微调模型,以生成频谱图图像来转换为音乐。开发团队制作了一个交互式网络应用程序来输入提示并实时无限生成音频内容,同时以 3D 方式可视化频谱图时间线。

当用户输入新提示时,音频会平滑地过渡到新提示风格。如果没有新提示,应用程序将在同一提示的不同种子值之间进行音频生成。频谱图被可视化为沿时间线的 3D 波纹图,带有半透明的播放条提示播放进度。

-音频频谱图:如图所示,是一种表示声音片段频率内容的可视化方式。x 轴代表时间,y 轴代表频率。每个像素的颜色给出了音频在其行和列给定的频率和时间的振幅。

除了用文本生成/修改生成音频,riffuion 也支持用图像-图像生成/修改音乐,并且能保留原始频谱图图像的结构,不改变音频走势框架的同时对音频进行定向的微调修改。



1.带有爵士乐萨克斯管独奏的放克低音
- 微调后 -
 2.放克钢琴


项目官网给出了详细的提示语建议与微调操作指南,感兴趣的朋友可以前往项目页体验一番~


......

项目官网:
www.riffusion.com/
项目解读:
www.riffusion.com/about

- More -

# 02

#AIGC##工具#

Whisper to Stable Diffusion

用母语说话(或唱歌)来生成图形,任何语言都将自动翻译为英文,由 Sylvain @fffiloni 制作 -Whisper:是一种通用的语音识别模型。它是在各种音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。

demo地址:
huggingface.co/spaces/fffiloni/whisper-to-stable-diffusion

更多

# 03

#智能产品# #插件#

diffusion可视化stable diffusionwhisperaigc语音识别riffusion应用程序时间线url开发团队多任务操作指南huggingface音频内容音频生成文本生成自动翻译交互式语音翻译数据集多语言图像生成无限生成
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-4233.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

基于whisper模型的在线添加视频字幕网站(持续更新)

上一篇

CharGPT解封申诉模板

下一篇
  • 复制图片
按住ctrl可打开默认菜单