机器学习笔记:李宏毅 stable diffusion

机器学习笔记:李宏毅 stable diffusion

    正在检查是否收录...

1 基本框架

 ①:文字变成向量  ②:喂入噪声+文字encoder,产生中间产物  ③:decoder 还原图片

2  text encoder

 这张图越往右下表示效果越好,可以看到text encoder尺寸越大,对后续生成图片的增益越多

3 评价图片生成好坏的标准

3.1 FID

 现有一个训练好的CNN 模型,可以生成真实影像和生成图像的representation 这两组表征的分布越近,效果越好 ——>我们sample 一堆图片,然后生成一组同语义的图片,计算他们分布的distance

3.2  CLIP

 如果图片和文字是成对的,那么他们的representation越近表示生成的图片效果越好

4 decoder

训练一个auoto encoder 训练完把decoder拿出来用即可

5 噪声加的位置

之前defusion model 中,noise是加在图片上 但现在产生的东西已经不是图片了 ——>noise 加在中间产物上

大体上和diffusion model 类似,这里就是最后多接一个decoder,将中间产物变成图片

code图片生成clidiffusionclipurl
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-2852.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

如何在Mac上安装 Stable Diffusion 来创作

上一篇

百度的文心一言是否可以打败ChatGPT?

下一篇
  • 复制图片
按住ctrl可打开默认菜单