[Stable Diffusion/LDM] High-Resolution Image Synthesis with Latent Diffusion Models

[Stable Diffusion/LDM] High-Resolution Image Synthesis with Latent Diffusion Models

    正在检查是否收录...

        这篇讲解很详细,可以参考:https://zhuanlan.zhihu.com/p/634573765

        附上苏神的讲解:生成扩散模型漫谈(二十二):信噪比与大图生成(上) - 科学空间|Scientific Spaces

        其中,autoencoder的学习可以参考:https://juejin.cn/post/7238769796351639612

1、目的

        DM的train和infer均需大量的时间和显存

2、方法

        1)autoencoder

                -> 将数据映射到感知上等效的、低维度的表示空间

                -> 只需训练一次,就可以被应用到多个DM训练过程中,也可以用于其他下游任务 (如single-image CLIP-guided synthesis)

                -> 压缩程度可选

                -> perceptual loss + patch-based adversarial objective

                -> encoder ,

                -> decoder D,

                -> ,,下采样。LDM-1对应着pixel-based DM,LDM-4和-8最优

                -> 为了避免潜空间的方差过高,可以采用两种正则化:KL-reg和VQ-reg

        2)在潜空间上训练DM,即Latent Diffusion Models (LDMs)

                -> 

                -> :time-conditional UNet

        3)cross-attention

                -> 用于多模态条件输入

                -> : domain specific encoder,将y映射为中间表示

                -> 

                    为UNet应用后(flattened) intermediate representation

                     均为learnable映射矩阵

                -> ,同步优化和,其中可以根据domain-specific experts来参数化

3、应用

        convolutional fashion,~px

        1)unconditional

        2)conditional (text,bounding boxes,high-resolution synthesis,...)

                -> inpainting

                -> stochastic super-resolution

                -> semantic synthesis

                -> class-conditional

                -> text-to-image

                -> layout-to-image

code多模态扩散模型cliidediffusionclip数据映射gui图生成semldms
  • 本文作者:WAP站长网
  • 本文链接: https://wapzz.net/post-17285.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.8W+
9
1
2
WAP站长官方

AI 绘画Stable Diffusion 研究(十六)SD Hypernetwork详解

上一篇

Apache Flink类型及序列化研读&生产应用|得物技术

下一篇
  • 复制图片
按住ctrl可打开默认菜单