文生图模型之Stable Diffusion

文生图模型之Stable Diffusion

    正在检查是否收录...

原始文章地址

SD

autoencoder

CLIP text encoder

tokenizer最大长度为77(CLIP训练时所采用的设置),当输入text的tokens数量超过77后,将进行截断,如果不足则进行paddings,这样将保证无论输入任何长度的文本(甚至是空文本)都得到77x768大小的特征

问题:当输出超长prompt会分段处理?每段的权重如何处理?

UNet

text condition将通过CrossAttention模块嵌入进来,此时Attention的query是UNet的中间特征,而key和value则是text embeddings。


SD图生图

SD Inpainting

第一种形式:

第二种形式:

SD loss函数

原文地址

SDXL

论文解析地址



clicliptokencode图生图promptsatsdxlurl
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-2634.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

手把手教你搭建微信聊天机器人系列(三):搭建对接文心一言(ERNIE-Bot大模型)接口的微信聊天机器人

上一篇

Copilot使用的关卡——GitHub教育认证方法和注意事项

下一篇
  • 复制图片
按住ctrl可打开默认菜单