【AIGC】PULID:对比对齐的ID定制化技术

【AIGC】PULID:对比对齐的ID定制化技术

    正在检查是否收录...

论文链接:https://arxiv.org/pdf/2404.16022

github:https://github.com/ToTheBeginning/PuLID

comfyui节点:GitHub - cubiq/PuLID_ComfyUI: PuLID native implementation for ComfyUI

论文亮点

增加了对比对齐loss和ID loss,最大限度减少对源模型的破坏并保证高保真

提示词可以很好的引导生成过程

论文详解

前置知识

扩散模型的loss

 扩散模型结构主要由resnet block,self attention和cross attention组成

 交叉注意力

ID作为另一个条件嵌入到网络中

        不需要微调的ID特征提取模型CLIP图像编码器,Arcface图像识别骨干模型加上可学习的头。将ID嵌入到基础图生图模型的有效方式是加一个平行的交叉注意力层。在这个可学习的线性层中,ID被映射为Kid和Vid,与主干网络中的Q做注意力计算。这项技术最早被ipadapter提出来。

        本文同时使用了ARcface和Clip图像编码器,通过两个编码器后,分别使用MLP网络对其进行映射,并对两个向量进行了拼接。

网络结构

ID层的嵌入

ID层的嵌入会从两个方面破坏原始文生图模型

与没有ID嵌入之前相比,生成元素发生了大量的变化,例如背景,光线,构图和风格

失去提示词的控制特性,导致我们很难通过提示词改变ID属性,方向和插件

        在训练过程中,提示词和id是对齐的,测试时,会改变提示词,此时ID和提示词不在对齐,会存在偏置情况。

        通过对比对齐方法插入未受污染的ID,在朱分支中在插入一个没有插入ID的分支。

        训练期间,在预先准备的一些提示词模板中随即挑选一个作为文本条件,对齐是在所有层和时间步上进行的。

 语义对齐loss

 解释,就是一个Attention(K,Q,Q),两个路径的插值越小,表明ID嵌入对基础UNet的影响越小。但仅此一项并不能保证布局的一致性,所以需要加一项loss

 总的对齐loss
 ID Loss
 总的学习目标

实验细节 

         ID Encoder使用antelopev2作为人脸识别模型和EVA-CLIP作为CLIP图像编码器。x训练数据集是150万高质量图片,图片由BLIP-2反推打标。训练分为3个阶段;第一阶段,使用Ldiff训练传统扩散loss;第二阶段,我们在第一阶段的基础上训练ID loss(使用arcface-50来计算loss)和Ldiff;第三阶段,加入Lalign并使用全部的目标损失,设置lambda(align-layout)为0.1,lambda(id)为1.生图分辨率设置为768*768。训练是在8张A100上进行的。

效果对比 

提示词cliclipgit图像编码githubcomfyui注意力扩散模型ipadarxiv训练数据集高质量图片codenativeelo人脸识别一致性训练数据图生图
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-16352.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

赢家不只有NVIDIA:博通也靠AI赚的盆满钵满

上一篇

20K star!搞定 LLM 微调的开源利器LLaMA Factory

下一篇
  • 复制图片
按住ctrl可打开默认菜单