Stable Diffusion 3.0技术论文解读
前几周
AI绘画领域扔出了一颗重磅炸弹
那就是Stability AI发布了备受期待的Stable Diffusion 3.0
简称SD3
一周后
官方放出了一篇详尽的技术论文
阐述了SD3实现突破性进展的底层原理
但是同时也引发了一连串疑问
SD3能否在RTX 4090显卡上流畅运行?
对其他主流GPU的兼容性如何?
更重要的是
面对OpenAI的Sora等劲敌
这次Stability AI能否力挽狂澜
重塑行业格局?
相比于这篇满是复杂公式的论文
对普通读者而言
Stability AI的论文概要无疑更具可读性
今天我们就来聊一聊
这篇论文本质上是介绍Stable Diffusion 3背后的研究
但是并没有明确指出如何实现所有的功能
官方公布了一些新的方法
并且分享了关于哪些训练决策提高了模型性能
哪些没能完全达到预期
以及哪些组合赋予了Stable Diffusion 3惊人的能力
Stability AI信心满满地表示
在大规模人类主观评测中
SD3在排版质量、对提示的理解和执行度上
全面碾压了DALL-E 3、MidJourney v6、Ideagram v1等顶级产品
这里务必强调一下"提示",
因为它是AI绘画的灵魂所在
MidJourney v6固然能生成让人叹为观止的画面
但是稍微复杂抽象一点的提示
它就难以完全"照单全收"。
造成这种局面的根本原因
是MidJourney v6过度迎合大众的审美偏好
简单来说
它只擅长画人们爱看的那些东西
相比之下
Stable Diffusion的强项在于快速理解并且忠实地执行提示
同时能够灵活调整画面的局部细节
而无需事后大动干戈地修修补补
令人振奋的是
SD3祭出了全新的"多模态扩散Transformer"架构(MMDIT)。
它采用独立的权重来编码图像和文本特征
大幅提升了文本理解和拼写能力
这是文图生成领域的一大突破
此外
SD3还为排版单独配备了编码器和Transformer
它俨然将这个"小众"领域做成了"极致"。
关于性能,从这张图表可以看出
在视觉美感度、提示匹配度、排版质量等方面
SD3在人类偏好调查中均取得了全面胜利
作为基准,它轻松碾压了所有竞品
稳坐C位
至于SDXL系列终究略逊一筹
真正让人惊喜的是SD3的硬件兼容性
Stability AI重点测试了SD3在主流消费级显卡上的表现
结果令人喜出望外
就算是那个"巨无霸"版本(模型参数高达80亿),
也能完整装进24GB显存的RTX 4090
以1000x1000分辨率、50步迭代为例
生成一张图片需约34秒
要知道,50步在SDXL时代已经是顶配
如果你是"平民玩家",也不用灰心
SD3有多个轻量化版本
参数量从8亿到80亿不等
总有一款适合你
从几个令人惊艳的样例图来看
SD3能根据简单的文字提示
灵活地生成各种主题和风格迥异的图像
这得益于它在主题理解和场景构建上的重大进步
比如让一只鳄梨站在讲台前授课
或是给一只袋鼠戴上墨镜
它都能完美呈现
从这些看似荒诞的创意中
我们依稀可见SD3惊人的想象力
它已经初步具备了从文本中提取高层语义
并灵活组合成画面的能力
官方在论文中指出
对于从文本到图像的生成
SD3必须兼顾文本和图像两种模态
这正是他们将新架构命名为MMDIT(多模态扩散Transformer)的原因所在
与前代Stable Diffusion一脉相承
SD3沿用了预训练模型来提取文本和图像的特征表示
具体来说
它用上了三种不同的文本嵌入器、两个CLIP模型和一个T5模型来对文本进行编码
同时采用了增强版的VAE来对图像进行编码
说白了
这套流程就是为了理解用户可能想要什么样的文字内容
以及与之匹配的图像
从而更好地理解提示的真正意图
最妙的是,得益于崭新的架构
SD3可以在同一个输入中同时接受文本嵌入和图像嵌入
并一次性完成所有操作
如这张图所示
文本嵌入和图像嵌入被送入同一个注意力模块进行处理
在内部
信息通过一种循环反馈的方式流动
这是许多模型的标准配置
经过汇总后
模型再输出最终的生成结果
总的来说
这套流程是基于扩散Transformer
并在此基础上构建出了SD3的架构
考虑到文本和图像在本质上的差异
SD3为它们各自采用了独立的权重
这相当于给每种模态配备了专属的Transformer
它们在各自的特征空间中运作
但是又能通过注意力机制实现信息的交互
可谓"分工不分家"。
正是这种机制
使得SD3能够更全面地理解跨模态的联系
进而输出更连贯的结果
这也是SD3努力想要同时利用文字和图片两种输入
并在同一个注意力模块中处理
而不是采用串行方式的原因所在
这个设计与SDXL高度相似
接下来看两张验证损失的曲线图
它们直观地展示了不同模型及其变体在训练过程中的表现
理想情况下,随着训练的推进
验证损失应该逐步降低
可以欣喜地看到
实际结果是与预期相符的
Stability AI表示
通过这种融会贯通的设计
信息可以在图像和文本之间自由流动
从而提升模型对生成内容的整体把握
此外
这种架构还可以轻松拓展至视频等其他模态
尽管论文对此有所讨论
但是官方对技术细节依然讳莫如深
值得一提的是,与其他模型相比
SD3在保留原始提示意图的同时
还能够灵活地生成多个差异化的版本
尤其欣赏Stability AI在即时提示跟随上的创新
官方表示
SD3能够在保证画面多样性的同时
还能够紧扣主题
并对画风有很大的控制力
以往
将主题表达与风格渲染割裂开来是件很头疼的事
尽管有些玩家通过优化UI和复杂的参数设置
在一定程度上实现了这一点
但是将其作为模型的内在逻辑
无疑更有前瞻性
报告中举了几个例子
这一切仅凭一句简单的文字提示就能实现
充分证明了SD3惊人的理解力和创造力
它能从简单的提示中提炼出丰富的细节和主题
论文中还提到了另一项创新
即通过重新加权(reweighting)噪声来改进整形流(rectified flow)。
这说明官方在模型训练中对噪声的处理上别有心得
简单来说,通过采用整形流公式或者RF
可以"拉直"模型的推理路径
从而以更少的迭代步数实现采样
换言之,这项技术不仅能降低训练成本
还能帮助模型在推理时不偏离正轨
避免出现崩溃
为了验证这一点
他们在60多个主流扩散模型上进行了测试
每次都采用了不同的数据集、评估指标和采样器设置
结果表明
尽管现有的RF方法在少量迭代步数下表现优异
但是随着步数的增加
性能反而出现下降
相比之下
SD3的RF版本却能持续提升性能
简而言之,在同等计算资源下
SD3能实现更高的目标
极大地提高了性价比
这是Stability AI的一记重拳
尤其是对Midjourney等直接竞争对手而言
坦白讲
这更像是在向投资者传递一个信号
如果给我们投钱
我们创造价值的效率将更高
如果我们细看AI初创公司的开销
GPU的采购和租赁往往是最大的一块
就连Stability AI这样的独角兽
也难逃被算力"缴械"的命运
另一个亮点在于
Stability AI成功地让一个80亿参数的"巨无霸",
塞进了24GB显存的RTX 4090
尽管这与验证损失关系不大
但是足以证明SD3在模型压缩和推理优化上的造诣
事实上
他们展示的指标和验证损失之间存在强相关性
而后者是评判模型整体性能的重要依据
因此,如果训练更高效、猜测更准确
模型的性能就会更优秀
此外,官方指出
SD3的扩展趋势尚未见顶
不太可能遇到云端服务中常见的瓶颈
换言之,通过架构创新
他们在计算性能上取得了重大突破
在可预见的未来
SD3还有进一步升级的空间
随着算力的提升
我们有理由期待用更低的成本获得更优的结果
说到文本理解
这是Stability AI长期以来的一个重点
一以贯之地体现在其他实验性模型中
在SD3中,他们做了一些有趣的取舍
为了降低显存占用
他们砍掉了此前SDXL中使用的一个内存大户
那就是4.7亿参数的T5编码器
有趣的是,借助全新的架构
去掉T5并未明显影响视觉效果
只是略微损失了一点文本依附度
从基准测试的结果来看
即便完全移除这一模块
SD3的性能也基本无损
在保证画质的前提下
这种权衡可谓相当高明
官方还展示了一个案例
给定同样的雪貂提示
去掉T5前后的结果几乎一样
这恐怕是Stability AI迄今为止最硬核的一篇论文
行文晦涩
不太好啃
但作为我们吃瓜读者而言
只需要知道
Stability AI又拿出了一个含金量超高的的新绘画模型就好了
开源是全世界AI爱好者的福音