Stable Diffusion 3.0技术论文解读

正在检查是否收录...

前几周

AI绘画领域扔出了一颗重磅炸弹

那就是Stability AI发布了备受期待的Stable Diffusion 3.0

简称SD3

一周后

官方放出了一篇详尽的技术论文

阐述了SD3实现突破性进展的底层原理

但是同时也引发了一连串疑问

SD3能否在RTX 4090显卡上流畅运行?

对其他主流GPU的兼容性如何?

更重要的是

面对OpenAI的Sora等劲敌

这次Stability AI能否力挽狂澜

重塑行业格局?

相比于这篇满是复杂公式的论文

对普通读者而言

Stability AI的论文概要无疑更具可读性

今天我们就来聊一聊

这篇论文本质上是介绍Stable Diffusion 3背后的研究

但是并没有明确指出如何实现所有的功能

官方公布了一些新的方法

并且分享了关于哪些训练决策提高了模型性能

哪些没能完全达到预期

以及哪些组合赋予了Stable Diffusion 3惊人的能力

Stability AI信心满满地表示

在大规模人类主观评测中

SD3在排版质量、对提示的理解和执行度上

全面碾压了DALL-E 3、MidJourney v6、Ideagram v1等顶级产品

这里务必强调一下"提示",

因为它是AI绘画的灵魂所在

MidJourney v6固然能生成让人叹为观止的画面

但是稍微复杂抽象一点的提示

它就难以完全"照单全收"。

造成这种局面的根本原因

是MidJourney v6过度迎合大众的审美偏好

简单来说

它只擅长画人们爱看的那些东西

相比之下

Stable Diffusion的强项在于快速理解并且忠实地执行提示

同时能够灵活调整画面的局部细节

而无需事后大动干戈地修修补补

令人振奋的是

SD3祭出了全新的"多模态扩散Transformer"架构(MMDIT)。

它采用独立的权重来编码图像和文本特征

大幅提升了文本理解和拼写能力

这是文图生成领域的一大突破

此外

SD3还为排版单独配备了编码器和Transformer

它俨然将这个"小众"领域做成了"极致"。

关于性能，从这张图表可以看出

在视觉美感度、提示匹配度、排版质量等方面

SD3在人类偏好调查中均取得了全面胜利

作为基准,它轻松碾压了所有竞品

稳坐C位

至于SDXL系列终究略逊一筹

真正让人惊喜的是SD3的硬件兼容性

Stability AI重点测试了SD3在主流消费级显卡上的表现

结果令人喜出望外

就算是那个"巨无霸"版本(模型参数高达80亿),

也能完整装进24GB显存的RTX 4090

以1000x1000分辨率、50步迭代为例

生成一张图片需约34秒

要知道,50步在SDXL时代已经是顶配

如果你是"平民玩家",也不用灰心

SD3有多个轻量化版本

参数量从8亿到80亿不等

总有一款适合你

从几个令人惊艳的样例图来看

SD3能根据简单的文字提示

灵活地生成各种主题和风格迥异的图像

这得益于它在主题理解和场景构建上的重大进步

比如让一只鳄梨站在讲台前授课

或是给一只袋鼠戴上墨镜

它都能完美呈现

从这些看似荒诞的创意中

我们依稀可见SD3惊人的想象力

它已经初步具备了从文本中提取高层语义

并灵活组合成画面的能力

官方在论文中指出

对于从文本到图像的生成

SD3必须兼顾文本和图像两种模态

这正是他们将新架构命名为MMDIT(多模态扩散Transformer)的原因所在

与前代Stable Diffusion一脉相承

SD3沿用了预训练模型来提取文本和图像的特征表示

具体来说

它用上了三种不同的文本嵌入器、两个CLIP模型和一个T5模型来对文本进行编码

同时采用了增强版的VAE来对图像进行编码

说白了

这套流程就是为了理解用户可能想要什么样的文字内容

以及与之匹配的图像

从而更好地理解提示的真正意图

最妙的是,得益于崭新的架构

SD3可以在同一个输入中同时接受文本嵌入和图像嵌入

并一次性完成所有操作

如这张图所示

文本嵌入和图像嵌入被送入同一个注意力模块进行处理

在内部

信息通过一种循环反馈的方式流动

这是许多模型的标准配置

经过汇总后

模型再输出最终的生成结果

总的来说

这套流程是基于扩散Transformer

并在此基础上构建出了SD3的架构

考虑到文本和图像在本质上的差异

SD3为它们各自采用了独立的权重

这相当于给每种模态配备了专属的Transformer

它们在各自的特征空间中运作

但是又能通过注意力机制实现信息的交互

可谓"分工不分家"。

正是这种机制

使得SD3能够更全面地理解跨模态的联系

进而输出更连贯的结果

这也是SD3努力想要同时利用文字和图片两种输入

并在同一个注意力模块中处理

而不是采用串行方式的原因所在

这个设计与SDXL高度相似

接下来看两张验证损失的曲线图

它们直观地展示了不同模型及其变体在训练过程中的表现

理想情况下,随着训练的推进

验证损失应该逐步降低

可以欣喜地看到

实际结果是与预期相符的

Stability AI表示

通过这种融会贯通的设计

信息可以在图像和文本之间自由流动

从而提升模型对生成内容的整体把握

此外

这种架构还可以轻松拓展至视频等其他模态

尽管论文对此有所讨论

但是官方对技术细节依然讳莫如深

值得一提的是,与其他模型相比

SD3在保留原始提示意图的同时

还能够灵活地生成多个差异化的版本

尤其欣赏Stability AI在即时提示跟随上的创新

官方表示

SD3能够在保证画面多样性的同时

还能够紧扣主题

并对画风有很大的控制力

以往

将主题表达与风格渲染割裂开来是件很头疼的事

尽管有些玩家通过优化UI和复杂的参数设置

在一定程度上实现了这一点

但是将其作为模型的内在逻辑

无疑更有前瞻性

报告中举了几个例子

这一切仅凭一句简单的文字提示就能实现

充分证明了SD3惊人的理解力和创造力

它能从简单的提示中提炼出丰富的细节和主题

论文中还提到了另一项创新

即通过重新加权(reweighting)噪声来改进整形流(rectified flow)。

这说明官方在模型训练中对噪声的处理上别有心得

简单来说,通过采用整形流公式或者RF

可以"拉直"模型的推理路径

从而以更少的迭代步数实现采样

换言之,这项技术不仅能降低训练成本

还能帮助模型在推理时不偏离正轨

避免出现崩溃

为了验证这一点

他们在60多个主流扩散模型上进行了测试

每次都采用了不同的数据集、评估指标和采样器设置

结果表明

尽管现有的RF方法在少量迭代步数下表现优异

但是随着步数的增加

性能反而出现下降

相比之下

SD3的RF版本却能持续提升性能

简而言之,在同等计算资源下

SD3能实现更高的目标

极大地提高了性价比

这是Stability AI的一记重拳

尤其是对Midjourney等直接竞争对手而言

坦白讲

这更像是在向投资者传递一个信号

如果给我们投钱

我们创造价值的效率将更高

如果我们细看AI初创公司的开销

GPU的采购和租赁往往是最大的一块

就连Stability AI这样的独角兽

也难逃被算力"缴械"的命运

另一个亮点在于

Stability AI成功地让一个80亿参数的"巨无霸"，

塞进了24GB显存的RTX 4090

尽管这与验证损失关系不大

但是足以证明SD3在模型压缩和推理优化上的造诣

事实上

他们展示的指标和验证损失之间存在强相关性

而后者是评判模型整体性能的重要依据

因此,如果训练更高效、猜测更准确

模型的性能就会更优秀

此外,官方指出

SD3的扩展趋势尚未见顶

不太可能遇到云端服务中常见的瓶颈

换言之,通过架构创新

他们在计算性能上取得了重大突破

在可预见的未来

SD3还有进一步升级的空间

随着算力的提升

我们有理由期待用更低的成本获得更优的结果

说到文本理解

这是Stability AI长期以来的一个重点

一以贯之地体现在其他实验性模型中

在SD3中,他们做了一些有趣的取舍

为了降低显存占用

他们砍掉了此前SDXL中使用的一个内存大户

那就是4.7亿参数的T5编码器

有趣的是,借助全新的架构

去掉T5并未明显影响视觉效果

只是略微损失了一点文本依附度

从基准测试的结果来看

即便完全移除这一模块

SD3的性能也基本无损

在保证画质的前提下

这种权衡可谓相当高明

官方还展示了一个案例

给定同样的雪貂提示

去掉T5前后的结果几乎一样

这恐怕是Stability AI迄今为止最硬核的一篇论文

行文晦涩

不太好啃

但作为我们吃瓜读者而言

只需要知道

Stability AI又拿出了一个含金量超高的的新绘画模型就好了

开源是全世界AI爱好者的福音

transformerdiffusionstable diffusionsdxlmidjourney文本嵌入注意力ai绘画文本理解gpu兼容性文字提示多模态图生成dall-e 3clip模型性能实验性多模型人类偏好

站长网

📚 推荐阅读

深入探索“Plone CMS爬虫”的世界

AI在咳嗽中检出癌症，不信？世卫组织正全球推广

Stable Diffusion 3.0技术论文解读

📚 推荐阅读

深入探索“Plone CMS爬虫”的世界

AI在咳嗽中检出癌症，不信？世卫组织正全球推广

相关推荐