Datawhale X 魔塔AI夏令营 ——从零入门AI生图原理&实践_task 1

SEO教程2025-06-2555
    正在检查是否收录...

 一. 基础知识

1.1 文生图发展历史

1.2 文生图基础知识

文生图主要以SD系列基础模型为主,以及在其基础上微调的lora模型和人物基础模型等。

1.2.1 文生图流程图

1. 输入提示词                                                  用户提供描述图像内容和风格的文本提示词。 2. (可选)提供参考图像                                                             用户可以选择提供一张或多张参考图像,为模型提供视觉参考。 3. 使用Lora进行模型训练                                                              通过LoRA技术对预训练模型进行微调,使其适应新的任务需求。 4. 图像生成                                                                                           使用经过微调的模型,根据提示词(和参考图像)生成最终的图像。

1.2.2 提示词

提示词可以包含的内容有主题或主体、背景或环境、细节描述、风格或艺术效果、色彩、情感或氛围。

1.2.3 Lora

1.2.3.1 介绍

是一种用于微调大型预训练模型的技术,特别在处理生成任务和迁移学习时具有显著优势。其核心思想是通过引入低秩矩阵(Low-Rank Matrices)来高效地调整模型参数,从而使模型能够适应新的任务或数据集,而不需要重新训练整个模型。这种方法减少了计算和存储开销,同时保持了模型的强大性能。

1.2.3.2 基本原理

在LoRA中,模型的某些权重矩阵(如自注意力模块中的投影矩阵)会被分解为两个低秩矩阵的乘积。这意味着原本高维的矩阵可以被拆解为两个低维矩阵。这种低秩分解减少了训练参数的数量,使得微调过程更为轻量级。

具体来说,假设一个权重矩阵W被分解为两个低秩矩阵A和 B:  ,其中,这里的 A 和 B 都是低秩矩阵。

1.2.4 ComfyUI

1.2.4.1介绍

ComfyUI 是一种用于图像生成和编辑的用户界面,设计目的是让用户能够更直观、简单地使用复杂的深度学习模型进行图像处理和生成任务。它通常与生成式模型(如扩散模型或GANs)配合使用,提供了一个友好且功能强大的交互界面,允许用户无需深入编程知识即可完成高质量的图像生成。

1.2.4.2 主要特性

模块化设计

可视化调试

灵活的配置

兼容性

简化部署

1.2.4.2 应用场景

快速原型设计

教育与培训

研究与开发

工业部署

1.2.5 参考图控制

参考图控制是一种用于指导图像生成过程的技术,它允许用户提供一张或多张参考图像,以影响生成的最终图像。通过这种技术,用户可以更精确地控制生成图像的细节,如图像的结构、颜色、风格等。特别是在生成模型(如扩散模型)中,参考图控制通过提供额外的输入信号,使得生成结果更符合用户的预期。

ControlNet 是一种基于参考图控制的技术组件,它附加在预训练的扩散模型(如 Stable Diffusion 模型)上,帮助模型更精确地执行特定任务。ControlNet 可以通过姿势关键点、分割图、深度图等控制信号引导生成过程,使得用户可以在生成图像的过程中施加更多的控制和指导。

参考图控制类型

简介

OpenPose姿势控制

输入是一张姿势图片(或者使用真人图片提取姿势)作为AI绘画的参考图,输入prompt后,之后AI就可以依据此生成一副相同姿势的图片;

Canny精准绘制

输入是一张线稿图作为AI绘画的参考图,输入prompt后,之后AI就可以根据此生成一幅根据线稿的精准绘制。

Hed绘制

Hed是一种可以获取渐变线条的线稿图控制方式,相比canny更加的灵活。

深度图Midas

输入是一张深度图,输入prompt后,之后AI就可以根据此生成一幅根据深度图的绘制。

颜色color控制

通过参考图控制和颜色控制,实现更加精准和个性化的图像生成效果。

1.3 实战训练

Step0:开通阿里云PAI-DSW试用

开通免费使用

 链接:阿里云免费试用 - 阿里云

在魔搭社区进行授权

链接:https://www.modelscope.cn/my/mynotebook/authorization

如果这一步授权失败,可跳过此步骤,继续往下进行。

​ 

Step1: 报名赛事

 报名赛事!(点击即可跳转)

赛事链接:https://tianchi.aliyun.com/competition/entrance/532254

Step2:在魔搭社区创建PAI实例!

在魔搭社区创建PAI实例!(点击即可跳转)

 Step3:30 分钟体验一站式 baseline!

 Step4: 微调结果上传魔搭

链接:https://www.modelscope.cn/models/create

Step5:关闭PAI实例!!!!!

链接:https://www.modelscope.cn/my/mynotebook/authorization

总结

### 文章总结
本文全面介绍了文生图(Text-to-Image)领域的基础知识及其实战训练流程,涵盖了文生图的发展历史、基础模型、技术要点及实战步骤。以下是文章的详细总结:
#### 一. 基础知识
##### 1.1 文生图发展历史
- 虽然文章中未具体展开文生图的详细历史,但指明了该领域的发展历程。
##### 1.2 文生图基础知识
###### 1.2.1 文生图流程图
1. **输入提示词**:用户提供描述图像内容和风格的文本。
2. **(可选)提供参考图像**:用户可选提供一张或多张参考图像,作为视觉参考。
3. **使用Lora进行模型训练**:通过LoRA技术微调预训练模型以适应新任务。
4. **图像生成**:利用微调后的模型生成图像。
###### 1.2.2 提示词
- 包含主题、背景、细节描述、风格、色彩、情感或氛围等要素。
###### 1.2.3 Lora
- **介绍**:一种用于微调预训练模型的技术,通过低秩矩阵分解减少计算与存储开销。
- **基本原理**:将权重矩阵分解为两个低秩矩阵的乘积,减轻模型微调负担。
###### 1.2.4 ComfyUI
- **介绍**:用于图像生成与编辑的用户界面,简化深度学习模型的使用。
- **主要特性**:模块化设计、可视化调试、灵活配置、兼容性强、简化部署。
- **应用场景**:原型设计、教育培训、研发及工业部署。
###### 1.2.5 参考图控制
- **技术概述**:通过参考图像影响生成图像的细节。
- **ControlNet**:附加在扩散模型上,利用多种控制信号(姿势、分割图、深度图等)生成精准图像。
- **参考图控制类型**:包括OpenPose姿势控制、Canny精准绘制、Hed绘制、深度图Midas、颜色控制等多种方式。
##### 1.3 实战训练
###### Step0:开通阿里云PAI-DSW试用
- 免费开通阿里云PAI-DSW,并在魔搭社区进行授权。
###### Step1: 报名赛事
- 提供赛事链接进行报名。
###### Step2:在魔搭社区创建PAI实例
- 指导用户在魔搭社区创建PAI实例。
###### Step3:30 分钟体验一站式 baseline
- 通过一站式baseline快速上手文生图任务。
###### Step4: 微调结果上传魔搭
- 提供模型微调结果上传的链接与步骤。
###### Step5:关闭PAI实例
- 操作完成后关闭PAI实例,避免不必要的资源占用。
### 总结
文章详细阐述了文生图的基础知识、核心技术与应用场景,并通过实战训练步骤引导用户从基础到实战逐步掌握文生图的技能,特别是利用阿里云PAI-DSW及魔搭社区等资源,提供了从理论到实践的全方位支持。 文生图参考图像提示词图像生成预训练预训练模型扩散模型基础模型promptcomfyuicontrolnet一站式模型训练原型设计生成任务用户界面兼容性深度学习可视化模型微调