Stable Diffusion(一)AI绘画quickly入门
Published in:2023-07-14 | category: Stable Diffusion

1.基本原理

​ 在2012年,就有很多的学## 1.基本原理

​ 在2012年,就有很多的学者对图像生成展开了研究,但在那时候,因为算法,数据,算力等各方面原因,生成的图像过于“抽象” ,可以称他为灵魂画手,直到最近两年,AI产出的图像内容在质量上和准确度上渐渐地变得更高,同时由于一些辅助装备,如ControlNet等让AI绘画可控性更高,也更受到大家的重视。

​ 现在的主流的AI绘画模型,主要运用了扩散Diffusion模型,他很人类绘画相比差异很大,不是起稿,勾线,描边,上色等步骤按部就班完成的,他采取了一个独特的方式

首先它将图片通过增加噪声的方式进行“扩散”,也就是让他变得更模糊,当内容模糊之后,我们就可以理解为有更大的空间让它自由发挥了,AI也是如此,但是在训练它的过程中,它可以学习到一种重要的能力,就是逐步恢复这种杂乱的噪声为真实图像

而如果在训练的过程中我们给AI 一些限制条件等,AI就可以按我们限制条件去恢复生成我们想要的图像了

2.主流方式

Midjourney,DALL E等方式

​ (1)出图额度需要购买会员(换句话说就是需要付费)直接租价格比较贵,可以去租用共享账号

​ (2)较容易出比较高质量的图

​ (3)模型部署在云端,不需要本地电脑配置较高

Stable Diffusion

​ (1)是一款免费的软件,可以无限制出图

​ (2)但是有一定的上手门槛,出图质量需要较多的调控才能达到满意的效果,因而我们这系列教程主要围绕stable diffusion

​ (3)部署在本地,比较吃电脑配置,显卡内存(也可以部署在GPU服务器)

​ (4)但是由于开源,依托强大的开源社区,收获非常多的活跃用户,可以进行个性化的训练,个性化程度较高

3.配置要求

3.1 显卡方面

显卡品牌型号 N卡(英伟达的独立显卡)首选,目前也支持A卡,但是速度较N卡慢

不同品牌型号,意味着显卡的算力不同,进而影响着出图的速度

查看自己的显卡品牌型号的方法如下链接

分享几种查看本机显卡类型的方法~~ - 知乎 (zhihu.com)

查到以后可以对照下表 ,下表是不同型号N卡出一张512*512分辨率的图片,迭代步数为100步的时间

image-20230815210656999

图片来源 B站 Nenly同学

显卡内存 最少8GB能玩,16GB及格,上不封顶,越高玩的越爽 内存主要影响着出图分辨率,模型大小等

硬盘空间 最少有60GB以上的硬盘空间,因为我们需要下载很多模型,而一个模型往往都有几个GB

4.基本界面

下面界面是加了一些插件之后的,如中文插件,图库浏览器,如果你使用的是一些大佬的整合包,那么一般他们都会帮助你安装好,但是如果没有也无所谓,我们会在之后给大家讲解插件的安装

image-20230814164648622

4.1 模型设置区

左上角用来更换模型

image-20230814164736337

点击下拉箭头查看并且选择模型

模型需要我们提前下载并且保存到 根目录/models/Stable-diffusion文件夹下

当我们保存模型到上述文件夹下后,点击蓝色的刷新按钮,刷新模型,再点击下拉箭头就可以看到我们的模型了

4.2 菜单栏区域

image-20230814165333774

一些基本功能

最常用的两个 文生图,图生图

选项 作用
文生图 由prompts提示词生成图片
图生图 由已有的图片+提示词生成图片
图库浏览器(后安装的插件) 查看生成的图片
Tag 反推 由图片反推提示词prompts
设置 进行一些设置操作
扩展 进行扩展安装管理等操作

其他我们用到的时候再介绍

4.3 提示词区

最关键的一个区域,也就是我们念咒语的地方,这里用英语撰写(可以用翻译软件)

正向提示词 希望画面出现的内容,一般我们会有一些固定的提示词,如(杰作masterpiece, 最高质量best quality,高细节)特定模型也会有特定的让画面质量变高的正向提示词

反向提示词 不希望画面出现的内容,如(丑陋的,多手指的)

之后会给大家专门总结,到时候直接复制粘贴即可

提示词区右边的生成下边有五个小图标,相当于一些快捷键,从左到右依次为

image-20230815211951592

图标 作用
箭头 复原上次生成图片的提示词(自动记录)
垃圾桶 清空当前所有提示词
红色日出 打开其他模型选择界面如Embedding,HypernetWork的选择,这些模型后面会单独讲到
记事薄 应用选择的风格模板到当前提示词,就是着五个小图标下面那个风格模板选项
保存按钮 保存当前的正反向提示词

4.4 出图设置区

如图

image-20230814165739102

从上到下,左到右依次介绍

采样方法

​ 采样方法具体是什么涉及到模型原理,不必深究,我们这里只需要知道什么时候用什么样的采样方法即可,一般遵循如下原则

​ (1)在显卡给力,时间充裕的条件下,可以自己尝试比较不同的采样方法

​ (2)一般在C站下载模型的同时,模型作者会给出他觉得比较好的采样方式,这是作者已经经过大量实验的结论,可以帮助你节约时间

​ (3)没有作者相关建议的时候

​ 对于二次元图 DPM++ 2M或DPM++ 2M Karras UniPC

​ 对于真实系图 Euler a、DPM++ SDE、DPM++ SDE Karras

​ 同时,一般而言带++的都相对来说不戳

迭代采样步数

之前讲原理的时候,模型将噪声一步一步恢复到真实图片,此参数控制这些去噪步骤的数量。通常越高越好,但在一定程度上,我们使用的默认值是25个步骤。以下是不同情况下使用哪个步骤编号的一般指南:

​ (1)如果正在测试新的提示,并希望获得快速结果来调整您的输入,请使用10-15个步骤

​ (2)当您找到您喜欢的提示时,请将步骤增加到25

​ (3)如果是有毛皮的动物或有纹理的主题,生成的图像缺少一些细节,尝试将其提高到40

面部修复:修复人物的面部,但是非写实风格的人物开启面部修复可能导致面部崩坏。
平铺/分块:生成一张可以平铺的图像
高分辨率重绘:使用两个步骤的过程进行生成,以较小的分辨率创建图像,然后在不改变构图的情况下改进其中的细节,选中后会有新的参数,之后专门出一篇介绍

宽度高度 出图分辨率设置 最佳的范围应在512至768像素之间

设置的出图分辨率太低,会导致图像不清晰

设置的出图的分辨率过高,一方面显存支撑不了,另外一方面可能会导致图像生成多人情况,

生成批次:每次生成图像的组数。
每批数量:每组多少个图像。图像总数是这个值乘以批次数。除 4090 等高级显卡以外通常保持为 1

提示词相关性CFG:较高的数值将提高生成结果与提示的匹配度。
OpenArt上使用的默认CFG是7,这在创造力和生成你想要的东西之间提供了最佳平衡。通常不建议低于5。
CFG量表可以分为不同的范围,每个范围都适合不同的提示类型和目标
CFG 2 – 6:有创意,但可能太扭曲,没有遵循提示。对于简短的提示来说,可以很有趣和有用
CFG 7-10:推荐用于大多数提示。创造力和引导一代之间的良好平衡
CFG 10-15:当您确定您的提示是详细且非常清晰的,您希望图像是什么样子时
CFG 16-20:除非提示非常详细,否则通常不推荐。可能影响一致性和质量
CFG >20:几乎无法使用

随机种子(Seed):生成每张图片时的随机种子,这个种子是用来作为确定扩散初始状态的基础。不懂的话,用随机的即可。

5.文生图基本操作流程

我们可能一下子了解不了这么多,大家可能都看困了,那么我们来亲自来出一张图,体验一下基本的过程,加深印象

5.1 选用模型,撰写提示词

在左上角模型选取,选择深渊橘模型

写提示词

画面内容 用自己的语言描述一个画面出来

如 一个女生在城市里骑着自行车,阳光洒在她的身上,但是提示词不认中文打开翻译软件,翻译即可

A girl rides a bicycle in the city, and the sunlight shines on her

但仅有这个远远不够,不相信?给你看一下这样图片直出 有多离谱

点击生成,喀嚓,生成如下

00061-202973728-A girl rides a bicycle in the city and the sunlight  shines on her_b7c2db5a94e11e2b3e236598b41eaad053a308d7

惨不忍睹,所以还需要加一些正面对画面质量这些约束的咒语

在正向提示框加入

SFW, (masterpiece:1,2), best quality, masterpiece, highres, original, extremely detailed wallpaper, perfect lighting,(extremely detailed CG:1.2),

反向提示框加入

NSFW, (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, ((monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, age spot, (ugly:1.331), (duplicate:1.331), (morbid:1.21), (mutilated:1.21), (tranny:1.331), mutated hands, (poorly drawn hands:1.5), blurry, (bad anatomy:1.21), (bad proportions:1.331), extra limbs, (disfigured:1.331), (missing arms:1.331), (extra legs:1.331), (fused fingers:1.61051), (too many fingers:1.61051), (unclear eyes:1.331), lowers, bad hands, missing fingers, extra digit,bad hands, missing fingers, (((extra arms and legs))),

5.2 进行出图设置

我们就将采样方式设置为 DPM++ 2M

5.3 再次出图!

00068-300861399-A girl rides a bicycle in the city, and the sunlight  shines on her_SFW, (masterpiece_1,2), best quality, masterpiece, highres,

不能说有多好,但至少比刚才好了一些,当然后续还会介绍更多技巧提升画面质量

所以我们要意识到一点, stable diffusion 出一张好图是不容易的,这也是为什么显卡这些的重要性,它可以让我们低成本试错

5.4 保存

点击图库浏览器,可以查看生成的图片

想把他导出来

右键,另存为即可

或者找到根目录下的outputs文件夹

Prev:
Stable Diffusion(二)AI提示词