1.基本原理
在2012年,就有很多的学## 1.基本原理
在2012年,就有很多的学者对图像生成展开了研究,但在那时候,因为算法,数据,算力等各方面原因,生成的图像过于“抽象” ,可以称他为灵魂画手,直到最近两年,AI产出的图像内容在质量上和准确度上渐渐地变得更高,同时由于一些辅助装备,如ControlNet等让AI绘画可控性更高,也更受到大家的重视。
现在的主流的AI绘画模型,主要运用了扩散Diffusion模型,他很人类绘画相比差异很大,不是起稿,勾线,描边,上色等步骤按部就班完成的,他采取了一个独特的方式
首先它将图片通过增加噪声的方式进行“扩散”,也就是让他变得更模糊,当内容模糊之后,我们就可以理解为有更大的空间让它自由发挥了,AI也是如此,但是在训练它的过程中,它可以学习到一种重要的能力,就是逐步恢复这种杂乱的噪声为真实图像
而如果在训练的过程中我们给AI 一些限制条件等,AI就可以按我们限制条件去恢复生成我们想要的图像了
2.主流方式
Midjourney,DALL E等方式
(1)出图额度需要购买会员(换句话说就是需要付费)直接租价格比较贵,可以去租用共享账号
(2)较容易出比较高质量的图
(3)模型部署在云端,不需要本地电脑配置较高
Stable Diffusion
(1)是一款免费的软件,可以无限制出图
(2)但是有一定的上手门槛,出图质量需要较多的调控才能达到满意的效果,因而我们这系列教程主要围绕stable diffusion
(3)部署在本地,比较吃电脑配置,显卡内存(也可以部署在GPU服务器)
(4)但是由于开源,依托强大的开源社区,收获非常多的活跃用户,可以进行个性化的训练,个性化程度较高
3.配置要求
3.1 显卡方面
显卡品牌型号 N卡(英伟达的独立显卡)首选,目前也支持A卡,但是速度较N卡慢
不同品牌型号,意味着显卡的算力不同,进而影响着出图的速度
查看自己的显卡品牌型号的方法如下链接
分享几种查看本机显卡类型的方法~~ - 知乎 (zhihu.com)
查到以后可以对照下表 ,下表是不同型号N卡出一张512*512分辨率的图片,迭代步数为100步的时间
图片来源 B站 Nenly同学
显卡内存 最少8GB能玩,16GB及格,上不封顶,越高玩的越爽 内存主要影响着出图分辨率,模型大小等
硬盘空间 最少有60GB以上的硬盘空间,因为我们需要下载很多模型,而一个模型往往都有几个GB
4.基本界面
下面界面是加了一些插件之后的,如中文插件,图库浏览器,如果你使用的是一些大佬的整合包,那么一般他们都会帮助你安装好,但是如果没有也无所谓,我们会在之后给大家讲解插件的安装
4.1 模型设置区
左上角用来更换模型
点击下拉箭头查看并且选择模型
模型需要我们提前下载并且保存到 根目录/models/Stable-diffusion文件夹下
当我们保存模型到上述文件夹下后,点击蓝色的刷新按钮,刷新模型,再点击下拉箭头就可以看到我们的模型了
4.2 菜单栏区域
一些基本功能
最常用的两个 文生图,图生图
选项 | 作用 |
---|---|
文生图 | 由prompts提示词生成图片 |
图生图 | 由已有的图片+提示词生成图片 |
图库浏览器(后安装的插件) | 查看生成的图片 |
Tag 反推 | 由图片反推提示词prompts |
设置 | 进行一些设置操作 |
扩展 | 进行扩展安装管理等操作 |
其他我们用到的时候再介绍
4.3 提示词区
最关键的一个区域,也就是我们念咒语的地方,这里用英语撰写(可以用翻译软件)
正向提示词 希望画面出现的内容,一般我们会有一些固定的提示词,如(杰作masterpiece, 最高质量best quality,高细节)特定模型也会有特定的让画面质量变高的正向提示词
反向提示词 不希望画面出现的内容,如(丑陋的,多手指的)
之后会给大家专门总结,到时候直接复制粘贴即可
提示词区右边的生成下边有五个小图标,相当于一些快捷键,从左到右依次为
图标 | 作用 |
---|---|
箭头 | 复原上次生成图片的提示词(自动记录) |
垃圾桶 | 清空当前所有提示词 |
红色日出 | 打开其他模型选择界面如Embedding,HypernetWork的选择,这些模型后面会单独讲到 |
记事薄 | 应用选择的风格模板到当前提示词,就是着五个小图标下面那个风格模板选项 |
保存按钮 | 保存当前的正反向提示词 |
4.4 出图设置区
如图
从上到下,左到右依次介绍
采样方法
采样方法具体是什么涉及到模型原理,不必深究,我们这里只需要知道什么时候用什么样的采样方法即可,一般遵循如下原则
(1)在显卡给力,时间充裕的条件下,可以自己尝试比较不同的采样方法
(2)一般在C站下载模型的同时,模型作者会给出他觉得比较好的采样方式,这是作者已经经过大量实验的结论,可以帮助你节约时间
(3)没有作者相关建议的时候
对于二次元图 DPM++ 2M或DPM++ 2M Karras UniPC
对于真实系图 Euler a、DPM++ SDE、DPM++ SDE Karras
同时,一般而言带++的都相对来说不戳
迭代采样步数
之前讲原理的时候,模型将噪声一步一步恢复到真实图片,此参数控制这些去噪步骤的数量。通常越高越好,但在一定程度上,我们使用的默认值是25个步骤。以下是不同情况下使用哪个步骤编号的一般指南:
(1)如果正在测试新的提示,并希望获得快速结果来调整您的输入,请使用10-15个步骤
(2)当您找到您喜欢的提示时,请将步骤增加到25
(3)如果是有毛皮的动物或有纹理的主题,生成的图像缺少一些细节,尝试将其提高到40
面部修复:修复人物的面部,但是非写实风格的人物开启面部修复可能导致面部崩坏。
平铺/分块:生成一张可以平铺的图像
高分辨率重绘:使用两个步骤的过程进行生成,以较小的分辨率创建图像,然后在不改变构图的情况下改进其中的细节,选中后会有新的参数,之后专门出一篇介绍
宽度高度 出图分辨率设置 最佳的范围应在512至768像素之间
设置的出图分辨率太低,会导致图像不清晰
设置的出图的分辨率过高,一方面显存支撑不了,另外一方面可能会导致图像生成多人情况,
生成批次:每次生成图像的组数。
每批数量:每组多少个图像。图像总数是这个值乘以批次数。除 4090 等高级显卡以外通常保持为 1
提示词相关性CFG:较高的数值将提高生成结果与提示的匹配度。
OpenArt上使用的默认CFG是7,这在创造力和生成你想要的东西之间提供了最佳平衡。通常不建议低于5。
CFG量表可以分为不同的范围,每个范围都适合不同的提示类型和目标
CFG 2 – 6:有创意,但可能太扭曲,没有遵循提示。对于简短的提示来说,可以很有趣和有用
CFG 7-10:推荐用于大多数提示。创造力和引导一代之间的良好平衡
CFG 10-15:当您确定您的提示是详细且非常清晰的,您希望图像是什么样子时
CFG 16-20:除非提示非常详细,否则通常不推荐。可能影响一致性和质量
CFG >20:几乎无法使用
随机种子(Seed):生成每张图片时的随机种子,这个种子是用来作为确定扩散初始状态的基础。不懂的话,用随机的即可。
5.文生图基本操作流程
我们可能一下子了解不了这么多,大家可能都看困了,那么我们来亲自来出一张图,体验一下基本的过程,加深印象
5.1 选用模型,撰写提示词
在左上角模型选取,选择深渊橘模型
写提示词
画面内容 用自己的语言描述一个画面出来
如 一个女生在城市里骑着自行车,阳光洒在她的身上,但是提示词不认中文打开翻译软件,翻译即可
A girl rides a bicycle in the city, and the sunlight shines on her
但仅有这个远远不够,不相信?给你看一下这样图片直出 有多离谱
点击生成,喀嚓,生成如下
惨不忍睹,所以还需要加一些正面对画面质量这些约束的咒语
在正向提示框加入
SFW, (masterpiece:1,2), best quality, masterpiece, highres, original, extremely detailed wallpaper, perfect lighting,(extremely detailed CG:1.2),
反向提示框加入
NSFW, (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, ((monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, age spot, (ugly:1.331), (duplicate:1.331), (morbid:1.21), (mutilated:1.21), (tranny:1.331), mutated hands, (poorly drawn hands:1.5), blurry, (bad anatomy:1.21), (bad proportions:1.331), extra limbs, (disfigured:1.331), (missing arms:1.331), (extra legs:1.331), (fused fingers:1.61051), (too many fingers:1.61051), (unclear eyes:1.331), lowers, bad hands, missing fingers, extra digit,bad hands, missing fingers, (((extra arms and legs))),
5.2 进行出图设置
我们就将采样方式设置为 DPM++ 2M
5.3 再次出图!
不能说有多好,但至少比刚才好了一些,当然后续还会介绍更多技巧提升画面质量
所以我们要意识到一点, stable diffusion 出一张好图是不容易的,这也是为什么显卡这些的重要性,它可以让我们低成本试错
5.4 保存
点击图库浏览器,可以查看生成的图片
想把他导出来
右键,另存为即可
或者找到根目录下的outputs文件夹