前提条件
- 大模型学习机预装了Llama 2-7b-chat模型与stable-diffuison-base-v2.1模型, 以及配套的开源服务框架text-generation-webui与stable-diffuison-webui,使您不需单独进行下载模型与配置环境。
- 云主机开通与如何登录网页页面参见部署文档。
以下将向您介绍如何进行StableDiffusion模型图像生成任务:
1. StableDiffusion模型加载
说明以下内容基于开源框架stable-diffusion-webui。
1 .1 基础模型加载
页面最上方左侧下拉菜单展开后会显示所有存放于云主机/root/stable-diffusion-webui/models/Stable-diffusion目录下的模型. 。学习机初始预装了原版v2-1_512-ema-pruned.ckpt,您也可随时下载其他版本的StableDiffusion放入目录下进行加载。v2-1版模型占用约3G显存。
1.2 LoRA模型加载
由于基础大模型参数量极多, 训练需要的资源量极大, 因此基于基础大模型进行微调的小模型应运而生。LoRA技术便是其中最主流的一种。
LoRA小模型无法独立使用, 需要在加载完基础大模型后再进行加载, 对基础大模型的能力进行扩展。
学习机内没有预装LoRA小模型, 您可以在网上下载其他基于StableDiffusion的LoRA模型并放到学习机的/root/stable-diffusion-webui/models/Lora目录下。
StableDiffusion模型的LoRA模型以提示词(prompt)的形式进行使用, 您可以在下载LoRA模型时进行具体使用方法查阅。
2. StableDiffusion模型使用
2.1 文本生成图像模式
在txt2img标签页分别输入提示词(prompt)和负向提示词(prompt), 随后点击Generate按钮。
StableDiffusion的提示词写法要求较高, 这里无法做详细介绍. 您可搜索相关资料进行学习。
2.2 图像生成图像模式
在img2img标签页分别输入提示词(prompt)和负向提示词(prompt), 同时在左下方选择上传一张图片, 最后点击Generate按钮。
StableDiffusion将给予给定图片和提示词, 创作一张新的图片。
2.3 生成质量控制
StableDiffusion模型生成图片质量可以在页面下方Generation标签页进行调整, 但需要您具有一定的diffusion模型(扩散模型)背景知识。 这里仅对其中部分基础参数进行介绍:
- Sampling Steps: 采样步数. 数值越大图像越精细。
- Width & Height: 图像的宽度与高度。
- Batch count: 生成图像总批次。
- Batch size: 每一批次生成图像的个数。
- CFG Scale: 控制生成图像与提示词的关联度, 数值越大关联度越高, 但图片质量可能越差。
- Seed: 随机数种子. 控制模型生成结果的随机性,如果输入-1则代表不固定随机数种子, 相同的提示词每次生成图片不同; 如果输入其他数字则代表固定随机数种子, 相同提示词每次生成图片相同。