2026 保姆级教程

Stable DiffusionAI 图像生成本地部署与 API 完全指南

Stability AI 推出的开源 AI 图像生成模型 — SD 3.5 Large（8.1B 参数）、SDXL、ControlNet。支持本地部署（ComfyUI / Automatic1111 / Forge）和 API 调用。社区许可证免费商用，消费级显卡即可运行。

8.1B

SD3.5 Large 参数

免费

社区许可证商用

8GB

最低 VRAM 要求

$10/月

API 起步价

查看部署教程 API 充值服务

Stable Diffusion 是什么？

Stability AI 推出的开源 AI 图像生成模型

开源 AI 绘画的绝对王者

Stable Diffusion 是 Stability AI 发布的开源 AI 图像生成模型系列，自 2022 年首次发布以来，已成为全球最受欢迎的 AI 绘画工具。最新的 SD 3.5 于 2024 年 10 月发布，采用 MMDiT（多模态扩散 Transformer）架构。

"Stable Diffusion 改变了 AI 图像生成的格局 — 完全开源、本地运行、免费商用，让每个人都能成为 AI 艺术家。"

模型家族

模型	参数量	特点	适用场景
SD 3.5 Large	8.1B	旗舰模型，最高质量，1 百万像素	专业级创作
SD 3.5 Large Turbo	8.1B	仅需 4 步，~2 秒生成	快速迭代
SD 3.5 Medium	2.5B	消费级硬件优化，0.25-2 百万像素	日常创作
SDXL	3.5B	经典模型，社区生态最丰富	LoRA/模型库丰富
SDXL Turbo	3.5B	极速版 SDXL	实时预览

竞品对比

特性	Stable Diffusion 3.5	FLUX.1	Midjourney	DALL-E 3
开源	是（社区许可证）	部分（Schnell 开源）	否	否
本地运行	是	是	否	否
参数量	8.1B	12B	未公开	未公开
最低 VRAM	8GB	8GB	N/A	N/A
文字渲染	一般	优秀	一般	优秀
风格化	优秀	良好	优秀	良好
ControlNet	完整支持	社区支持	无	无
价格	免费本地 / $10/月 API	免费本地 / 付费 API	$10/月起	ChatGPT Plus 含

核心技术

•MMDiT 架构：多模态扩散 Transformer，SD3.5 的核心架构
•Query-Key Normalization：使 LoRA 微调和自定义训练更加稳定
•三重文本编码器：CLIP-L/14 + OpenCLIP bigG + T5-XXL，精准理解 Prompt
•ControlNet：Blur、Canny 边缘、Depth 深度图控制，支持 8K/16K 放大

需要 AI 绘画 API 充值？通过 Neuronicx 平台获取，支持支付宝和微信。也可获取 OpenAI API 和 Claude API。

本地部署与 API 接入指南

三种主流客户端 + API 接入

第一步：确认硬件配置

最低配置：NVIDIA RTX 3060（8GB VRAM），16GB 内存，20GB 硬盘。推荐：RTX 4070（12GB VRAM），32GB 内存，50GB SSD。安装最新 NVIDIA 驱动和 CUDA Toolkit。AMD 显卡需额外配置 ROCm。

第二步：安装 Python 和 Git

安装 Python 3.10.6（⚠️ 关键：3.11+ 会导致兼容性问题，这是最常见的安装失败原因）。安装 Git。Windows 用户勾选 "Add Python to PATH"。

第三步：选择并安装客户端

ComfyUI（推荐）：节点式工作流，速度快 40%，VRAM 占用低。Automatic1111 WebUI：界面友好，适合新手。SD Forge：基于 A1111 优化，6GB 显卡提速 75%。克隆仓库后运行安装脚本即可。

第四步：下载模型

从 HuggingFace 或 CivitAI 下载模型文件（.safetensors 格式）。放入 models/Stable-diffusion 文件夹。SD3.5 Large 约 16GB，Medium 约 5GB，SDXL 约 6.5GB。还可下载 VAE、LoRA、ControlNet 等扩展模型。

第五步：启动并生成

运行启动脚本（webui.sh / webui.bat / main.py），浏览器访问 localhost:7860（A1111）或 localhost:8188（ComfyUI）。输入 Prompt，设置参数（采样器、步数、CFG Scale、尺寸），点击生成。

第六步：API 接入（开发者）

使用 Stability AI REST API（api.stability.ai）。获取 API Key → 调用 /v1/generation/text-to-image 端点。支持文生图、图生图、放大、修复等功能。$10/月起（6,500 积分）。需要充值可通过 Neuronicx。

Stable Diffusion 部署与 API 代码

复制即用（来源：官方文档和 GitHub）

# 克隆 ComfyUI
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI

# 安装依赖（确保 Python 3.10.6）
pip install -r requirements.txt

# 安装 ComfyUI Manager（推荐）
cd custom_nodes
git clone https://github.com/ltdrdata/ComfyUI-Manager.git
cd ..

# 下载 SD3.5 Medium 模型（~5GB）
# 从 https://huggingface.co/stabilityai/stable-diffusion-3.5-medium
# 放入 models/checkpoints/ 目录

# 启动（根据显卡 VRAM 选择参数）
python main.py                     # 12GB+ VRAM
python main.py --lowvram           # 4-6GB VRAM
python main.py --gpu-only          # 强制 GPU 渲染

查看 OpenAI 文档 →

Stable Diffusion 核心能力

基于官方发布和社区生态的完整功能列表

文生图 (Text-to-Image)

输入 Prompt 文本描述，AI 生成高质量图片。SD3.5 采用三重文本编码器（CLIP + OpenCLIP + T5），精准理解复杂语义。支持正面和负面 Prompt。

图生图 (Image-to-Image)

上传参考图片，通过 Prompt 引导 AI 进行风格转换、修改、增强。可控制变化强度（Denoising Strength），实现精确调整。

图片放大 (Upscale)

将低分辨率图片放大到 8K/16K 级别，保持或增强细节。支持 Creative（创造性放大）和 Conservative（保守放大）两种模式。

ControlNet 精确控制

SD3.5 Large 支持 Blur、Canny 边缘、Depth 深度图三种 ControlNet。精确控制生成图片的构图、姿态、空间结构。

LoRA 微调

Query-Key Normalization 使 LoRA 训练更稳定。CivitAI 拥有数十万社区 LoRA 模型，覆盖人物、风格、物体等各种主题。

修复与编辑 (Inpaint/Outpaint)

局部重绘（Inpainting）修复图片特定区域。外扩绘制（Outpainting）扩展图片边界。背景移除、搜索替换等编辑功能。

消费级硬件运行

SD3.5 Medium 仅需 8GB VRAM 即可运行。支持 --lowvram / --medvram 参数适配不同显卡。ComfyUI 比 A1111 快 40%，VRAM 占用更低。

开源免费商用

Stability AI 社区许可证允许免费商业使用。完整模型权重和推理代码在 HuggingFace 和 GitHub 开源。庞大的社区生态和模型库。

Stable Diffusion 界面与效果

主流客户端界面和 AI 生成效果展示

ComfyUI

节点式工作流，速度快 40%

AI 绘画创作

Prompt 驱动的 AI 图像生成

ControlNet

精确控制构图、姿态、深度

LoRA 微调

CivitAI 数十万社区模型

图片放大

低分辨率放大到 8K/16K

局部重绘

Inpainting 精确修复区域

视频教程

跟着视频快速上手 Stable Diffusion

ComfyUI 完整新手指南

安装 ComfyUI + SD3 完整教程

常见问题

关于 Stable Diffusion 部署和使用的常见问题

可以。本地部署完全免费 — 模型从 HuggingFace 免费下载，ComfyUI / Automatic1111 / Forge 等客户端全部开源。Stability AI 社区许可证允许免费商业使用。仅需自备 NVIDIA 显卡（8GB+ VRAM）。

FLUX 在解剖准确性（手部、面部）和文字渲染方面更强，SD3.5 在风格化和艺术效果方面更出色。FLUX.1 Dev 12B 参数更大但需更多 VRAM。SD3.5 的 ControlNet 生态更成熟。两者各有优势，建议根据需求选择。

最低：8GB VRAM（GTX 1080 / RTX 3060）。推荐：12GB VRAM（RTX 4070）。最佳：24GB（RTX 4090）。使用 --lowvram 参数可在 4-6GB 显卡上运行，但速度较慢。ComfyUI 比 A1111 VRAM 占用更低。

ComfyUI：速度快 40%，VRAM 低，节点工作流灵活，适合进阶用户。A1111：界面友好，功能集中，适合新手。Forge：基于 A1111 优化，6GB 显卡提速 75%，是折中方案。

最常见原因：使用了 Python 3.11+ 版本（必须用 3.10.6）。其次：NVIDIA 驱动过旧、缺少 Git、VRAM 不足、网络问题无法下载模型。Windows 用户确保 Python 已加入 PATH。

LoRA 是轻量级微调技术，让你用小数据集训练出特定风格/人物/物体模型，文件仅几十 MB。ControlNet 是精确控制插件，通过边缘图、深度图、姿态骨架等引导图像生成的构图和结构。两者可叠加使用。

注册 platform.stability.ai 获取 API Key。调用 REST API（api.stability.ai）的 /v2beta/stable-image/generate/sd3 端点。支持文生图、图生图、放大、ControlNet 等功能。$10/月起。

通过 Neuronicx 平台获取 Stability AI API、OpenAI API、Claude API 充值，支持支付宝、微信等本地支付。访问 /sg/marketplace?category=ai-subscription。

开始使用 Stable Diffusion 进行 AI 创作

本地部署完全免费，消费级显卡即可运行。SD 3.5 + ComfyUI + ControlNet 打造专业 AI 绘画工作流。需要 API 充值？Neuronicx 一站式服务。

获取 API 充值联系客服