Fraud Blocker
2026 保姆级教程

Stable Diffusion AI 图像生成本地部署与 API 完全指南

Stability AI 推出的开源 AI 图像生成模型 — SD 3.5 Large(8.1B 参数)、SDXL、ControlNet。支持本地部署(ComfyUI / Automatic1111 / Forge)和 API 调用。社区许可证免费商用,消费级显卡即可运行。

8.1B
SD3.5 Large 参数
免费
社区许可证商用
8GB
最低 VRAM 要求
$10/月
API 起步价

Stable Diffusion 是什么?

Stability AI 推出的开源 AI 图像生成模型

开源 AI 绘画的绝对王者

Stable DiffusionStability AI 发布的开源 AI 图像生成模型系列,自 2022 年首次发布以来,已成为全球最受欢迎的 AI 绘画工具。最新的 SD 3.5 于 2024 年 10 月发布,采用 MMDiT(多模态扩散 Transformer)架构。

"Stable Diffusion 改变了 AI 图像生成的格局 — 完全开源、本地运行、免费商用,让每个人都能成为 AI 艺术家。"

模型家族

模型参数量特点适用场景
SD 3.5 Large8.1B旗舰模型,最高质量,1 百万像素专业级创作
SD 3.5 Large Turbo8.1B仅需 4 步,~2 秒生成快速迭代
SD 3.5 Medium2.5B消费级硬件优化,0.25-2 百万像素日常创作
SDXL3.5B经典模型,社区生态最丰富LoRA/模型库丰富
SDXL Turbo3.5B极速版 SDXL实时预览

竞品对比

特性Stable Diffusion 3.5FLUX.1MidjourneyDALL-E 3
开源是(社区许可证)部分(Schnell 开源)
本地运行
参数量8.1B12B未公开未公开
最低 VRAM8GB8GBN/AN/A
文字渲染一般优秀一般优秀
风格化优秀良好优秀良好
ControlNet完整支持社区支持
价格免费本地 / $10/月 API免费本地 / 付费 API$10/月起ChatGPT Plus 含

核心技术

  • MMDiT 架构:多模态扩散 Transformer,SD3.5 的核心架构
  • Query-Key Normalization:使 LoRA 微调和自定义训练更加稳定
  • 三重文本编码器:CLIP-L/14 + OpenCLIP bigG + T5-XXL,精准理解 Prompt
  • ControlNet:Blur、Canny 边缘、Depth 深度图控制,支持 8K/16K 放大

需要 AI 绘画 API 充值?通过 Neuronicx 平台 获取,支持支付宝和微信。也可获取 OpenAI APIClaude API

本地部署与 API 接入指南

三种主流客户端 + API 接入

1

第一步:确认硬件配置

最低配置:NVIDIA RTX 3060(8GB VRAM),16GB 内存,20GB 硬盘。推荐:RTX 4070(12GB VRAM),32GB 内存,50GB SSD。安装最新 NVIDIA 驱动和 CUDA Toolkit。AMD 显卡需额外配置 ROCm。

2

第二步:安装 Python 和 Git

安装 Python 3.10.6(⚠️ 关键:3.11+ 会导致兼容性问题,这是最常见的安装失败原因)。安装 Git。Windows 用户勾选 "Add Python to PATH"。

3

第三步:选择并安装客户端

ComfyUI(推荐):节点式工作流,速度快 40%,VRAM 占用低。Automatic1111 WebUI:界面友好,适合新手。SD Forge:基于 A1111 优化,6GB 显卡提速 75%。克隆仓库后运行安装脚本即可。

4

第四步:下载模型

从 HuggingFace 或 CivitAI 下载模型文件(.safetensors 格式)。放入 models/Stable-diffusion 文件夹。SD3.5 Large 约 16GB,Medium 约 5GB,SDXL 约 6.5GB。还可下载 VAE、LoRA、ControlNet 等扩展模型。

5

第五步:启动并生成

运行启动脚本(webui.sh / webui.bat / main.py),浏览器访问 localhost:7860(A1111)或 localhost:8188(ComfyUI)。输入 Prompt,设置参数(采样器、步数、CFG Scale、尺寸),点击生成。

6

第六步:API 接入(开发者)

使用 Stability AI REST API(api.stability.ai)。获取 API Key → 调用 /v1/generation/text-to-image 端点。支持文生图、图生图、放大、修复等功能。$10/月起(6,500 积分)。需要充值可通过 Neuronicx。

Stable Diffusion 部署与 API 代码

复制即用(来源:官方文档和 GitHub)

# 克隆 ComfyUI
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI

# 安装依赖(确保 Python 3.10.6)
pip install -r requirements.txt

# 安装 ComfyUI Manager(推荐)
cd custom_nodes
git clone https://github.com/ltdrdata/ComfyUI-Manager.git
cd ..

# 下载 SD3.5 Medium 模型(~5GB)
# 从 https://huggingface.co/stabilityai/stable-diffusion-3.5-medium
# 放入 models/checkpoints/ 目录

# 启动(根据显卡 VRAM 选择参数)
python main.py                     # 12GB+ VRAM
python main.py --lowvram           # 4-6GB VRAM
python main.py --gpu-only          # 强制 GPU 渲染

Stable Diffusion 核心能力

基于官方发布和社区生态的完整功能列表

文生图 (Text-to-Image)

输入 Prompt 文本描述,AI 生成高质量图片。SD3.5 采用三重文本编码器(CLIP + OpenCLIP + T5),精准理解复杂语义。支持正面和负面 Prompt。

图生图 (Image-to-Image)

上传参考图片,通过 Prompt 引导 AI 进行风格转换、修改、增强。可控制变化强度(Denoising Strength),实现精确调整。

图片放大 (Upscale)

将低分辨率图片放大到 8K/16K 级别,保持或增强细节。支持 Creative(创造性放大)和 Conservative(保守放大)两种模式。

ControlNet 精确控制

SD3.5 Large 支持 Blur、Canny 边缘、Depth 深度图三种 ControlNet。精确控制生成图片的构图、姿态、空间结构。

LoRA 微调

Query-Key Normalization 使 LoRA 训练更稳定。CivitAI 拥有数十万社区 LoRA 模型,覆盖人物、风格、物体等各种主题。

修复与编辑 (Inpaint/Outpaint)

局部重绘(Inpainting)修复图片特定区域。外扩绘制(Outpainting)扩展图片边界。背景移除、搜索替换等编辑功能。

消费级硬件运行

SD3.5 Medium 仅需 8GB VRAM 即可运行。支持 --lowvram / --medvram 参数适配不同显卡。ComfyUI 比 A1111 快 40%,VRAM 占用更低。

开源免费商用

Stability AI 社区许可证允许免费商业使用。完整模型权重和推理代码在 HuggingFace 和 GitHub 开源。庞大的社区生态和模型库。

Stable Diffusion 界面与效果

主流客户端界面和 AI 生成效果展示

ComfyUI 节点界面

ComfyUI

节点式工作流,速度快 40%

ComfyUI Interface
AI 艺术创作

AI 绘画创作

Prompt 驱动的 AI 图像生成

Stable Diffusion Art
ControlNet 控制

ControlNet

精确控制构图、姿态、深度

ControlNet Control
LoRA 风格模型

LoRA 微调

CivitAI 数十万社区模型

LoRA Models
图片放大

图片放大

低分辨率放大到 8K/16K

Upscale
Inpainting 修复

局部重绘

Inpainting 精确修复区域

Inpainting

视频教程

跟着视频快速上手 Stable Diffusion

ComfyUI 完整新手指南

安装 ComfyUI + SD3 完整教程

常见问题

关于 Stable Diffusion 部署和使用的常见问题

可以。本地部署完全免费 — 模型从 HuggingFace 免费下载,ComfyUI / Automatic1111 / Forge 等客户端全部开源。Stability AI 社区许可证允许免费商业使用。仅需自备 NVIDIA 显卡(8GB+ VRAM)。
FLUX 在解剖准确性(手部、面部)和文字渲染方面更强,SD3.5 在风格化和艺术效果方面更出色。FLUX.1 Dev 12B 参数更大但需更多 VRAM。SD3.5 的 ControlNet 生态更成熟。两者各有优势,建议根据需求选择。
最低:8GB VRAM(GTX 1080 / RTX 3060)。推荐:12GB VRAM(RTX 4070)。最佳:24GB(RTX 4090)。使用 --lowvram 参数可在 4-6GB 显卡上运行,但速度较慢。ComfyUI 比 A1111 VRAM 占用更低。
ComfyUI:速度快 40%,VRAM 低,节点工作流灵活,适合进阶用户。A1111:界面友好,功能集中,适合新手。Forge:基于 A1111 优化,6GB 显卡提速 75%,是折中方案。
最常见原因:使用了 Python 3.11+ 版本(必须用 3.10.6)。其次:NVIDIA 驱动过旧、缺少 Git、VRAM 不足、网络问题无法下载模型。Windows 用户确保 Python 已加入 PATH。
LoRA 是轻量级微调技术,让你用小数据集训练出特定风格/人物/物体模型,文件仅几十 MB。ControlNet 是精确控制插件,通过边缘图、深度图、姿态骨架等引导图像生成的构图和结构。两者可叠加使用。
注册 platform.stability.ai 获取 API Key。调用 REST API(api.stability.ai)的 /v2beta/stable-image/generate/sd3 端点。支持文生图、图生图、放大、ControlNet 等功能。$10/月起。
通过 Neuronicx 平台获取 Stability AI API、OpenAI API、Claude API 充值,支持支付宝、微信等本地支付。访问 /sg/marketplace?category=ai-subscription。

开始使用 Stable Diffusion 进行 AI 创作

本地部署完全免费,消费级显卡即可运行。SD 3.5 + ComfyUI + ControlNet 打造专业 AI 绘画工作流。需要 API 充值?Neuronicx 一站式服务。