Stable Diffusion AI 图像生成本地部署与 API 完全指南
Stability AI 推出的开源 AI 图像生成模型 — SD 3.5 Large(8.1B 参数)、SDXL、ControlNet。支持本地部署(ComfyUI / Automatic1111 / Forge)和 API 调用。社区许可证免费商用,消费级显卡即可运行。
Stable Diffusion 是什么?
Stability AI 推出的开源 AI 图像生成模型
开源 AI 绘画的绝对王者
Stable Diffusion 是 Stability AI 发布的开源 AI 图像生成模型系列,自 2022 年首次发布以来,已成为全球最受欢迎的 AI 绘画工具。最新的 SD 3.5 于 2024 年 10 月发布,采用 MMDiT(多模态扩散 Transformer)架构。
"Stable Diffusion 改变了 AI 图像生成的格局 — 完全开源、本地运行、免费商用,让每个人都能成为 AI 艺术家。"
模型家族
| 模型 | 参数量 | 特点 | 适用场景 |
|---|---|---|---|
| SD 3.5 Large | 8.1B | 旗舰模型,最高质量,1 百万像素 | 专业级创作 |
| SD 3.5 Large Turbo | 8.1B | 仅需 4 步,~2 秒生成 | 快速迭代 |
| SD 3.5 Medium | 2.5B | 消费级硬件优化,0.25-2 百万像素 | 日常创作 |
| SDXL | 3.5B | 经典模型,社区生态最丰富 | LoRA/模型库丰富 |
| SDXL Turbo | 3.5B | 极速版 SDXL | 实时预览 |
竞品对比
| 特性 | Stable Diffusion 3.5 | FLUX.1 | Midjourney | DALL-E 3 |
|---|---|---|---|---|
| 开源 | 是(社区许可证) | 部分(Schnell 开源) | 否 | 否 |
| 本地运行 | 是 | 是 | 否 | 否 |
| 参数量 | 8.1B | 12B | 未公开 | 未公开 |
| 最低 VRAM | 8GB | 8GB | N/A | N/A |
| 文字渲染 | 一般 | 优秀 | 一般 | 优秀 |
| 风格化 | 优秀 | 良好 | 优秀 | 良好 |
| ControlNet | 完整支持 | 社区支持 | 无 | 无 |
| 价格 | 免费本地 / $10/月 API | 免费本地 / 付费 API | $10/月起 | ChatGPT Plus 含 |
核心技术
- •MMDiT 架构:多模态扩散 Transformer,SD3.5 的核心架构
- •Query-Key Normalization:使 LoRA 微调和自定义训练更加稳定
- •三重文本编码器:CLIP-L/14 + OpenCLIP bigG + T5-XXL,精准理解 Prompt
- •ControlNet:Blur、Canny 边缘、Depth 深度图控制,支持 8K/16K 放大
需要 AI 绘画 API 充值?通过 Neuronicx 平台 获取,支持支付宝和微信。也可获取 OpenAI API 和 Claude API。
本地部署与 API 接入指南
三种主流客户端 + API 接入
第一步:确认硬件配置
最低配置:NVIDIA RTX 3060(8GB VRAM),16GB 内存,20GB 硬盘。推荐:RTX 4070(12GB VRAM),32GB 内存,50GB SSD。安装最新 NVIDIA 驱动和 CUDA Toolkit。AMD 显卡需额外配置 ROCm。
第二步:安装 Python 和 Git
安装 Python 3.10.6(⚠️ 关键:3.11+ 会导致兼容性问题,这是最常见的安装失败原因)。安装 Git。Windows 用户勾选 "Add Python to PATH"。
第三步:选择并安装客户端
ComfyUI(推荐):节点式工作流,速度快 40%,VRAM 占用低。Automatic1111 WebUI:界面友好,适合新手。SD Forge:基于 A1111 优化,6GB 显卡提速 75%。克隆仓库后运行安装脚本即可。
第四步:下载模型
从 HuggingFace 或 CivitAI 下载模型文件(.safetensors 格式)。放入 models/Stable-diffusion 文件夹。SD3.5 Large 约 16GB,Medium 约 5GB,SDXL 约 6.5GB。还可下载 VAE、LoRA、ControlNet 等扩展模型。
第五步:启动并生成
运行启动脚本(webui.sh / webui.bat / main.py),浏览器访问 localhost:7860(A1111)或 localhost:8188(ComfyUI)。输入 Prompt,设置参数(采样器、步数、CFG Scale、尺寸),点击生成。
第六步:API 接入(开发者)
使用 Stability AI REST API(api.stability.ai)。获取 API Key → 调用 /v1/generation/text-to-image 端点。支持文生图、图生图、放大、修复等功能。$10/月起(6,500 积分)。需要充值可通过 Neuronicx。
Stable Diffusion 部署与 API 代码
复制即用(来源:官方文档和 GitHub)
# 克隆 ComfyUI
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
# 安装依赖(确保 Python 3.10.6)
pip install -r requirements.txt
# 安装 ComfyUI Manager(推荐)
cd custom_nodes
git clone https://github.com/ltdrdata/ComfyUI-Manager.git
cd ..
# 下载 SD3.5 Medium 模型(~5GB)
# 从 https://huggingface.co/stabilityai/stable-diffusion-3.5-medium
# 放入 models/checkpoints/ 目录
# 启动(根据显卡 VRAM 选择参数)
python main.py # 12GB+ VRAM
python main.py --lowvram # 4-6GB VRAM
python main.py --gpu-only # 强制 GPU 渲染Stable Diffusion 核心能力
基于官方发布和社区生态的完整功能列表
文生图 (Text-to-Image)
输入 Prompt 文本描述,AI 生成高质量图片。SD3.5 采用三重文本编码器(CLIP + OpenCLIP + T5),精准理解复杂语义。支持正面和负面 Prompt。
图生图 (Image-to-Image)
上传参考图片,通过 Prompt 引导 AI 进行风格转换、修改、增强。可控制变化强度(Denoising Strength),实现精确调整。
图片放大 (Upscale)
将低分辨率图片放大到 8K/16K 级别,保持或增强细节。支持 Creative(创造性放大)和 Conservative(保守放大)两种模式。
ControlNet 精确控制
SD3.5 Large 支持 Blur、Canny 边缘、Depth 深度图三种 ControlNet。精确控制生成图片的构图、姿态、空间结构。
LoRA 微调
Query-Key Normalization 使 LoRA 训练更稳定。CivitAI 拥有数十万社区 LoRA 模型,覆盖人物、风格、物体等各种主题。
修复与编辑 (Inpaint/Outpaint)
局部重绘(Inpainting)修复图片特定区域。外扩绘制(Outpainting)扩展图片边界。背景移除、搜索替换等编辑功能。
消费级硬件运行
SD3.5 Medium 仅需 8GB VRAM 即可运行。支持 --lowvram / --medvram 参数适配不同显卡。ComfyUI 比 A1111 快 40%,VRAM 占用更低。
开源免费商用
Stability AI 社区许可证允许免费商业使用。完整模型权重和推理代码在 HuggingFace 和 GitHub 开源。庞大的社区生态和模型库。
Stable Diffusion 界面与效果
主流客户端界面和 AI 生成效果展示
ComfyUI
节点式工作流,速度快 40%
AI 绘画创作
Prompt 驱动的 AI 图像生成
ControlNet
精确控制构图、姿态、深度
LoRA 微调
CivitAI 数十万社区模型
图片放大
低分辨率放大到 8K/16K
局部重绘
Inpainting 精确修复区域
视频教程
跟着视频快速上手 Stable Diffusion
ComfyUI 完整新手指南
安装 ComfyUI + SD3 完整教程
常见问题
关于 Stable Diffusion 部署和使用的常见问题
开始使用 Stable Diffusion 进行 AI 创作
本地部署完全免费,消费级显卡即可运行。SD 3.5 + ComfyUI + ControlNet 打造专业 AI 绘画工作流。需要 API 充值?Neuronicx 一站式服务。