Stable Diffusion — самая мощная открытая система для генерации изображений. В отличие от Midjourney и DALL-E, она работает локально, бесплатна, полностью настраиваема и имеет огромную экосистему расширений. Этот гид — всё, что нужно знать для уверенной работы.
Семейства моделей
Stable Diffusion 1.5 (SD 1.5)
Выпущена в октябре 2022. Несмотря на возраст, остаётся самой популярной благодаря огромной библиотеке чекпоинтов, LoRA и расширений. Генерирует изображения 512×512 по умолчанию.
- VRAM: от 4 ГБ (минимум), 8 ГБ (комфортно)
- Плюсы: тысячи кастомных моделей, быстрая генерация, работает на слабом железе
- Минусы: устаревшая архитектура, проблемы с руками/текстом, базовое разрешение 512px
Stable Diffusion XL (SDXL)
Выпущена в июле 2023. Значительный скачок качества: разрешение 1024×1024, лучшая композиция, более точное следование промпту. Двухступенчатая архитектура (base + refiner).
- VRAM: от 8 ГБ (минимум), 12 ГБ (комфортно)
- Плюсы: высокое качество, хорошая экосистема, активное развитие
- Минусы: медленнее SD 1.5, refiner добавляет время, кастомных моделей меньше
Stable Diffusion 3 (SD3) и SD 3.5
Архитектура MMDiT (multi-modal diffusion transformer). Лучшее понимание промптов, типографика, анатомия. Доступна в версиях Medium (2B) и Large (8B).
- VRAM: от 10 ГБ (Medium), 16+ ГБ (Large)
- Плюсы: лучшее понимание текста, меньше артефактов, текст на изображениях
- Минусы: молодая экосистема, мало кастомных моделей, спорная лицензия
Flux
Модель от Black Forest Labs (создатели оригинального Stable Diffusion). Версии: Flux.1 Dev (открытая), Flux.1 Schnell (быстрая), Flux.1 Pro (коммерческая). Считается лучшей открытой моделью для генерации изображений в 2026.
- VRAM: от 12 ГБ (Schnell), 16+ ГБ (Dev)
- Плюсы: отличное качество, хорошая типографика, следование промпту на уровне Midjourney
- Минусы: ресурсоёмкая, ограниченная экосистема расширений (пока)
Сравнение семейств
| Параметр | SD 1.5 | SDXL | SD3 | Flux Dev |
|---|---|---|---|---|
| Разрешение | 512×512 | 1024×1024 | 1024×1024 | до 2048×2048 |
| Качество | Хорошее | Очень хорошее | Отличное | Отличное |
| Скорость (RTX 4090) | ~2 сек | ~5 сек | ~8 сек | ~10 сек |
| Мин. VRAM | 4 ГБ | 8 ГБ | 10 ГБ | 12 ГБ |
| Экосистема | Огромная | Большая | Растущая | Растущая |
| Кастомные модели | Тысячи | Сотни | Десятки | Десятки |
Чекпоинты, LoRA и эмбеддинги
Чекпоинты (Checkpoints)
Чекпоинт — это полная модель, обученная или дообученная для определённого стиля. Это ваша «основная кисть».
Популярные чекпоинты SD 1.5:
- Realistic Vision — фотореалистичные изображения
- DreamShaper — иллюстрации и фэнтези
- Deliberate — универсальный, хорошая анатомия
- Anything V5 — аниме и манга
Популярные чекпоинты SDXL:
- Juggernaut XL — фотореализм
- DreamShaper XL — иллюстрации
- RealVisXL — портреты и фото
LoRA (Low-Rank Adaptation)
LoRA — маленький файл (10–200 МБ), который модифицирует чекпоинт, добавляя стиль, персонажа или концепцию. Можно комбинировать несколько LoRA одновременно.
Пример использования в промпте: <lora:add_detail:0.8> — подключает LoRA «add_detail» с весом 0.8.
Textual Inversion (Embeddings)
Ещё меньше LoRA (~10–100 КБ). Добавляет новый «токен» в словарь модели — обычно стиль или негативный промпт.
Сэмплеры, CFG и шаги
Сэмплеры (Samplers)
Сэмплер определяет алгоритм убирания шума. Разные сэмплеры дают разный результат при тех же настройках.
| Сэмплер | Шагов | Качество | Скорость | Когда использовать |
|---|---|---|---|---|
| DPM++ 2M Karras | 20–30 | Отличное | Быстро | Универсальный выбор по умолчанию |
| DPM++ SDE Karras | 20–30 | Отличное | Средне | Для большей детализации |
| Euler a | 20–40 | Хорошее | Быстро | Для креативных/абстрактных образов |
| DDIM | 20–50 | Хорошее | Быстро | Для img2img, воспроизводимость |
| UniPC | 15–25 | Хорошее | Очень быстро | Для быстрых превью |
CFG Scale (Classifier-Free Guidance)
CFG Scale определяет, насколько строго модель следует промпту:
- 1–3: Креативно, но далеко от промпта
- 5–7: Хороший баланс (рекомендуется для большинства задач)
- 8–12: Строгое следование промпту, но возможны артефакты
- 12+: Перенасыщение, артефакты (не рекомендуется)
Шаги (Steps)
Количество итераций убирания шума. Больше шагов = более детализированное изображение, но медленнее.
- 15–20 шагов: быстрые превью
- 25–35 шагов: оптимальное качество для большинства задач
- 40–50 шагов: максимальное качество (иногда улучшения незаметны)
ControlNet
ControlNet — расширение, позволяющее управлять композицией изображения через дополнительные входы:
- Canny: контуры объекта → модель заполняет детали
- OpenPose: поза человека (скелет) → модель рисует человека в заданной позе
- Depth: карта глубины → сохранение 3D-структуры сцены
- Scribble: грубый набросок → детализированное изображение
- IP-Adapter: референсное изображение → стиль или лицо переносится на новый образ
ControlNet — главное преимущество Stable Diffusion перед Midjourney/DALL-E. Никакой облачный сервис не даёт такого уровня контроля.
Inpainting, Outpainting, Img2Img
Img2Img
Берёт существующее изображение как основу и генерирует новое на его основе. Параметр Denoising Strength (0.0–1.0) определяет степень изменения: 0.3 — мягкая стилизация, 0.7 — существенные изменения, сохраняя композицию.
Inpainting
Перерисовка части изображения. Вы маской выделяете область, пишете промпт — модель генерирует только выделенную часть, вписывая её в контекст.
Outpainting
Расширение изображения за пределы его границ. Модель «додумывает», что за кадром. Полезно для создания панорам или расширения соотношения сторон.
Лучшие модели для разных задач
| Задача | Рекомендация | Платформа |
|---|---|---|
| Фотореализм | Juggernaut XL / RealVisXL | SDXL |
| Иллюстрации | DreamShaper XL | SDXL |
| Аниме | Anything V5 / Animagine XL | SD 1.5 / SDXL |
| Дизайн / UI | Flux Dev | Flux |
| Текст на изображениях | Flux Dev / SD3 | Flux / SD3 |
| Быстрые превью | SD 1.5 + LCM LoRA | SD 1.5 |
| Архитектура / интерьеры | SDXL + ControlNet Depth | SDXL |
Рекомендуемые настройки для начала
| Параметр | SD 1.5 | SDXL | Flux |
|---|---|---|---|
| Разрешение | 512×512 или 512×768 | 1024×1024 или 896×1152 | 1024×1024 |
| Сэмплер | DPM++ 2M Karras | DPM++ 2M Karras | Euler |
| Шаги | 25 | 30 | 20 |
| CFG | 7 | 5–7 | 3.5 |
| Denoising (img2img) | 0.5–0.7 | 0.5–0.7 | 0.5–0.7 |
FAQ
Stable Diffusion или Midjourney?
Midjourney проще и быстрее для «красивых картинок». Stable Diffusion — для контроля, кастомизации, специфических стилей, inpainting/ControlNet и когда нужна приватность. Оба инструмента дополняют друг друга.
Где скачать модели?
Основной источник — CivitAI (civitai.com) для чекпоинтов, LoRA и эмбеддингов. Hugging Face — для базовых моделей и Flux.
Можно ли генерировать коммерчески?
SD 1.5 и SDXL — лицензия CreativeML Open RAIL-M, разрешает коммерческое использование. Flux Dev — для некоммерческого. Flux Pro — коммерческая лицензия.