🗺️ Гид25 мин26 марта 2026 г.

Локальные нейросети: какую модель запустить на вашей видеокарте

Подробный гайд по запуску нейросетей на своём компьютере: таблицы совместимости GPU и моделей, сравнение NVIDIA RTX 30/40/50 и Apple M1-M4, квантизация, софт, рекомендации по бюджету.

Облачные нейросети — удобный, но зависимый инструмент. Подписки дорожают, серверы перегружены, данные уходят третьим лицам, а для доступа к лучшим моделям из России часто нужен VPN и зарубежная карта. Есть альтернатива: запустить нейросеть прямо на своём компьютере. В этом гайде — подробнейший разбор того, какая видеокарта подходит для каких задач, какие модели можно запустить локально и сколько это стоит.

Зачем запускать нейросети локально

Прежде чем погружаться в технические детали, разберёмся — зачем вообще заморачиваться с локальным запуском, когда есть ChatGPT, Claude и Midjourney?

Бесплатно навсегда

Главное преимущество — после покупки видеокарты вы не платите ни копейки. Подписка на ChatGPT Plus стоит $20/мес (~2 000₽), Claude Pro — $20/мес, Midjourney — от $10/мес. За год набегает 30 000–50 000₽. Локальная нейросеть работает бесплатно: вы платите только за электричество (примерно 3–5₽ в час при активной работе GPU).

Полная приватность

Ваши данные никогда не покидают компьютер. Это критически важно для тех, кто работает с конфиденциальной информацией: юридические документы, медицинские данные, корпоративные секреты, личная переписка. Ни один облачный сервис не даёт такой гарантии — даже при включённой опции «не использовать для обучения» данные всё равно проходят через чужие серверы.

Без VPN и зарубежных карт

В России доступ к OpenAI, Anthropic и другим западным сервисам требует VPN и оплату с зарубежной карты. Локальные модели не требуют ничего — скачал, запустил, работаешь. Никаких блокировок, никакой привязки к геолокации.

Без лимитов на запросы

Облачные сервисы ограничивают количество запросов: ChatGPT Plus — 80 сообщений за 3 часа для GPT-4o, Claude Pro — лимиты на длинные диалоги. Локально — генерируйте хоть 24 часа подряд, лимитов нет.

Работает без интернета

Раз модель скачана на диск — она работает офлайн. В поезде, в самолёте, на даче без связи — нейросеть всегда с вами. Для людей, которые часто бывают без стабильного интернета, это решающий фактор.

Полный контроль и кастомизация

Вы можете дообучить модель на своих данных, выбрать нужный размер и уровень квантизации, настроить параметры генерации (температуру, top-p, repetition penalty) — всё это недоступно или сильно ограничено в облачных сервисах.

Что нужно для запуска нейросети на компьютере

Чтобы запустить нейросеть локально, нужно понимать четыре ключевых параметра вашей системы:

GPU и VRAM — главный параметр

VRAM (видеопамять) — это самый важный параметр. Вся модель (или её основная часть) должна поместиться в видеопамять. Если модель не влезает — она либо не запустится, либо будет использовать обычную RAM, работая в 5–10 раз медленнее.

Простое правило: больше VRAM = больше и лучше модели можно запустить. Частота GPU, количество CUDA-ядер, пропускная способность памяти тоже влияют на скорость, но именно объём VRAM определяет, какие модели доступны в принципе.

RAM — оперативная память

16 GB — абсолютный минимум. При запуске модели часть данных загружается в оперативную память, плюс операционная система и софт тоже потребляют ресурсы. 32 GB — рекомендуемый объём, с ним комфортно работать с моделями средних размеров. 64 GB — для тех, кто запускает модели с частичной выгрузкой из VRAM в RAM (offloading).

SSD — накопитель

Модели весят от 2 до 70 GB и более. Stable Diffusion с набором моделей легко занимает 50–100 GB. Коллекция текстовых моделей разных размеров — ещё 100–200 GB. Нужен быстрый NVMe SSD объёмом от 500 GB, лучше 1–2 TB. Модели на HDD загружаются мучительно долго.

CPU — процессор

Процессор не критичен для inference (генерации ответов) на GPU — основная работа происходит на видеокарте. Но CPU нужен для подготовки данных, токенизации и управления процессом. Любой современный процессор (Intel 12-го поколения и выше, AMD Ryzen 5000+) справится. Для запуска моделей чисто на CPU (без GPU) нужен мощный многоядерный процессор, но скорость всё равно будет в 10–20 раз ниже, чем на GPU.

NVIDIA RTX 30-серия — бюджетный вход в мир локального AI

Серия RTX 30 (архитектура Ampere, 2020–2022) — это отличный бюджетный вариант для начала работы с локальными нейросетями. Эти карты уже не продаются новыми, но на вторичном рынке их можно найти по привлекательным ценам.

ВидеокартаVRAMТекстовые моделиГенерация картинокЦена б/у (2026)
RTX 306012 GBLlama 3.1 8B, Mistral 7B, Qwen 2.5 7BSD 1.5, SDXL (медленно)~20–25K₽
RTX 3060 Ti8 GBMistral 7B (Q4), Phi-3SD 1.5~18–22K₽
RTX 30708 GBMistral 7B (Q4), Phi-3SD 1.5, SDXL (медленно)~22–28K₽
RTX 3070 Ti8 GBMistral 7B (Q4), Phi-3SD 1.5, SDXL (медленно)~25–30K₽
RTX 308010 GBLlama 3.1 8B (Q4), Mistral 7BSDXL, SD 1.5~30–40K₽
RTX 3080 Ti12 GBLlama 3.1 8B, CodeLlama 13B (Q4)SDXL, Flux (медленно)~35–45K₽
RTX 309024 GBLlama 3.1 70B (Q2), CodeLlama 34B, Mixtral 8x7BSDXL, Flux, SD3~55–75K₽
RTX 3090 Ti24 GBТо же, чуть быстрееSDXL, Flux, SD3~65–85K₽

Лучшие варианты в 30-серии

RTX 3060 12 GB — лучший бюджетный вариант. Парадокс: младшая карта в линейке имеет больше видеопамяти, чем RTX 3060 Ti, 3070 и 3070 Ti. Именно 12 GB VRAM делают её королём бюджетного сегмента — на ней запускаются все 7–8B модели в полном качестве и даже 13B модели с квантизацией. Для генерации картинок через Stable Diffusion 1.5 её вполне хватает, SDXL тоже работает, хотя и медленно.

RTX 3090 24 GB — лучший выбор для серьёзной работы. 24 GB VRAM открывают доступ к моделям, недоступным на картах с 8–12 GB: Mixtral 8x7B, CodeLlama 34B, даже Llama 3.1 70B с агрессивной квантизацией (Q2). Для генерации картинок через Flux — идеальна. На вторичном рынке стоит 55–75K₽, что делает её отличной инвестицией.

Совет: при покупке RTX 3090 б/у обязательно проверяйте карту — многие использовались для майнинга. Запросите тест в FurMark на 15–20 минут и следите за температурами и артефактами.

NVIDIA RTX 40-серия — золотая середина

Серия RTX 40 (архитектура Ada Lovelace, 2022–2024) — это текущий мейнстрим. Карты значительно энергоэффективнее 30-серии и быстрее при том же объёме VRAM. Поддержка FP8 (8-битных вычислений с плавающей точкой) ускоряет inference нейросетей.

ВидеокартаVRAMТекстовые моделиГенерация картинокЦена новая (2026)
RTX 40608 GBMistral 7B (Q4), Phi-3SD 1.5, SDXL (медленно)~30–35K₽
RTX 4060 Ti 8 GB8 GBMistral 7B (Q4), Phi-3SD 1.5, SDXL~40–47K₽
RTX 4060 Ti 16 GB16 GBLlama 3.1 8B, Mixtral (Q4), CodeLlama 13BSDXL, Flux, SD3~55–70K₽
RTX 407012 GBLlama 3.1 8B, Mistral 7BSDXL, Flux (медленно)~55–65K₽
RTX 4070 Ti12 GBLlama 3.1 8B, Mistral 7BSDXL, Flux~70–80K₽
RTX 4070 Ti Super16 GBLlama 3.1 8B, Mixtral, CodeLlama 13BSDXL, Flux, SD3~80–95K₽
RTX 408016 GBLlama 3.1 8B, Mixtral, CodeLlama 13BFlux быстро, SDXL~100–120K₽
RTX 4080 Super16 GBLlama 3.1 8B, Mixtral, CodeLlama 13BFlux быстро, SDXL~110–130K₽
RTX 409024 GBLlama 3.1 70B (Q4), Mixtral 8x7B, DeepSeek 33BFlux, SDXL, SD3 — всё быстро~300–480K₽

Лучшие варианты в 40-серии

RTX 4060 Ti 16 GB — лучшая по соотношению цена/VRAM. За 55–70K₽ вы получаете 16 GB видеопамяти — столько же, сколько у RTX 4080 за 100–120K₽. Да, скорость ниже, но доступные модели — те же самые. Если для вас важнее разнообразие моделей, а не скорость генерации — это оптимальный выбор.

RTX 4090 — абсолютный король для локального AI. 24 GB VRAM + огромная вычислительная мощность делают эту карту лучшим потребительским решением для AI-задач. Llama 3.1 70B в квантизации Q4 работает с приемлемой скоростью (10–15 токенов/сек), Flux генерирует картинки за секунды. Единственный минус — цена и энергопотребление (450W TDP).

Важно: RTX 4090 и RTX 5090 в России стоят в 2–3 раза дороже рекомендованных цен NVIDIA из-за санкций, запрета экспорта и острого дефицита. RTX 4090 продаётся за 300–480K₽ (вместо $1 599 MSRP), RTX 5090 — за 370–580K₽ (вместо $1 999 MSRP). Ситуация вряд ли изменится в ближайшее время — учитывайте это при планировании бюджета.

Важное различие между RTX 4060 Ti 8 GB и 16 GB версией: при одинаковом GPU чип, 16 GB версия стоит на 15–25K₽ дороже, но открывает доступ к совершенно другому классу моделей. Не экономьте на VRAM — лучше взять менее быстрый GPU, но с большим объёмом видеопамяти.

NVIDIA RTX 50-серия — новейшее поколение (2025–2026)

Серия RTX 50 (архитектура Blackwell, 2025) — это последнее поколение потребительских видеокарт NVIDIA. Ключевые улучшения для AI: значительно выросшая производительность в FP4/FP8 вычислениях, увеличенная пропускная способность памяти и поддержка новых форматов данных.

ВидеокартаVRAMТекстовые моделиГенерация картинокЦена (2026)
RTX 506016 GB (ожид.)Llama 3.1 8B, Mixtral (Q4)SDXL, Flux~35–40K₽ (ожид.)
RTX 507012 GBLlama 3.1 8B, Mistral 7BSDXL, Flux~80–100K₽
RTX 5070 Ti16 GBMixtral, CodeLlama 13BFlux, SD3~100–130K₽
RTX 508016 GBMixtral, CodeLlama 13B (быстрее)Flux быстро~150–200K₽
RTX 509032 GBLlama 3.1 70B (Q4–Q6), DeepSeek 67B, Mixtral fullFlux, SD3, видео (Mochi)~370–580K₽

Лучшие варианты в 50-серии

RTX 5090 с 32 GB — первая потребительская карта для запуска 70B моделей в хорошем качестве. Это исторический момент: раньше для Llama 70B в квантизации Q4–Q6 требовались серверные карты A100 или связка из двух RTX 3090/4090. Теперь одна карта справляется с этим. DeepSeek 67B, CodeLlama 70B — всё это становится доступным для домашнего использования.

RTX 5070 Ti 16 GB — отличный mid-range. Благодаря архитектуре Blackwell эта карта обеспечивает скорость inference, сравнимую с RTX 4080, при меньшем энергопотреблении. 16 GB VRAM достаточно для всех основных задач.

RTX 5060 (ожидается) — если слухи про 16 GB VRAM подтвердятся, это будет лучший бюджетный вариант для AI на рынке. Ориентировочная цена 35–40K₽ за 16 GB видеопамяти нового поколения — беспрецедентное предложение.

Обратите внимание: RTX 5070 имеет только 12 GB VRAM — это шаг назад по сравнению с ожидаемой RTX 5060 (16 GB). Для AI-задач RTX 5060 может оказаться более выгодной покупкой, несмотря на меньшую вычислительную мощность.

Apple Mac M1–M4 — преимущество unified memory

Mac на чипах Apple Silicon (M1, M2, M3, M4) работают принципиально иначе, чем связка CPU + дискретная видеокарта NVIDIA. Главная особенность — unified memory (единая память), которая одновременно доступна и процессору, и встроенному GPU.

Почему это важно для AI

На обычном ПК модель должна поместиться в VRAM видеокарты. RTX 4060 с 8 GB VRAM — модель больше 8 GB не запустится на полной скорости. На Mac с 16 GB unified memory вся эта память доступна для модели — это эквивалент видеокарты с 16 GB VRAM. MacBook Air за 100K₽ с 16 GB памяти может запускать модели, которые на ПК требуют RTX 4060 Ti 16 GB за 55–70K₽ (плюс остальное железо за 30–50K₽).

Есть нюанс: GPU в чипах Apple заметно медленнее топовых NVIDIA в расчёте на единицу памяти. Но когда модель просто не помещается в VRAM дискретной карты — Mac с большим объёмом памяти выигрывает, потому что на NVIDIA модель будет работать через RAM-offloading, что в 5–10 раз медленнее.

ЧипUnified MemoryТекстовые моделиГенерация картинокСкорость vs NVIDIA
M1 8 GB8 GBMistral 7B (Q4), Phi-3SD 1.5 (медленно)~RTX 3060 / 3
M1 16 GB16 GBLlama 3.1 8B, Mixtral (Q4)SDXL (медленно)~RTX 3060 / 2
M1 Pro 16 GB16 GBLlama 3.1 8B, Mixtral (Q4)SDXL~RTX 3060 / 1.5
M1 Max 32 GB32 GBLlama 3.1 70B (Q2–Q4)Flux, SDXL~RTX 3070
M1 Ultra 64 GB64 GBLlama 3.1 70B (Q6), Mixtral fullВсё~RTX 3080
M2 8–16 GB8–16 GBКак M1, на 15–20% быстрееКак M1, быстрееM1 x 1.2
M2 Pro / Max16–96 GBКак M1 Pro/Max, быстрееКак M1 Pro/Max, быстрееM1 x 1.3
M3 8–16 GB8–16 GBКак M2, на 10–15% быстрееКак M2, быстрееM2 x 1.15
M3 Pro 18–36 GB18–36 GBLlama 3.1 8B–70B (Q4)SDXL, Flux~RTX 3080
M3 Max 36–128 GB36–128 GBLlama 3.1 70B (Q6–Q8); 128 GB: 405B (Q2)Всё быстро~RTX 4070
M4 16 GB16 GBLlama 3.1 8B, Mixtral (Q4)SDXL, Flux (медленно)~RTX 3070
M4 Pro 24–48 GB24–48 GBLlama 3.1 70B (Q4)Flux быстро~RTX 4070 Ti
M4 Max 36–128 GB36–128 GBLlama 3.1 70B (Q8), 405B (Q4)Всё~RTX 4080

Когда Mac лучше NVIDIA

Для текстовых моделей большого размера. Mac с 36 GB+ unified memory позволяет запустить модели, которые не помещаются в VRAM обычных видеокарт. Llama 3.1 70B на M3 Max 64 GB работает с приемлемой скоростью (5–8 токенов/сек), тогда как на RTX 4070 с 12 GB VRAM эту модель запустить невозможно (только через offloading, со скоростью 1–2 токена/сек).

Тишина и энергоэффективность. Mac Studio M4 Max потребляет 30–60W при inference, RTX 4090 — 300–450W. MacBook Air M3 вообще бесшумен — у него нет вентилятора. Для домашнего и офисного использования это огромное преимущество.

Универсальность. Mac — это полноценный рабочий компьютер с отличным экраном, клавиатурой, трекпадом и macOS. Вам не нужен отдельный ПК для AI — всё в одном устройстве.

Когда NVIDIA лучше Mac

Для генерации картинок. CUDA-оптимизированные движки (ComfyUI, Automatic1111) работают на NVIDIA значительно быстрее. RTX 4070 генерирует картинку через SDXL за 5–8 секунд, M3 Pro — за 15–25 секунд. Flux на RTX 4090 — за 3–5 секунд, на M4 Max — за 10–15 секунд.

Для максимальной скорости при небольших моделях. Если модель помещается в VRAM видеокарты, NVIDIA быстрее. Llama 3.1 8B на RTX 4070 выдаёт 40–60 токенов/сек, на M3 Pro — 15–25 токенов/сек.

По цене за VRAM. RTX 3060 12 GB б/у стоит 20–25K₽. MacBook с 16 GB — от 70K₽. Если бюджет ограничен и есть ПК — дискретная видеокарта выгоднее.

Популярные модели для локального запуска

Теперь, когда мы разобрались с железом, давайте посмотрим, какие именно модели можно запустить и для каких задач они подходят.

Текстовые модели (LLM)

МодельРазмерМин. VRAMКачествоДля чего подходит
Phi-3 Mini 3.8B3.8B3 GBСреднееБыстрые ответы, слабое железо, простые задачи
Mistral 7B7B5–6 GBХорошееУниверсальная модель, русский язык — приемлемо
Llama 3.1 8B8B6–7 GBОтличноеЛучшая модель на 8B, сильный русский язык
Qwen 2.5 14B14B10–12 GBОтличноеХороший русский, аналитика, программирование
CodeLlama 13B13B10 GBОтличное для кодаПрограммирование, анализ кода, рефакторинг
Mixtral 8x7B46.7B (MoE)24–26 GBОтличноеМощная MoE-модель, близка к GPT-3.5
Llama 3.1 70B70B40–48 GB (Q4: 24 GB)ПревосходноеУровень GPT-4 для многих задач
DeepSeek V3685B (MoE)32 GB+ПревосходноеЛучшая open-source модель, конкурент GPT-4o

Какую модель выбрать?

Для повседневного общения и помощи — Llama 3.1 8B. Это лучшая модель в своём размере: отличное понимание русского языка, хорошая логика, быстрая генерация. Запускается на любой карте с 8 GB VRAM.

Для программирования — CodeLlama 13B или Qwen 2.5 14B. CodeLlama специализирована на коде и понимает десятки языков программирования. Qwen 2.5 14B — более универсальна, но тоже отлично справляется с кодом.

Для серьёзной аналитики и сложных задач — Llama 3.1 70B. Если ваша карта позволяет (24 GB VRAM для Q4 квантизации), эта модель по качеству близка к GPT-4 и справляется с задачами, которые не под силу меньшим моделям: сложные рассуждения, анализ длинных документов, нетривиальные вопросы.

Для максимального качества — DeepSeek V3. Огромная MoE-модель, которая требует значительных ресурсов (32 GB+), но по качеству конкурирует с лучшими закрытыми моделями. Активно используется в профессиональных задачах.

Модели для генерации картинок

МодельМин. VRAMКачествоДля чего подходит
Stable Diffusion 1.54 GBБазовоеСтарт, огромная библиотека кастомных моделей
SDXL8 GBХорошееСтандарт 2024, высокое разрешение
Flux12 GBОтличноеЛучшее качество в 2025–2026, фотореализм
SD3 Medium10 GBХорошееХорошая работа с текстом на картинках

Flux — безусловный лидер по качеству в 2025–2026. Фотореалистичные изображения, отличная работа с промптами, хорошее понимание композиции. Требует минимум 12 GB VRAM, комфортно — 16 GB. На RTX 4090 генерирует картинку 1024×1024 за 3–5 секунд.

Stable Diffusion 1.5 — несмотря на возраст, остаётся актуальным благодаря огромному сообществу и тысячам кастомных моделей (LoRA, checkpoint). Если вам нужен определённый стиль — аниме, пиксель-арт, конкретный художник — скорее всего, для SD 1.5 уже есть готовая модель.

Модели для генерации видео

МодельМин. VRAMКачествоДля чего подходит
Mochi24 GB+ЭкспериментальноеКороткие видеоклипы, первые шаги в видеогенерации
LTX Video12 GB+ХорошееБыстрая генерация коротких видео

Локальная генерация видео пока находится в ранней стадии. Результаты уступают облачным решениям (Sora, Runway Gen-3), но прогресс идёт быстро. Для экспериментов — вполне подходит, для продакшена — пока рановато.

Софт для локального запуска нейросетей

Для запуска нейросетей локально не нужно писать код или разбираться в командной строке — есть удобные инструменты с графическим интерфейсом.

Для текстовых моделей

Ollama — самый простой способ запустить LLM. Одна команда в терминале — и модель работает. Поддерживает сотни моделей, автоматически подбирает оптимальную квантизацию под вашу карту. Работает на Windows, Mac и Linux. Идеальный старт для новичков.

LM Studio — GUI для LLM. Графический интерфейс для скачивания и запуска текстовых моделей. Встроенный чат, поддержка разных форматов квантизации (GGUF), настройка параметров генерации. Отлично подходит тем, кто не хочет работать в терминале.

Для генерации картинок

ComfyUI — профессиональный инструмент для генерации картинок. Node-based интерфейс, который позволяет строить сложные пайплайны генерации. Поддерживает SD 1.5, SDXL, Flux, SD3 и любые кастомные модели. Самый мощный инструмент, но требует обучения.

Automatic1111 (SD WebUI) — классический интерфейс для Stable Diffusion. Веб-интерфейс с множеством расширений. Проще ComfyUI, но менее гибкий. Огромное сообщество и тысячи расширений.

Fooocus — самый простой способ генерировать картинки. Минимум настроек, максимум результата. Ввели промпт — получили картинку. Идеален для новичков, которые не хотят разбираться в технических деталях.

Квантизация — как уместить большую модель в маленькую память

Оригинальные модели хранят каждый параметр в формате FP16 (16 бит). Модель с 70 миллиардами параметров в FP16 весит ~140 GB — она не поместится ни в одну потребительскую видеокарту. Квантизация решает эту проблему, снижая точность хранения параметров.

Форматы квантизации

ФорматБит на параметрРазмер 7B моделиРазмер 70B моделиПотеря качества
FP1616~14 GB~140 GBНет (оригинал)
Q88~7 GB~70 GBМинимальная (1–2%)
Q6_K6.5~5.5 GB~55 GBОчень малая (2–3%)
Q5_K_M5.5~5 GB~48 GBМалая (3–5%)
Q4_K_M4.5~4.5 GB~40 GBЗаметная (5–8%)
Q3_K_M3.5~3.5 GB~30 GBЗначительная (8–15%)
Q2_K2.5~2.5 GB~22 GBСущественная (15–25%)

Какую квантизацию выбрать?

Q4_K_M — золотой стандарт. Оптимальный баланс между размером и качеством. Потеря качества заметна только при специализированных бенчмарках — в реальном использовании разница с FP16 практически не ощущается. Именно этот формат используют большинство пользователей.

Q5_K_M и Q6_K — если VRAM позволяет. Качество ещё ближе к оригиналу. Рекомендуется для задач, требующих высокой точности (программирование, математика, анализ данных).

Q8 — практически без потерь. Используйте, если модель помещается в VRAM в формате Q8 — разницы с FP16 вы не заметите.

Q2_K и Q3_K_M — крайний случай. Используйте только когда модель иначе не помещается в память. Лучше запустить 70B модель в Q2, чем 8B модель в Q8 — даже с потерей качества от квантизации большая модель обычно умнее.

Практический совет: при использовании Ollama квантизация подбирается автоматически. В LM Studio вы можете выбрать конкретный файл с нужным уровнем квантизации (например, llama-3.1-8b-instruct-Q4_K_M.gguf). Начните с Q4_K_M и повышайте, если VRAM позволяет.

Как считать, поместится ли модель?

Простая формула: необходимый VRAM ≈ размер модели в выбранной квантизации + 1–2 GB на overhead. Например, Llama 3.1 8B в Q4_K_M весит ~4.5 GB, значит нужно минимум 6 GB VRAM. Llama 3.1 70B в Q4_K_M — ~40 GB, то есть нужно 24 GB VRAM + offloading в RAM, или RTX 5090 с 32 GB (модель не поместится полностью, но offloading минимален).

Рекомендации по бюджету

Выбор видеокарты для AI — это всегда компромисс между бюджетом, доступными моделями и скоростью работы. Вот конкретные рекомендации для каждого ценового сегмента.

БюджетРекомендацияЧто запустите
20–25K₽RTX 3060 12 GB (б/у)Llama 8B, Mistral 7B, SD 1.5/SDXL
55–70K₽RTX 4060 Ti 16 GBLlama 8B, Mixtral, Flux
80–95K₽RTX 4070 Ti Super 16 GBТо же, значительно быстрее
55–75K₽RTX 3090 24 GB (б/у)Llama 70B (Q4), Flux, лучший б/у вариант
300–480K₽RTX 4090 24 GBLlama 70B (Q4), Flux быстро, всё
370–580K₽RTX 5090 32 GBLlama 70B (Q6), DeepSeek, видео
Mac 80–150K₽MacBook Pro M3/M4 Pro 36 GBLlama 3.1 70B (Q4), тихо и компактно
Mac 250K₽+Mac Studio M4 Max 128 GBLlama 405B (Q4), абсолютно всё

Стратегия «минимальный вход»

Если вы хотите попробовать локальные нейросети с минимальными затратами — купите RTX 3060 12 GB на Avito за 20–25K₽. Этого достаточно для полноценной работы с текстовыми моделями 7–8B (Llama 3.1 8B, Mistral 7B) и базовой генерации картинок через Stable Diffusion. Если понравится — можно продать и перейти на карту помощнее.

Стратегия «оптимальная покупка»

RTX 4060 Ti 16 GB за ~55–70K₽ — лучшее вложение на сегодня. 16 GB VRAM открывают доступ к Flux (лучшая генерация картинок), Mixtral 8x7B (мощная текстовая модель), CodeLlama 13B. Этого хватит на 2–3 года без необходимости апгрейда.

Стратегия «без компромиссов»

RTX 4090 24 GB или RTX 5090 32 GB — для тех, кому нужны модели уровня GPT-4 локально. Llama 3.1 70B в квантизации Q4–Q6 работает с приемлемой скоростью и обеспечивает качество, близкое к лучшим закрытым моделям. Дорого, но экономия на подписках окупит вложения за 2–3 года активного использования.

Стратегия «Mac-экосистема»

Если вы уже в экосистеме Apple или планируете MacBook как основной рабочий инструмент — берите модель с максимально доступным объёмом unified memory. MacBook Pro M4 Pro с 48 GB памяти позволяет запускать Llama 3.1 70B в квантизации Q4 — это уровень GPT-4 прямо на ноутбуке, без шума, без нагрева, без потребления 400W электричества.

Часто задаваемые вопросы

Можно ли запустить нейросеть без видеокарты, только на CPU?

Да, с помощью Ollama и других инструментов можно запускать модели на CPU. Но скорость будет в 10–20 раз ниже, чем на GPU. Модель 7B на современном CPU выдаёт 2–5 токенов в секунду (на GPU — 30–60). Для экспериментов — подходит, для постоянной работы — мучительно медленно.

Можно ли использовать две видеокарты?

Да, многие инструменты поддерживают multi-GPU. Две RTX 3060 12 GB (суммарно 24 GB VRAM) — бюджетная альтернатива RTX 3090. Но нужна материнская плата с двумя слотами PCIe x16 и достаточно мощный блок питания. Скорость при этом не удваивается — обычно прирост составляет 1.5–1.7x.

AMD Radeon подходит для нейросетей?

Ситуация улучшается, но NVIDIA по-прежнему значительно впереди. CUDA — стандарт индустрии, и большинство инструментов оптимизированы именно под неё. AMD поддерживает ROCm, но совместимость ограничена: не все модели и инструменты работают корректно. Для текста через Ollama — AMD работает. Для генерации картинок — проблемы. Если нет сильной привязки к AMD — берите NVIDIA.

Сколько электричества потребляет GPU при работе с нейросетями?

RTX 4060 Ti — около 160W под нагрузкой (~1.5₽/час), RTX 4090 — около 400W (~3.5₽/час), RTX 3090 — около 350W (~3₽/час). Mac M4 Pro — около 30W (~0.3₽/час). За месяц активного использования (4 часа в день) RTX 4090 добавит к счёту ~400₽, Mac — ~35₽.

Насколько локальные модели хуже ChatGPT/Claude?

Зависит от размера модели. Llama 3.1 8B — примерно уровень GPT-3.5. Llama 3.1 70B — близко к GPT-4 для большинства задач. DeepSeek V3 — конкурирует с GPT-4o. Для повседневных задач (написание текстов, вопросы-ответы, базовый код) модели 8B более чем достаточно. Для сложной аналитики и рассуждений нужны 70B+.

Заключение: с чего начать

  1. Определите свой бюджет — от этого зависит выбор видеокарты и, как следствие, доступные модели
  2. Установите Ollama — это самый простой способ запустить первую текстовую модель. Одна команда: ollama run llama3.1
  3. Попробуйте Llama 3.1 8B — лучшая модель для старта, работает на любой карте с 8+ GB VRAM
  4. Для картинок установите Fooocus — простейший интерфейс для генерации изображений
  5. Экспериментируйте с квантизацией — попробуйте разные уровни (Q4, Q5, Q6) и найдите баланс между качеством и скоростью
  6. Переходите к более крупным моделям — когда освоитесь, попробуйте Mixtral, Qwen 14B или даже Llama 70B (если VRAM позволяет)

Локальные нейросети — это не компромисс, а осознанный выбор в пользу приватности, независимости и свободы. С правильной видеокартой вы получаете AI-ассистента уровня GPT-3.5–GPT-4, который работает бесплатно, без интернета и без отправки ваших данных третьим лицам.

Все инструменты для локального запуска: Каталог нейросетей НейроСкоп →

Понравилась статья?

Поделитесь с коллегами и друзьями

Читайте также

Хотите больше таких статей?

Подпишитесь на еженедельный дайджест — новые инструменты, промпты и гиды каждую неделю

Подписаться бесплатно