Локальные нейросети 2026: полный гайд по GPU — RTX 3060, 4060, 4090, 5090 и Mac M1-M4

Облачные нейросети — удобный, но зависимый инструмент. Подписки дорожают, серверы перегружены, данные уходят третьим лицам, а для доступа к лучшим моделям из России часто нужен VPN и зарубежная карта. Есть альтернатива: запустить нейросеть прямо на своём компьютере. В этом гайде — подробнейший разбор того, какая видеокарта подходит для каких задач, какие модели можно запустить локально и сколько это стоит.

Зачем запускать нейросети локально

Прежде чем погружаться в технические детали, разберёмся — зачем вообще заморачиваться с локальным запуском, когда есть ChatGPT, Claude и Midjourney?

Бесплатно навсегда

Главное преимущество — после покупки видеокарты вы не платите ни копейки. Подписка на ChatGPT Plus стоит $20/мес (~2 000₽), Claude Pro — $20/мес, Midjourney — от $10/мес. За год набегает 30 000–50 000₽. Локальная нейросеть работает бесплатно: вы платите только за электричество (примерно 3–5₽ в час при активной работе GPU).

Полная приватность

Ваши данные никогда не покидают компьютер. Это критически важно для тех, кто работает с конфиденциальной информацией: юридические документы, медицинские данные, корпоративные секреты, личная переписка. Ни один облачный сервис не даёт такой гарантии — даже при включённой опции «не использовать для обучения» данные всё равно проходят через чужие серверы.

Без VPN и зарубежных карт

В России доступ к OpenAI, Anthropic и другим западным сервисам требует VPN и оплату с зарубежной карты. Локальные модели не требуют ничего — скачал, запустил, работаешь. Никаких блокировок, никакой привязки к геолокации.

Без лимитов на запросы

Облачные сервисы ограничивают количество запросов: ChatGPT Plus — 80 сообщений за 3 часа для GPT-4o, Claude Pro — лимиты на длинные диалоги. Локально — генерируйте хоть 24 часа подряд, лимитов нет.

Работает без интернета

Раз модель скачана на диск — она работает офлайн. В поезде, в самолёте, на даче без связи — нейросеть всегда с вами. Для людей, которые часто бывают без стабильного интернета, это решающий фактор.

Полный контроль и кастомизация

Вы можете дообучить модель на своих данных, выбрать нужный размер и уровень квантизации, настроить параметры генерации (температуру, top-p, repetition penalty) — всё это недоступно или сильно ограничено в облачных сервисах.

Что нужно для запуска нейросети на компьютере

Чтобы запустить нейросеть локально, нужно понимать четыре ключевых параметра вашей системы:

GPU и VRAM — главный параметр

VRAM (видеопамять) — это самый важный параметр. Вся модель (или её основная часть) должна поместиться в видеопамять. Если модель не влезает — она либо не запустится, либо будет использовать обычную RAM, работая в 5–10 раз медленнее.

Простое правило: больше VRAM = больше и лучше модели можно запустить. Частота GPU, количество CUDA-ядер, пропускная способность памяти тоже влияют на скорость, но именно объём VRAM определяет, какие модели доступны в принципе.

RAM — оперативная память

16 GB — абсолютный минимум. При запуске модели часть данных загружается в оперативную память, плюс операционная система и софт тоже потребляют ресурсы. 32 GB — рекомендуемый объём, с ним комфортно работать с моделями средних размеров. 64 GB — для тех, кто запускает модели с частичной выгрузкой из VRAM в RAM (offloading).

SSD — накопитель

Модели весят от 2 до 70 GB и более. Stable Diffusion с набором моделей легко занимает 50–100 GB. Коллекция текстовых моделей разных размеров — ещё 100–200 GB. Нужен быстрый NVMe SSD объёмом от 500 GB, лучше 1–2 TB. Модели на HDD загружаются мучительно долго.

CPU — процессор

Процессор не критичен для inference (генерации ответов) на GPU — основная работа происходит на видеокарте. Но CPU нужен для подготовки данных, токенизации и управления процессом. Любой современный процессор (Intel 12-го поколения и выше, AMD Ryzen 5000+) справится. Для запуска моделей чисто на CPU (без GPU) нужен мощный многоядерный процессор, но скорость всё равно будет в 10–20 раз ниже, чем на GPU.

NVIDIA RTX 30-серия — бюджетный вход в мир локального AI

Серия RTX 30 (архитектура Ampere, 2020–2022) — это отличный бюджетный вариант для начала работы с локальными нейросетями. Эти карты уже не продаются новыми, но на вторичном рынке их можно найти по привлекательным ценам.

Видеокарта	VRAM	Текстовые модели	Генерация картинок	Цена б/у (2026)
RTX 3060	12 GB	Llama 3.1 8B, Mistral 7B, Qwen 2.5 7B	SD 1.5, SDXL (медленно)	~20–25K₽
RTX 3060 Ti	8 GB	Mistral 7B (Q4), Phi-3	SD 1.5	~18–22K₽
RTX 3070	8 GB	Mistral 7B (Q4), Phi-3	SD 1.5, SDXL (медленно)	~22–28K₽
RTX 3070 Ti	8 GB	Mistral 7B (Q4), Phi-3	SD 1.5, SDXL (медленно)	~25–30K₽
RTX 3080	10 GB	Llama 3.1 8B (Q4), Mistral 7B	SDXL, SD 1.5	~30–40K₽
RTX 3080 Ti	12 GB	Llama 3.1 8B, CodeLlama 13B (Q4)	SDXL, Flux (медленно)	~35–45K₽
RTX 3090	24 GB	Llama 3.1 70B (Q2), CodeLlama 34B, Mixtral 8x7B	SDXL, Flux, SD3	~55–75K₽
RTX 3090 Ti	24 GB	То же, чуть быстрее	SDXL, Flux, SD3	~65–85K₽

Лучшие варианты в 30-серии

RTX 3060 12 GB — лучший бюджетный вариант. Парадокс: младшая карта в линейке имеет больше видеопамяти, чем RTX 3060 Ti, 3070 и 3070 Ti. Именно 12 GB VRAM делают её королём бюджетного сегмента — на ней запускаются все 7–8B модели в полном качестве и даже 13B модели с квантизацией. Для генерации картинок через Stable Diffusion 1.5 её вполне хватает, SDXL тоже работает, хотя и медленно.

RTX 3090 24 GB — лучший выбор для серьёзной работы. 24 GB VRAM открывают доступ к моделям, недоступным на картах с 8–12 GB: Mixtral 8x7B, CodeLlama 34B, даже Llama 3.1 70B с агрессивной квантизацией (Q2). Для генерации картинок через Flux — идеальна. На вторичном рынке стоит 55–75K₽, что делает её отличной инвестицией.

Совет: при покупке RTX 3090 б/у обязательно проверяйте карту — многие использовались для майнинга. Запросите тест в FurMark на 15–20 минут и следите за температурами и артефактами.

NVIDIA RTX 40-серия — золотая середина

Серия RTX 40 (архитектура Ada Lovelace, 2022–2024) — это текущий мейнстрим. Карты значительно энергоэффективнее 30-серии и быстрее при том же объёме VRAM. Поддержка FP8 (8-битных вычислений с плавающей точкой) ускоряет inference нейросетей.

Видеокарта	VRAM	Текстовые модели	Генерация картинок	Цена новая (2026)
RTX 4060	8 GB	Mistral 7B (Q4), Phi-3	SD 1.5, SDXL (медленно)	~30–35K₽
RTX 4060 Ti 8 GB	8 GB	Mistral 7B (Q4), Phi-3	SD 1.5, SDXL	~40–47K₽
RTX 4060 Ti 16 GB	16 GB	Llama 3.1 8B, Mixtral (Q4), CodeLlama 13B	SDXL, Flux, SD3	~55–70K₽
RTX 4070	12 GB	Llama 3.1 8B, Mistral 7B	SDXL, Flux (медленно)	~55–65K₽
RTX 4070 Ti	12 GB	Llama 3.1 8B, Mistral 7B	SDXL, Flux	~70–80K₽
RTX 4070 Ti Super	16 GB	Llama 3.1 8B, Mixtral, CodeLlama 13B	SDXL, Flux, SD3	~80–95K₽
RTX 4080	16 GB	Llama 3.1 8B, Mixtral, CodeLlama 13B	Flux быстро, SDXL	~100–120K₽
RTX 4080 Super	16 GB	Llama 3.1 8B, Mixtral, CodeLlama 13B	Flux быстро, SDXL	~110–130K₽
RTX 4090	24 GB	Llama 3.1 70B (Q4), Mixtral 8x7B, DeepSeek 33B	Flux, SDXL, SD3 — всё быстро	~300–480K₽

Лучшие варианты в 40-серии

RTX 4060 Ti 16 GB — лучшая по соотношению цена/VRAM. За 55–70K₽ вы получаете 16 GB видеопамяти — столько же, сколько у RTX 4080 за 100–120K₽. Да, скорость ниже, но доступные модели — те же самые. Если для вас важнее разнообразие моделей, а не скорость генерации — это оптимальный выбор.

RTX 4090 — абсолютный король для локального AI. 24 GB VRAM + огромная вычислительная мощность делают эту карту лучшим потребительским решением для AI-задач. Llama 3.1 70B в квантизации Q4 работает с приемлемой скоростью (10–15 токенов/сек), Flux генерирует картинки за секунды. Единственный минус — цена и энергопотребление (450W TDP).

Важно: RTX 4090 и RTX 5090 в России стоят в 2–3 раза дороже рекомендованных цен NVIDIA из-за санкций, запрета экспорта и острого дефицита. RTX 4090 продаётся за 300–480K₽ (вместо $1 599 MSRP), RTX 5090 — за 370–580K₽ (вместо $1 999 MSRP). Ситуация вряд ли изменится в ближайшее время — учитывайте это при планировании бюджета.

Важное различие между RTX 4060 Ti 8 GB и 16 GB версией: при одинаковом GPU чип, 16 GB версия стоит на 15–25K₽ дороже, но открывает доступ к совершенно другому классу моделей. Не экономьте на VRAM — лучше взять менее быстрый GPU, но с большим объёмом видеопамяти.

NVIDIA RTX 50-серия — новейшее поколение (2025–2026)

Серия RTX 50 (архитектура Blackwell, 2025) — это последнее поколение потребительских видеокарт NVIDIA. Ключевые улучшения для AI: значительно выросшая производительность в FP4/FP8 вычислениях, увеличенная пропускная способность памяти и поддержка новых форматов данных.

Видеокарта	VRAM	Текстовые модели	Генерация картинок	Цена (2026)
RTX 5060	16 GB (ожид.)	Llama 3.1 8B, Mixtral (Q4)	SDXL, Flux	~35–40K₽ (ожид.)
RTX 5070	12 GB	Llama 3.1 8B, Mistral 7B	SDXL, Flux	~80–100K₽
RTX 5070 Ti	16 GB	Mixtral, CodeLlama 13B	Flux, SD3	~100–130K₽
RTX 5080	16 GB	Mixtral, CodeLlama 13B (быстрее)	Flux быстро	~150–200K₽
RTX 5090	32 GB	Llama 3.1 70B (Q4–Q6), DeepSeek 67B, Mixtral full	Flux, SD3, видео (Mochi)	~370–580K₽

Лучшие варианты в 50-серии

RTX 5090 с 32 GB — первая потребительская карта для запуска 70B моделей в хорошем качестве. Это исторический момент: раньше для Llama 70B в квантизации Q4–Q6 требовались серверные карты A100 или связка из двух RTX 3090/4090. Теперь одна карта справляется с этим. DeepSeek 67B, CodeLlama 70B — всё это становится доступным для домашнего использования.

RTX 5070 Ti 16 GB — отличный mid-range. Благодаря архитектуре Blackwell эта карта обеспечивает скорость inference, сравнимую с RTX 4080, при меньшем энергопотреблении. 16 GB VRAM достаточно для всех основных задач.

RTX 5060 (ожидается) — если слухи про 16 GB VRAM подтвердятся, это будет лучший бюджетный вариант для AI на рынке. Ориентировочная цена 35–40K₽ за 16 GB видеопамяти нового поколения — беспрецедентное предложение.

Обратите внимание: RTX 5070 имеет только 12 GB VRAM — это шаг назад по сравнению с ожидаемой RTX 5060 (16 GB). Для AI-задач RTX 5060 может оказаться более выгодной покупкой, несмотря на меньшую вычислительную мощность.

Apple Mac M1–M4 — преимущество unified memory

Mac на чипах Apple Silicon (M1, M2, M3, M4) работают принципиально иначе, чем связка CPU + дискретная видеокарта NVIDIA. Главная особенность — unified memory (единая память), которая одновременно доступна и процессору, и встроенному GPU.

Почему это важно для AI

На обычном ПК модель должна поместиться в VRAM видеокарты. RTX 4060 с 8 GB VRAM — модель больше 8 GB не запустится на полной скорости. На Mac с 16 GB unified memory вся эта память доступна для модели — это эквивалент видеокарты с 16 GB VRAM. MacBook Air за 100K₽ с 16 GB памяти может запускать модели, которые на ПК требуют RTX 4060 Ti 16 GB за 55–70K₽ (плюс остальное железо за 30–50K₽).

Есть нюанс: GPU в чипах Apple заметно медленнее топовых NVIDIA в расчёте на единицу памяти. Но когда модель просто не помещается в VRAM дискретной карты — Mac с большим объёмом памяти выигрывает, потому что на NVIDIA модель будет работать через RAM-offloading, что в 5–10 раз медленнее.

Чип	Unified Memory	Текстовые модели	Генерация картинок	Скорость vs NVIDIA
M1 8 GB	8 GB	Mistral 7B (Q4), Phi-3	SD 1.5 (медленно)	~RTX 3060 / 3
M1 16 GB	16 GB	Llama 3.1 8B, Mixtral (Q4)	SDXL (медленно)	~RTX 3060 / 2
M1 Pro 16 GB	16 GB	Llama 3.1 8B, Mixtral (Q4)	SDXL	~RTX 3060 / 1.5
M1 Max 32 GB	32 GB	Llama 3.1 70B (Q2–Q4)	Flux, SDXL	~RTX 3070
M1 Ultra 64 GB	64 GB	Llama 3.1 70B (Q6), Mixtral full	Всё	~RTX 3080
M2 8–16 GB	8–16 GB	Как M1, на 15–20% быстрее	Как M1, быстрее	M1 x 1.2
M2 Pro / Max	16–96 GB	Как M1 Pro/Max, быстрее	Как M1 Pro/Max, быстрее	M1 x 1.3
M3 8–16 GB	8–16 GB	Как M2, на 10–15% быстрее	Как M2, быстрее	M2 x 1.15
M3 Pro 18–36 GB	18–36 GB	Llama 3.1 8B–70B (Q4)	SDXL, Flux	~RTX 3080
M3 Max 36–128 GB	36–128 GB	Llama 3.1 70B (Q6–Q8); 128 GB: 405B (Q2)	Всё быстро	~RTX 4070
M4 16 GB	16 GB	Llama 3.1 8B, Mixtral (Q4)	SDXL, Flux (медленно)	~RTX 3070
M4 Pro 24–48 GB	24–48 GB	Llama 3.1 70B (Q4)	Flux быстро	~RTX 4070 Ti
M4 Max 36–128 GB	36–128 GB	Llama 3.1 70B (Q8), 405B (Q4)	Всё	~RTX 4080

Когда Mac лучше NVIDIA

Для текстовых моделей большого размера. Mac с 36 GB+ unified memory позволяет запустить модели, которые не помещаются в VRAM обычных видеокарт. Llama 3.1 70B на M3 Max 64 GB работает с приемлемой скоростью (5–8 токенов/сек), тогда как на RTX 4070 с 12 GB VRAM эту модель запустить невозможно (только через offloading, со скоростью 1–2 токена/сек).

Тишина и энергоэффективность. Mac Studio M4 Max потребляет 30–60W при inference, RTX 4090 — 300–450W. MacBook Air M3 вообще бесшумен — у него нет вентилятора. Для домашнего и офисного использования это огромное преимущество.

Универсальность. Mac — это полноценный рабочий компьютер с отличным экраном, клавиатурой, трекпадом и macOS. Вам не нужен отдельный ПК для AI — всё в одном устройстве.

Когда NVIDIA лучше Mac

Для генерации картинок. CUDA-оптимизированные движки (ComfyUI, Automatic1111) работают на NVIDIA значительно быстрее. RTX 4070 генерирует картинку через SDXL за 5–8 секунд, M3 Pro — за 15–25 секунд. Flux на RTX 4090 — за 3–5 секунд, на M4 Max — за 10–15 секунд.

Для максимальной скорости при небольших моделях. Если модель помещается в VRAM видеокарты, NVIDIA быстрее. Llama 3.1 8B на RTX 4070 выдаёт 40–60 токенов/сек, на M3 Pro — 15–25 токенов/сек.

По цене за VRAM. RTX 3060 12 GB б/у стоит 20–25K₽. MacBook с 16 GB — от 70K₽. Если бюджет ограничен и есть ПК — дискретная видеокарта выгоднее.

Модель	Размер	Мин. VRAM	Качество	Для чего подходит
Phi-3 Mini 3.8B	3.8B	3 GB	Среднее	Быстрые ответы, слабое железо, простые задачи
Mistral 7B	7B	5–6 GB	Хорошее	Универсальная модель, русский язык — приемлемо
Llama 3.1 8B	8B	6–7 GB	Отличное	Лучшая модель на 8B, сильный русский язык
Qwen 2.5 14B	14B	10–12 GB	Отличное	Хороший русский, аналитика, программирование
CodeLlama 13B	13B	10 GB	Отличное для кода	Программирование, анализ кода, рефакторинг
Mixtral 8x7B	46.7B (MoE)	24–26 GB	Отличное	Мощная MoE-модель, близка к GPT-3.5
Llama 3.1 70B	70B	40–48 GB (Q4: 24 GB)	Превосходное	Уровень GPT-4 для многих задач
DeepSeek V3	685B (MoE)	32 GB+	Превосходное	Лучшая open-source модель, конкурент GPT-4o

Модель	Мин. VRAM	Качество	Для чего подходит
Stable Diffusion 1.5	4 GB	Базовое	Старт, огромная библиотека кастомных моделей
SDXL	8 GB	Хорошее	Стандарт 2024, высокое разрешение
Flux	12 GB	Отличное	Лучшее качество в 2025–2026, фотореализм
SD3 Medium	10 GB	Хорошее	Хорошая работа с текстом на картинках

Модель	Мин. VRAM	Качество	Для чего подходит
Mochi	24 GB+	Экспериментальное	Короткие видеоклипы, первые шаги в видеогенерации
LTX Video	12 GB+	Хорошее	Быстрая генерация коротких видео

Софт для локального запуска нейросетей

Для запуска нейросетей локально не нужно писать код или разбираться в командной строке — есть удобные инструменты с графическим интерфейсом.

Для текстовых моделей

Ollama — самый простой способ запустить LLM. Одна команда в терминале — и модель работает. Поддерживает сотни моделей, автоматически подбирает оптимальную квантизацию под вашу карту. Работает на Windows, Mac и Linux. Идеальный старт для новичков.

LM Studio — GUI для LLM. Графический интерфейс для скачивания и запуска текстовых моделей. Встроенный чат, поддержка разных форматов квантизации (GGUF), настройка параметров генерации. Отлично подходит тем, кто не хочет работать в терминале.

Для генерации картинок

ComfyUI — профессиональный инструмент для генерации картинок. Node-based интерфейс, который позволяет строить сложные пайплайны генерации. Поддерживает SD 1.5, SDXL, Flux, SD3 и любые кастомные модели. Самый мощный инструмент, но требует обучения.

Automatic1111 (SD WebUI) — классический интерфейс для Stable Diffusion. Веб-интерфейс с множеством расширений. Проще ComfyUI, но менее гибкий. Огромное сообщество и тысячи расширений.

Fooocus — самый простой способ генерировать картинки. Минимум настроек, максимум результата. Ввели промпт — получили картинку. Идеален для новичков, которые не хотят разбираться в технических деталях.

Квантизация — как уместить большую модель в маленькую память

Оригинальные модели хранят каждый параметр в формате FP16 (16 бит). Модель с 70 миллиардами параметров в FP16 весит ~140 GB — она не поместится ни в одну потребительскую видеокарту. Квантизация решает эту проблему, снижая точность хранения параметров.

Форматы квантизации

Формат	Бит на параметр	Размер 7B модели	Размер 70B модели	Потеря качества
FP16	16	~14 GB	~140 GB	Нет (оригинал)
Q8	8	~7 GB	~70 GB	Минимальная (1–2%)
Q6_K	6.5	~5.5 GB	~55 GB	Очень малая (2–3%)
Q5_K_M	5.5	~5 GB	~48 GB	Малая (3–5%)
Q4_K_M	4.5	~4.5 GB	~40 GB	Заметная (5–8%)
Q3_K_M	3.5	~3.5 GB	~30 GB	Значительная (8–15%)
Q2_K	2.5	~2.5 GB	~22 GB	Существенная (15–25%)

Какую квантизацию выбрать?

Q4_K_M — золотой стандарт. Оптимальный баланс между размером и качеством. Потеря качества заметна только при специализированных бенчмарках — в реальном использовании разница с FP16 практически не ощущается. Именно этот формат используют большинство пользователей.

Q5_K_M и Q6_K — если VRAM позволяет. Качество ещё ближе к оригиналу. Рекомендуется для задач, требующих высокой точности (программирование, математика, анализ данных).

Q8 — практически без потерь. Используйте, если модель помещается в VRAM в формате Q8 — разницы с FP16 вы не заметите.

Q2_K и Q3_K_M — крайний случай. Используйте только когда модель иначе не помещается в память. Лучше запустить 70B модель в Q2, чем 8B модель в Q8 — даже с потерей качества от квантизации большая модель обычно умнее.

Практический совет: при использовании Ollama квантизация подбирается автоматически. В LM Studio вы можете выбрать конкретный файл с нужным уровнем квантизации (например, llama-3.1-8b-instruct-Q4_K_M.gguf). Начните с Q4_K_M и повышайте, если VRAM позволяет.

Как считать, поместится ли модель?

Простая формула: необходимый VRAM ≈ размер модели в выбранной квантизации + 1–2 GB на overhead. Например, Llama 3.1 8B в Q4_K_M весит ~4.5 GB, значит нужно минимум 6 GB VRAM. Llama 3.1 70B в Q4_K_M — ~40 GB, то есть нужно 24 GB VRAM + offloading в RAM, или RTX 5090 с 32 GB (модель не поместится полностью, но offloading минимален).

Бюджет	Рекомендация	Что запустите
20–25K₽	RTX 3060 12 GB (б/у)	Llama 8B, Mistral 7B, SD 1.5/SDXL
55–70K₽	RTX 4060 Ti 16 GB	Llama 8B, Mixtral, Flux
80–95K₽	RTX 4070 Ti Super 16 GB	То же, значительно быстрее
55–75K₽	RTX 3090 24 GB (б/у)	Llama 70B (Q4), Flux, лучший б/у вариант
300–480K₽	RTX 4090 24 GB	Llama 70B (Q4), Flux быстро, всё
370–580K₽	RTX 5090 32 GB	Llama 70B (Q6), DeepSeek, видео
Mac 80–150K₽	MacBook Pro M3/M4 Pro 36 GB	Llama 3.1 70B (Q4), тихо и компактно
Mac 250K₽+	Mac Studio M4 Max 128 GB	Llama 405B (Q4), абсолютно всё

Часто задаваемые вопросы

Можно ли запустить нейросеть без видеокарты, только на CPU?

Да, с помощью Ollama и других инструментов можно запускать модели на CPU. Но скорость будет в 10–20 раз ниже, чем на GPU. Модель 7B на современном CPU выдаёт 2–5 токенов в секунду (на GPU — 30–60). Для экспериментов — подходит, для постоянной работы — мучительно медленно.

Можно ли использовать две видеокарты?

Да, многие инструменты поддерживают multi-GPU. Две RTX 3060 12 GB (суммарно 24 GB VRAM) — бюджетная альтернатива RTX 3090. Но нужна материнская плата с двумя слотами PCIe x16 и достаточно мощный блок питания. Скорость при этом не удваивается — обычно прирост составляет 1.5–1.7x.

AMD Radeon подходит для нейросетей?

Ситуация улучшается, но NVIDIA по-прежнему значительно впереди. CUDA — стандарт индустрии, и большинство инструментов оптимизированы именно под неё. AMD поддерживает ROCm, но совместимость ограничена: не все модели и инструменты работают корректно. Для текста через Ollama — AMD работает. Для генерации картинок — проблемы. Если нет сильной привязки к AMD — берите NVIDIA.

Сколько электричества потребляет GPU при работе с нейросетями?

RTX 4060 Ti — около 160W под нагрузкой (~1.5₽/час), RTX 4090 — около 400W (~3.5₽/час), RTX 3090 — около 350W (~3₽/час). Mac M4 Pro — около 30W (~0.3₽/час). За месяц активного использования (4 часа в день) RTX 4090 добавит к счёту ~400₽, Mac — ~35₽.

Насколько локальные модели хуже ChatGPT/Claude?

Зависит от размера модели. Llama 3.1 8B — примерно уровень GPT-3.5. Llama 3.1 70B — близко к GPT-4 для большинства задач. DeepSeek V3 — конкурирует с GPT-4o. Для повседневных задач (написание текстов, вопросы-ответы, базовый код) модели 8B более чем достаточно. Для сложной аналитики и рассуждений нужны 70B+.

Заключение: с чего начать

Определите свой бюджет — от этого зависит выбор видеокарты и, как следствие, доступные модели
Установите Ollama — это самый простой способ запустить первую текстовую модель. Одна команда: ollama run llama3.1
Попробуйте Llama 3.1 8B — лучшая модель для старта, работает на любой карте с 8+ GB VRAM
Для картинок установите Fooocus — простейший интерфейс для генерации изображений
Экспериментируйте с квантизацией — попробуйте разные уровни (Q4, Q5, Q6) и найдите баланс между качеством и скоростью
Переходите к более крупным моделям — когда освоитесь, попробуйте Mixtral, Qwen 14B или даже Llama 70B (если VRAM позволяет)

Локальные нейросети — это не компромисс, а осознанный выбор в пользу приватности, независимости и свободы. С правильной видеокартой вы получаете AI-ассистента уровня GPT-3.5–GPT-4, который работает бесплатно, без интернета и без отправки ваших данных третьим лицам.

Все инструменты для локального запуска: Каталог нейросетей НейроСкоп →

Локальные нейросети: какую модель запустить на вашей видеокарте

Зачем запускать нейросети локально

Бесплатно навсегда

Полная приватность

Без VPN и зарубежных карт

Без лимитов на запросы

Работает без интернета

Полный контроль и кастомизация

Что нужно для запуска нейросети на компьютере

GPU и VRAM — главный параметр

RAM — оперативная память

SSD — накопитель

CPU — процессор

NVIDIA RTX 30-серия — бюджетный вход в мир локального AI

Лучшие варианты в 30-серии

NVIDIA RTX 40-серия — золотая середина

Лучшие варианты в 40-серии

NVIDIA RTX 50-серия — новейшее поколение (2025–2026)

Лучшие варианты в 50-серии

Apple Mac M1–M4 — преимущество unified memory

Почему это важно для AI

Когда Mac лучше NVIDIA

Когда NVIDIA лучше Mac

Популярные модели для локального запуска

Текстовые модели (LLM)

Какую модель выбрать?

Модели для генерации картинок

Модели для генерации видео

Софт для локального запуска нейросетей

Для текстовых моделей

Для генерации картинок

Квантизация — как уместить большую модель в маленькую память

Форматы квантизации

Какую квантизацию выбрать?

Как считать, поместится ли модель?

Рекомендации по бюджету

Стратегия «минимальный вход»

Стратегия «оптимальная покупка»

Стратегия «без компромиссов»

Стратегия «Mac-экосистема»

Часто задаваемые вопросы

Можно ли запустить нейросеть без видеокарты, только на CPU?

Можно ли использовать две видеокарты?

AMD Radeon подходит для нейросетей?

Сколько электричества потребляет GPU при работе с нейросетями?

Насколько локальные модели хуже ChatGPT/Claude?

Заключение: с чего начать

Читайте также

Как заработать на нейросетях в 2026: 20 способов с доходами

Что такое нейросеть: простое объяснение для начинающих

Промпт-инжиниринг: как правильно писать запросы к нейросетям

Нейросети и авторское право: что можно и нельзя

Хотите больше таких статей?