Какую видеокарту выбрать для нейросетей в 2026 году

Видеокарта — главная инвестиция для локальной работы с нейросетями. Правильный выбор сэкономит десятки тысяч рублей и часы ожидания. В этом гиде — конкретные рекомендации для каждого бюджета.

Почему GPU, а не CPU

Нейросети состоят из миллиардов математических операций с матрицами. CPU обрабатывает их последовательно (десятки ядер), а GPU — параллельно (тысячи ядер). Результат: GPU в 10–50 раз быстрее CPU для задач inference (генерации текста) и в 50–100 раз быстрее для обучения.

Пример: Llama 3.2 8B (Q4) генерирует:

CPU (Ryzen 9 7950X): 8–12 токенов/сек
GPU (RTX 3060 12 ГБ): 35–45 токенов/сек
GPU (RTX 4090 24 ГБ): 80–110 токенов/сек

VRAM: главный параметр

Видеопамять (VRAM) определяет, какого размера модель поместится на видеокарту. Это самый важный параметр — важнее скорости ядер, шины и частоты.

Размер модели	FP16	Q8	Q4_K_M	Q3_K_M
3B (Phi-3 Mini)	6 ГБ	3.5 ГБ	2 ГБ	1.7 ГБ
7B (Llama 3.2)	14 ГБ	7.5 ГБ	4.5 ГБ	3.5 ГБ
13B (Llama 2 13B)	26 ГБ	14 ГБ	8 ГБ	6.5 ГБ
34B (CodeLlama 34B)	68 ГБ	36 ГБ	20 ГБ	16 ГБ
70B (Llama 3.1 70B)	140 ГБ	75 ГБ	40 ГБ	33 ГБ

Q4_K_M — оптимальный баланс качества и размера. Q3_K_M — если не хватает 2–3 ГБ. FP16 — максимальное качество, но нужно вдвое больше памяти.

NVIDIA: основной выбор

NVIDIA доминирует в AI благодаря CUDA — экосистеме, которая поддерживается всеми фреймворками. Если нет особых причин — выбирайте NVIDIA.

Потребительские карты

Карта	VRAM	Llama 8B (tok/s)	Цена (2026)	Вердикт
RTX 3060 12 ГБ	12 ГБ	35–45	22 000–28 000 ₽	Лучший бюджет
RTX 4060 Ti 16 ГБ	16 ГБ	45–55	40 000–50 000 ₽	Золотая середина
RTX 4070 Ti Super	16 ГБ	55–70	65 000–80 000 ₽	Для 13B+ моделей
RTX 4080 Super	16 ГБ	65–80	85 000–100 000 ₽	Быстро, но VRAM = 4070 Ti
RTX 4090	24 ГБ	80–110	150 000–180 000 ₽	Максимум для потребителя
RTX 5090	32 ГБ	120–160	250 000–300 000 ₽	Новое поколение, 70B в Q4

Профессиональные карты

Карта	VRAM	Цена	Для кого
A100 40/80 ГБ	40/80 ГБ	$8 000–15 000	Датацентры, обучение
H100 80 ГБ	80 ГБ	$25 000–35 000	Крупные компании
L40S 48 ГБ	48 ГБ	$7 000–10 000	Inference, доступный про-уровень

AMD: статус поддержки

AMD видеокарты поддерживаются через ROCm — открытую альтернативу CUDA. Поддержка значительно улучшилась в 2025–2026, но всё ещё не дотягивает до NVIDIA.

Что работает

RX 7900 XTX (24 ГБ) — поддерживается llama.cpp, Ollama, PyTorch через ROCm 6.x. Производительность ~70% от RTX 4090.
RX 7900 XT (20 ГБ) — аналогично, но медленнее.
MI250/MI300X — профессиональные карты с полной поддержкой.

Что не работает (или плохо)

Карты старше RX 7000 — ограниченная поддержка ROCm
Некоторые квантизации (AWQ, GPTQ) — работают, но медленнее, чем на NVIDIA
Обучение моделей — возможно, но экосистема значительно беднее

Вердикт по AMD: Если у вас уже есть RX 7900 XTX — используйте. Если покупаете специально для AI — берите NVIDIA.

Apple Silicon: M1/M2/M3/M4

Чипы Apple Silicon используют unified memory — общую память для CPU и GPU. Это значит, что MacBook с 36 ГБ RAM может загрузить модель, которой нужно 36 ГБ VRAM на обычной видеокарте.

Чип	Unified Memory	Llama 8B (tok/s)	Макс. модель (Q4)
M1 (8 ГБ)	8 ГБ	8–12	7B
M2 Pro (16 ГБ)	16 ГБ	15–20	13B
M3 Pro (18 ГБ)	18 ГБ	18–25	13B
M3 Max (36 ГБ)	36 ГБ	25–35	34B
M4 Max (48 ГБ)	48 ГБ	35–50	70B
M4 Ultra (96 ГБ)	96 ГБ	45–65	70B FP16

Плюсы: тихая работа, низкое энергопотребление, большой объём памяти, нативная поддержка в llama.cpp и Ollama через Metal.

Минусы: скорость inference в 2–3 раза ниже, чем на сравнимой NVIDIA, высокая цена, нельзя апгрейдить.

Бюджетные рекомендации

До 25 000 ₽ — входной уровень

RTX 3060 12 ГБ — единственный разумный выбор. 12 ГБ VRAM за минимальную цену. Комфортно запускает 7B–13B модели. Можно найти б/у за 18 000–20 000 ₽.

40 000–55 000 ₽ — оптимальный

RTX 4060 Ti 16 ГБ — на 4 ГБ больше, чем RTX 3060, и на 30% быстрее. 16 ГБ позволяют запустить 13B модели в Q4 с запасом.

65 000–100 000 ₽ — продвинутый

RTX 4070 Ti Super 16 ГБ — самая быстрая карта с 16 ГБ VRAM. Если критична скорость, а не объём памяти. Или две RTX 3060 12 ГБ за те же деньги — суммарно 24 ГБ VRAM (но работает не со всеми инструментами).

150 000–200 000 ₽ — максимум

RTX 4090 24 ГБ — лучшая потребительская карта для AI. 24 ГБ хватает для 70B в агрессивной квантизации (Q3) или 34B в Q4 с комфортом.

200 000+ ₽ — без компромиссов

RTX 5090 32 ГБ или два RTX 4090. Или MacBook Pro M4 Max 48 ГБ для тихой мобильной станции.

Облачные GPU: когда покупка не выгодна

Если вы работаете с AI нерегулярно (несколько раз в неделю), облачные GPU могут быть дешевле покупки видеокарты.

Сервис	GPU	Цена/час	Особенности
Vast.ai	RTX 4090	$0.25–0.40/ч	P2P аренда, дёшево, нестабильно
RunPod	RTX 4090	$0.44/ч	Стабильно, serverless
RunPod	A100 80 ГБ	$1.64/ч	Для больших моделей
Lambda	H100 80 ГБ	$2.49/ч	Для обучения, высокая надёжность
Google Colab Pro	T4/A100	$10/мес + GPU-часы	Jupyter, просто начать

Точка безубыточности: если вы используете GPU более 4–6 часов в день, покупка RTX 4090 окупится за 3–4 месяца по сравнению с арендой на Vast.ai.

Практические советы

Не гонитесь за скоростью ядер — разница между RTX 4070 и 4090 в скорости inference ~50%, а в VRAM — 8 ГБ (16 vs 24). VRAM важнее.
Б/у карты — RTX 3060 12 ГБ и RTX 3090 24 ГБ — отличные варианты на вторичке. Проверяйте карту стресс-тестом.
Блок питания — RTX 4090 потребляет 450 Вт. Нужен БП от 850 Вт с качественным кабелем 12VHPWR.
Охлаждение — при полной нагрузке GPU греется до 80–85°C. Обеспечьте хороший поток воздуха в корпусе.
Две карты vs одна — для inference llama.cpp поддерживает multi-GPU, но не все инструменты. Одна мощная карта обычно проще.

FAQ

Подойдёт ли встроенная графика?

Нет. Встроенная графика Intel/AMD использует общую RAM и не имеет CUDA-ядер. Работать будет, но медленнее, чем на CPU — нет смысла.

RTX 3090 или RTX 4090?

RTX 3090 (24 ГБ, б/у ~80 000 ₽) — отличный вариант, если бюджет ограничен. В inference она на 30–40% медленнее RTX 4090, но VRAM одинаковый. Для большинства задач разница некритична.

Нужна ли карта с Tensor Cores?

Для inference (генерации текста) — не критично, llama.cpp и Ollama эффективно используют обычные CUDA-ядра. Для обучения/fine-tuning — Tensor Cores дают прирост в 2–3 раза.

GPU для нейросетей: какую видеокарту выбрать в 2026