🗺️ Гид20 мин25 февраля 2026 г.

GPU для нейросетей: какую видеокарту выбрать в 2026

Подробный гид по выбору видеокарты для AI: от RTX 3060 до A100. Требования VRAM, сравнение NVIDIA, AMD, Apple Silicon, облачные GPU.

Видеокарта — главная инвестиция для локальной работы с нейросетями. Правильный выбор сэкономит десятки тысяч рублей и часы ожидания. В этом гиде — конкретные рекомендации для каждого бюджета.

Почему GPU, а не CPU

Нейросети состоят из миллиардов математических операций с матрицами. CPU обрабатывает их последовательно (десятки ядер), а GPU — параллельно (тысячи ядер). Результат: GPU в 10–50 раз быстрее CPU для задач inference (генерации текста) и в 50–100 раз быстрее для обучения.

Пример: Llama 3.2 8B (Q4) генерирует:

  • CPU (Ryzen 9 7950X): 8–12 токенов/сек
  • GPU (RTX 3060 12 ГБ): 35–45 токенов/сек
  • GPU (RTX 4090 24 ГБ): 80–110 токенов/сек

VRAM: главный параметр

Видеопамять (VRAM) определяет, какого размера модель поместится на видеокарту. Это самый важный параметр — важнее скорости ядер, шины и частоты.

Размер моделиFP16Q8Q4_K_MQ3_K_M
3B (Phi-3 Mini)6 ГБ3.5 ГБ2 ГБ1.7 ГБ
7B (Llama 3.2)14 ГБ7.5 ГБ4.5 ГБ3.5 ГБ
13B (Llama 2 13B)26 ГБ14 ГБ8 ГБ6.5 ГБ
34B (CodeLlama 34B)68 ГБ36 ГБ20 ГБ16 ГБ
70B (Llama 3.1 70B)140 ГБ75 ГБ40 ГБ33 ГБ

Q4_K_M — оптимальный баланс качества и размера. Q3_K_M — если не хватает 2–3 ГБ. FP16 — максимальное качество, но нужно вдвое больше памяти.

NVIDIA: основной выбор

NVIDIA доминирует в AI благодаря CUDA — экосистеме, которая поддерживается всеми фреймворками. Если нет особых причин — выбирайте NVIDIA.

Потребительские карты

КартаVRAMLlama 8B (tok/s)Цена (2026)Вердикт
RTX 3060 12 ГБ12 ГБ35–4522 000–28 000 ₽Лучший бюджет
RTX 4060 Ti 16 ГБ16 ГБ45–5540 000–50 000 ₽Золотая середина
RTX 4070 Ti Super16 ГБ55–7065 000–80 000 ₽Для 13B+ моделей
RTX 4080 Super16 ГБ65–8085 000–100 000 ₽Быстро, но VRAM = 4070 Ti
RTX 409024 ГБ80–110150 000–180 000 ₽Максимум для потребителя
RTX 509032 ГБ120–160250 000–300 000 ₽Новое поколение, 70B в Q4

Профессиональные карты

КартаVRAMЦенаДля кого
A100 40/80 ГБ40/80 ГБ$8 000–15 000Датацентры, обучение
H100 80 ГБ80 ГБ$25 000–35 000Крупные компании
L40S 48 ГБ48 ГБ$7 000–10 000Inference, доступный про-уровень

AMD: статус поддержки

AMD видеокарты поддерживаются через ROCm — открытую альтернативу CUDA. Поддержка значительно улучшилась в 2025–2026, но всё ещё не дотягивает до NVIDIA.

Что работает

  • RX 7900 XTX (24 ГБ) — поддерживается llama.cpp, Ollama, PyTorch через ROCm 6.x. Производительность ~70% от RTX 4090.
  • RX 7900 XT (20 ГБ) — аналогично, но медленнее.
  • MI250/MI300X — профессиональные карты с полной поддержкой.

Что не работает (или плохо)

  • Карты старше RX 7000 — ограниченная поддержка ROCm
  • Некоторые квантизации (AWQ, GPTQ) — работают, но медленнее, чем на NVIDIA
  • Обучение моделей — возможно, но экосистема значительно беднее

Вердикт по AMD: Если у вас уже есть RX 7900 XTX — используйте. Если покупаете специально для AI — берите NVIDIA.

Apple Silicon: M1/M2/M3/M4

Чипы Apple Silicon используют unified memory — общую память для CPU и GPU. Это значит, что MacBook с 36 ГБ RAM может загрузить модель, которой нужно 36 ГБ VRAM на обычной видеокарте.

ЧипUnified MemoryLlama 8B (tok/s)Макс. модель (Q4)
M1 (8 ГБ)8 ГБ8–127B
M2 Pro (16 ГБ)16 ГБ15–2013B
M3 Pro (18 ГБ)18 ГБ18–2513B
M3 Max (36 ГБ)36 ГБ25–3534B
M4 Max (48 ГБ)48 ГБ35–5070B
M4 Ultra (96 ГБ)96 ГБ45–6570B FP16

Плюсы: тихая работа, низкое энергопотребление, большой объём памяти, нативная поддержка в llama.cpp и Ollama через Metal.

Минусы: скорость inference в 2–3 раза ниже, чем на сравнимой NVIDIA, высокая цена, нельзя апгрейдить.

Бюджетные рекомендации

До 25 000 ₽ — входной уровень

RTX 3060 12 ГБ — единственный разумный выбор. 12 ГБ VRAM за минимальную цену. Комфортно запускает 7B–13B модели. Можно найти б/у за 18 000–20 000 ₽.

40 000–55 000 ₽ — оптимальный

RTX 4060 Ti 16 ГБ — на 4 ГБ больше, чем RTX 3060, и на 30% быстрее. 16 ГБ позволяют запустить 13B модели в Q4 с запасом.

65 000–100 000 ₽ — продвинутый

RTX 4070 Ti Super 16 ГБ — самая быстрая карта с 16 ГБ VRAM. Если критична скорость, а не объём памяти. Или две RTX 3060 12 ГБ за те же деньги — суммарно 24 ГБ VRAM (но работает не со всеми инструментами).

150 000–200 000 ₽ — максимум

RTX 4090 24 ГБ — лучшая потребительская карта для AI. 24 ГБ хватает для 70B в агрессивной квантизации (Q3) или 34B в Q4 с комфортом.

200 000+ ₽ — без компромиссов

RTX 5090 32 ГБ или два RTX 4090. Или MacBook Pro M4 Max 48 ГБ для тихой мобильной станции.

Облачные GPU: когда покупка не выгодна

Если вы работаете с AI нерегулярно (несколько раз в неделю), облачные GPU могут быть дешевле покупки видеокарты.

СервисGPUЦена/часОсобенности
Vast.aiRTX 4090$0.25–0.40/чP2P аренда, дёшево, нестабильно
RunPodRTX 4090$0.44/чСтабильно, serverless
RunPodA100 80 ГБ$1.64/чДля больших моделей
LambdaH100 80 ГБ$2.49/чДля обучения, высокая надёжность
Google Colab ProT4/A100$10/мес + GPU-часыJupyter, просто начать

Точка безубыточности: если вы используете GPU более 4–6 часов в день, покупка RTX 4090 окупится за 3–4 месяца по сравнению с арендой на Vast.ai.

Практические советы

  • Не гонитесь за скоростью ядер — разница между RTX 4070 и 4090 в скорости inference ~50%, а в VRAM — 8 ГБ (16 vs 24). VRAM важнее.
  • Б/у карты — RTX 3060 12 ГБ и RTX 3090 24 ГБ — отличные варианты на вторичке. Проверяйте карту стресс-тестом.
  • Блок питания — RTX 4090 потребляет 450 Вт. Нужен БП от 850 Вт с качественным кабелем 12VHPWR.
  • Охлаждение — при полной нагрузке GPU греется до 80–85°C. Обеспечьте хороший поток воздуха в корпусе.
  • Две карты vs одна — для inference llama.cpp поддерживает multi-GPU, но не все инструменты. Одна мощная карта обычно проще.

FAQ

Подойдёт ли встроенная графика?

Нет. Встроенная графика Intel/AMD использует общую RAM и не имеет CUDA-ядер. Работать будет, но медленнее, чем на CPU — нет смысла.

RTX 3090 или RTX 4090?

RTX 3090 (24 ГБ, б/у ~80 000 ₽) — отличный вариант, если бюджет ограничен. В inference она на 30–40% медленнее RTX 4090, но VRAM одинаковый. Для большинства задач разница некритична.

Нужна ли карта с Tensor Cores?

Для inference (генерации текста) — не критично, llama.cpp и Ollama эффективно используют обычные CUDA-ядра. Для обучения/fine-tuning — Tensor Cores дают прирост в 2–3 раза.

Понравилась статья?

Поделитесь с коллегами и друзьями

Читайте также

Хотите больше таких статей?

Подпишитесь на еженедельный дайджест — новые инструменты, промпты и гиды каждую неделю

Подписаться бесплатно
ещё 3
Сравнить (0)