Видеокарта — главная инвестиция для локальной работы с нейросетями. Правильный выбор сэкономит десятки тысяч рублей и часы ожидания. В этом гиде — конкретные рекомендации для каждого бюджета.
Почему GPU, а не CPU
Нейросети состоят из миллиардов математических операций с матрицами. CPU обрабатывает их последовательно (десятки ядер), а GPU — параллельно (тысячи ядер). Результат: GPU в 10–50 раз быстрее CPU для задач inference (генерации текста) и в 50–100 раз быстрее для обучения.
Пример: Llama 3.2 8B (Q4) генерирует:
- CPU (Ryzen 9 7950X): 8–12 токенов/сек
- GPU (RTX 3060 12 ГБ): 35–45 токенов/сек
- GPU (RTX 4090 24 ГБ): 80–110 токенов/сек
VRAM: главный параметр
Видеопамять (VRAM) определяет, какого размера модель поместится на видеокарту. Это самый важный параметр — важнее скорости ядер, шины и частоты.
| Размер модели | FP16 | Q8 | Q4_K_M | Q3_K_M |
|---|---|---|---|---|
| 3B (Phi-3 Mini) | 6 ГБ | 3.5 ГБ | 2 ГБ | 1.7 ГБ |
| 7B (Llama 3.2) | 14 ГБ | 7.5 ГБ | 4.5 ГБ | 3.5 ГБ |
| 13B (Llama 2 13B) | 26 ГБ | 14 ГБ | 8 ГБ | 6.5 ГБ |
| 34B (CodeLlama 34B) | 68 ГБ | 36 ГБ | 20 ГБ | 16 ГБ |
| 70B (Llama 3.1 70B) | 140 ГБ | 75 ГБ | 40 ГБ | 33 ГБ |
Q4_K_M — оптимальный баланс качества и размера. Q3_K_M — если не хватает 2–3 ГБ. FP16 — максимальное качество, но нужно вдвое больше памяти.
NVIDIA: основной выбор
NVIDIA доминирует в AI благодаря CUDA — экосистеме, которая поддерживается всеми фреймворками. Если нет особых причин — выбирайте NVIDIA.
Потребительские карты
| Карта | VRAM | Llama 8B (tok/s) | Цена (2026) | Вердикт |
|---|---|---|---|---|
| RTX 3060 12 ГБ | 12 ГБ | 35–45 | 22 000–28 000 ₽ | Лучший бюджет |
| RTX 4060 Ti 16 ГБ | 16 ГБ | 45–55 | 40 000–50 000 ₽ | Золотая середина |
| RTX 4070 Ti Super | 16 ГБ | 55–70 | 65 000–80 000 ₽ | Для 13B+ моделей |
| RTX 4080 Super | 16 ГБ | 65–80 | 85 000–100 000 ₽ | Быстро, но VRAM = 4070 Ti |
| RTX 4090 | 24 ГБ | 80–110 | 150 000–180 000 ₽ | Максимум для потребителя |
| RTX 5090 | 32 ГБ | 120–160 | 250 000–300 000 ₽ | Новое поколение, 70B в Q4 |
Профессиональные карты
| Карта | VRAM | Цена | Для кого |
|---|---|---|---|
| A100 40/80 ГБ | 40/80 ГБ | $8 000–15 000 | Датацентры, обучение |
| H100 80 ГБ | 80 ГБ | $25 000–35 000 | Крупные компании |
| L40S 48 ГБ | 48 ГБ | $7 000–10 000 | Inference, доступный про-уровень |
AMD: статус поддержки
AMD видеокарты поддерживаются через ROCm — открытую альтернативу CUDA. Поддержка значительно улучшилась в 2025–2026, но всё ещё не дотягивает до NVIDIA.
Что работает
- RX 7900 XTX (24 ГБ) — поддерживается llama.cpp, Ollama, PyTorch через ROCm 6.x. Производительность ~70% от RTX 4090.
- RX 7900 XT (20 ГБ) — аналогично, но медленнее.
- MI250/MI300X — профессиональные карты с полной поддержкой.
Что не работает (или плохо)
- Карты старше RX 7000 — ограниченная поддержка ROCm
- Некоторые квантизации (AWQ, GPTQ) — работают, но медленнее, чем на NVIDIA
- Обучение моделей — возможно, но экосистема значительно беднее
Вердикт по AMD: Если у вас уже есть RX 7900 XTX — используйте. Если покупаете специально для AI — берите NVIDIA.
Apple Silicon: M1/M2/M3/M4
Чипы Apple Silicon используют unified memory — общую память для CPU и GPU. Это значит, что MacBook с 36 ГБ RAM может загрузить модель, которой нужно 36 ГБ VRAM на обычной видеокарте.
| Чип | Unified Memory | Llama 8B (tok/s) | Макс. модель (Q4) |
|---|---|---|---|
| M1 (8 ГБ) | 8 ГБ | 8–12 | 7B |
| M2 Pro (16 ГБ) | 16 ГБ | 15–20 | 13B |
| M3 Pro (18 ГБ) | 18 ГБ | 18–25 | 13B |
| M3 Max (36 ГБ) | 36 ГБ | 25–35 | 34B |
| M4 Max (48 ГБ) | 48 ГБ | 35–50 | 70B |
| M4 Ultra (96 ГБ) | 96 ГБ | 45–65 | 70B FP16 |
Плюсы: тихая работа, низкое энергопотребление, большой объём памяти, нативная поддержка в llama.cpp и Ollama через Metal.
Минусы: скорость inference в 2–3 раза ниже, чем на сравнимой NVIDIA, высокая цена, нельзя апгрейдить.
Бюджетные рекомендации
До 25 000 ₽ — входной уровень
RTX 3060 12 ГБ — единственный разумный выбор. 12 ГБ VRAM за минимальную цену. Комфортно запускает 7B–13B модели. Можно найти б/у за 18 000–20 000 ₽.
40 000–55 000 ₽ — оптимальный
RTX 4060 Ti 16 ГБ — на 4 ГБ больше, чем RTX 3060, и на 30% быстрее. 16 ГБ позволяют запустить 13B модели в Q4 с запасом.
65 000–100 000 ₽ — продвинутый
RTX 4070 Ti Super 16 ГБ — самая быстрая карта с 16 ГБ VRAM. Если критична скорость, а не объём памяти. Или две RTX 3060 12 ГБ за те же деньги — суммарно 24 ГБ VRAM (но работает не со всеми инструментами).
150 000–200 000 ₽ — максимум
RTX 4090 24 ГБ — лучшая потребительская карта для AI. 24 ГБ хватает для 70B в агрессивной квантизации (Q3) или 34B в Q4 с комфортом.
200 000+ ₽ — без компромиссов
RTX 5090 32 ГБ или два RTX 4090. Или MacBook Pro M4 Max 48 ГБ для тихой мобильной станции.
Облачные GPU: когда покупка не выгодна
Если вы работаете с AI нерегулярно (несколько раз в неделю), облачные GPU могут быть дешевле покупки видеокарты.
| Сервис | GPU | Цена/час | Особенности |
|---|---|---|---|
| Vast.ai | RTX 4090 | $0.25–0.40/ч | P2P аренда, дёшево, нестабильно |
| RunPod | RTX 4090 | $0.44/ч | Стабильно, serverless |
| RunPod | A100 80 ГБ | $1.64/ч | Для больших моделей |
| Lambda | H100 80 ГБ | $2.49/ч | Для обучения, высокая надёжность |
| Google Colab Pro | T4/A100 | $10/мес + GPU-часы | Jupyter, просто начать |
Точка безубыточности: если вы используете GPU более 4–6 часов в день, покупка RTX 4090 окупится за 3–4 месяца по сравнению с арендой на Vast.ai.
Практические советы
- Не гонитесь за скоростью ядер — разница между RTX 4070 и 4090 в скорости inference ~50%, а в VRAM — 8 ГБ (16 vs 24). VRAM важнее.
- Б/у карты — RTX 3060 12 ГБ и RTX 3090 24 ГБ — отличные варианты на вторичке. Проверяйте карту стресс-тестом.
- Блок питания — RTX 4090 потребляет 450 Вт. Нужен БП от 850 Вт с качественным кабелем 12VHPWR.
- Охлаждение — при полной нагрузке GPU греется до 80–85°C. Обеспечьте хороший поток воздуха в корпусе.
- Две карты vs одна — для inference llama.cpp поддерживает multi-GPU, но не все инструменты. Одна мощная карта обычно проще.
FAQ
Подойдёт ли встроенная графика?
Нет. Встроенная графика Intel/AMD использует общую RAM и не имеет CUDA-ядер. Работать будет, но медленнее, чем на CPU — нет смысла.
RTX 3090 или RTX 4090?
RTX 3090 (24 ГБ, б/у ~80 000 ₽) — отличный вариант, если бюджет ограничен. В inference она на 30–40% медленнее RTX 4090, но VRAM одинаковый. Для большинства задач разница некритична.
Нужна ли карта с Tensor Cores?
Для inference (генерации текста) — не критично, llama.cpp и Ollama эффективно используют обычные CUDA-ядра. Для обучения/fine-tuning — Tensor Cores дают прирост в 2–3 раза.