На конференции GTC 2026 NVIDIA представила Nemotron 3 Super — открытую языковую модель нового поколения с 120 миллиардами параметров, из которых одновременно активны только 12 миллиардов благодаря архитектуре Mixture-of-Experts (MoE). Это не просто ещё одна LLM — это модель, заточенная под мульти-агентные системы и промышленный AI. Разбираемся, что внутри, как запустить и для кого она подходит.
Что такое Nemotron 3 Super
Nemotron 3 Super — третье поколение моделей NVIDIA для enterprise-задач. Главная фишка: hybrid-архитектура, объединяющая dense-слои и MoE-блоки. Dense-часть обрабатывает общие языковые паттерны, а MoE-эксперты включаются для специализированных задач — кодинга, математики, работы с инструментами, рассуждений.
Модель полностью открытая — веса, архитектура и код опубликованы под лицензией NVIDIA Open Model License, разрешающей коммерческое использование. Это принципиальное отличие от закрытых моделей ChatGPT и Gemini.
Ключевые характеристики
| Параметр | Значение |
|---|---|
| Общее число параметров | 120B |
| Активных параметров | 12B (MoE) |
| Контекстное окно | 128K токенов |
| Архитектура | Hybrid Dense + MoE |
| Число экспертов | 64 (top-8 routing) |
| Лицензия | NVIDIA Open Model License |
| Обучающие данные | 15T токенов |
| Поддержка языков | 50+ (включая русский) |
Зачем нужна Hybrid-архитектура
Классические dense-модели используют все параметры для каждого токена. MoE-модели активируют лишь часть — это экономит вычисления, но может терять качество на «общих» задачах. NVIDIA объединила оба подхода:
Dense-блоки (первые 24 слоя) обрабатывают входной текст целиком, формируя глубокое понимание контекста. MoE-блоки (слои 25-48) маршрутизируют вычисления к специализированным экспертам. Результат — качество dense-модели на 120B при стоимости инференса модели на 12B.
На практике это значит: вы получаете GPT-4-класс ответов на hardware, который потянет Llama 3.3 8B. Сервер с двумя A100 80GB или одной H100 справляется с полной моделью без квантизации.
Для мульти-агентных систем
NVIDIA позиционирует Nemotron 3 Super как «модель для агентов». Что это значит на практике:
Tool Use (вызов инструментов)
Модель обучена генерировать структурированные вызовы функций в формате JSON. На бенчмарке BFCL (Berkeley Function Calling Leaderboard) Nemotron 3 Super набирает 91.2% — лучший результат среди открытых моделей и на уровне GPT-4o.
Multi-turn агентные сценарии
В задачах, где нужно спланировать цепочку из 5-10 действий (поиск → анализ → запрос к API → генерация отчёта), модель показывает 87% success rate на AgentBench. Для сравнения: Claude Opus 4 — 89%, GPT-4o — 85%.
Structured Output
Гарантированная генерация валидного JSON, YAML, XML. На бенчмарке JSON-mode Nemotron достигает 99.1% корректных ответов — критично для production-пайплайнов.
Бенчмарки: Nemotron 3 Super vs конкуренты
Сравниваем с ключевыми открытыми моделями 2026 года. Все результаты — 0-shot, без fine-tuning.
| Бенчмарк | Nemotron 3 Super | Llama 4 Scout 109B | Mistral Large 2 | Qwen 3 72B |
|---|---|---|---|---|
| MMLU-Pro | 82.4 | 79.6 | 80.1 | 81.8 |
| HumanEval+ | 84.7 | 82.1 | 80.5 | 83.2 |
| MATH | 78.3 | 74.8 | 73.2 | 77.5 |
| BFCL (Tool Use) | 91.2 | 85.4 | 87.0 | 88.1 |
| AgentBench | 87.0 | 82.5 | 83.7 | 84.2 |
| IFEval | 88.5 | 85.2 | 84.8 | 86.1 |
| MT-Bench (русский) | 8.7 | 8.1 | 8.5 | 8.9 |
Nemotron 3 Super лидирует в Tool Use и AgentBench — ключевых метриках для агентных сценариев. По русскому языку немного уступает Qwen 3, но превосходит Llama 4 и Mistral.
Как запустить Nemotron 3 Super
Модель доступна в нескольких форматах. Вот основные способы запуска:
Через NVIDIA NIM
Самый простой вариант. NIM — контейнеризованная среда NVIDIA для инференса. Один Docker-контейнер, OpenAI-совместимый API:
docker run --gpus all -p 8000:8000 nvcr.io/nim/nvidia/nemotron-3-super:latest
После запуска модель доступна по стандартному OpenAI API. Подходит для интеграции с LangChain, LlamaIndex и другими фреймворками.
Через vLLM
Для тех, кто предпочитает open-source инференс. vLLM 0.7+ поддерживает MoE-архитектуру Nemotron из коробки. Нужно 2x A100 80GB или 1x H100 для BF16, либо 1x RTX 4090 для AWQ-квантизации (int4).
Через Ollama
Сообщество уже опубликовало квантизованные версии. Для Q4_K_M понадобится ~40 GB RAM + GPU с 24 GB VRAM. На MacBook Pro M4 Max (128 GB) модель работает со скоростью ~15 токенов/сек.
Для кого подходит Nemotron 3 Super
Идеально для:
Разработчиков AI-агентов — лучший Tool Use среди открытых моделей, стабильная генерация JSON, высокий AgentBench. Если вы строите мульти-агентную систему и не хотите зависеть от API OpenAI или Anthropic — это ваш выбор.
Enterprise-компаний — модель можно развернуть on-premise, данные не покидают контур. Лицензия разрешает коммерческое использование. NVIDIA предлагает enterprise-поддержку через NIM.
Исследователей — открытая архитектура, доступны веса и код. Можно fine-tune-ить, изучать работу MoE-экспертов, экспериментировать с routing-стратегиями.
Не подходит для:
Обычных пользователей — нет удобного чат-интерфейса «из коробки». Нужен сервер с GPU или мощный десктоп. Для повседневных задач проще использовать ChatGPT или Claude.
Лёгких задач — для простых чат-ботов и генерации текста избыточна. Llama 3.3 8B или Mistral 7B справятся не хуже и потребуют в 5 раз меньше ресурсов.
Сравнение с закрытыми моделями
| Параметр | Nemotron 3 Super | GPT-4o | Claude Opus 4 |
|---|---|---|---|
| Тип | Открытая | Закрытая | Закрытая |
| Tool Use (BFCL) | 91.2% | 92.0% | 90.5% |
| Код (HumanEval+) | 84.7 | 87.2 | 88.5 |
| Рассуждения (MMLU-Pro) | 82.4 | 85.1 | 86.3 |
| Стоимость (API, 1M input) | Self-hosted | $2.50 | $15.00 |
| Приватность данных | Полная (on-premise) | Облако | Облако |
| Fine-tuning | Да | Ограничен | Нет |
Nemotron 3 Super — первая открытая модель, которая на равных конкурирует с GPT-4o в агентных задачах. Отставание в 1-3% на общих бенчмарках компенсируется полным контролем над данными и возможностью fine-tuning.
Что это значит для рынка AI
NVIDIA — главный производитель GPU для AI. Выпуская собственные модели, компания создаёт полный стек: железо (H100, B200) + софт (CUDA, TensorRT) + модели (Nemotron). Это давление на OpenAI, Anthropic и Google: если открытая модель NVIDIA работает «почти так же» на их железе, зачем платить за API?
Для пользователей это означает больше конкуренции, более низкие цены и более быстрое развитие открытых моделей. Для разработчиков — ещё один сильный вариант для self-hosted AI.
FAQ
Нужен ли GPU для запуска Nemotron 3 Super?
Для полной модели (BF16) — да, минимум 2x A100 80GB. Для квантизованной версии (Q4_K_M) достаточно одной RTX 4090 24GB + 64 GB RAM с offloading. На CPU — будет работать, но очень медленно (1-2 токена/сек).
Поддерживает ли Nemotron русский язык?
Да. Модель обучена на 50+ языках, русский входит в топ-5 по объёму данных. На MT-Bench (русский) результат 8.7 из 10 — уступает только Qwen 3.
Можно ли использовать Nemotron для коммерческих продуктов?
Да. Лицензия NVIDIA Open Model License разрешает коммерческое использование, включая встраивание в SaaS-продукты и продажу API.
Чем Nemotron отличается от Llama 4?
Главные отличия: hybrid-архитектура (dense + MoE vs чистый MoE у Llama 4), значительно лучший Tool Use (91.2% vs 85.4%), лучшие агентные возможности. Llama 4 Scout быстрее на простых задачах, Nemotron точнее на сложных.