⚖️ Сравнение12 мин26 марта 2026 г.

NVIDIA Nemotron 3 Super: 120B модель для AI-агентов

Обзор NVIDIA Nemotron 3 Super — 120B параметров, 12B активных (MoE). Hybrid-архитектура для мульти-агентных систем, бенчмарки, сравнение с Llama 4, Mistral, Qwen.

На конференции GTC 2026 NVIDIA представила Nemotron 3 Super — открытую языковую модель нового поколения с 120 миллиардами параметров, из которых одновременно активны только 12 миллиардов благодаря архитектуре Mixture-of-Experts (MoE). Это не просто ещё одна LLM — это модель, заточенная под мульти-агентные системы и промышленный AI. Разбираемся, что внутри, как запустить и для кого она подходит.

Что такое Nemotron 3 Super

Nemotron 3 Super — третье поколение моделей NVIDIA для enterprise-задач. Главная фишка: hybrid-архитектура, объединяющая dense-слои и MoE-блоки. Dense-часть обрабатывает общие языковые паттерны, а MoE-эксперты включаются для специализированных задач — кодинга, математики, работы с инструментами, рассуждений.

Модель полностью открытая — веса, архитектура и код опубликованы под лицензией NVIDIA Open Model License, разрешающей коммерческое использование. Это принципиальное отличие от закрытых моделей ChatGPT и Gemini.

Ключевые характеристики

ПараметрЗначение
Общее число параметров120B
Активных параметров12B (MoE)
Контекстное окно128K токенов
АрхитектураHybrid Dense + MoE
Число экспертов64 (top-8 routing)
ЛицензияNVIDIA Open Model License
Обучающие данные15T токенов
Поддержка языков50+ (включая русский)

Зачем нужна Hybrid-архитектура

Классические dense-модели используют все параметры для каждого токена. MoE-модели активируют лишь часть — это экономит вычисления, но может терять качество на «общих» задачах. NVIDIA объединила оба подхода:

Dense-блоки (первые 24 слоя) обрабатывают входной текст целиком, формируя глубокое понимание контекста. MoE-блоки (слои 25-48) маршрутизируют вычисления к специализированным экспертам. Результат — качество dense-модели на 120B при стоимости инференса модели на 12B.

На практике это значит: вы получаете GPT-4-класс ответов на hardware, который потянет Llama 3.3 8B. Сервер с двумя A100 80GB или одной H100 справляется с полной моделью без квантизации.

Для мульти-агентных систем

NVIDIA позиционирует Nemotron 3 Super как «модель для агентов». Что это значит на практике:

Tool Use (вызов инструментов)

Модель обучена генерировать структурированные вызовы функций в формате JSON. На бенчмарке BFCL (Berkeley Function Calling Leaderboard) Nemotron 3 Super набирает 91.2% — лучший результат среди открытых моделей и на уровне GPT-4o.

Multi-turn агентные сценарии

В задачах, где нужно спланировать цепочку из 5-10 действий (поиск → анализ → запрос к API → генерация отчёта), модель показывает 87% success rate на AgentBench. Для сравнения: Claude Opus 4 — 89%, GPT-4o — 85%.

Structured Output

Гарантированная генерация валидного JSON, YAML, XML. На бенчмарке JSON-mode Nemotron достигает 99.1% корректных ответов — критично для production-пайплайнов.

Бенчмарки: Nemotron 3 Super vs конкуренты

Сравниваем с ключевыми открытыми моделями 2026 года. Все результаты — 0-shot, без fine-tuning.

БенчмаркNemotron 3 SuperLlama 4 Scout 109BMistral Large 2Qwen 3 72B
MMLU-Pro82.479.680.181.8
HumanEval+84.782.180.583.2
MATH78.374.873.277.5
BFCL (Tool Use)91.285.487.088.1
AgentBench87.082.583.784.2
IFEval88.585.284.886.1
MT-Bench (русский)8.78.18.58.9

Nemotron 3 Super лидирует в Tool Use и AgentBench — ключевых метриках для агентных сценариев. По русскому языку немного уступает Qwen 3, но превосходит Llama 4 и Mistral.

Как запустить Nemotron 3 Super

Модель доступна в нескольких форматах. Вот основные способы запуска:

Через NVIDIA NIM

Самый простой вариант. NIM — контейнеризованная среда NVIDIA для инференса. Один Docker-контейнер, OpenAI-совместимый API:

docker run --gpus all -p 8000:8000 nvcr.io/nim/nvidia/nemotron-3-super:latest

После запуска модель доступна по стандартному OpenAI API. Подходит для интеграции с LangChain, LlamaIndex и другими фреймворками.

Через vLLM

Для тех, кто предпочитает open-source инференс. vLLM 0.7+ поддерживает MoE-архитектуру Nemotron из коробки. Нужно 2x A100 80GB или 1x H100 для BF16, либо 1x RTX 4090 для AWQ-квантизации (int4).

Через Ollama

Сообщество уже опубликовало квантизованные версии. Для Q4_K_M понадобится ~40 GB RAM + GPU с 24 GB VRAM. На MacBook Pro M4 Max (128 GB) модель работает со скоростью ~15 токенов/сек.

Для кого подходит Nemotron 3 Super

Идеально для:

Разработчиков AI-агентов — лучший Tool Use среди открытых моделей, стабильная генерация JSON, высокий AgentBench. Если вы строите мульти-агентную систему и не хотите зависеть от API OpenAI или Anthropic — это ваш выбор.

Enterprise-компаний — модель можно развернуть on-premise, данные не покидают контур. Лицензия разрешает коммерческое использование. NVIDIA предлагает enterprise-поддержку через NIM.

Исследователей — открытая архитектура, доступны веса и код. Можно fine-tune-ить, изучать работу MoE-экспертов, экспериментировать с routing-стратегиями.

Не подходит для:

Обычных пользователей — нет удобного чат-интерфейса «из коробки». Нужен сервер с GPU или мощный десктоп. Для повседневных задач проще использовать ChatGPT или Claude.

Лёгких задач — для простых чат-ботов и генерации текста избыточна. Llama 3.3 8B или Mistral 7B справятся не хуже и потребуют в 5 раз меньше ресурсов.

Сравнение с закрытыми моделями

ПараметрNemotron 3 SuperGPT-4oClaude Opus 4
ТипОткрытаяЗакрытаяЗакрытая
Tool Use (BFCL)91.2%92.0%90.5%
Код (HumanEval+)84.787.288.5
Рассуждения (MMLU-Pro)82.485.186.3
Стоимость (API, 1M input)Self-hosted$2.50$15.00
Приватность данныхПолная (on-premise)ОблакоОблако
Fine-tuningДаОграниченНет

Nemotron 3 Super — первая открытая модель, которая на равных конкурирует с GPT-4o в агентных задачах. Отставание в 1-3% на общих бенчмарках компенсируется полным контролем над данными и возможностью fine-tuning.

Что это значит для рынка AI

NVIDIA — главный производитель GPU для AI. Выпуская собственные модели, компания создаёт полный стек: железо (H100, B200) + софт (CUDA, TensorRT) + модели (Nemotron). Это давление на OpenAI, Anthropic и Google: если открытая модель NVIDIA работает «почти так же» на их железе, зачем платить за API?

Для пользователей это означает больше конкуренции, более низкие цены и более быстрое развитие открытых моделей. Для разработчиков — ещё один сильный вариант для self-hosted AI.

FAQ

Нужен ли GPU для запуска Nemotron 3 Super?

Для полной модели (BF16) — да, минимум 2x A100 80GB. Для квантизованной версии (Q4_K_M) достаточно одной RTX 4090 24GB + 64 GB RAM с offloading. На CPU — будет работать, но очень медленно (1-2 токена/сек).

Поддерживает ли Nemotron русский язык?

Да. Модель обучена на 50+ языках, русский входит в топ-5 по объёму данных. На MT-Bench (русский) результат 8.7 из 10 — уступает только Qwen 3.

Можно ли использовать Nemotron для коммерческих продуктов?

Да. Лицензия NVIDIA Open Model License разрешает коммерческое использование, включая встраивание в SaaS-продукты и продажу API.

Чем Nemotron отличается от Llama 4?

Главные отличия: hybrid-архитектура (dense + MoE vs чистый MoE у Llama 4), значительно лучший Tool Use (91.2% vs 85.4%), лучшие агентные возможности. Llama 4 Scout быстрее на простых задачах, Nemotron точнее на сложных.

Понравилась статья?

Поделитесь с коллегами и друзьями

Читайте также

Хотите больше таких статей?

Подпишитесь на еженедельный дайджест — новые инструменты, промпты и гиды каждую неделю

Подписаться бесплатно