NVIDIA Nemotron 3 Super: характеристики и как запустить (2026)

Обновлено: 2026-05-01

Что важно знать с самого начала. На сайте build.nvidia.com и в документации NVIDIA NIM семейство Nemotron к началу 2026 года представлено в первую очередь моделями линейки Llama-3.1-Nemotron — это файнтюны Llama 3.1 от NVIDIA. Конкретно опубликованы Llama-3.1-Nemotron-Nano-8B, Llama-3.3-Nemotron-Super-49B и Llama-3.1-Nemotron-Ultra-253B (по данным карточек на huggingface.co/nvidia). Под названием «Nemotron 3 Super» в материалах NVIDIA фигурирует именно Llama-3.3-Nemotron-Super-49B-v1 — модель на 49B параметров с открытыми весами и расширенным reasoning-режимом. Если вам нужны точные числа по бенчмаркам — всегда сверяйтесь с карточкой модели на HuggingFace и build.nvidia.com.

Что такое Nemotron Super 49B

Это open-weight модель NVIDIA на базе Llama 3.3 с 49 миллиардами параметров. NVIDIA позиционирует её как сбалансированный вариант между лёгкой Nemotron-Nano-8B и тяжёлой Nemotron-Ultra-253B. Модель ориентирована на reasoning, tool use и агентные задачи, поддерживает контекст 128K токенов и доступна под NVIDIA Open Model License с разрешением коммерческого использования.

Архитектура — это файнтюн Llama 3.3 с пост-тренировкой через SFT + RLHF на данных, ориентированных на инструкции и рассуждения. На уровне самой модели здесь не классическая MoE-схема как в DeepSeek V3 или Mixtral; это плотная модель на 49B, оптимизированная под NVIDIA-стек (TensorRT-LLM, NIM).

Базовые характеристики (по данным карточки модели на HuggingFace)

Параметр	Значение
Полное имя	Llama-3.3-Nemotron-Super-49B-v1
База	Llama 3.3 (файнтюн от NVIDIA)
Параметры	49B
Контекстное окно	128K токенов
Лицензия	NVIDIA Open Model License
Доступ	build.nvidia.com, HuggingFace, NIM
Языки	англ. (приоритет), частично русский, плюс ещё ~10
Reasoning-режим	Поддерживается через системный промпт

Замечание про русский язык: Llama 3.x не оптимизирована под русский так же, как YandexGPT или GigaChat. Базовое качество русского — рабочее, но для сложных русскоязычных задач лучше посмотреть на DeepSeek или Qwen 2.5.

Зачем NVIDIA выпускает Nemotron

NVIDIA продаёт GPU. Если на их железе хорошо работают только закрытые модели OpenAI и Anthropic — это значит, что заказчики платят им за токены, а не за GPU. Выпуская конкурентоспособные открытые модели, NVIDIA замыкает стек: железо H100/B200 + софт (CUDA, TensorRT-LLM, NIM) + модели (Nemotron). Это снижает зависимость заказчиков от облачных API и стимулирует self-hosting на NVIDIA-инфраструктуре.

Для пользователя это означает простое: появляется ещё один сильный open-weight вариант, оптимизированный под NVIDIA-инференс. Для агентных задач (tool calling, structured output) это особенно интересно.

Бенчмарки: чем подтверждены, а где осторожно

NVIDIA публикует бенчмарки в карточке модели и блог-посте о релизе. Я свожу их в таблицу с указанием источников. Цифры — по данным NVIDIA на момент публикации модели; ваши результаты на конкретных задачах могут отличаться.

Бенчмарк	Nemotron Super 49B	Llama 3.1 70B Instruct	Qwen 2.5 72B Instruct	Источник
MMLU (5-shot)	~85%	~83%	~85%	Карточки моделей на HF
HumanEval (код)	~85%	~80%	~85%	Карточки моделей
MATH	≈70–75%	≈55–65%	≈75–80%	Карточки + papers Qwen
BFCL (tool use)	«Лидирует среди открытых» — заявление NVIDIA	—	—	Блог NVIDIA
IFEval	~89%	~88%	~86%	Карточки моделей

Подчеркну: точные значения зависят от версии модели, версии библиотеки оценки, шаблона промпта и температуры. Для production-решения обязательно прогоняйте свой собственный benchmark на ваших данных — публичные числа дают ориентир, но не гарантию качества под вашу задачу.

Где Nemotron Super 49B стабильно сильна:

Tool calling и structured output — NVIDIA обучала её специально на сценарии «модель решает вызвать функцию». Это работает: количество ошибок в JSON ниже, чем у обычной Llama 3.1 70B.
Reasoning-режим — есть отдельный системный промпт для развёрнутого рассуждения; на математике и логике даёт ощутимый прирост.
Инференс на NVIDIA — оптимизация под TensorRT-LLM даёт прирост скорости на H100/B200 по сравнению с базовой Llama 3.3.

Где есть оговорки:

На общих знаниях (MMLU) Qwen 2.5 72B иногда заметно лучше — если задача чисто академическая.
На русском Nemotron уступает DeepSeek и YandexGPT 5 Pro.
Длинный контекст (свыше 64K) у всей линейки Llama 3.x — рабочий, но не такой же качественный, как короткий, по результатам внешних тестов LongBench.

Как запустить Nemotron Super 49B через Ollama

Сообщество публикует квантизованные GGUF-версии модели. Для большинства задач хватает Q4_K_M или Q5_K_M.

# Установить Ollama (Linux)
curl -fsSL https://ollama.com/install.sh | sh

# macOS — скачать пакет с ollama.com

# Запустить модель (имя зависит от тегов в реестре,
# проверяйте на ollama.com/library)
ollama run nemotron:49b-instruct-q4_K_M

# Или, если в основном реестре нет, через прямой GGUF
# (зависит от того, какие веса выложили мейнтейнеры)
ollama pull nvidia/llama-3.3-nemotron-super-49b
ollama run nvidia/llama-3.3-nemotron-super-49b

Реалистичные требования к железу для 49B в Q4_K_M:

Минимум: 32 GB RAM + GPU 24 GB VRAM (RTX 4090 / 5090) — токенов 5–15 в секунду на reasoning-задачах.
Комфортно: 64 GB RAM + 2× RTX 4090 или одна A100 80GB — токенов 30–60 в секунду.
Apple Silicon: Mac Studio M2 Ultra / M3 Max с 128 GB unified memory — порядок токенов 8–15/сек.

Реальная скорость зависит от длины контекста и квантизации; точные числа всегда меряйте у себя. Если вы выбираете между Ollama и LM Studio, посмотрите сравнение в Ollama vs LM Studio.

Чат через REST API (Ollama по умолчанию слушает 11434):

curl http://localhost:11434/api/chat -d '{
  "model": "nemotron:49b-instruct-q4_K_M",
  "messages": [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Объясни в трёх предложениях, что такое RLHF."}
  ],
  "stream": false
}'

Как запустить через vLLM

vLLM — быстрый сервер инференса, который часто используют в production. Для Nemotron Super 49B нужен GPU 80GB (одна H100 / A100 80GB) для FP8 или две карты по 48 GB для BF16.

pip install vllm

vllm serve nvidia/Llama-3.3-Nemotron-Super-49B-v1 \
  --tensor-parallel-size 2 \
  --max-model-len 65536 \
  --gpu-memory-utilization 0.9 \
  --dtype bfloat16

# OpenAI-совместимый endpoint доступен на :8000/v1

Дальше клиент может ходить через openai Python SDK как к обычному OpenAI API, заменив base_url на http://localhost:8000/v1.

Если вы уже используете Ollama для разработки, vLLM имеет смысл подключать на этапе нагрузки от 10 RPS — на низких нагрузках разница не оправдывает сложность настройки.

Через NVIDIA NIM (для enterprise)

Если у вас лицензия на NIM, образ модели тянется напрямую с nvcr.io:

docker login nvcr.io
docker pull nvcr.io/nim/nvidia/llama-3.3-nemotron-super-49b:latest

docker run --gpus all -p 8000:8000 \
  -e NGC_API_KEY=$NGC_API_KEY \
  nvcr.io/nim/nvidia/llama-3.3-nemotron-super-49b:latest

Точное имя контейнера и параметры всегда сверяйте на build.nvidia.com — NVIDIA меняет тэги при выходе новых версий.

Tool calling: что реально работает

Nemotron Super 49B — одна из самых сильных открытых моделей в задачах tool calling. По данным NVIDIA, она лидирует в Berkeley Function Calling Leaderboard среди open-weight моделей сравнимого размера.

Что это значит на практике: вы описываете функцию по схеме OpenAI-формата, модель решает, когда её вызвать, и возвращает корректный JSON с аргументами. Минимальный пример через OpenAI SDK + локальный vLLM:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

tools = [{
    "type": "function",
    "function": {
        "name": "get_weather",
        "description": "Получает прогноз погоды для города",
        "parameters": {
            "type": "object",
            "properties": {
                "city": {"type": "string"},
                "units": {"type": "string", "enum": ["metric", "imperial"]}
            },
            "required": ["city"]
        }
    }
}]

response = client.chat.completions.create(
    model="nvidia/Llama-3.3-Nemotron-Super-49B-v1",
    messages=[{"role": "user", "content": "Какая погода в Москве в градусах Цельсия?"}],
    tools=tools,
)
print(response.choices[0].message.tool_calls)

Кому подходит Nemotron Super 49B

Подходит:

Командам, которые строят AI-агентов на open-weight стеке и не хотят зависеть от OpenAI API.
Компаниям с требованиями к on-premise (банки, госсектор, медицина).
Исследователям и разработчикам, которым нужен файнтюн под доменные данные.
Тем, у кого уже есть NVIDIA H100/B200 и они хотят выжать максимум через TensorRT-LLM и NIM.

Не подходит:

Сценариев, где основной язык — русский. DeepSeek и YandexGPT здесь объективно сильнее.
Задач, требующих лучшего в индустрии reasoning — Claude и DeepSeek-R1 в reasoning-режиме обычно впереди.
Случаев, когда нет доступа к GPU 24+ GB VRAM. На CPU 49B квантизованная даёт 1–3 токена/сек, что в 2026 уже неприемлемо для интерактивной работы.

Сравнение с другими open-weight 50–70B моделями

Параметр	Nemotron Super 49B	Llama 3.1 70B	Qwen 2.5 72B
Размер	49B	70B	72B
Контекст	128K	128K	128K
Tool calling	Сильный (специальная пост-тренировка)	Хороший	Хороший
Русский язык	Средний	Средний	Хороший
VRAM (Q4_K_M)	~24 GB	~36 GB	~38 GB
Лицензия	NVIDIA Open	Llama 3 Community	Qwen Open License
Reasoning-режим	Есть	Нет	Через QwQ-вариант

В практике 2026 года выбор обычно сводится к: «нужен лучший русский — Qwen 2.5 или DeepSeek; нужны лучшие агенты на NVIDIA-стеке — Nemotron Super; ждёшь меньшего расхода VRAM — Nemotron 49B (легче 70B)». Полная картина по open-weight моделям — в подборке бесплатных нейросетей 2026.

Reasoning-режим Nemotron: как использовать на практике

Одна из главных особенностей Nemotron Super — встроенный reasoning-режим. NVIDIA рекомендует включать его системным промптом вида «detailed thinking on» для задач, где нужны развёрнутые рассуждения. Когда режим выключен, модель отвечает быстро и компактно — это удобно для классических чат-сценариев и agentic-команд.

Минимальный пример переключения через API локального vLLM-сервера:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

# Reasoning-режим — для математики и сложного рассуждения
response = client.chat.completions.create(
    model="nvidia/Llama-3.3-Nemotron-Super-49B-v1",
    messages=[
        {"role": "system", "content": "detailed thinking on"},
        {"role": "user", "content": "Реши: интеграл sin(x) * x от 0 до pi/2."},
    ],
    temperature=0.0,
)

# Обычный режим — для агентных задач и tool calling
response_fast = client.chat.completions.create(
    model="nvidia/Llama-3.3-Nemotron-Super-49B-v1",
    messages=[
        {"role": "system", "content": "detailed thinking off"},
        {"role": "user", "content": "Получи погоду в Москве через get_weather."},
    ],
    tools=tools,
)

На практике это даёт интересный паттерн: один и тот же сервис может обслуживать и быстрые tool-агенты (без reasoning), и сложные исследовательские запросы (с reasoning). Не нужно держать две разных модели — достаточно переключателя в промпте. По данным NVIDIA, прирост качества на математических бенчмарках при включении reasoning составляет десятки процентных пунктов.

Файнтюнинг Nemotron под доменные данные

Для команд, которым важно адаптировать модель под свой стек, Nemotron Super 49B файнтюнится через стандартные инструменты экосистемы PyTorch и Hugging Face TRL / PEFT. Несколько практических замечаний:

QLoRA — стандартный путь. Полный SFT 49B-модели требует кластера на 32+ A100. QLoRA с 4-bit весами и LoRA-адаптерами влезает в одну H100 80GB или 2× A100 40GB. На небольшом доменном датасете (10–50K примеров) обучение занимает 8–24 часа.
Сохраняйте reasoning-данные. Если вы включаете в датасет примеры с цепочками рассуждений (chain-of-thought), модель сохраняет reasoning-режим после файнтюна. Если только короткие ответы — теряет, и это часто нежелательно.
Mix общих и доменных данных. Чтобы избежать catastrophic forgetting (когда модель забывает базовые навыки), смешивайте свой датасет с долей instruction-данных открытого качества (10–20%).
Оценка после обучения. Помимо метрик на вашей задаче, обязательно прогоните модель на MMLU и IFEval — это «термометр» того, не сломали ли вы общие способности.

Где Nemotron побеждает GPT-4o, а где проигрывает

Сводка по типичным задачам, основанная на публичных бенчмарках NVIDIA, отчётах сообщества (например, prompt-evals на arena-hard) и моих личных тестах для агентного пайплайна:

Задача	Nemotron Super 49B	GPT-4o (для ориентира)	Комментарий
Tool calling (BFCL)	Лидер среди open-weight	На уровне	Nemotron заточен специально под это
Structured JSON output	Очень стабильный	Стабильный	Реже ломает схему
Английская математика (MATH, AIME)	Сильный с reasoning	Сопоставим без reasoning	R1 / o3 в reasoning-режиме всё ещё впереди
Кодовые задачи (HumanEval+)	Хороший	Чуть лучше	Claude 3.5 Sonnet обычно сильнее обоих
Творческое письмо на английском	Уверенно	Лучше	GPT-4o и Claude — лидеры
Творческое письмо на русском	Среднее	Хорошее	Лучше брать GigaChat / YandexGPT
Длинный контекст (LongBench)	Стабильный до 64K	Лучше на длинных	На 128K качество всех Llama-моделей падает
Стоимость inference (own hosting)	Низкая	API only	Главное преимущество self-hosting

Ключевая мысль: Nemotron Super 49B — это специализированная модель «под агентов и tool calling на собственном железе NVIDIA». Если ваша задача в это попадает — это сильнейший open-weight кандидат в своей весовой категории. Если задача в другом — общий чат на русском, мультимодальный ввод, длинные документы свыше 64K — лучше посмотреть в сторону DeepSeek, GigaChat, или GPT-4o / Claude.

Линейка Nemotron целиком: Nano, Super, Ultra

Чтобы понять место Super 49B, полезно посмотреть на всё семейство моделей NVIDIA, доступных на huggingface.co/nvidia и build.nvidia.com:

Модель	Параметры	Минимальное железо для запуска	Когда выбирать
Llama-3.1-Nemotron-Nano-8B	8B	RTX 3060 12GB (Q4) / 16GB MacBook	Edge-устройства, дешёвый прототип, on-device
Llama-3.3-Nemotron-Super-49B	49B	RTX 4090 24GB (Q4) или одна A100 80GB (FP8)	Production-агенты, баланс качества и стоимости
Llama-3.1-Nemotron-Ultra-253B	253B	4× H100 80GB или 8× A100 80GB	Reasoning максимального уровня, исследовательские задачи

Для большинства команд Super 49B — оптимальный выбор: она в разы дешевле в инференсе, чем Ultra 253B, при том, что в типовых агентных задачах разница в качестве часто не превышает 5–10 процентных пунктов. Ultra становится осмысленна там, где модель должна решать редкие задачи, в которых каждый процент точности критичен.

Реальная стоимость владения: облако vs self-hosting

Если у вас уже есть выбор между облачным API (build.nvidia.com endpoints, OpenAI-совместимые шлюзы) и self-hosting — важно сопоставить расходы. Это очень индивидуально, но порядок цифр такой:

Сценарий	Облачный endpoint NIM (ориентир)	Self-hosting на собственной H100
Прототип, до 10K запросов/мес	$50–200/мес	Не оправдано (амортизация GPU выше)
Средний продукт, 200K–1M запросов/мес	$1 000–5 000/мес	$2 000–4 000/мес (CapEx + электричество + поддержка)
Высоконагруженный, 5M+ запросов/мес	$20 000+/мес	Часто выгоднее: $5 000–10 000/мес при правильной утилизации

Цифры — порядок величины и могут сильно меняться от поставщика и режима использования. Главный фактор экономики self-hosting — утилизация GPU. Если карта простаивает 80% времени — облако всегда дешевле. Если загрузка стабильно выше 50% — собственный сервер окупается за полгода-год.

Где брать актуальную информацию

build.nvidia.com — официальные NIM-endpoints, актуальные веса и цены.
huggingface.co/nvidia — карточки моделей, бенчмарки в README, обсуждения.
NVIDIA NeMo Framework — документация по обучению и файнтюну.
GitHub-репозитории Nemotron — примеры использования tool calling и reasoning-режима.
Сообщества: r/LocalLLaMA на Reddit, дискуссии в Hugging Face, Twitter/X-аккаунт NVIDIA AI.

Конкретные числа бенчмарков и цены меняются с каждым релизом — на момент чтения статьи всегда сверяйтесь с актуальной карточкой модели на HuggingFace и страницей на build.nvidia.com.

Частые ошибки при работе с Nemotron

За первый год существования Nemotron Super 49B сообщество накопило типовые подводные камни. Если вы только начинаете — учтите эти моменты заранее:

Игнорирование reasoning-режима. Многие команды берут модель и сразу используют её в обычном режиме, не зная про переключатель «detailed thinking on/off». На математических задачах это сразу даёт −20 процентных пунктов точности. Всегда тестируйте оба режима для своих задач.
Слишком большая квантизация. Q3_K_S или Q2_K на 49B-модели заметно режет качество. Минимально приемлемый порог для production — Q4_K_M, оптимально — Q5_K_M или Q6_K. Если VRAM не хватает — лучше взять Nemotron Nano 8B в Q8, чем 49B в Q3.
Ожидание мультимодальности. Nemotron Super — текстовая модель. Если нужно работать с изображениями, смотрите в сторону NVLM или других мультимодальных моделей NVIDIA, или комбинируйте с отдельной vision-моделью.
Запуск на старых драйверах CUDA. Для оптимальной скорости через TensorRT-LLM нужны CUDA 12.4+ и свежие cuDNN. На старом стеке потеря производительности достигает 30–50%.
Слепое доверие публичным бенчмаркам. Цифры NVIDIA получены на конкретных версиях оценочных пайплайнов. Ваши результаты на конкретной задаче могут отличаться. Всегда строьте свой evaluation set перед production.

Связь с другими моделями NVIDIA

Nemotron — не единственная семья моделей NVIDIA. Контекст всей экосистемы помогает выбрать правильный компонент:

Nemotron-Mini-4B-Instruct — компактная модель для on-device и embedded-сценариев.
NVLM 1.0 — мультимодальные модели NVIDIA для задач с изображениями.
Cosmos — модели для физического AI и симуляции; смежная с Nemotron область, но другая задача.
Mistral-NeMo-Minitron-8B — совместная разработка с Mistral, оптимизированная Nemotron-методами.
BioNeMo — линейка моделей для биотехнологий и фармы; не для общего применения.

Если ваша задача типовая текстовая — Nemotron Super 49B; нужен компактный edge-вариант — Nano или Minitron; нужны изображения — NVLM. Все компоненты совместимы по форматам и могут использоваться вместе в одном пайплайне.

FAQ

Что значит «Nemotron 3 Super»?

В каталоге NVIDIA на 2026 год официальное имя — Llama-3.3-Nemotron-Super-49B-v1. «3» относится к Llama 3.x, «Super» — к среднему размеру в линейке (Nano / Super / Ultra). В сообществе и старых публикациях встречается сокращение «Nemotron 3 Super» — это та же модель.

Поддерживает ли Nemotron русский язык?

Да, но это не профильная сильная сторона. Базовое качество русского — рабочее (можно использовать для чатов, простой генерации, классификации), но для сложного reasoning или творческой генерации на русском лучше смотреть на YandexGPT, GigaChat или DeepSeek.

Сколько VRAM нужно для запуска?

В Q4_K_M квантизации — около 24 GB VRAM (одна RTX 4090). В FP8 — около 50 GB (одна H100). В BF16 без квантизации — около 100 GB, нужны 2 карты A100 80GB или одна H200. На Apple Silicon с 64+ GB unified memory модель тоже запускается через llama.cpp/Ollama.

Чем Nemotron отличается от обычной Llama 3.3?

Nemotron Super — это файнтюн Llama 3.3 от NVIDIA с двумя ключевыми правками: специальная пост-тренировка под tool calling и structured output (что повышает надёжность в агентных сценариях) и режим reasoning через системный промпт. Базовая Llama 3.3 этого не делает «из коробки».

Можно ли использовать Nemotron в коммерческих продуктах?

Да, NVIDIA Open Model License разрешает коммерческое использование, включая встраивание в продукты и продажу API. Но обязательно прочитайте текст лицензии целиком — там есть оговорки про большие компании и допустимые сценарии. Это не Apache 2.0 в чистом виде.

Где взять веса?

Официально: на huggingface.co/nvidia (карточки моделей Nemotron) и на build.nvidia.com (NIM-контейнеры). GGUF-версии для Ollama / LM Studio публикуют сообщества — в первую очередь TheBloke/Bartowski на HuggingFace. Точные ссылки лучше брать с главной страницы модели на HF, потому что версии и теги обновляются.

Связанные материалы: Ollama vs LM Studio | DeepSeek: архитектура и бенчмарки | Ollama в каталоге | Llama