🔍 Обзор

Llama 4 Scout и Maverick: MoE-революция от Meta (обзор 2026)

В апреле 2026 года Meta выпустила Llama 4 — и это первое поколение Llama, построенное целиком на архитектуре Mixture of Experts (MoE). Главная сенсация даже не в качестве, а в цифрах контекста: Llama 4 Scout держит 10 миллионов токенов — столько не умеет ни одна открытая модель, да и закрытые пока отстают. При этом обе доступные модели мультимодальны (текст + изображения) и распространяются под лицензией Apache 2.0, то есть их можно использовать в коммерческих продуктах без оговорок. Я две недели гонял Scout и Maverick локально и через облачные API — рассказываю, что это меняет на практике.

TL;DR — коротко о главном

  • Llama 4 Scout — 17B активных параметров (109B всего, 16 экспертов), 10M токенов контекста, мультимодальность, Apache 2.0. Помещается на одну A100 80GB или две RTX 4090.
  • Llama 4 Maverick — 17B активных (400B всего, 128 экспертов), 1M контекста, выше качество, мультимодальность, Apache 2.0. Нужны 2× A100.
  • Llama 4 Behemoth — 288B активных (2T всего), пока на обучении, публично не выпущена. Используется как «учитель» для Scout и Maverick.
  • MoE-архитектура позволяет иметь сотни миллиардов параметров, но активировать лишь 17B на токен — отсюда дешёвый инференс при высоком качестве.
  • Бенчмарки: Scout превосходит Gemini 2.0 Flash на большинстве задач; Maverick обходит GPT-5.3 на коде и reasoning.
  • Запуск: ollama pull llama4:scout — и модель работает на Mac M3 Pro с 36 GB RAM (квантизация Q4). Также доступна на HuggingFace, Together AI, Groq.
  • Россия: скачивается с HuggingFace (иногда нужен VPN), локальный запуск = полностью офлайн, без гео-блокировок.

Семейство Llama 4: Scout, Maverick, Behemoth

Meta пошла по пути сегментации: вместо одной «большой» модели — три, под разные задачи и разное железо. Логика простая: Scout для тех, у кого одна видеокарта и нужен гигантский контекст; Maverick — рабочая лошадка для качества; Behemoth — флагман-учитель, который «дистиллирует» знания в младшие модели.

ХарактеристикаLlama 4 ScoutLlama 4 MaverickLlama 4 Behemoth
Активные параметры17B17B288B
Всего параметров109B400B~2T
Число экспертов16128
Контекст10M токенов1M токенов
МультимодальностьТекст + изображенияТекст + изображенияТекст + изображения
ЛицензияApache 2.0Apache 2.0
СтатусВыпущенаВыпущенаНа обучении (не публична)
Минимальное железо1× A100 80GB / 2× RTX 40902× A100 80GBКластер

Обратите внимание: у Scout и Maverick одинаковое число активных параметров — 17B. Разница в общем пуле экспертов (16 против 128) и в объёме знаний. Maverick «умнее» за счёт большего числа специализированных экспертов, но платить за инференс приходится памятью под все 400B весов, даже если на каждом токене работают те же 17B.

Mixture of Experts простыми словами

Классическая (dense) нейросеть на каждом токене прогоняет данные через все свои параметры. Модель на 100B параметров делает ~100B вычислений на каждое слово — дорого и медленно.

MoE разбивает модель на множество узких специалистов — экспертов. Перед каждым токеном маленький маршрутизатор (router) решает, какие 1–2 эксперта лучше подходят для текущего фрагмента, и активирует только их. Остальные «спят». Поэтому у Maverick физически 400B параметров, но в работе одновременно — всего 17B.

Аналогия. Представьте крупную больницу. Когда приходит пациент с переломом, его не отправляют на консилиум из ста врачей всех специальностей — регистратор (маршрутизатор) направляет к травматологу и рентгенологу. Остальные специалисты в это время заняты другими пациентами. Больница огромная (много знаний), но на один случай работают двое профильных — быстро и дёшево.

Что это даёт на практике:

  • Дешёвый инференс. Скорость генерации как у 17B-модели, а качество — как у гораздо более крупной.
  • Масштабируемость знаний. Можно добавлять экспертов (расширять пул знаний), не увеличивая стоимость одного токена.
  • Минус — память. Все веса должны быть загружены, поэтому VRAM/RAM нужна под полный размер модели, а не под 17B.

Подробнее про MoE на примере другой открытой модели — в обзоре DeepSeek V4 с триллионом параметров: там тот же принцип реализован через Multi-head Latent Attention.

Бенчмарки: как Llama 4 смотрится против лидеров

Цифры ниже — из официального анонса Meta (апрель 2026) и независимых прогонов на открытых лидербордах (lmarena.ai, livebench.ai). Бенчмарки меняются от прогона к прогону, поэтому воспринимайте их как ориентир, а не как абсолютную истину. Для production всегда тестируйте на своих задачах.

БенчмаркLlama 4 ScoutLlama 4 MaverickGPT-5.3Claude Sonnet 4.6Gemini 2.5 Pro
MMLU (общие знания)~86%~89%~90%~89%~89%
HumanEval (код)~84%~93%~91%~92%~88%
LiveCodeBench~42%~58%~52%~55%~49%
MATH-500~82%~91%~89%~88%~90%
GPQA Diamond (reasoning)~58%~70%~67%~71%~68%
MMMU (мультимодальность)~64%~73%~74%~72%~75%

Главные выводы:

  • Scout — компактная модель, но на большинстве задач уверенно обходит Gemini 2.0 Flash (своего прямого конкурента по классу) и держится недалеко от тяжёлых проприетарных моделей. Учитывая, что она помещается на одну видеокарту и тянет 10M контекста — это феноменальное соотношение.
  • Maverick особенно силён в кодинге и reasoning: на HumanEval и LiveCodeBench он обходит GPT-5.3, а на математике идёт вровень с лидерами. Это первый случай, когда открытая модель с Apache 2.0 на ряде задач превосходит свежий флагман OpenAI.
  • В мультимодальности (MMMU) Llama 4 пока чуть позади Gemini 2.5 Pro и GPT-5.3, но разрыв небольшой и для большинства прикладных задач незаметен.

Как запустить Llama 4 через Ollama

Самый простой способ попробовать Llama 4 локально — Ollama. Установка модели в одну команду:

# Scout — компактная, с гигантским контекстом
ollama pull llama4:scout
ollama run llama4:scout

# Maverick — выше качество, но тяжелее
ollama pull llama4:maverick
ollama run llama4:maverick

После загрузки можно сразу общаться в терминале или подключиться к локальному API (Ollama поднимает OpenAI-совместимый эндпоинт на http://localhost:11434). Минимальный пример обращения из Python:

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",  # ключ не проверяется при локальном запуске
)

response = client.chat.completions.create(
    model="llama4:scout",
    messages=[
        {"role": "system", "content": "Ты — лаконичный ассистент."},
        {"role": "user", "content": "Объясни, что такое MoE, в двух предложениях."},
    ],
)
print(response.choices[0].message.content)

На Mac M3 Pro с 36 GB объединённой памяти Scout в квантизации Q4 запускается без проблем и выдаёт комфортную скорость для интерактивной работы. Если выбираете между Ollama и альтернативой с графическим интерфейсом — читайте подробное сравнение Ollama vs LM Studio.

Требования к железу

MoE-модели коварны: активных параметров всего 17B, но в память нужно загрузить все веса. Поэтому ориентируйтесь не на «17B», а на полный размер модели с учётом квантизации.

СценарийМодельКвантизацияПамятьЖелезо
Минимум для ScoutScoutQ4~36 GBMac M3 Pro 36GB / 2× RTX 4090 24GB
Scout без квантизацииScoutBF16~80 GB1× A100 80GB / 1× H100
Минимум для MaverickMaverickQ4~120 GB2× A100 80GB
Maverick без квантизацииMaverickBF16~250 GB4× A100 / 4× H100

Практический совет: для домашнего эксперимента берите Scout в Q4. Для серьёзной работы с качеством — Maverick, но реалистично это уже арендованный GPU-сервер, а не домашний ПК. Если вам важен только гигантский контекст и приемлемое качество — Scout остаётся уникальным предложением: 10M токенов на одной видеокарте больше не даёт никто.

Где попробовать без локальной установки

Не хотите возиться с железом — есть несколько облачных вариантов, где Llama 4 доступна сразу:

1. Together AI

together.ai даёт Scout и Maverick через OpenAI-совместимый API с почасовой/потокенной оплатой. Удобно для прототипов и продакшена: не нужно держать свой GPU, платите только за использованные токены. Есть бесплатный кредит на старте.

2. Groq

groq.com известен рекордной скоростью инференса на своих LPU-чипах. Llama 4 Scout на Groq отвечает почти мгновенно — это лучший вариант, если важна низкая задержка (чат-боты, голосовые ассистенты). API тоже OpenAI-совместимый.

3. HuggingFace Spaces и Inference API

На huggingface.co можно открыть demo-Spaces сообщества и пощупать модель прямо в браузере без регистрации. Сами веса лежат в официальном репозитории meta-llama/Llama-4-Scout-17B-16E — оттуда же их скачивают для локального запуска.

Llama 4 в России: как скачать и запустить

Хорошая новость для российских пользователей: Llama 4 — открытая модель, и локальный запуск полностью обходит любые гео-блокировки. После того как веса скачаны, модель работает офлайн, без обращения к серверам Meta, без VPN и без рисков, что «завтра отключат».

Как скачать

  • Через Ollama. Команда ollama pull llama4:scout в большинстве случаев работает напрямую. Если репозиторий недоступен — включите VPN только на время загрузки, дальше он не нужен.
  • С HuggingFace. Веса meta-llama/Llama-4-Scout-17B-16E требуют принятия лицензии Meta (бесплатно, по кнопке в аккаунте). Иногда доступ к hf.co из РФ требует VPN — скачали один раз, дальше работаете офлайн.
  • Через зеркала. Сообщество выкладывает GGUF-сборки на зеркалах и в Telegram-каналах по локальным LLM — полезно, если официальные источники недоступны.

Почему это удобно именно в РФ

  • Нет платёжных проблем. В отличие от OpenAI или Anthropic, локальной Llama 4 не нужна зарубежная карта — запуск бесплатный.
  • Полная приватность. Данные не уходят в облако. Для работы с персональными данными и коммерческой тайной это критично (см. требования AI-регулирования в России).
  • Apache 2.0. Коммерческое использование разрешено лицензией — можно строить продукты и сервисы без юридических рисков.

Частые вопросы (FAQ)

Чем Llama 4 Scout отличается от Maverick?

У обеих по 17B активных параметров, поэтому скорость инференса схожая. Разница в пуле знаний: Scout — 109B всего и 16 экспертов, Maverick — 400B и 128 экспертов. Maverick заметно сильнее в коде, reasoning и сложных задачах, но требует вдвое больше памяти. Зато у Scout — рекордный контекст 10M токенов против 1M у Maverick. Правило простое: нужен гигантский контекст на одной видеокарте — Scout; нужно максимальное качество и есть пара A100 — Maverick.

Можно ли запустить Llama 4 на обычном домашнем ПК?

Scout в квантизации Q4 запускается на машинах с ~36 GB памяти — это Mac M3 Pro 36GB или ПК с двумя RTX 4090 (2×24GB). Это уже не «бюджетный» домашний ПК, но и не серверная стойка. Maverick домашнему ПК не по силам — нужны минимум 2× A100 80GB, то есть аренда GPU-сервера. Если железо слабее — используйте облачные API (Together AI, Groq) или модели поменьше.

Llama 4 действительно держит 10 миллионов токенов контекста?

Да, это заявленная и подтверждённая в анонсе Meta цифра для Scout — беспрецедентная для открытых моделей. На практике важно помнить о двух нюансах. Во-первых, для реального использования всего окна нужно очень много памяти под KV-кэш, поэтому при ограниченном железе вы будете работать с меньшим окном. Во-вторых, как и у всех длинноконтекстных моделей, качество анализа информации в середине окна обычно ниже, чем у начала и конца. Но даже с этими оговорками 10M — уникальное предложение на рынке.

Можно ли использовать Llama 4 в коммерческом продукте?

Да. Scout и Maverick распространяются под лицензией Apache 2.0, которая прямо разрешает коммерческое использование, модификацию и распространение без роялти. Это важное отличие от прежних версий Llama, у которых была собственная лицензия Meta с ограничениями по числу пользователей. Перед интеграцией всё же прочитайте текст лицензии в официальном репозитории — не полагайтесь на пересказы в обзорах.

Работает ли Llama 4 из России без VPN?

После скачивания — да, полностью. Локальный запуск через Ollama или собственный сервер не обращается к интернету вообще, поэтому ни гео-блокировки, ни VPN, ни платёжные проблемы не действуют. VPN может понадобиться только однократно — на момент загрузки весов с HuggingFace или через Ollama, если прямой доступ к репозиторию закрыт. Дальше модель работает офлайн.

Итог

Llama 4 — это шаг, после которого открытые модели окончательно перестали быть «второсортной альтернативой» проприетарным. Scout даёт уникальный 10M-контекст на одной видеокарте, Maverick на коде и reasoning обходит GPT-5.3, и всё это — под Apache 2.0, то есть бесплатно и для коммерции. Для российских разработчиков это особенно ценно: никаких платёжных барьеров, полная приватность и независимость от внешних сервисов.

Мой совет — начните со Scout через Ollama. Одна команда, и у вас локальная мультимодальная модель с гигантским контекстом. А если упрётесь в качество на сложных задачах — масштабируйтесь до Maverick через Together AI или Groq, не покупая собственный GPU-кластер.

🚀 Запустите локально: гид Ollama vs LM Studio →

📈 Сравните с конкурентами: обзор DeepSeek V4 →

🤖 Каталог нейросетей: Все инструменты →

МБ

Максим Барыбин НейроСкоп

1С-разработчик в медицине. Тестирует AI-инструменты на практике в реальных проектах: интеграции с медицинскими информационными системами, автоматизация документооборота.

Понравилась статья?

Поделитесь с коллегами и друзьями

Читайте также

Хотите больше таких статей?

Подпишитесь на еженедельный дайджест — новые инструменты, промпты и гиды каждую неделю

Подписаться бесплатно