Meta выпустила Llama 4 — мультимодальная open-source LLM с контекстом 10M токенов

Meta официально анонсировала Llama 4 — первую мультимодальную open-source модель от компании. Семейство включает две модели: Llama 4 Scout и Llama 4 Maverick, обе построены на архитектуре Mixture-of-Experts (MoE) и доступны для бесплатного скачивания.

Llama 4 Scout — рекорд контекста среди open-source

Llama 4 Scout использует 17 миллиардов активных параметров при общем объёме 109 миллиардов параметров (MoE). Главная особенность — окно контекста в 10 миллионов токенов, что является абсолютным рекордом среди open-source моделей.

Мультимодальность — обрабатывает текст, изображения и видео в одном запросе
Обошла GPT-4o и Gemini 2.0 Flash на большинстве мультимодальных бенчмарков
Работает на одном узле с GPU H100 — не требует кластера для инференса

Llama 4 Maverick — лучшее соотношение цена/качество

Maverick — более мощная модель с 17 миллиардами активных параметров и 400 миллиардами общих параметров (MoE). По данным Meta, это лучшая open-source модель по соотношению цена/качество на сегодняшний день.

Бенчмарк	Llama 4 Scout	Llama 4 Maverick	GPT-4o	Gemini 2.0 Flash
MMLU-Pro	74.3%	81.5%	72.6%	75.8%
Vision (MMMU)	69.4%	73.4%	67.1%	70.7%
Coding (LiveBench)	52.3%	60.5%	49.7%	55.2%
Long Context (RULER)	94.8%	91.2%	78.4%	83.1%

Архитектура MoE — почему это важно

Mixture-of-Experts позволяет модели иметь огромное количество знаний (все параметры), но активировать только малую часть для каждого запроса. Это даёт:

Скорость — инференс быстрее, чем у «плотных» моделей аналогичного размера
Экономию памяти — Scout помещается в один GPU-узел при 109B общих параметров
Качество — каждый «эксперт» специализируется на своей области знаний

Доступность и значение для России

Обе модели доступны для скачивания на Hugging Face и через llama.meta.com. Лицензия позволяет коммерческое использование.

Для России — модели можно запустить локально без VPN и без зависимости от зарубежных API
Для бизнеса — бесплатная альтернатива GPT-4o и Claude для мультимодальных задач
Для разработчиков — контекст 10M токенов открывает возможности для анализа целых кодовых баз и длинных документов

Meta также анонсировала Llama 4 Behemoth — модель следующего поколения, которая всё ещё проходит обучение и будет выпущена позднее.

Meta выпустила Llama 4 — мультимодальная open-source LLM с контекстом 10M токенов

Llama 4 Scout — рекорд контекста среди open-source

Llama 4 Maverick — лучшее соотношение цена/качество

Архитектура MoE — почему это важно

Доступность и значение для России

Другие новости

OpenAI убрала GPT-4o и превратила ChatGPT в супер-приложение

Google выпустил Gemma 4 — открытые модели от edge до дата-центров

Microsoft Copilot теперь использует несколько AI-моделей одновременно