Meta официально анонсировала Llama 4 — первую мультимодальную open-source модель от компании. Семейство включает две модели: Llama 4 Scout и Llama 4 Maverick, обе построены на архитектуре Mixture-of-Experts (MoE) и доступны для бесплатного скачивания.
Llama 4 Scout — рекорд контекста среди open-source
Llama 4 Scout использует 17 миллиардов активных параметров при общем объёме 109 миллиардов параметров (MoE). Главная особенность — окно контекста в 10 миллионов токенов, что является абсолютным рекордом среди open-source моделей.
- Мультимодальность — обрабатывает текст, изображения и видео в одном запросе
- Обошла GPT-4o и Gemini 2.0 Flash на большинстве мультимодальных бенчмарков
- Работает на одном узле с GPU H100 — не требует кластера для инференса
Llama 4 Maverick — лучшее соотношение цена/качество
Maverick — более мощная модель с 17 миллиардами активных параметров и 400 миллиардами общих параметров (MoE). По данным Meta, это лучшая open-source модель по соотношению цена/качество на сегодняшний день.
| Бенчмарк | Llama 4 Scout | Llama 4 Maverick | GPT-4o | Gemini 2.0 Flash |
|---|---|---|---|---|
| MMLU-Pro | 74.3% | 81.5% | 72.6% | 75.8% |
| Vision (MMMU) | 69.4% | 73.4% | 67.1% | 70.7% |
| Coding (LiveBench) | 52.3% | 60.5% | 49.7% | 55.2% |
| Long Context (RULER) | 94.8% | 91.2% | 78.4% | 83.1% |
Архитектура MoE — почему это важно
Mixture-of-Experts позволяет модели иметь огромное количество знаний (все параметры), но активировать только малую часть для каждого запроса. Это даёт:
- Скорость — инференс быстрее, чем у «плотных» моделей аналогичного размера
- Экономию памяти — Scout помещается в один GPU-узел при 109B общих параметров
- Качество — каждый «эксперт» специализируется на своей области знаний
Доступность и значение для России
Обе модели доступны для скачивания на Hugging Face и через llama.meta.com. Лицензия позволяет коммерческое использование.
- Для России — модели можно запустить локально без VPN и без зависимости от зарубежных API
- Для бизнеса — бесплатная альтернатива GPT-4o и Claude для мультимодальных задач
- Для разработчиков — контекст 10M токенов открывает возможности для анализа целых кодовых баз и длинных документов
Meta также анонсировала Llama 4 Behemoth — модель следующего поколения, которая всё ещё проходит обучение и будет выпущена позднее.