Open Source модели за последние два года совершили невероятный скачок. В 2024 году они заметно уступали GPT-4, а в 2026 — лучшие из них конкурируют с коммерческими гигантами. В этом рейтинге — 10 лучших открытых моделей, которые можно скачать и запустить бесплатно.
Критерии оценки
Каждую модель мы оценивали по пяти параметрам:
- Общий интеллект — MMLU, HellaSwag, ARC (стандартные бенчмарки)
- Код — HumanEval, MBPP
- Математика — GSM8K, MATH
- Русский язык — собственное тестирование: грамматика, стилистика, понимание контекста
- Эффективность — качество на единицу вычислительных ресурсов
Сводная таблица бенчмарков
| Модель | Параметры | MMLU | HumanEval | GSM8K | Русский | VRAM (Q4) |
|---|---|---|---|---|---|---|
| Llama 3.2 70B | 70B | 86.0 | 81.7 | 93.0 | 9/10 | 40 ГБ |
| Qwen 2.5 72B | 72B | 85.3 | 86.4 | 91.6 | 9/10 | 42 ГБ |
| DeepSeek V3 | 671B MoE | 87.1 | 82.6 | 91.4 | 8/10 | ~80 ГБ |
| Mistral Large 2 | 123B | 84.0 | 78.5 | 91.2 | 8/10 | 70 ГБ |
| Gemma 2 27B | 27B | 78.1 | 64.4 | 85.7 | 7/10 | 16 ГБ |
| Llama 3.2 8B | 8B | 73.0 | 62.2 | 84.5 | 8/10 | 6 ГБ |
| Qwen 2.5 7B | 7B | 74.2 | 75.6 | 85.3 | 8/10 | 6 ГБ |
| Mistral 7B v0.3 | 7B | 72.7 | 60.1 | 78.2 | 7/10 | 6 ГБ |
| Phi-3 Medium | 14B | 78.0 | 62.0 | 89.7 | 6/10 | 10 ГБ |
| DeepSeek Coder V2 | 16B | 73.8 | 90.2 | 82.3 | 7/10 | 10 ГБ |
1. Llama 3.2 (Meta)
Флагманская серия от Meta, де-факто стандарт Open Source LLM. Доступна в размерах 1B, 3B, 8B, 70B и 405B. Версия 3.2 добавила мультимодальность (работа с изображениями) и значительно улучшила качество на малых моделях.
Сильные стороны: отличный русский язык, сильное следование инструкциям, огромная экосистема fine-tune моделей.
Слабые стороны: лицензия запрещает использование компаниями с 700M+ пользователями.
# Запуск через Ollama
ollama run llama3.2 # 8B
ollama run llama3.2:70b # 70B
2. Qwen 2.5 (Alibaba)
Серия моделей от Alibaba Cloud, которая тихо стала одной из лучших. Доступна в размерах 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B. Лицензия Apache 2.0 — полностью свободное использование.
Сильные стороны: лучшие в классе показатели на коде (особенно Qwen 2.5 Coder), отличный русский, поддержка длинного контекста до 128K токенов.
Слабые стороны: иногда «китайский акцент» в стилистике текста.
# Запуск через Ollama
ollama run qwen2.5 # 7B
ollama run qwen2.5:72b # 72B
ollama run qwen2.5-coder # Специализация: код
3. DeepSeek V3
Революционная модель с архитектурой Mixture of Experts (MoE): 671B параметров, но активируются только 37B за каждый запрос. Результат — качество на уровне GPT-4o при значительно меньших вычислительных затратах.
Сильные стороны: качество на уровне GPT-4o, архитектура MoE делает инференс эффективным, сильная математика.
Слабые стороны: требует много VRAM даже в квантизованном виде, ограниченная поддержка русского.
# Запуск через Ollama (нужно ~80 ГБ VRAM или мощный CPU)
ollama run deepseek-v3
4. Mistral Large 2 (Mistral AI)
Французская модель на 123B параметров. Mistral AI известны инженерной эффективностью: их модели стабильно показывают лучшее соотношение качества к размеру.
Сильные стороны: отличные рассуждения, хороший европейский мультиязычный корпус (включая русский), function calling.
Слабые стороны: лицензия не полностью открытая для коммерческого использования.
ollama run mistral-large
5. Gemma 2 (Google)
Серия от Google в размерах 2B, 9B, 27B. Отличается высоким качеством при компактном размере — 27B модель конкурирует с 70B конкурентами.
Сильные стороны: впечатляющее качество для своего размера, хорошая математика, лицензия позволяет коммерческое использование.
Слабые стороны: русский язык слабее, чем у Llama/Qwen, нет очень больших моделей.
ollama run gemma2 # 9B
ollama run gemma2:27b # 27B
6. Phi-3 (Microsoft)
Серия «малых, но умных» моделей от Microsoft. Phi-3 Mini (3.8B) показывает результаты на уровне моделей в 3–5 раз больше. Phi-3 Medium (14B) конкурирует с Llama 3.1 70B в математике.
Сильные стороны: невероятная эффективность, отличная математика, работает на слабом железе.
Слабые стороны: слабый русский язык, ограниченное окно контекста, хуже в креативных задачах.
ollama run phi3 # 3.8B Mini
ollama run phi3:medium # 14B Medium
7. DeepSeek Coder V2
Специализированная модель для кода от DeepSeek. 16B параметров, но на HumanEval обходит модели в 5 раз больше. Поддерживает 338 языков программирования.
Сильные стороны: лучшая открытая модель для кода, поддержка огромного количества ЯП, Fill-in-Middle.
Слабые стороны: узкая специализация — хуже для общих задач.
ollama run deepseek-coder-v2
Лучшие модели по задачам
Лучшая для русского языка
Qwen 2.5 72B — обученная на большом мультиязычном корпусе, стабильно выдаёт грамотный русский текст. На втором месте — Llama 3.2 70B.
Лучшая для кода
DeepSeek Coder V2 для специализированных задач, Qwen 2.5 Coder 32B для баланса кода и общих задач.
Лучшая для рассуждений
DeepSeek V3 — показывает результаты на уровне GPT-4o в сложных логических задачах. Для бюджетного варианта — Qwen 2.5 32B.
Лучшая для слабого железа
Phi-3 Mini 3.8B — удивительное качество для 3 ГБ VRAM. Для русского — Llama 3.2 3B.
Лучшая для креативного письма
Llama 3.2 70B — наиболее «человечный» стиль среди открытых моделей.
Как скачать и запустить
Все модели доступны на Hugging Face в формате GGUF (для llama.cpp/Ollama) и в оригинальных форматах (для Transformers). Самый простой способ — через Ollama:
# Установить Ollama
curl -fsSL https://ollama.com/install.sh | sh
# Скачать и запустить любую модель из рейтинга
ollama run llama3.2
ollama run qwen2.5:72b
ollama run deepseek-coder-v2
ollama run gemma2:27b
ollama run phi3:medium
ollama run mistral
Тренды 2026
- MoE становится стандартом — после успеха DeepSeek V3 другие лаборатории переходят на архитектуру Mixture of Experts
- Малые модели умнеют — Phi-3 доказала, что качество данных важнее размера модели
- Мультимодальность — Llama 3.2 и Qwen 2.5 VL умеют работать с изображениями
- Длинный контекст — стандартом становится 128K–1M токенов
- Специализация — отдельные модели для кода, математики, медицины, права
FAQ
Open Source модели хуже ChatGPT?
В 2026 году — уже нет. DeepSeek V3 и Llama 3.2 405B конкурируют с GPT-4o в большинстве бенчмарков. Для 90% задач разница незаметна.
Можно ли использовать эти модели коммерчески?
Зависит от лицензии. Qwen 2.5 (Apache 2.0) и Gemma 2 — без ограничений. Llama 3.2 — бесплатна для компаний до 700M пользователей. Mistral Large — нужна коммерческая лицензия для продакшена.
Какую модель выбрать новичку?
Начните с Llama 3.2 8B через Ollama — хороший баланс качества, скорости и совместимости с любым железом от 6 ГБ VRAM.