MiniMax выпустил M2.7 — модель, которая участвовала в собственной доработке через RL-петли и агентные сценарии. Результат: 56.22% на SWE-Pro (сложные инженерные задачи в реальных репозиториях) и освоение 40+ технических навыков.
Что такое Self-Improvement в AI
Обычно модели обучают инженеры: собирают датасеты, запускают RLHF, делают fine-tuning. M2.7 пошёл дальше — модель сама генерировала задания, решала их, оценивала ошибки и перепроверяла решения через агентные петли (Reinforcement Learning loops).
- RL-петли — модель получает обратную связь от среды, а не только от людей
- Агентные сценарии — M2.7 действовал как программист: читал код, запускал тесты, исправлял ошибки
- 40+ сложных навыков — модель освоила их самостоятельно, без разметки датасетов вручную
Результаты на бенчмарках
| Бенчмарк | M2.7 | Claude Opus 4.6 | GPT-5.1 |
|---|---|---|---|
| SWE-Pro (сложный код) | 56.22% | 53.8% | 50.1% |
| SWE-Bench Verified | 82.4% | 83.1% | 79.2% |
| Math (AIME 2025) | 91.3% | 88.7% | 92.1% |
Почему self-improvement — это прорыв
Это первый шаг к рекурсивному самосовершенствованию — когда AI улучшает AI без участия человека на каждом шаге. Пока речь только о коде и инженерных задачах. Но направление задано.
- Для разработчиков — модель лучше понимает реальные кодовые базы, а не только учебные примеры
- Для бизнеса — автоматизация не абстрактных, а реальных рабочих задач программистов
- Для исследователей — подтверждение, что RL-петли масштабируются лучше, чем human feedback
Доступность
🇷🇺 Из России: API доступен на minimax.io без VPN. Веса на Hugging Face.
💰 Цена: ~$0.80/1M токенов — дешевле Claude в 18 раз при сопоставимом качестве кода.
🔗 Попробовать: MiniMax в каталоге НейроСкоп →