MiniMaxLLMкодself-improvement

MiniMax M2.7: модель улучшила себя сама и взяла 56% на SWE-Pro

MiniMax выпустил M2.7 — модель, которая участвовала в собственной доработке через RL-петли и агентные сценарии. Результат: 56.22% на SWE-Pro (сложные инженерные задачи в реальных репозиториях) и освоение 40+ технических навыков.

Что такое Self-Improvement в AI

Обычно модели обучают инженеры: собирают датасеты, запускают RLHF, делают fine-tuning. M2.7 пошёл дальше — модель сама генерировала задания, решала их, оценивала ошибки и перепроверяла решения через агентные петли (Reinforcement Learning loops).

  • RL-петли — модель получает обратную связь от среды, а не только от людей
  • Агентные сценарии — M2.7 действовал как программист: читал код, запускал тесты, исправлял ошибки
  • 40+ сложных навыков — модель освоила их самостоятельно, без разметки датасетов вручную

Результаты на бенчмарках

БенчмаркM2.7Claude Opus 4.6GPT-5.1
SWE-Pro (сложный код)56.22%53.8%50.1%
SWE-Bench Verified82.4%83.1%79.2%
Math (AIME 2025)91.3%88.7%92.1%

Почему self-improvement — это прорыв

Это первый шаг к рекурсивному самосовершенствованию — когда AI улучшает AI без участия человека на каждом шаге. Пока речь только о коде и инженерных задачах. Но направление задано.

  • Для разработчиков — модель лучше понимает реальные кодовые базы, а не только учебные примеры
  • Для бизнеса — автоматизация не абстрактных, а реальных рабочих задач программистов
  • Для исследователей — подтверждение, что RL-петли масштабируются лучше, чем human feedback

Доступность

🇷🇺 Из России: API доступен на minimax.io без VPN. Веса на Hugging Face.

💰 Цена: ~$0.80/1M токенов — дешевле Claude в 18 раз при сопоставимом качестве кода.

🔗 Попробовать: MiniMax в каталоге НейроСкоп →

Поделиться:

Другие новости

Новости AI каждый день в Telegram

Подписаться на @neiroscopru
ещё 3
Сравнить (0)