Google DeepMind представил инструментарий для измерения прогресса к Artificial General Intelligence (AGI) — не через привычные тесты вроде MMLU или HumanEval, а через 10 отдельных шкал когнитивной психологии.
Почему старые тесты не работают
Проблема бенчмарков в том, что модели их «решают», а не «понимают»:
- MMLU — можно запомнить ответы через датасет обучения (data contamination)
- HumanEval — задачи появились в интернете, модели видели решения
- ChatBotArena — субъективные предпочтения людей, не объективные способности
DeepMind решил пойти другим путём: взял когнитивные тесты из психологии человека, которые измеряют реальные способности разума.
10 шкал AGI-прогресса
| Шкала | Что измеряет | Лучшая модель сейчас |
|---|---|---|
| Fluid reasoning | Решение новых задач без опыта | Claude Opus 4.6: 71% |
| Working memory | Удержание и обработка информации | Gemini 3.0 Ultra: 78% |
| Causal reasoning | Понимание причин и следствий | GPT-5.1: 65% |
| Theory of Mind | Понимание мыслей других существ | Claude Opus 4.6: 69% |
| Analogical reasoning | Поиск скрытых закономерностей | Gemini 3.0: 72% |
| Metacognition | Знание о собственных ограничениях | Claude Sonnet: 61% |
| Generalisation | Перенос знаний на новые домены | GPT-5.1: 58% |
| Embodied cognition | Пространственное мышление | Gemini Vision: 74% |
| Social cognition | Социальные взаимодействия | Claude Opus: 67% |
| Continual learning | Обучение без забывания старого | Все модели: ~30% |
Где находятся модели относительно AGI
По совокупности шкал DeepMind:
- Человек = 100% по всем шкалам
- Лучшие модели (2026) = 60-78% на отдельных шкалах, ~55% в среднем
- AGI = условно 85%+ по всем шкалам устойчиво
- Оценочный срок по мнению DeepMind — 2028-2031
Самый слабый параметр — continual learning
Ни одна модель не умеет нормально учиться без забывания. После тонкой настройки на новую задачу модели «забывают» старые знания (catastrophic forgetting). Это главное препятствие до AGI.
🔬 Исследование опубликовано на arxiv. Тестирование проводилось на Claude, GPT-5, Gemini, Llama 4 и Qwen 3.