DeepMind создал первый научный тест для AGI — 10 шкал вместо датасетов

Google DeepMind представил инструментарий для измерения прогресса к Artificial General Intelligence (AGI) — не через привычные тесты вроде MMLU или HumanEval, а через 10 отдельных шкал когнитивной психологии.

Почему старые тесты не работают

Проблема бенчмарков в том, что модели их «решают», а не «понимают»:

MMLU — можно запомнить ответы через датасет обучения (data contamination)
HumanEval — задачи появились в интернете, модели видели решения
ChatBotArena — субъективные предпочтения людей, не объективные способности

DeepMind решил пойти другим путём: взял когнитивные тесты из психологии человека, которые измеряют реальные способности разума.

10 шкал AGI-прогресса

Шкала	Что измеряет	Лучшая модель сейчас
Fluid reasoning	Решение новых задач без опыта	Claude Opus 4.6: 71%
Working memory	Удержание и обработка информации	Gemini 3.0 Ultra: 78%
Causal reasoning	Понимание причин и следствий	GPT-5.1: 65%
Theory of Mind	Понимание мыслей других существ	Claude Opus 4.6: 69%
Analogical reasoning	Поиск скрытых закономерностей	Gemini 3.0: 72%
Metacognition	Знание о собственных ограничениях	Claude Sonnet: 61%
Generalisation	Перенос знаний на новые домены	GPT-5.1: 58%
Embodied cognition	Пространственное мышление	Gemini Vision: 74%
Social cognition	Социальные взаимодействия	Claude Opus: 67%
Continual learning	Обучение без забывания старого	Все модели: ~30%

Где находятся модели относительно AGI

По совокупности шкал DeepMind:

Человек = 100% по всем шкалам
Лучшие модели (2026) = 60-78% на отдельных шкалах, ~55% в среднем
AGI = условно 85%+ по всем шкалам устойчиво
Оценочный срок по мнению DeepMind — 2028-2031

Самый слабый параметр — continual learning

Ни одна модель не умеет нормально учиться без забывания. После тонкой настройки на новую задачу модели «забывают» старые знания (catastrophic forgetting). Это главное препятствие до AGI.

🔬 Исследование опубликовано на arxiv. Тестирование проводилось на Claude, GPT-5, Gemini, Llama 4 и Qwen 3.

DeepMind создал первый научный тест для AGI — 10 шкал вместо датасетов

Почему старые тесты не работают

10 шкал AGI-прогресса

Где находятся модели относительно AGI

Самый слабый параметр — continual learning

Другие новости

OpenAI убрала GPT-4o и превратила ChatGPT в супер-приложение

Google выпустил Gemma 4 — открытые модели от edge до дата-центров

Microsoft Copilot теперь использует несколько AI-моделей одновременно