DeepMindAGIисследованиетренды

DeepMind создал первый научный тест для AGI — 10 шкал вместо датасетов

Google DeepMind представил инструментарий для измерения прогресса к Artificial General Intelligence (AGI) — не через привычные тесты вроде MMLU или HumanEval, а через 10 отдельных шкал когнитивной психологии.

Почему старые тесты не работают

Проблема бенчмарков в том, что модели их «решают», а не «понимают»:

  • MMLU — можно запомнить ответы через датасет обучения (data contamination)
  • HumanEval — задачи появились в интернете, модели видели решения
  • ChatBotArena — субъективные предпочтения людей, не объективные способности

DeepMind решил пойти другим путём: взял когнитивные тесты из психологии человека, которые измеряют реальные способности разума.

10 шкал AGI-прогресса

ШкалаЧто измеряетЛучшая модель сейчас
Fluid reasoningРешение новых задач без опытаClaude Opus 4.6: 71%
Working memoryУдержание и обработка информацииGemini 3.0 Ultra: 78%
Causal reasoningПонимание причин и следствийGPT-5.1: 65%
Theory of MindПонимание мыслей других существClaude Opus 4.6: 69%
Analogical reasoningПоиск скрытых закономерностейGemini 3.0: 72%
MetacognitionЗнание о собственных ограниченияхClaude Sonnet: 61%
GeneralisationПеренос знаний на новые доменыGPT-5.1: 58%
Embodied cognitionПространственное мышлениеGemini Vision: 74%
Social cognitionСоциальные взаимодействияClaude Opus: 67%
Continual learningОбучение без забывания старогоВсе модели: ~30%

Где находятся модели относительно AGI

По совокупности шкал DeepMind:

  • Человек = 100% по всем шкалам
  • Лучшие модели (2026) = 60-78% на отдельных шкалах, ~55% в среднем
  • AGI = условно 85%+ по всем шкалам устойчиво
  • Оценочный срок по мнению DeepMind — 2028-2031

Самый слабый параметр — continual learning

Ни одна модель не умеет нормально учиться без забывания. После тонкой настройки на новую задачу модели «забывают» старые знания (catastrophic forgetting). Это главное препятствие до AGI.

🔬 Исследование опубликовано на arxiv. Тестирование проводилось на Claude, GPT-5, Gemini, Llama 4 и Qwen 3.

Поделиться:

Другие новости

Новости AI каждый день в Telegram

Подписаться на @neiroscopru
ещё 3
Сравнить (0)