Рейтинг AI-моделей 2026

По данным Arena — крупнейшего независимого бенчмарка. 5 602 397 голосов, 330 моделей.

🥇

Claude Opus 4.6 (Thinking)

Anthropic

1502

11 801 голосов

🥈

Claude Opus 4.6

Anthropic

1501

12 546 голосов

🥉

Gemini 3.1 Pro Preview

Google

1493

14 677 голосов

Лидеры по компаниям

Anthropic

10 моделей в топ-30 · лучшая #1

1502

Google

5 моделей в топ-30 · лучшая #3

1493

OpenAI

5 моделей в топ-30 · лучшая #6

1485

xAI

4 моделей в топ-30 · лучшая #4

1492

Alibaba

2 моделей в топ-30 · лучшая #14

1464

ByteDance

1 моделей в топ-30 · лучшая #18

1462

Baidu

2 моделей в топ-30 · лучшая #25

1452

Moonshot

1 моделей в топ-30 · лучшая #22

1453

#	Модель	Компания	Arena Score	Голоса
1	Claude Opus 4.6 (Thinking)	Anthropic	1502	11 801
2	Claude Opus 4.6	Anthropic	1501	12 546
3	Gemini 3.1 Pro Preview	Google	1493	14 677
4	Grok 4.20 Beta	xAI	1492	7 396
5	Gemini 3 Pro	Google	1486	41 762
6	GPT-5.4 High	OpenAI	1485	4 965
7	GPT-5.2	OpenAI	1482	10 140
8	Grok 4.20 (Reasoning)	xAI	1481	4 504
9	Gemini 3 Flash	Google	1475	31 060
10	Claude Opus 4.5 (Thinking)	Anthropic	1474	37 036
11	Grok 4.1 (Thinking)	xAI	1472	43 930
12	Claude Opus 4.5	Anthropic	1469	41 976
13	Claude Sonnet 4.6	Anthropic	1465	9 843
14	Qwen 3.5 Max Preview	Alibaba	1464	4 252
15	GPT-5.3	OpenAI	1464	8 942
16	Gemini 3 Flash (Thinking)	Google	1463	27 448
17	GPT-5.4	OpenAI	1463	4 972
18	Dola Seed 2.0	ByteDance	1462	10 651
19	Grok 4.1	xAI	1461	47 757
20	GPT-5.1 High	OpenAI	1455	40 759
21	GLM-5	Z.ai (Zhipu)	1455	11 093
22	Kimi K2.5 (Thinking)	Moonshot	1453	16 262
23	Claude Sonnet 4.5	Anthropic	1453	53 556
24	Claude Sonnet 4.5 (Thinking)	Anthropic	1453	55 811
25	ERNIE 5.0	Baidu	1452	18 715
26	Qwen 3.5 397B (Open Source)	Alibaba	1452	10 431
27	ERNIE 5.0 Preview	Baidu	1450	9 857
28	Claude Opus 4.1 (Thinking)	Anthropic	1449	50 375
29	Gemini 2.5 Pro	Google	1448	103 317
30	Claude Opus 4.1	Anthropic	1447	78 224

Arena Score — ELO-рейтинг по результатам слепых сравнений. Пользователи выбирают лучший ответ из двух анонимных моделей.
Голоса — количество сравнений, в которых участвовала модель. Больше голосов = надёжнее оценка.
Thinking — модели с цепочкой рассуждений (chain-of-thought). Обычно лучше на сложных задачах.

Источник: arena.ai. Обновлено: 22 марта 2026 г..