Google Gemini 3.1 Flash-Lite: самая дешёвая модель для агентов

Google выпустил Gemini 3.1 Flash-Lite — обновление самой лёгкой модели в линейке Gemini. Формально это «минорное обновление», но +15% точности на ключевых бенчмарках и двукратное снижение цены делают Flash-Lite одной из самых интересных моделей для разработчиков AI-агентов. Разбираемся в деталях: бенчмарки, цены, для каких задач подходит и как использовать из России.

Что нового в Gemini 3.1 Flash-Lite

Flash-Lite — самая маленькая модель в линейке Gemini. Она предназначена для задач, где критичны скорость и стоимость: массовый инференс, автономные агенты, обработка больших объёмов данных, работа с длинным контекстом.

Ключевые улучшения

Параметр	Gemini 2.5 Flash-Lite	Gemini 3.1 Flash-Lite
MMLU-Pro	68.2	78.4 (+15%)
HumanEval	72.1	79.8 (+10.7%)
MATH	61.5	71.2 (+15.8%)
IFEval	78.3	85.1 (+8.7%)
BFCL (Tool Use)	80.1	87.5 (+9.2%)
Контекстное окно	1M токенов	2M токенов
Скорость (output)	~200 tok/s	~280 tok/s
Цена (input, 1M)	$0.075	$0.04
Цена (output, 1M)	$0.30	$0.15

+15% точности при снижении цены вдвое — это не типичное обновление. Google добился этого за счёт нескольких архитектурных улучшений: более эффективного attention-механизма, оптимизированного KV-cache и улучшенного post-training (RLHF + constitutional AI).

Бенчмарки: Flash-Lite vs конкуренты

Сравниваем с ключевыми «малыми» моделями 2026 года — теми, что используются для массового инференса и агентных задач:

Бенчмарк	Gemini 3.1 Flash-Lite	GPT-5.4 mini	Claude 4 Haiku	Mistral Small 3
MMLU-Pro	78.4	76.8	75.2	74.5
HumanEval	79.8	81.2	78.5	76.1
MATH	71.2	69.5	68.8	65.2
BFCL (Tool Use)	87.5	85.0	84.2	82.8
IFEval	85.1	83.7	86.0	81.5
MT-Bench (русский)	8.2	7.8	7.5	8.0
Скорость (tok/s)	280	250	300	320

Flash-Lite лидирует по общим знаниям (MMLU-Pro), математике (MATH) и Tool Use (BFCL). GPT-5.4 mini чуть лучше в коде (HumanEval). Claude 4 Haiku впереди по следованию инструкциям (IFEval). Mistral Small 3 самый быстрый, но уступает по качеству.

Почему Flash-Lite идеален для агентов

AI-агенты — автономные системы, которые выполняют цепочки действий: поиск → анализ → принятие решения → действие. Для агента критичны три параметра, и Flash-Lite попадает по всем трём:

1. Tool Use (вызов функций)

Агент должен уметь вызывать внешние инструменты: поисковые API, базы данных, калькуляторы. Flash-Lite набирает 87.5% на BFCL — лучший результат среди лёгких моделей. Для сравнения: полноразмерный GPT-4o набирает 92%.

2. Стоимость

Агент может сделать 10-50 вызовов модели для одной задачи. Если каждый вызов стоит $0.01, задача обходится в $0.10-0.50. Flash-Lite позволяет снизить стоимость в 5-10 раз по сравнению с полноразмерными моделями, делая агентов экономически жизнеспособными.

3. Скорость

280 токенов/сек — агент думает и действует быстрее, чем пользователь успевает заметить задержку. Для интерактивных агентов (чат-боты с инструментами, виртуальные ассистенты) это критично.

Сравнение цен API

Модель	Input (1M токенов)	Output (1M токенов)	Стоимость 1000 агентных задач*
Gemini 3.1 Flash-Lite	$0.04	$0.15	$1.90
GPT-5.4 mini	$0.15	$0.60	$7.50
Claude 4 Haiku	$0.25	$1.25	$15.00
Mistral Small 3	$0.10	$0.30	$4.00
Gemini 3.1 Flash	$0.15	$0.60	$7.50
GPT-4o	$2.50	$10.00	$125.00

* Оценка: 10 вызовов на задачу, ~1K input + 500 output токенов каждый

Flash-Lite — самая дешёвая модель в списке. 1000 агентных задач стоят $1.90 — в 4 раза дешевле GPT-5.4 mini и в 65 раз дешевле GPT-4o. При этом качество Flash-Lite на бенчмарках часто превосходит GPT-5.4 mini.

Контекстное окно 2M токенов

Flash-Lite получил контекстное окно в 2 миллиона токенов — это больше, чем у любой другой модели в этой ценовой категории. Для сравнения:

Модель	Контекст
Gemini 3.1 Flash-Lite	2M токенов
Claude 4 Haiku	200K токенов
GPT-5.4 mini	128K токенов
Mistral Small 3	128K токенов

2M токенов — это ~1 500 000 слов или ~3 000 страниц текста. Можно загрузить в модель целую книгу, большой код-репозиторий или месяц переписки, и модель сохранит контекст. Для агентов это означает: долгоживущие сессии без потери памяти.

Как использовать из России

Google AI Studio и Gemini API формально недоступны в России. Но есть несколько рабочих способов:

Через VPN + Google AI Studio

Самый простой способ. Подключаетесь через VPN к серверу в Европе или США, заходите на ai.google.dev, получаете бесплатный API-ключ. Бесплатный тариф: 15 запросов/мин, 1 500 запросов/день — достаточно для тестирования и небольших проектов.

Через Vertex AI

Для production-использования. Нужен Google Cloud аккаунт (можно зарегистрировать через зарубежную карту). Vertex AI предоставляет SLA, более высокие лимиты и enterprise-фичи. Цены те же, что в таблице выше.

Через прокси-сервисы

Существуют сервисы, предоставляющие доступ к Gemini API без VPN. Наценка обычно 20-50% от оригинальной цены. Удобно для тех, кто не хочет настраивать VPN, но дороже.

Через OpenRouter

OpenRouter — агрегатор AI-API, доступный из России без VPN. Поддерживает Gemini Flash-Lite, GPT-4o, Claude, Mistral и десятки других моделей через единый API. Наценка ~10-20%, но зато единый ключ для всех моделей.

Через российские агрегаторы

Для каких задач подходит

Идеально:

AI-агенты — лучшее соотношение цена/качество для автономных систем с вызовом инструментов. 87.5% на BFCL при $0.04/1M input — конкурентов нет.

Классификация и роутинг — определение намерения пользователя, маршрутизация запросов к нужной модели или сервису. Быстро, дёшево, точно.

Обработка больших документов — 2M контекст позволяет загрузить весь документ и извлечь нужную информацию без chunk-и-embedding-пайплайнов.

Массовая обработка — анализ тысяч отзывов, писем, тикетов. При $0.04/1M input обработка 10 000 документов стоит копейки.

Не подходит:

Креативное письмо — для длинных текстов, маркетинговых материалов и художественных текстов лучше Claude или ChatGPT. Flash-Lite оптимизирован под скорость, а не креативность.

Сложные рассуждения — для задач, требующих глубокого анализа (научные исследования, сложная математика, правовой анализ), лучше полноразмерные модели: Gemini Ultra, GPT-4o, Claude Opus.

Генерация изображений — Flash-Lite — текстовая модель. Для изображений используйте Midjourney, Stable Diffusion или Gemini с Imagen.

Gemini 3.1 Flash vs Flash-Lite: в чём разница

Параметр	Flash-Lite	Flash
Размер модели	~8B параметров	~25B параметров
MMLU-Pro	78.4	84.2
Цена (input)	$0.04/1M	$0.15/1M
Цена (output)	$0.15/1M	$0.60/1M
Скорость	280 tok/s	180 tok/s
Контекст	2M	2M
Мультимодальность	Текст + изображения	Текст + изображения + видео + аудио

Flash-Lite — для случаев, когда нужна максимальная скорость и минимальная цена. Flash — когда нужно чуть больше качества и мультимодальность (видео, аудио). Для чисто текстовых агентных задач Flash-Lite — оптимальный выбор.

FAQ

Gemini 3.1 Flash-Lite бесплатный?

Через Google AI Studio — да, с ограничениями (15 запросов/мин, 1 500/день). Для production-использования нужен платный тариф Vertex AI, но цены самые низкие на рынке: $0.04 за 1M входных токенов.

Flash-Lite лучше GPT-5.4 mini?

По бенчмаркам — да, на большинстве задач. Flash-Lite лидирует в MMLU-Pro (+1.6), MATH (+1.7), Tool Use (+2.5). GPT-5.4 mini чуть лучше в коде (HumanEval: 81.2 vs 79.8). По цене Flash-Lite дешевле в 3-4 раза.

Можно ли использовать Flash-Lite вместо GPT-4o?

Для простых задач (классификация, извлечение данных, роутинг, FAQ-боты) — да, и это будет в 65 раз дешевле. Для сложных задач (глубокий анализ, креативное письмо, сложный код) — нет, разница в качестве заметна.

Поддерживает ли Flash-Lite русский язык?

Да. На MT-Bench (русский) результат 8.2/10 — лучший среди лёгких моделей. Gemini исторически хорошо работает с русским благодаря мультиязычным обучающим данным Google.