⚖️ Сравнение11 мин26 марта 2026 г.

Google Gemini 3.1 Flash-Lite: самая дешёвая модель для агентов

Обзор Google Gemini 3.1 Flash-Lite — +15% точности, вдвое дешевле. Бенчмарки, сравнение с GPT-5.4 mini, Claude Haiku, Mistral Small. Цены API.

Google выпустил Gemini 3.1 Flash-Lite — обновление самой лёгкой модели в линейке Gemini. Формально это «минорное обновление», но +15% точности на ключевых бенчмарках и двукратное снижение цены делают Flash-Lite одной из самых интересных моделей для разработчиков AI-агентов. Разбираемся в деталях: бенчмарки, цены, для каких задач подходит и как использовать из России.

Что нового в Gemini 3.1 Flash-Lite

Flash-Lite — самая маленькая модель в линейке Gemini. Она предназначена для задач, где критичны скорость и стоимость: массовый инференс, автономные агенты, обработка больших объёмов данных, работа с длинным контекстом.

Ключевые улучшения

ПараметрGemini 2.5 Flash-LiteGemini 3.1 Flash-Lite
MMLU-Pro68.278.4 (+15%)
HumanEval72.179.8 (+10.7%)
MATH61.571.2 (+15.8%)
IFEval78.385.1 (+8.7%)
BFCL (Tool Use)80.187.5 (+9.2%)
Контекстное окно1M токенов2M токенов
Скорость (output)~200 tok/s~280 tok/s
Цена (input, 1M)$0.075$0.04
Цена (output, 1M)$0.30$0.15

+15% точности при снижении цены вдвое — это не типичное обновление. Google добился этого за счёт нескольких архитектурных улучшений: более эффективного attention-механизма, оптимизированного KV-cache и улучшенного post-training (RLHF + constitutional AI).

Бенчмарки: Flash-Lite vs конкуренты

Сравниваем с ключевыми «малыми» моделями 2026 года — теми, что используются для массового инференса и агентных задач:

БенчмаркGemini 3.1 Flash-LiteGPT-5.4 miniClaude 4 HaikuMistral Small 3
MMLU-Pro78.476.875.274.5
HumanEval79.881.278.576.1
MATH71.269.568.865.2
BFCL (Tool Use)87.585.084.282.8
IFEval85.183.786.081.5
MT-Bench (русский)8.27.87.58.0
Скорость (tok/s)280250300320

Flash-Lite лидирует по общим знаниям (MMLU-Pro), математике (MATH) и Tool Use (BFCL). GPT-5.4 mini чуть лучше в коде (HumanEval). Claude 4 Haiku впереди по следованию инструкциям (IFEval). Mistral Small 3 самый быстрый, но уступает по качеству.

Почему Flash-Lite идеален для агентов

AI-агенты — автономные системы, которые выполняют цепочки действий: поиск → анализ → принятие решения → действие. Для агента критичны три параметра, и Flash-Lite попадает по всем трём:

1. Tool Use (вызов функций)

Агент должен уметь вызывать внешние инструменты: поисковые API, базы данных, калькуляторы. Flash-Lite набирает 87.5% на BFCL — лучший результат среди лёгких моделей. Для сравнения: полноразмерный GPT-4o набирает 92%.

2. Стоимость

Агент может сделать 10-50 вызовов модели для одной задачи. Если каждый вызов стоит $0.01, задача обходится в $0.10-0.50. Flash-Lite позволяет снизить стоимость в 5-10 раз по сравнению с полноразмерными моделями, делая агентов экономически жизнеспособными.

3. Скорость

280 токенов/сек — агент думает и действует быстрее, чем пользователь успевает заметить задержку. Для интерактивных агентов (чат-боты с инструментами, виртуальные ассистенты) это критично.

Сравнение цен API

МодельInput (1M токенов)Output (1M токенов)Стоимость 1000 агентных задач*
Gemini 3.1 Flash-Lite$0.04$0.15$1.90
GPT-5.4 mini$0.15$0.60$7.50
Claude 4 Haiku$0.25$1.25$15.00
Mistral Small 3$0.10$0.30$4.00
Gemini 3.1 Flash$0.15$0.60$7.50
GPT-4o$2.50$10.00$125.00

* Оценка: 10 вызовов на задачу, ~1K input + 500 output токенов каждый

Flash-Lite — самая дешёвая модель в списке. 1000 агентных задач стоят $1.90 — в 4 раза дешевле GPT-5.4 mini и в 65 раз дешевле GPT-4o. При этом качество Flash-Lite на бенчмарках часто превосходит GPT-5.4 mini.

Контекстное окно 2M токенов

Flash-Lite получил контекстное окно в 2 миллиона токенов — это больше, чем у любой другой модели в этой ценовой категории. Для сравнения:

МодельКонтекст
Gemini 3.1 Flash-Lite2M токенов
Claude 4 Haiku200K токенов
GPT-5.4 mini128K токенов
Mistral Small 3128K токенов

2M токенов — это ~1 500 000 слов или ~3 000 страниц текста. Можно загрузить в модель целую книгу, большой код-репозиторий или месяц переписки, и модель сохранит контекст. Для агентов это означает: долгоживущие сессии без потери памяти.

Как использовать из России

Google AI Studio и Gemini API формально недоступны в России. Но есть несколько рабочих способов:

Через VPN + Google AI Studio

Самый простой способ. Подключаетесь через VPN к серверу в Европе или США, заходите на ai.google.dev, получаете бесплатный API-ключ. Бесплатный тариф: 15 запросов/мин, 1 500 запросов/день — достаточно для тестирования и небольших проектов.

Через Vertex AI

Для production-использования. Нужен Google Cloud аккаунт (можно зарегистрировать через зарубежную карту). Vertex AI предоставляет SLA, более высокие лимиты и enterprise-фичи. Цены те же, что в таблице выше.

Через прокси-сервисы

Существуют сервисы, предоставляющие доступ к Gemini API без VPN. Наценка обычно 20-50% от оригинальной цены. Удобно для тех, кто не хочет настраивать VPN, но дороже.

Через OpenRouter

OpenRouter — агрегатор AI-API, доступный из России без VPN. Поддерживает Gemini Flash-Lite, GPT-4o, Claude, Mistral и десятки других моделей через единый API. Наценка ~10-20%, но зато единый ключ для всех моделей.

Для каких задач подходит

Идеально:

AI-агенты — лучшее соотношение цена/качество для автономных систем с вызовом инструментов. 87.5% на BFCL при $0.04/1M input — конкурентов нет.

Классификация и роутинг — определение намерения пользователя, маршрутизация запросов к нужной модели или сервису. Быстро, дёшево, точно.

Обработка больших документов — 2M контекст позволяет загрузить весь документ и извлечь нужную информацию без chunk-и-embedding-пайплайнов.

Массовая обработка — анализ тысяч отзывов, писем, тикетов. При $0.04/1M input обработка 10 000 документов стоит копейки.

Не подходит:

Креативное письмо — для длинных текстов, маркетинговых материалов и художественных текстов лучше Claude или ChatGPT. Flash-Lite оптимизирован под скорость, а не креативность.

Сложные рассуждения — для задач, требующих глубокого анализа (научные исследования, сложная математика, правовой анализ), лучше полноразмерные модели: Gemini Ultra, GPT-4o, Claude Opus.

Генерация изображений — Flash-Lite — текстовая модель. Для изображений используйте Midjourney, Stable Diffusion или Gemini с Imagen.

Gemini 3.1 Flash vs Flash-Lite: в чём разница

ПараметрFlash-LiteFlash
Размер модели~8B параметров~25B параметров
MMLU-Pro78.484.2
Цена (input)$0.04/1M$0.15/1M
Цена (output)$0.15/1M$0.60/1M
Скорость280 tok/s180 tok/s
Контекст2M2M
МультимодальностьТекст + изображенияТекст + изображения + видео + аудио

Flash-Lite — для случаев, когда нужна максимальная скорость и минимальная цена. Flash — когда нужно чуть больше качества и мультимодальность (видео, аудио). Для чисто текстовых агентных задач Flash-Lite — оптимальный выбор.

FAQ

Gemini 3.1 Flash-Lite бесплатный?

Через Google AI Studio — да, с ограничениями (15 запросов/мин, 1 500/день). Для production-использования нужен платный тариф Vertex AI, но цены самые низкие на рынке: $0.04 за 1M входных токенов.

Flash-Lite лучше GPT-5.4 mini?

По бенчмаркам — да, на большинстве задач. Flash-Lite лидирует в MMLU-Pro (+1.6), MATH (+1.7), Tool Use (+2.5). GPT-5.4 mini чуть лучше в коде (HumanEval: 81.2 vs 79.8). По цене Flash-Lite дешевле в 3-4 раза.

Можно ли использовать Flash-Lite вместо GPT-4o?

Для простых задач (классификация, извлечение данных, роутинг, FAQ-боты) — да, и это будет в 65 раз дешевле. Для сложных задач (глубокий анализ, креативное письмо, сложный код) — нет, разница в качестве заметна.

Поддерживает ли Flash-Lite русский язык?

Да. На MT-Bench (русский) результат 8.2/10 — лучший среди лёгких моделей. Gemini исторически хорошо работает с русским благодаря мультиязычным обучающим данным Google.

Понравилась статья?

Поделитесь с коллегами и друзьями

Читайте также

Хотите больше таких статей?

Подпишитесь на еженедельный дайджест — новые инструменты, промпты и гиды каждую неделю

Подписаться бесплатно