Google выпустил Gemini 3.1 Flash-Lite — обновление самой лёгкой модели в линейке Gemini. Формально это «минорное обновление», но +15% точности на ключевых бенчмарках и двукратное снижение цены делают Flash-Lite одной из самых интересных моделей для разработчиков AI-агентов. Разбираемся в деталях: бенчмарки, цены, для каких задач подходит и как использовать из России.
Что нового в Gemini 3.1 Flash-Lite
Flash-Lite — самая маленькая модель в линейке Gemini. Она предназначена для задач, где критичны скорость и стоимость: массовый инференс, автономные агенты, обработка больших объёмов данных, работа с длинным контекстом.
Ключевые улучшения
| Параметр | Gemini 2.5 Flash-Lite | Gemini 3.1 Flash-Lite |
|---|---|---|
| MMLU-Pro | 68.2 | 78.4 (+15%) |
| HumanEval | 72.1 | 79.8 (+10.7%) |
| MATH | 61.5 | 71.2 (+15.8%) |
| IFEval | 78.3 | 85.1 (+8.7%) |
| BFCL (Tool Use) | 80.1 | 87.5 (+9.2%) |
| Контекстное окно | 1M токенов | 2M токенов |
| Скорость (output) | ~200 tok/s | ~280 tok/s |
| Цена (input, 1M) | $0.075 | $0.04 |
| Цена (output, 1M) | $0.30 | $0.15 |
+15% точности при снижении цены вдвое — это не типичное обновление. Google добился этого за счёт нескольких архитектурных улучшений: более эффективного attention-механизма, оптимизированного KV-cache и улучшенного post-training (RLHF + constitutional AI).
Бенчмарки: Flash-Lite vs конкуренты
Сравниваем с ключевыми «малыми» моделями 2026 года — теми, что используются для массового инференса и агентных задач:
| Бенчмарк | Gemini 3.1 Flash-Lite | GPT-5.4 mini | Claude 4 Haiku | Mistral Small 3 |
|---|---|---|---|---|
| MMLU-Pro | 78.4 | 76.8 | 75.2 | 74.5 |
| HumanEval | 79.8 | 81.2 | 78.5 | 76.1 |
| MATH | 71.2 | 69.5 | 68.8 | 65.2 |
| BFCL (Tool Use) | 87.5 | 85.0 | 84.2 | 82.8 |
| IFEval | 85.1 | 83.7 | 86.0 | 81.5 |
| MT-Bench (русский) | 8.2 | 7.8 | 7.5 | 8.0 |
| Скорость (tok/s) | 280 | 250 | 300 | 320 |
Flash-Lite лидирует по общим знаниям (MMLU-Pro), математике (MATH) и Tool Use (BFCL). GPT-5.4 mini чуть лучше в коде (HumanEval). Claude 4 Haiku впереди по следованию инструкциям (IFEval). Mistral Small 3 самый быстрый, но уступает по качеству.
Почему Flash-Lite идеален для агентов
AI-агенты — автономные системы, которые выполняют цепочки действий: поиск → анализ → принятие решения → действие. Для агента критичны три параметра, и Flash-Lite попадает по всем трём:
1. Tool Use (вызов функций)
Агент должен уметь вызывать внешние инструменты: поисковые API, базы данных, калькуляторы. Flash-Lite набирает 87.5% на BFCL — лучший результат среди лёгких моделей. Для сравнения: полноразмерный GPT-4o набирает 92%.
2. Стоимость
Агент может сделать 10-50 вызовов модели для одной задачи. Если каждый вызов стоит $0.01, задача обходится в $0.10-0.50. Flash-Lite позволяет снизить стоимость в 5-10 раз по сравнению с полноразмерными моделями, делая агентов экономически жизнеспособными.
3. Скорость
280 токенов/сек — агент думает и действует быстрее, чем пользователь успевает заметить задержку. Для интерактивных агентов (чат-боты с инструментами, виртуальные ассистенты) это критично.
Сравнение цен API
| Модель | Input (1M токенов) | Output (1M токенов) | Стоимость 1000 агентных задач* |
|---|---|---|---|
| Gemini 3.1 Flash-Lite | $0.04 | $0.15 | $1.90 |
| GPT-5.4 mini | $0.15 | $0.60 | $7.50 |
| Claude 4 Haiku | $0.25 | $1.25 | $15.00 |
| Mistral Small 3 | $0.10 | $0.30 | $4.00 |
| Gemini 3.1 Flash | $0.15 | $0.60 | $7.50 |
| GPT-4o | $2.50 | $10.00 | $125.00 |
* Оценка: 10 вызовов на задачу, ~1K input + 500 output токенов каждый
Flash-Lite — самая дешёвая модель в списке. 1000 агентных задач стоят $1.90 — в 4 раза дешевле GPT-5.4 mini и в 65 раз дешевле GPT-4o. При этом качество Flash-Lite на бенчмарках часто превосходит GPT-5.4 mini.
Контекстное окно 2M токенов
Flash-Lite получил контекстное окно в 2 миллиона токенов — это больше, чем у любой другой модели в этой ценовой категории. Для сравнения:
| Модель | Контекст |
|---|---|
| Gemini 3.1 Flash-Lite | 2M токенов |
| Claude 4 Haiku | 200K токенов |
| GPT-5.4 mini | 128K токенов |
| Mistral Small 3 | 128K токенов |
2M токенов — это ~1 500 000 слов или ~3 000 страниц текста. Можно загрузить в модель целую книгу, большой код-репозиторий или месяц переписки, и модель сохранит контекст. Для агентов это означает: долгоживущие сессии без потери памяти.
Как использовать из России
Google AI Studio и Gemini API формально недоступны в России. Но есть несколько рабочих способов:
Через VPN + Google AI Studio
Самый простой способ. Подключаетесь через VPN к серверу в Европе или США, заходите на ai.google.dev, получаете бесплатный API-ключ. Бесплатный тариф: 15 запросов/мин, 1 500 запросов/день — достаточно для тестирования и небольших проектов.
Через Vertex AI
Для production-использования. Нужен Google Cloud аккаунт (можно зарегистрировать через зарубежную карту). Vertex AI предоставляет SLA, более высокие лимиты и enterprise-фичи. Цены те же, что в таблице выше.
Через прокси-сервисы
Существуют сервисы, предоставляющие доступ к Gemini API без VPN. Наценка обычно 20-50% от оригинальной цены. Удобно для тех, кто не хочет настраивать VPN, но дороже.
Через OpenRouter
OpenRouter — агрегатор AI-API, доступный из России без VPN. Поддерживает Gemini Flash-Lite, GPT-4o, Claude, Mistral и десятки других моделей через единый API. Наценка ~10-20%, но зато единый ключ для всех моделей.
Для каких задач подходит
Идеально:
AI-агенты — лучшее соотношение цена/качество для автономных систем с вызовом инструментов. 87.5% на BFCL при $0.04/1M input — конкурентов нет.
Классификация и роутинг — определение намерения пользователя, маршрутизация запросов к нужной модели или сервису. Быстро, дёшево, точно.
Обработка больших документов — 2M контекст позволяет загрузить весь документ и извлечь нужную информацию без chunk-и-embedding-пайплайнов.
Массовая обработка — анализ тысяч отзывов, писем, тикетов. При $0.04/1M input обработка 10 000 документов стоит копейки.
Не подходит:
Креативное письмо — для длинных текстов, маркетинговых материалов и художественных текстов лучше Claude или ChatGPT. Flash-Lite оптимизирован под скорость, а не креативность.
Сложные рассуждения — для задач, требующих глубокого анализа (научные исследования, сложная математика, правовой анализ), лучше полноразмерные модели: Gemini Ultra, GPT-4o, Claude Opus.
Генерация изображений — Flash-Lite — текстовая модель. Для изображений используйте Midjourney, Stable Diffusion или Gemini с Imagen.
Gemini 3.1 Flash vs Flash-Lite: в чём разница
| Параметр | Flash-Lite | Flash |
|---|---|---|
| Размер модели | ~8B параметров | ~25B параметров |
| MMLU-Pro | 78.4 | 84.2 |
| Цена (input) | $0.04/1M | $0.15/1M |
| Цена (output) | $0.15/1M | $0.60/1M |
| Скорость | 280 tok/s | 180 tok/s |
| Контекст | 2M | 2M |
| Мультимодальность | Текст + изображения | Текст + изображения + видео + аудио |
Flash-Lite — для случаев, когда нужна максимальная скорость и минимальная цена. Flash — когда нужно чуть больше качества и мультимодальность (видео, аудио). Для чисто текстовых агентных задач Flash-Lite — оптимальный выбор.
FAQ
Gemini 3.1 Flash-Lite бесплатный?
Через Google AI Studio — да, с ограничениями (15 запросов/мин, 1 500/день). Для production-использования нужен платный тариф Vertex AI, но цены самые низкие на рынке: $0.04 за 1M входных токенов.
Flash-Lite лучше GPT-5.4 mini?
По бенчмаркам — да, на большинстве задач. Flash-Lite лидирует в MMLU-Pro (+1.6), MATH (+1.7), Tool Use (+2.5). GPT-5.4 mini чуть лучше в коде (HumanEval: 81.2 vs 79.8). По цене Flash-Lite дешевле в 3-4 раза.
Можно ли использовать Flash-Lite вместо GPT-4o?
Для простых задач (классификация, извлечение данных, роутинг, FAQ-боты) — да, и это будет в 65 раз дешевле. Для сложных задач (глубокий анализ, креативное письмо, сложный код) — нет, разница в качестве заметна.
Поддерживает ли Flash-Lite русский язык?
Да. На MT-Bench (русский) результат 8.2/10 — лучший среди лёгких моделей. Gemini исторически хорошо работает с русским благодаря мультиязычным обучающим данным Google.