YandexGPT API: тарифы 2026, подключение и примеры кода

Обновлено: 2026-06-20

YandexGPT — семейство больших языковых моделей от Яндекса, доступное через облачную платформу Yandex Cloud. Для российского разработчика это, пожалуй, самый предсказуемый вариант: оплата в рублях, российские карты и счета для юрлиц, работа без VPN на 100% и щедрый бесплатный лимит для личных проектов. В этом гайде разберём всё по полочкам — модели, типы доступа (scope), тарифы, пошаговую регистрацию и рабочий код на Python через REST и через OpenAI-совместимый клиент.

TL;DR. Регистрируетесь в Yandex Cloud, создаёте каталог (folder), включаете доступ к Foundation Models и выпускаете API-ключ сервисного аккаунта. Для личных проектов активируете scope PERS и получаете 1 млн токенов в месяц бесплатно. Дальше платите по факту: YandexGPT 5 Lite — 0,4 ₽ / 1000 токенов, Pro — 2,0 ₽ / 1000 токенов (input + output считаются вместе). Эндпоинт один — /foundationModels/v1/completion. Работает из России без VPN, оплата в рублях.

Что такое YandexGPT API

YandexGPT API — это программный интерфейс к моделям Яндекса внутри сервиса Yandex Cloud Foundation Models. Через единый HTTP-эндпоинт вы получаете доступ к генеративным моделям и можете встроить их в любое приложение: чат-бота, систему поддержки, генератор контента, RAG-поиск по базе знаний.

Генерация текста — ответы на вопросы, рерайт, суммаризация, классификация, извлечение данных;
Эмбеддинги — векторизация текста для семантического поиска и RAG (модели text-search-doc и text-search-query);
Потоковый режим (streaming) — ответ приходит по мере генерации, удобно для чатов;
Асинхронный режим — для тяжёлых пакетных задач, когда не нужен мгновенный ответ.

Главное архитектурное отличие от ChatGPT: запрос содержит modelUri вида gpt://<folder-id>/yandexgpt-lite/latest, где зашиты идентификатор вашего каталога и имя модели. Это и есть «адрес» конкретной модели в вашем облаке.

Модели YandexGPT 5

Актуальное поколение — YandexGPT 5. В нём две основные текстовые модели, которые покрывают почти все задачи:

Модель	Контекст	Назначение	Скорость
YandexGPT 5 Lite	32K токенов	Массовые сценарии: чат-боты, классификация, рерайт, типовые ответы	Очень высокая
YandexGPT 5 Pro	32K токенов	Сложные задачи: рассуждения, анализ документов, генерация качественного контента	Высокая

Практическое правило: начинайте с Lite. Он в 5 раз дешевле Pro и для 70–80% реальных задач (короткие ответы, извлечение полей, классификация тикетов) выдаёт достаточное качество. Переходите на Pro точечно — там, где нужна связная длинная генерация или многошаговое рассуждение.

Типы доступа: scope PERS, B2B и CORP

Ключевая особенность Yandex Cloud — модель доступа делится на scope (области использования). От выбранного scope зависят и условия, и бесплатные лимиты, и требования к аккаунту.

Scope	Для кого	Требования к аккаунту	Бесплатный лимит	Цена сверх лимита
PERS	Личные проекты, пет-проекты, обучение, прототипы	Физлицо (личный аккаунт Yandex Cloud)	1 млн токенов / месяц	По тарифу модели (Lite 0,4 ₽ / Pro 2,0 ₽ за 1000)
B2B	Коммерческие продукты, продакшен, бизнес-нагрузка	Бизнес-аккаунт (привязка организации)	Нет (оплата по факту)	По тарифу модели
CORP	Крупный бизнес, корпоративные внедрения	Корпоративный аккаунт, договор	Индивидуально	По договору / индивидуальные условия

Важный нюанс. Scope PERS предназначен именно для личного, некоммерческого использования. 1 млн бесплатных токенов в месяц — это очень много для прототипа: хватит на тысячи запросов средней длины. Но как только проект становится коммерческим, переходите на B2B — это правильный и легальный путь для продакшена.

Тарифы YandexGPT API: полная таблица

Тарификация в Yandex Cloud — потокенная и в рублях. Важная деталь: у YandexGPT входные (input) и выходные (output) токены тарифицируются по одной ставке — считается суммарное число токенов запроса и ответа.

Модель / возможность	Input	Output	Цена
YandexGPT 5 Lite	0,4 ₽ / 1000 ток.	0,4 ₽ / 1000 ток.	0,4 ₽ за 1000 токенов
YandexGPT 5 Pro	2,0 ₽ / 1000 ток.	2,0 ₽ / 1000 ток.	2,0 ₽ за 1000 токенов
Эмбеддинги (text-search-doc / text-search-query)	—	—	отдельный потокенный тариф (дешевле генерации)

Для сравнения с зарубежными моделями держите в голове порядок цен: Lite по стоимости близок к самым дешёвым «мини»-моделям OpenAI, но при этом считается в рублях и без необходимости валютной карты.

Калькулятор стоимости: сколько стоят 1000 запросов

Посчитаем на реальном сценарии — чат-бот поддержки. Возьмём средний запрос: 300 токенов на вход (системный промпт + вопрос пользователя) и 200 токенов на выход (ответ). Итого 500 токенов на один запрос.

Сценарий	Токенов на запрос	1000 запросов	Lite (0,4 ₽/1000)	Pro (2,0 ₽/1000)
Короткий ответ бота	500	500 000 ток.	200 ₽	1 000 ₽
Развёрнутый ответ	1 500	1 500 000 ток.	600 ₽	3 000 ₽
Анализ документа	5 000	5 000 000 ток.	2 000 ₽	10 000 ₽

Вывод: 1000 типовых запросов к чат-боту на Lite обойдутся примерно в 200 ₽. А если вы на scope PERS и укладываетесь в 1 млн токенов в месяц — это 2000 таких запросов бесплатно каждый месяц. Для пет-проекта или MVP платить, скорее всего, вообще не придётся.

Регистрация в Yandex Cloud: пошагово

Весь путь от нуля до первого работающего запроса занимает 10–15 минут.

Шаг 1. Создайте аккаунт Yandex Cloud

Зайдите на cloud.yandex.ru и войдите через свой Яндекс ID. При первом входе система предложит создать облако (cloud) и внутри него — каталог (folder). Каталог — это рабочее пространство, к которому привязываются ресурсы и биллинг. Запомните Folder ID — он понадобится в коде (виден в адресной строке консоли и в свойствах каталога).

Шаг 2. Привяжите платёжный аккаунт

В разделе «Биллинг» создайте платёжный аккаунт. Для физлица достаточно привязать российскую карту; для юрлица доступна оплата по счёту. Без платёжного аккаунта Foundation Models не активируется, даже если вы планируете использовать только бесплатный лимит PERS.

Шаг 3. Активируйте scope PERS (для личных проектов)

В сервисе Foundation Models → YandexGPT подключите доступ к API. Для личного некоммерческого использования выберите тариф/режим PERS — именно он даёт 1 млн бесплатных токенов в месяц. Для продакшена сразу выбирайте бизнес-аккаунт и scope B2B.

Шаг 4. Создайте сервисный аккаунт и API-ключ

Перейдите в «Сервисные аккаунты», создайте новый аккаунт и назначьте ему роль ai.languageModels.user. Затем выпустите API-ключ — это самый простой способ авторизации, добавленный в 2025 году. Раньше требовался IAM-токен с коротким сроком жизни; теперь API-ключ можно использовать напрямую и долго. Скопируйте ключ сразу — повторно его не показывают.

Авторизация: два варианта. API-ключ (Authorization: Api-Key <ключ>) — проще всего, рекомендуется для большинства задач. IAM-токен (Authorization: Bearer <токен>) — получается через OAuth/IAM, живёт ~12 часов, нужен в сценариях с повышенными требованиями к безопасности.

Первый запрос на Python (REST)

Самый прозрачный способ — обычный POST-запрос через requests. Никаких SDK ставить не нужно.

import requests
import json

IAM_TOKEN = "your-iam-token"   # или API-ключ
FOLDER_ID = "your-folder-id"

response = requests.post(
    "https://llm.api.cloud.yandex.net/foundationModels/v1/completion",
    headers={"Authorization": f"Api-Key {IAM_TOKEN}", "Content-Type": "application/json"},
    json={
        "modelUri": f"gpt://{FOLDER_ID}/yandexgpt-lite/latest",
        "completionOptions": {"stream": False, "temperature": 0.3, "maxTokens": 1000},
        "messages": [
            {"role": "system", "text": "Ты помощник компании."},
            {"role": "user", "text": "Привет! Что ты умеешь?"}
        ]
    }
)
result = response.json()
print(result["result"]["alternatives"][0]["message"]["text"])

Разберём ключевые поля:

modelUri — адрес модели: gpt://<folder>/yandexgpt-lite/latest для Lite или .../yandexgpt/latest для Pro;
temperature — «креативность» (0 — детерминированно, 1 — максимум вариативности); для фактических ответов держите 0,1–0,3;
maxTokens — ограничение длины ответа; помогает контролировать стоимость;
messages — массив с ролями system / user / assistant, как в OpenAI, но поле текста называется text, а не content.

OpenAI-совместимый подход

Если у вас уже есть код на OpenAI SDK, переписывать его необязательно. Yandex Cloud предоставляет OpenAI-совместимый эндпоинт: достаточно подменить base_url и передать API-ключ, а имя модели указать в формате gpt://<folder-id>/yandexgpt-lite/latest.

from openai import OpenAI

client = OpenAI(
    api_key="your-api-key",
    base_url="https://llm.api.cloud.yandex.net/v1",
)

completion = client.chat.completions.create(
    model="gpt://your-folder-id/yandexgpt-lite/latest",
    messages=[
        {"role": "system", "content": "Ты помощник компании."},
        {"role": "user", "content": "Привет! Что ты умеешь?"},
    ],
    temperature=0.3,
    max_tokens=1000,
)
print(completion.choices[0].message.content)

Так миграция чат-бота с ChatGPT на YandexGPT сводится к замене трёх строк — base_url, ключа и имени модели. Структура messages, choices и стриминг остаются прежними. Для продакшена с собственными форматами по-прежнему удобнее нативный REST: он даёт доступ ко всем специфичным полям ответа (включая детальный учёт токенов в usage).

Эмбеддинги и RAG

Для семантического поиска и RAG-систем YandexGPT предлагает две модели эмбеддингов: text-search-doc (для векторизации документов базы) и text-search-query (для векторизации поискового запроса пользователя). Это правильное разделение: документы и запросы кодируются разными моделями, что повышает релевантность поиска. Эндпоинт — /foundationModels/v1/textEmbedding, тариф потокенный и дешевле генерации.

Сравнение: YandexGPT vs GigaChat vs Mistral API

Три самых актуальных для российского разработчика API. Коротко о том, чем они отличаются на практике.

Критерий	YandexGPT API	GigaChat API	Mistral API
Вендор	Яндекс (Yandex Cloud)	Сбер	Mistral AI (Франция)
Работа из РФ без VPN	Да, 100%	Да, 100%	Да, напрямую
Оплата	Рубли, карты РФ, счёт	Рубли, карты РФ, счёт	Только зарубежная карта
Бесплатный лимит	1 млн токенов/мес (PERS)	Бесплатный пакет на старте	€5 кредита при регистрации
Русский язык	Отличный (профиль модели)	Отличный	Хороший, но слабее
OpenAI-совместимость	Да (отдельный эндпоинт)	Да	Да (нативно)
Генерация изображений	Через отдельный сервис (YandexART)	Да (Kandinsky встроен)	Нет

Как выбрать. Если нужен лучший русский язык, оплата в рублях и щедрый бесплатный тариф для пет-проекта — YandexGPT. Если важна встроенная генерация картинок и привычная экосистема Сбера — GigaChat API. Если вы работаете с европейскими/мультиязычными задачами, open-source-весами и готовы платить зарубежной картой — Mistral API.

Частые вопросы (FAQ)

Сколько токенов реально даёт бесплатный лимит PERS?

1 млн токенов в месяц на scope PERS. Для типового чат-бота (≈500 токенов на запрос) это около 2000 запросов в месяц бесплатно. Лимит обнуляется ежемесячно. Подходит для личных проектов, прототипов и обучения; для коммерческого продакшена нужен бизнес-аккаунт и scope B2B.

Чем API-ключ отличается от IAM-токена?

API-ключ — простой и долгоживущий способ авторизации, добавленный в 2025 году: выпустили один раз для сервисного аккаунта и используете в заголовке Authorization: Api-Key <ключ>. IAM-токен получается через OAuth/IAM, живёт около 12 часов и требует регулярного обновления — он нужен в сценариях с повышенными требованиями к безопасности. Для большинства задач достаточно API-ключа.

Работает ли YandexGPT API из России без VPN?

Да, полностью. Yandex Cloud — российский облачный провайдер, эндпоинт llm.api.cloud.yandex.net доступен из РФ напрямую. Оплата идёт в рублях российскими картами, для юрлиц возможна оплата по счёту. Никаких зарубежных карт и обходных схем не требуется.

Можно ли использовать существующий код на OpenAI SDK?

Да. Yandex Cloud даёт OpenAI-совместимый эндпоинт https://llm.api.cloud.yandex.net/v1. Поменяйте в OpenAI-клиенте base_url, передайте API-ключ Yandex Cloud и укажите модель в формате gpt://<folder-id>/yandexgpt-lite/latest. Структура messages и choices, а также стриминг остаются как у OpenAI.

Какую модель выбрать — Lite или Pro?

Начинайте с YandexGPT 5 Lite: он в 5 раз дешевле (0,4 ₽ против 2,0 ₽ за 1000 токенов) и для большинства массовых задач — классификация, короткие ответы, рерайт, извлечение данных — даёт достаточное качество. Переходите на Pro точечно, где нужна связная длинная генерация или многошаговое рассуждение. Контекст у обеих моделей — 32K токенов.

Читайте также: GigaChat API на практике | Mistral API на Python | YandexGPT в каталоге

YandexGPT API: тарифы, подключение и примеры на Python (2026)