Токены в нейросетях: что это и как считать стоимость [2026]

Токены — это «валюта» мира нейросетей. Стоимость API считается в токенах, контекстное окно измеряется в токенах, даже качество модели зависит от того, сколько токенов она видела при обучении. Но что такое токен? Как он связан со словами? И почему русский текст обходится дороже английского? Разбираемся.

Что такое токен

Токен — это минимальная единица текста, которую обрабатывает нейросеть. Это не буква и не слово, а фрагмент текста, определяемый алгоритмом токенизации.

Примеры токенизации (GPT-4)

Текст	Токены	Кол-во
Hello world	[Hello] [ world]	2
Привет мир	[При] [вет] [ мир]	3
Нейросеть	[Не] [й] [ро] [сеть]	4
Artificial Intelligence	[Art] [ificial] [ Intelligence]	3
Искусственный интеллект	[Ис] [кус] [ственный] [ интел] [ле] [кт]	6

Видите разницу? Английские слова часто умещаются в 1–2 токена, а русские — в 2–4. Это фундаментальная проблема для русскоязычных пользователей.

Как работает токенизация

Большинство LLM используют алгоритм BPE (Byte Pair Encoding):

Начинаем с отдельных символов/байтов
Находим самую частую пару символов в корпусе (например, «th»)
Объединяем эту пару в один токен
Повторяем, пока не достигнем нужного размера словаря (обычно 32K–128K токенов)

Поскольку LLM обучаются преимущественно на английских текстах, английские слова и фрагменты чаще попадают в словарь как целые токены. Кириллические символы реже встречаются в обучающих данных, поэтому разбиваются на более мелкие фрагменты.

Почему русский текст дороже

Главное правило для русскоязычных пользователей:

1 русское слово ≈ 2–3 токена
1 английское слово ≈ 1–1.3 токена

Это значит, что при использовании API стоимость обработки русского текста примерно в 2–2.5 раза выше, чем английского, за тот же объём информации.

Практический пример

Текст (100 слов)	Токены (англ.)	Токены (рус.)	Разница
Деловое письмо	~130	~280	×2.2
Техническая документация	~125	~270	×2.2
Художественный текст	~135	~300	×2.2
Код (Python)	~140	~140	×1.0

Обратите внимание: код стоит одинаково, потому что ключевые слова языков программирования одинаковы.

Стоимость API: расчёт

API-провайдеры указывают цены за 1 миллион токенов (1M). Есть две цены: за входные токены (ваш запрос) и выходные (ответ модели). Выход обычно дороже в 2–4 раза.

Таблица цен (2026)

Модель	Вход / 1M токенов	Выход / 1M токенов
GPT-4o	$2.50	$10.00
GPT-4o mini	$0.15	$0.60
Claude Sonnet	$3.00	$15.00
Claude Opus	$15.00	$75.00
Gemini Pro	$1.25	$5.00
Llama 3 70B (Groq)	$0.59	$0.79
YandexGPT 3 Pro	~$0.013 (1.20₽)	~$0.027 (2.40₽)
GigaChat Pro	~$0.011 (1.00₽)	~$0.022 (2.00₽)

Пример расчёта

Допустим, вы делаете чат-бот для поддержки. Средний диалог: 500 токенов запрос + 800 токенов ответ. 1000 диалогов в день.

Модель	Стоимость/день	Стоимость/мес
GPT-4o	$9.25	$277
GPT-4o mini	$0.56	$17
Claude Sonnet	$13.50	$405
YandexGPT 3 Pro	≈$0.53 (48₽)	≈$16 (1440₽)

Контекстное окно

Контекстное окно — это максимальное количество токенов, которое модель может «видеть» за один запрос. Включает и вход, и выход.

Размеры контекстных окон (2026)

Модель	Контекстное окно	Примерно в русских словах
GPT-4o	128K токенов	~50 000 слов
Claude Opus (стандарт)	200K токенов	~80 000 слов
Claude Opus (расширенный)	1M токенов	~400 000 слов
Gemini Pro	2M токенов	~800 000 слов
YandexGPT 4 Pro	128K токенов	~50 000 слов
Llama 3 8B	128K токенов	~50 000 слов

Для справки: средняя книга — 70 000–100 000 слов, статья в блоге — 1 000–3 000 слов.

Как считать токены

Онлайн-инструменты

platform.openai.com/tokenizer — официальный токенизатор OpenAI
tiktoken (Python) — библиотека для подсчёта токенов

Быстрая оценка

Английский: 1 токен ≈ 4 символа ≈ 0.75 слова
Русский: 1 токен ≈ 2 символа ≈ 0.4 слова
Код: 1 токен ≈ 3–4 символа

Код на Python

import tiktoken

encoder = tiktoken.encoding_for_model("gpt-4o")
text = "Привет! Как дела?"
tokens = encoder.encode(text)
print(f"Текст: {text}")
print(f"Токенов: {len(tokens)}")
print(f"Токены: {[encoder.decode([t]) for t in tokens]}")
# Текст: Привет! Как дела?
# Токенов: 7
# Токены: ['При', 'вет', '!', ' Как', ' дел', 'а', '?']

Советы по экономии токенов

1. Оптимизируйте system prompt

System prompt отправляется с каждым запросом. Сократите его до минимально необходимого. 500 токенов system prompt при 1000 запросов/день = 500K дополнительных токенов.

2. Используйте правильную модель

Не используйте GPT-4o для простых задач. GPT-4o mini справится не хуже, но в 17 раз дешевле.

3. Ограничивайте длину ответа

Параметр max_tokens ограничивает длину ответа модели. Это предотвращает «многословие» и экономит деньги.

4. Кэшируйте ответы

Если одни и те же вопросы задаются часто — кэшируйте ответы. Это не стоит ничего.

5. Используйте стриминг

Стриминг не экономит токены, но позволяет начать показывать ответ до его полной генерации, улучшая UX.

6. Для русского: рассмотрите российские модели

YandexGPT и GigaChat могут быть экономичнее для русскоязычных задач, даже если их токенизатор тоже не идеален для кириллицы — рублёвые цены и отсутствие конвертации компенсируют.

Итог

Токены — базовый концепт, который нужно понимать для работы с AI API. Запомните два ключевых факта: русский текст дороже английского в ~2.5 раза, и выходные токены стоят в 2–4 раза больше входных. Правильный выбор модели и оптимизация промптов могут сэкономить до 90% бюджета.

Токены в нейросетях: что это и как считать стоимость