Токены — это «валюта» мира нейросетей. Стоимость API считается в токенах, контекстное окно измеряется в токенах, даже качество модели зависит от того, сколько токенов она видела при обучении. Но что такое токен? Как он связан со словами? И почему русский текст обходится дороже английского? Разбираемся.
Что такое токен
Токен — это минимальная единица текста, которую обрабатывает нейросеть. Это не буква и не слово, а фрагмент текста, определяемый алгоритмом токенизации.
Примеры токенизации (GPT-4)
| Текст | Токены | Кол-во |
|---|---|---|
| Hello world | [Hello] [ world] | 2 |
| Привет мир | [При] [вет] [ мир] | 3 |
| Нейросеть | [Не] [й] [ро] [сеть] | 4 |
| Artificial Intelligence | [Art] [ificial] [ Intelligence] | 3 |
| Искусственный интеллект | [Ис] [кус] [ственный] [ интел] [ле] [кт] | 6 |
Видите разницу? Английские слова часто умещаются в 1–2 токена, а русские — в 2–4. Это фундаментальная проблема для русскоязычных пользователей.
Как работает токенизация
Большинство LLM используют алгоритм BPE (Byte Pair Encoding):
- Начинаем с отдельных символов/байтов
- Находим самую частую пару символов в корпусе (например, «th»)
- Объединяем эту пару в один токен
- Повторяем, пока не достигнем нужного размера словаря (обычно 32K–128K токенов)
Поскольку LLM обучаются преимущественно на английских текстах, английские слова и фрагменты чаще попадают в словарь как целые токены. Кириллические символы реже встречаются в обучающих данных, поэтому разбиваются на более мелкие фрагменты.
Почему русский текст дороже
Главное правило для русскоязычных пользователей:
1 русское слово ≈ 2–3 токена
1 английское слово ≈ 1–1.3 токена
Это значит, что при использовании API стоимость обработки русского текста примерно в 2–2.5 раза выше, чем английского, за тот же объём информации.
Практический пример
| Текст (100 слов) | Токены (англ.) | Токены (рус.) | Разница |
|---|---|---|---|
| Деловое письмо | ~130 | ~280 | ×2.2 |
| Техническая документация | ~125 | ~270 | ×2.2 |
| Художественный текст | ~135 | ~300 | ×2.2 |
| Код (Python) | ~140 | ~140 | ×1.0 |
Обратите внимание: код стоит одинаково, потому что ключевые слова языков программирования одинаковы.
Стоимость API: расчёт
API-провайдеры указывают цены за 1 миллион токенов (1M). Есть две цены: за входные токены (ваш запрос) и выходные (ответ модели). Выход обычно дороже в 2–4 раза.
Таблица цен (2026)
| Модель | Вход / 1M токенов | Выход / 1M токенов |
|---|---|---|
| GPT-4o | $2.50 | $10.00 |
| GPT-4o mini | $0.15 | $0.60 |
| Claude Sonnet | $3.00 | $15.00 |
| Claude Opus | $15.00 | $75.00 |
| Gemini Pro | $1.25 | $5.00 |
| Llama 3 70B (Groq) | $0.59 | $0.79 |
| YandexGPT 3 Pro | ~$0.013 (1.20₽) | ~$0.027 (2.40₽) |
| GigaChat Pro | ~$0.011 (1.00₽) | ~$0.022 (2.00₽) |
Пример расчёта
Допустим, вы делаете чат-бот для поддержки. Средний диалог: 500 токенов запрос + 800 токенов ответ. 1000 диалогов в день.
| Модель | Стоимость/день | Стоимость/мес |
|---|---|---|
| GPT-4o | $9.25 | $277 |
| GPT-4o mini | $0.56 | $17 |
| Claude Sonnet | $13.50 | $405 |
| YandexGPT 3 Pro | ≈$0.53 (48₽) | ≈$16 (1440₽) |
Контекстное окно
Контекстное окно — это максимальное количество токенов, которое модель может «видеть» за один запрос. Включает и вход, и выход.
Размеры контекстных окон (2026)
| Модель | Контекстное окно | Примерно в русских словах |
|---|---|---|
| GPT-4o | 128K токенов | ~50 000 слов |
| Claude Opus (стандарт) | 200K токенов | ~80 000 слов |
| Claude Opus (расширенный) | 1M токенов | ~400 000 слов |
| Gemini Pro | 2M токенов | ~800 000 слов |
| YandexGPT 4 Pro | 128K токенов | ~50 000 слов |
| Llama 3 8B | 128K токенов | ~50 000 слов |
Для справки: средняя книга — 70 000–100 000 слов, статья в блоге — 1 000–3 000 слов.
Как считать токены
Онлайн-инструменты
- platform.openai.com/tokenizer — официальный токенизатор OpenAI
- tiktoken (Python) — библиотека для подсчёта токенов
Быстрая оценка
- Английский: 1 токен ≈ 4 символа ≈ 0.75 слова
- Русский: 1 токен ≈ 2 символа ≈ 0.4 слова
- Код: 1 токен ≈ 3–4 символа
Код на Python
import tiktoken
encoder = tiktoken.encoding_for_model("gpt-4o")
text = "Привет! Как дела?"
tokens = encoder.encode(text)
print(f"Текст: {text}")
print(f"Токенов: {len(tokens)}")
print(f"Токены: {[encoder.decode([t]) for t in tokens]}")
# Текст: Привет! Как дела?
# Токенов: 7
# Токены: ['При', 'вет', '!', ' Как', ' дел', 'а', '?']
Советы по экономии токенов
1. Оптимизируйте system prompt
System prompt отправляется с каждым запросом. Сократите его до минимально необходимого. 500 токенов system prompt при 1000 запросов/день = 500K дополнительных токенов.
2. Используйте правильную модель
Не используйте GPT-4o для простых задач. GPT-4o mini справится не хуже, но в 17 раз дешевле.
3. Ограничивайте длину ответа
Параметр max_tokens ограничивает длину ответа модели. Это предотвращает «многословие» и экономит деньги.
4. Кэшируйте ответы
Если одни и те же вопросы задаются часто — кэшируйте ответы. Это не стоит ничего.
5. Используйте стриминг
Стриминг не экономит токены, но позволяет начать показывать ответ до его полной генерации, улучшая UX.
6. Для русского: рассмотрите российские модели
YandexGPT и GigaChat могут быть экономичнее для русскоязычных задач, даже если их токенизатор тоже не идеален для кириллицы — рублёвые цены и отсутствие конвертации компенсируют.
Итог
Токены — базовый концепт, который нужно понимать для работы с AI API. Запомните два ключевых факта: русский текст дороже английского в ~2.5 раза, и выходные токены стоят в 2–4 раза больше входных. Правильный выбор модели и оптимизация промптов могут сэкономить до 90% бюджета.