🔍 Обзор

DeepSeek V4: архитектура, бенчмарки и где попробовать (2026)

Обновлено: 2026-05-01

Важная оговорка по версиям. На момент обновления статьи (1 мая 2026) на api-docs.deepseek.com и chat.deepseek.com официально доступны DeepSeek V3 (deepseek-chat) и DeepSeek-R1 (deepseek-reasoner). О публичном релизе модели с маркой «V4» официальных подтверждений на сайте DeepSeek нет; в сообществе термин используется как обозначение «следующего поколения DeepSeek», и часть характеристик обсуждаемой модели — это анонсы и слухи. В этой статье я аккуратно разделяю: что точно подтверждено по DeepSeek V3 / R1, а что — «следующее поколение DeepSeek», которое ожидается, но цифры по нему могут меняться. Если вам нужны бенчмарки для решения о production-выборе, опирайтесь на V3 и R1 — это то, что реально работает в API сейчас.

Mixture of Experts простыми словами

Классические dense-модели на каждом токене активируют все свои параметры. Это дорого: модель на 200B параметров требует 200B вычислений на один токен.

Mixture of Experts (MoE) делит модель на специализированные подсети — экспертов. Маршрутизатор смотрит на токен и выбирает k наиболее подходящих экспертов, остальные «спят». Параметров много (триллион), но активны только маленькая часть (десятки миллиардов).

Аналогия: университет с сотней профессоров. Студент приходит с вопросом — его направляют к 2–3 профильным, а не созывают учёный совет на каждый вопрос.

В DeepSeek V3 это реализовано так:

  • Общее число параметров: 671 млрд (по карточке модели на huggingface.co/deepseek-ai/DeepSeek-V3).
  • Активных параметров на токен: 37 млрд.
  • Архитектура внимания: Multi-head Latent Attention (MLA) — авторская оптимизация DeepSeek, экономит память на длинном контексте.

DeepSeek V3 → V4: что изменится (если выйдет)

Информация ниже — обобщение того, что обсуждается в сообществе и в технических отчётах DeepSeek. Конкретные цифры могут отличаться от финальных. Сверяйтесь с api-docs.deepseek.com на момент чтения.

ПараметрDeepSeek V3 (подтверждено)DeepSeek-R1 (подтверждено)«Следующее поколение DeepSeek» (ожидаемое)
Общее число параметров671 млрд671 млрд (база V3)~1 трлн (по сообщениям сообщества)
Активные параметры37 млрд37 млрд~32 млрд (предположительно)
Контекст128K128K128K–256K (зависит от релиза)
Reasoning-режимОпциональныйБазовый (chain-of-thought)Расширенный
ЛицензияDeepSeek License (близка к MIT)MITОжидается открытая
Где доступнаchat.deepseek.com, APIchat.deepseek.com, API, Ollama (дистилляты)

Если у вас задача production — берите DeepSeek V3 для общей работы и DeepSeek-R1 для задач, где нужен reasoning (математика, код, многошаговые рассуждения). На chat.deepseek.com R1 включается переключателем «DeepThink».

Бенчмарки: что есть на DeepSeek V3 и R1

Цифры ниже — из технического отчёта DeepSeek-V3 (декабрь 2024) и обновлений по DeepSeek-R1 (январь 2025), а также независимых проверок на open leaderboards (lmarena.ai, livebench.ai). Точные значения могут немного меняться от прогона к прогону.

БенчмаркDeepSeek V3DeepSeek-R1GPT-4o (для ориентира)Claude 3.5 Sonnet (для ориентира)
MMLU~88%~90%~88%~88%
HumanEval (код)~85%~90%~90%~92%
MATH-500~90%~97%~76%~78%
GPQA Diamond~59%~71%~50%~65%
LiveCodeBench~37%~57%~33%~38%
AIME 2024~39%~80%~9%~16%

Главный вывод: DeepSeek-R1 на математике и сложном reasoning держится на уровне или выше проприетарных лидеров. На общих знаниях DeepSeek V3 — на уровне GPT-4o. На код Claude и GPT-4o пока чуть впереди в среднем по бенчмаркам (хотя на отдельных задачах DeepSeek-Coder сильнее). Подробнее про общую картину open-weight моделей — в обзоре NVIDIA Nemotron Super 49B.

Сравнение с другими крупными open-weight моделями:

МодельСильные стороныСлабые стороны
DeepSeek V3 / R1Математика, reasoning, код, цена APIАнглийский лучше, чем русский; нет мультимодальности
Llama 3.1 405BСтабильное качество на общих задачах, экосистемаБольшой размер, дороже инференс
Qwen 2.5 72BСильный русский, хорошее качество кодаМеньше reasoning-фокуса

Цена API: цифры на 1 мая 2026

Цены берутся с api-docs.deepseek.com и могут меняться. Сверяйтесь на актуальной странице. Стандартные тарифы DeepSeek (вне ночной скидки):

МодельВход (за 1M токенов)Выход (за 1M токенов)
deepseek-chat (V3)$0.27 (cache miss)$1.10
deepseek-reasoner (R1)$0.55 (cache miss)$2.19
Cache hit (повторно используемые промпты)$0.07

Для сравнения, OpenAI gpt-4o стоит примерно $2.50 за 1M входных и $10 за 1M выходных токенов, Claude 3.5 Sonnet — $3 / $15. То есть DeepSeek V3 примерно в 8–10 раз дешевле GPT-4o при сопоставимом качестве на большинстве задач. Это и сделало модель главным выбором для стартапов и российских разработчиков.

Где попробовать DeepSeek бесплатно

1. chat.deepseek.com — веб-чат, без VPN

Бесплатный чат с DeepSeek V3 и DeepSeek-R1 (через переключатель DeepThink). Доступен из РФ напрямую, без VPN. Регистрация — через email или GitHub. Лимиты на бесплатный чат не публикуются официально, на практике хватает для регулярного использования.

2. OpenRouter — выбор моделей в одном API

openrouter.ai даёт доступ к DeepSeek V3 и R1 через единый OpenAI-совместимый API. Удобно, если вы уже используете OpenRouter для других моделей. Цены примерно совпадают с прямым API DeepSeek плюс маленькая комиссия маршрутизатора.

3. HuggingChat и Hugging Face Spaces

На huggingface.co/chat периодически появляются версии DeepSeek для бесплатного теста. Также можно открыть Spaces сообщества — там часто запускают DeepSeek-R1 в demo-режиме.

4. Локально через Ollama (дистилляты R1)

DeepSeek-R1 в полной версии слишком тяжёл для локального запуска (~700 GB), но команда выпустила дистилляты — Llama-8B, Qwen-7B/14B/32B, Llama-70B, обученные «учителем» R1. Они работают на потребительских видеокартах:

ollama run deepseek-r1:7b           # ~5 GB VRAM
ollama run deepseek-r1:14b          # ~10 GB VRAM
ollama run deepseek-r1:32b          # ~20 GB VRAM
ollama run deepseek-r1:70b          # ~40 GB VRAM

Если вы выбираете между Ollama и LM Studio для локального запуска — посмотрите гид Ollama vs LM Studio. Также полезен обзор Nemotron Super 49B — другой open-weight кандидат под локальный инференс.

5. Полная V3 / R1 на своём железе

Возможно только с серьёзной серверной инфраструктурой: 8× H100 80GB для FP8 или 16× A100 для BF16. Для большинства команд экономически не оправдано — дешевле платить $0.27 / 1M токенов API.

Как подключить DeepSeek API

  1. Зарегистрируйтесь на platform.deepseek.com через email или GitHub.
  2. В разделе API Keys создайте ключ.
  3. Пополните баланс — платёж принимается по картам и через Alipay; для российских пользователей часто работает оплата криптой через посредников или зарубежная карта.
  4. API совместим с форматом OpenAI: меняете base_url на https://api.deepseek.com и подставляете свой ключ — существующий код на OpenAI SDK заработает без правок.

Минимальный пример на Python:

from openai import OpenAI

client = OpenAI(
    api_key="ВАШ_DEEPSEEK_KEY",
    base_url="https://api.deepseek.com",
)

response = client.chat.completions.create(
    model="deepseek-chat",       # или "deepseek-reasoner" для R1
    messages=[
        {"role": "system", "content": "Ты — лаконичный ассистент."},
        {"role": "user", "content": "Объясни MoE в трёх предложениях."},
    ],
    temperature=0.5,
)
print(response.choices[0].message.content)

Что важно знать про ограничения

  • Цензура. Модели DeepSeek обучены с учётом политики КНР. Темы, чувствительные для китайского правительства, обходятся стороной. Для рабочих задач разработки это обычно не мешает; для журналистики или политологии — мешает.
  • Русский язык. Качество хорошее, но YandexGPT и GigaChat объективно сильнее на сложных русскоязычных кейсах (юридические тексты, локальный контекст).
  • Мультимодальность. DeepSeek V3 / R1 — текстовые. Для изображений нужны Janus-Pro или аналоги, для аудио — отдельные сервисы (подборка бесплатных нейросетей покрывает эти задачи).
  • SLA. У DeepSeek нет enterprise-поддержки уровня Anthropic / OpenAI. Для критичных production-кейсов это риск.
  • Приватность. Бесплатный веб-чат не подходит для конфиденциальных данных. Для бизнес-задач используйте API с явным NDA или локальный запуск дистиллятов.

Кому подходит DeepSeek

Однозначно подходит:

  • Разработчикам и стартапам, которым нужно соотношение цена/качество — DeepSeek V3 в разы дешевле GPT-4o при сопоставимой работе.
  • Командам, которым нужен сильный reasoning (математика, код, исследовательские задачи) — здесь DeepSeek-R1 один из лидеров среди открытых моделей.
  • Российским пользователям, которым нужен доступ без VPN и без проблем с платежами OpenAI / Anthropic.
  • Тем, кто хочет запустить разумную модель локально — дистилляты R1 на Ollama дают отличный baseline.

Не лучший выбор:

  • Если основная нагрузка — творческое написание на русском под высокие стандарты: посмотрите GigaChat / YandexGPT.
  • Если нужен мультимодальный ввод (фото, видео): Gemini или GPT-4o справятся лучше.
  • Если нужен SLA и enterprise-контракт: Anthropic / OpenAI / Microsoft пока сильнее в этом плане.

Сценарии использования: где DeepSeek реально решает

Кодовая работа и автоматизация разработки

Связка DeepSeek-R1 для архитектурных вопросов + DeepSeek V3 для рутинных правок даёт компромисс между качеством и скоростью. R1 «думает» по 5–30 секунд, что слишком долго для автодополнения, но идеально для разбора сложного бага. V3 отвечает почти мгновенно и подходит для inline-помощника в IDE через расширение Continue.dev. По задачам code review (LiveCodeBench, SWE-bench Verified) R1 показывает результаты, сопоставимые с Claude 3.5 Sonnet, при цене API в разы ниже.

RAG-системы на русском контексте

DeepSeek V3 хорошо справляется с длинным контекстом и не «галлюцинирует» при retrieval-augmented generation, если документы поданы аккуратно. Стандартный пайплайн: pgvector / Qdrant с эмбеддингами от GigaChat или multilingual-e5, retrieval топ-5 чанков, ответ через DeepSeek V3. Цена обработки одного запроса при 5K входных + 2K выходных токенов — около $0.0035, что в 5–10 раз дешевле OpenAI на той же задаче.

Образовательные и научные продукты

Для математики, физики и computer science DeepSeek-R1 один из лидеров среди открытых моделей. Решает задачи AIME, KAIST-Math, GPQA Diamond с понятной цепочкой рассуждений — это удобно показывать студентам не только как ответ, но и как образец процесса мышления. На русском работает хуже, чем на английском, поэтому для русскоязычных EdTech-продуктов имеет смысл использовать DeepSeek для математики и код-задач, а пояснения переводить через GigaChat.

Эксперименты и исследования

Открытые веса позволяют делать то, что закрыто у OpenAI: смотреть внутренности модели, файнтюнить под доменные данные, изучать поведение цепочек рассуждений. Для академических лабораторий и R&D-команд это критично. Дистилляты R1 в 7B–70B вариантах достаточно компактны для запуска на 1–2 видеокартах потребительского класса.

Этика и риски: что обсуждается в сообществе в 2026

Вокруг китайских открытых моделей в 2025–2026 годах сложился ряд споров. Их полезно знать до того, как вы заложите модель в production:

  • Geopolitical concerns. Часть западных компаний и госструктур формально не разрешает использование китайских AI-моделей для работы с конфиденциальными данными. В РФ таких ограничений нет, но если ваши клиенты — корпорации из США или ЕС, проверьте их compliance-политики.
  • Поведение модели на острых темах. Модели обучены с учётом китайского законодательства; на ряд тем (политика КНР, Тайвань, Тибет, Тяньаньмэнь) ответы будут уклончивы или отсутствовать. Для журналистики и общественно-политических продуктов это создаёт риск.
  • Лицензионные нюансы. DeepSeek-R1 — MIT, что максимально либерально. У DeepSeek V3 — собственная лицензия, близкая к MIT, но с явными оговорками. Перед коммерческой интеграцией прочитайте текст лицензии в репозитории на HuggingFace, не полагайтесь на «обзорные» статьи.
  • Прозрачность данных обучения. DeepSeek публикует технические отчёты, но не раскрывает полный состав обучающего датасета. Для регулируемых индустрий (медицина, банки) это значит, что аудит на bias и privacy придётся делать самому.
  • Безопасность RAG-пайплайнов. Если вы строите систему на DeepSeek API, не забудьте настроить prompt injection-защиту: модель чувствительна к специально оформленным инструкциям внутри документов, как и большинство LLM 2024–2026.

Чек-лист перед интеграцией DeepSeek в проект

  1. Решите задачу: классическая LLM (deepseek-chat) или reasoning (deepseek-reasoner). От этого зависит UX и цена.
  2. Сравните с YandexGPT и GigaChat для русскоязычных кейсов через одинаковый набор тестовых промптов — не доверяйте только публичным бенчмаркам.
  3. Прочитайте текст лицензии конкретной версии модели, которую планируете использовать.
  4. Проверьте платёжный путь: для российских юрлиц прямая оплата DeepSeek API сейчас идёт через посредников, OpenRouter снимает часть рисков.
  5. Если данные конфиденциальны — поднимайте дистиллят R1 локально через Ollama; для этого хватит RTX 4090 + 64GB RAM.
  6. Заложите prompt injection-тесты: попробуйте «обмануть» модель внутри RAG-документа и убедитесь, что система держит политики.

Сравнение DeepSeek с моделями российских провайдеров

Если вы выбираете LLM-стек под задачи на русском языке, важно понимать, как DeepSeek соотносится с российскими аналогами. Сравним по ключевым параметрам, которые волнуют команду на момент выбора:

ПараметрDeepSeek V3 / R1GigaChat-2 ProYandexGPT 5 Pro
Качество русскогоХорошее, но не лучшееОчень хорошееОчень хорошее
Сильнейшая сторонаReasoning, код, ценаСвязные русские тексты, юридический контекстФакты, поиск, интеграция в Яндекс-экосистему
Контекст128K32K (Pro), до 128K (Max)32K
Серверы данныхКНРРФРФ
Соответствие ФЗ-152Только при self-hosting дистиллятаДаДа
Цена за 1M входных токенов~$0.27 (≈25 ₽)~1500 ₽~600–1200 ₽
Function callingДаДаДа
Открытые весаДа (V3 и R1)НетНет

Практический вывод: для решений, которые работают только с открытыми источниками или общим контентом, DeepSeek даёт лучший price/performance. Для задач с персональными данными граждан РФ (HR, банкинг, медицина) российские провайдеры обязательны — у них серверы в РФ и юридическая ясность по ФЗ-152. Подробнее про подключение — в гиде по GigaChat API на практике.

Что почитать после этого

Если задача связана с агентами и tool calling — посмотрите обзор Nemotron Super 49B: это другой кандидат среди open-weight моделей с фокусом на агентные сценарии. Если вы выбираете между разными способами локального запуска — практический разбор в Ollama vs LM Studio. Если хотите общую карту бесплатных нейросетей по задачам — подборка 25 сервисов 2026 года.

Распространённые мифы про DeepSeek

За полтора года вокруг моделей DeepSeek накопилось мифов, которые мешают принимать правильные решения. Разберём ключевые:

  • «DeepSeek заменит OpenAI». На отдельных задачах — да, на всём спектре — нет. OpenAI по-прежнему сильнее в мультимодальности, voice, reasoning последнего поколения и enterprise-инфраструктуре. DeepSeek — отличная альтернатива для текстовых сценариев и reasoning по математике/коду, но не универсальная замена.
  • «Открытые веса = можно делать что угодно». Лицензия R1 (MIT) разрешает почти всё, но V3 имеет дополнительные оговорки. Для крупных коммерческих внедрений всегда нужна юридическая проверка лицензии.
  • «Модели маленькие = плохие». Дистилляты R1 в 7B–14B на математических задачах часто превосходят значительно больших конкурентов. Размер — не единственный фактор; качество тренировочных данных и техника обучения важнее.
  • «В России DeepSeek нельзя использовать». Можно. Веб-чат и API работают без VPN, оплата возможна через посредников или дистилляты можно запускать локально. Юридических ограничений на саму модель в РФ нет (есть только общие требования по обработке персональных данных).
  • «MoE — экзотика». К 2026 году MoE стал основным архитектурным выбором для моделей крупнее 100B. Mixtral, DeepSeek V3, Qwen-MoE — все используют этот подход. Это уже не экзотика, а индустриальный стандарт для high-end моделей.

Как DeepSeek изменил рынок открытых моделей

Релиз DeepSeek V3 в декабре 2024 и DeepSeek-R1 в январе 2025 стал важной точкой в истории открытого AI. Несколько последствий, которые видны к маю 2026 года:

  1. Снижение цен на API. После DeepSeek крупные провайдеры (Mistral, Anthropic, OpenAI) заметно скорректировали цены вниз — особенно на bulk-запросы и cache hit. DeepSeek V3 стоимостью $0.14–0.27 за 1M входных токенов задал новый floor для рынка.
  2. Возрождение интереса к reasoning. R1 показал, что reasoning через chain-of-thought + RLHF можно получить относительно дёшево. После него вышли QwQ от Alibaba, Phi-4-Reasoning от Microsoft, и более качественный o3 от OpenAI.
  3. Стандартизация OpenAI-совместимых API. DeepSeek с самого начала сделал API совместимым с OpenAI SDK. Это упростило миграцию и сделало совместимость новой нормой.
  4. Локальный AI стал реальным. Дистилляты R1 в 7B–14B сделали продвинутый reasoning доступным на потребительских GPU. До этого reasoning был эксклюзивом облачных API.

FAQ

DeepSeek V4 уже вышел?

На 1 мая 2026 года официального публичного релиза с маркой «V4» на api-docs.deepseek.com нет. Доступны DeepSeek V3 (deepseek-chat) и DeepSeek-R1 (deepseek-reasoner). Все упоминания «V4» — это либо анонсы, либо спекуляции сообщества. Точные данные смотрите на api-docs.deepseek.com в момент чтения.

Какая разница между deepseek-chat и deepseek-reasoner?

deepseek-chat — это DeepSeek V3, обычная LLM для большинства задач (генерация, перевод, диалог). deepseek-reasoner — это DeepSeek-R1, модель с явным режимом reasoning: она строит длинную цепочку рассуждений перед ответом. R1 точнее на математике и логике, но медленнее и дороже. Для типового чата используйте V3, для сложных задач — R1.

Безопасно ли загружать рабочие данные в chat.deepseek.com?

Бесплатный веб-чат — нет, по умолчанию данные могут использоваться для улучшения моделей. Для конфиденциальной работы используйте API с настройкой data retention или запускайте дистиллят локально через Ollama. Для российских компаний с требованиями ФЗ-152 локальный запуск — самый безопасный путь.

Сколько ресурсов нужно для локального запуска?

Полный DeepSeek V3 / R1 — серверный класс: 8× H100 80GB или эквивалент. Для дистиллятов: 7B — RTX 3060 12GB; 14B — RTX 4080 / 4090 (16+ GB VRAM); 32B — RTX 4090 24GB или 2× RTX 3090; 70B — A100 40GB или 2× RTX 4090. На MacBook Pro M3/M4 Max 64+ GB запускается до 32B-дистиллята с приемлемой скоростью.

Чем DeepSeek дешевле OpenAI?

Главный фактор — MoE-архитектура. На один токен активны только 37B параметров вместо ~200B+ у dense-моделей такого же класса. Плюс собственный обучающий стек на GPU и эффективная архитектура внимания (MLA). На выходе — стоимость инференса в 5–10 раз ниже при сопоставимом качестве на большинстве задач.

Можно ли использовать DeepSeek в коммерческих продуктах?

Да. DeepSeek V3 распространяется по DeepSeek Model License (близка к MIT), DeepSeek-R1 — по MIT. Обе разрешают коммерческое использование, включая встраивание в SaaS и продажу собственных API. Перед production обязательно прочитайте текст конкретной лицензии — он лежит в репозитории модели на HuggingFace.

Связанные материалы: Ollama vs LM Studio | NVIDIA Nemotron Super 49B | Бесплатные нейросети 2026 | DeepSeek в каталоге

МБ

Максим Барыбин НейроСкоп

1С-разработчик в медицине. Тестирует AI-инструменты на практике в реальных проектах: интеграции с медицинскими информационными системами, автоматизация документооборота.

Понравилась статья?

Поделитесь с коллегами и друзьями

Читайте также

Хотите больше таких статей?

Подпишитесь на еженедельный дайджест — новые инструменты, промпты и гиды каждую неделю

Подписаться бесплатно