⚖️ Сравнение11 мин26 марта 2026 г.

LTX 2.3: генерация видео и аудио в 4K за один проход

Обзор LTX 2.3 от Lightricks — 22B Diffusion Transformer, синхронная генерация видео и аудио 4K/50fps. Сравнение с Sora, Runway, Pika, Kling.

Lightricks — израильская компания, известная приложением Facetune — выпустила LTX 2.3, и это реально впечатляет. Впервые одна модель генерирует синхронное видео и аудио в 4K с частотой 50 кадров в секунду. Причём это open-source. Разбираемся, как это работает, как попробовать и чем отличается от Sora, Runway и других.

Что нового в LTX 2.3

LTX — линейка видеомоделей Lightricks. Версия 2.0 умела генерировать видео по тексту. Версия 2.1 добавила image-to-video. А 2.3 — это качественный скачок:

Главные обновления

ФункцияLTX 2.1LTX 2.3
Разрешение1080p4K (3840×2160)
Частота кадров24 fps50 fps
Длительность5 сек15 сек
АудиоНетСинхронное генерация
Архитектура14B DiT22B DiT
МодальностиText-to-Video, Image-to-Video+ Audio, Video-to-Video
ЛицензияApache 2.0Apache 2.0

Как работает синхронная генерация видео+аудио

Это ключевая инновация LTX 2.3. Предыдущие модели генерировали видео отдельно, а аудио — отдельно (если вообще генерировали). Проблема: звук не совпадает с картинкой. Шаги человека звучат не в такт, музыка не соответствует настроению сцены.

LTX 2.3 использует unified latent space — единое латентное пространство для видео и аудио. Модель одновременно денуазит (denoises) видео- и аудио-токены, учитывая их взаимосвязь через cross-attention механизм. Результат: звук шагов совпадает с движением ног, музыка нарастает вместе с интенсивностью сцены, речь синхронизирована с движением губ.

Архитектура 22B DiT

DiT (Diffusion Transformer) — архитектура, заменившая U-Net в современных видеомоделях. LTX 2.3 использует модифицированную версию с 22 миллиардами параметров:

Video encoder — разбивает видео на пространственно-временные патчи. Audio encoder — кодирует аудио в mel-спектрограммы. Joint DiT backbone — 48 трансформерных блоков с cross-attention между видео и аудио. Dual decoder — отдельные декодеры для видео (VAE) и аудио (HiFi-GAN).

Качество генерации: примеры и впечатления

Я протестировал LTX 2.3 на десятках промптов. Вот что впечатлило:

Реалистичные сцены природы — дождь с звуком капель, ветер в деревьях с шелестом листьев, морские волны с шумом прибоя. Синхронизация почти идеальная.

Городские сцены — автомобили с звуком двигателей, пешеходы с шагами, фоновый гул города. 4K-детализация позволяет разглядеть вывески и номерные знаки.

Музыкальные клипы — можно задать жанр музыки в промпте, и модель сгенерирует подходящий визуальный ряд с музыкой. Качество музыки — на уровне stock-библиотек, не шедевр, но вполне рабочее.

Слабые места

Руки и лица в крупном плане — классическая проблема генеративных моделей, LTX 2.3 здесь лучше предшественников, но до идеала далеко. Речь — синхронизация губ работает, но разборчивость речи пока низкая. Сложные сцены с множеством объектов — модель иногда «забывает» объекты к середине видео.

Сравнение с конкурентами

ПараметрLTX 2.3SoraRunway Gen-4Pika 2.0Kling 2.0
Разрешение4K1080p4K1080p1080p
FPS5024302430
Длительность15 сек60 сек10 сек10 сек10 сек
АудиоСинхронноеОтдельноеНетНетНет
Open-sourceДаНетНетНетНет
ЦенаБесплатно (self-hosted)$200/мес$76/мес$58/мес$30/мес
Реализм8/109/108/107/107/10
Temporal coherence8/109/107/106/107/10

LTX 2.3 выигрывает в разрешении (4K), частоте кадров (50fps), наличии аудио и открытости. Sora пока лидирует по длительности и реализму, но стоит $200/мес и закрыта. Runway Gen-4 догнал по разрешению, но без аудио.

Как попробовать LTX 2.3

Онлайн-демо

Lightricks запустили демо на Hugging Face Spaces: бесплатно, 720p, до 5 секунд. Для полного 4K нужен собственный GPU.

Self-hosted

Модель опубликована на Hugging Face. Минимальные требования для 4K:

РежимGPUVRAMСкорость
4K BF16A100 80GB или H10080 GB~2 мин / 5 сек видео
1080p BF16RTX 409024 GB~45 сек / 5 сек видео
720p INT8RTX 309024 GB~30 сек / 5 сек видео

Установка через pip: pip install ltx-video. Дальше стандартный Python-скрипт с текстовым промптом. API совместим с ComfyUI — есть нода для интеграции в рабочие процессы.

Через API

Lightricks предлагает hosted API для тех, кто не хочет разворачивать инфраструктуру. Цены: $0.05 за секунду видео (1080p) и $0.15 за секунду (4K). Аудио включено в стоимость.

Для кого LTX 2.3

Контент-мейкеры и SMM — быстрая генерация коротких видео для соцсетей с готовым звуком. Не нужно искать stock-музыку и синхронизировать.

Прототипирование — дизайнеры и продюсеры могут создать видео-концепт за минуту вместо дней. Показать клиенту идею до начала съёмок.

Инди-разработчики игр — генерация катсцен, трейлеров, фоновых видео с подходящей атмосферой и звуком.

Разработчики AI-продуктов — open-source + API позволяет встроить видеогенерацию в любой продукт без зависимости от облака.

Ограничения и риски

Вычислительные требования — 4K-генерация требует серьёзного GPU. Для массового использования пока дорого.

Deepfake-потенциал — синхронизация губ и речи — это тот же механизм, что используется для deepfakes. Lightricks встроили невидимый watermark (C2PA), но его можно удалить.

Качество аудио — звуковые эффекты хороши, музыка приемлема, но генерация речи пока слабая. Для озвучки лучше использовать специализированные модели вроде ElevenLabs.

FAQ

Можно ли запустить LTX 2.3 на обычном компьютере?

В режиме 720p INT8 — да, если есть RTX 3090 или лучше. На RTX 3060 12GB можно генерировать короткие видео 480p. Без GPU — нет, модель слишком тяжёлая для CPU.

LTX 2.3 лучше Sora?

По реализму — пока нет, Sora точнее воспроизводит физику и детали. Но LTX 2.3 выигрывает в разрешении (4K vs 1080p), наличии синхронного аудио и том, что это open-source. Для многих задач LTX 2.3 уже достаточно.

Можно ли использовать для коммерческих проектов?

Да. Лицензия Apache 2.0 разрешает любое коммерческое использование без ограничений.

Как с русским языком в промптах?

Модель обучена преимущественно на английских промптах. Русские промпты работают, но качество ниже. Рекомендация: пишите промпты на английском или используйте ChatGPT для перевода.

Понравилась статья?

Поделитесь с коллегами и друзьями

Читайте также

Хотите больше таких статей?

Подпишитесь на еженедельный дайджест — новые инструменты, промпты и гиды каждую неделю

Подписаться бесплатно