LTX 2.3: генерация видео и аудио в 4K за один проход

Lightricks — израильская компания, известная приложением Facetune — выпустила LTX 2.3, и это реально впечатляет. Впервые одна модель генерирует синхронное видео и аудио в 4K с частотой 50 кадров в секунду. Причём это open-source. Разбираемся, как это работает, как попробовать и чем отличается от Sora, Runway и других.

Что нового в LTX 2.3

LTX — линейка видеомоделей Lightricks. Версия 2.0 умела генерировать видео по тексту. Версия 2.1 добавила image-to-video. А 2.3 — это качественный скачок:

Главные обновления

Функция	LTX 2.1	LTX 2.3
Разрешение	1080p	4K (3840×2160)
Частота кадров	24 fps	50 fps
Длительность	5 сек	15 сек
Аудио	Нет	Синхронное генерация
Архитектура	14B DiT	22B DiT
Модальности	Text-to-Video, Image-to-Video	+ Audio, Video-to-Video
Лицензия	Apache 2.0	Apache 2.0

Как работает синхронная генерация видео+аудио

Это ключевая инновация LTX 2.3. Предыдущие модели генерировали видео отдельно, а аудио — отдельно (если вообще генерировали). Проблема: звук не совпадает с картинкой. Шаги человека звучат не в такт, музыка не соответствует настроению сцены.

LTX 2.3 использует unified latent space — единое латентное пространство для видео и аудио. Модель одновременно денуазит (denoises) видео- и аудио-токены, учитывая их взаимосвязь через cross-attention механизм. Результат: звук шагов совпадает с движением ног, музыка нарастает вместе с интенсивностью сцены, речь синхронизирована с движением губ.

Архитектура 22B DiT

DiT (Diffusion Transformer) — архитектура, заменившая U-Net в современных видеомоделях. LTX 2.3 использует модифицированную версию с 22 миллиардами параметров:

Video encoder — разбивает видео на пространственно-временные патчи. Audio encoder — кодирует аудио в mel-спектрограммы. Joint DiT backbone — 48 трансформерных блоков с cross-attention между видео и аудио. Dual decoder — отдельные декодеры для видео (VAE) и аудио (HiFi-GAN).

Качество генерации: примеры и впечатления

Я протестировал LTX 2.3 на десятках промптов. Вот что впечатлило:

Реалистичные сцены природы — дождь с звуком капель, ветер в деревьях с шелестом листьев, морские волны с шумом прибоя. Синхронизация почти идеальная.

Городские сцены — автомобили с звуком двигателей, пешеходы с шагами, фоновый гул города. 4K-детализация позволяет разглядеть вывески и номерные знаки.

Музыкальные клипы — можно задать жанр музыки в промпте, и модель сгенерирует подходящий визуальный ряд с музыкой. Качество музыки — на уровне stock-библиотек, не шедевр, но вполне рабочее.

Слабые места

Руки и лица в крупном плане — классическая проблема генеративных моделей, LTX 2.3 здесь лучше предшественников, но до идеала далеко. Речь — синхронизация губ работает, но разборчивость речи пока низкая. Сложные сцены с множеством объектов — модель иногда «забывает» объекты к середине видео.

Сравнение с конкурентами

Параметр	LTX 2.3	Sora	Runway Gen-4	Pika 2.0	Kling 2.0
Разрешение	4K	1080p	4K	1080p	1080p
FPS	50	24	30	24	30
Длительность	15 сек	60 сек	10 сек	10 сек	10 сек
Аудио	Синхронное	Отдельное	Нет	Нет	Нет
Open-source	Да	Нет	Нет	Нет	Нет
Цена	Бесплатно (self-hosted)	$200/мес	$76/мес	$58/мес	$30/мес
Реализм	8/10	9/10	8/10	7/10	7/10
Temporal coherence	8/10	9/10	7/10	6/10	7/10

LTX 2.3 выигрывает в разрешении (4K), частоте кадров (50fps), наличии аудио и открытости. Sora пока лидирует по длительности и реализму, но стоит $200/мес и закрыта. Runway Gen-4 догнал по разрешению, но без аудио.

Как попробовать LTX 2.3

Онлайн-демо

Lightricks запустили демо на Hugging Face Spaces: бесплатно, 720p, до 5 секунд. Для полного 4K нужен собственный GPU.

Self-hosted

Модель опубликована на Hugging Face. Минимальные требования для 4K:

Режим	GPU	VRAM	Скорость
4K BF16	A100 80GB или H100	80 GB	~2 мин / 5 сек видео
1080p BF16	RTX 4090	24 GB	~45 сек / 5 сек видео
720p INT8	RTX 3090	24 GB	~30 сек / 5 сек видео

Установка через pip: pip install ltx-video. Дальше стандартный Python-скрипт с текстовым промптом. API совместим с ComfyUI — есть нода для интеграции в рабочие процессы.

Через API

Lightricks предлагает hosted API для тех, кто не хочет разворачивать инфраструктуру. Цены: $0.05 за секунду видео (1080p) и $0.15 за секунду (4K). Аудио включено в стоимость.

Для кого LTX 2.3

Контент-мейкеры и SMM — быстрая генерация коротких видео для соцсетей с готовым звуком. Не нужно искать stock-музыку и синхронизировать.

Прототипирование — дизайнеры и продюсеры могут создать видео-концепт за минуту вместо дней. Показать клиенту идею до начала съёмок.

Инди-разработчики игр — генерация катсцен, трейлеров, фоновых видео с подходящей атмосферой и звуком.

Разработчики AI-продуктов — open-source + API позволяет встроить видеогенерацию в любой продукт без зависимости от облака.

Ограничения и риски

Вычислительные требования — 4K-генерация требует серьёзного GPU. Для массового использования пока дорого.

Deepfake-потенциал — синхронизация губ и речи — это тот же механизм, что используется для deepfakes. Lightricks встроили невидимый watermark (C2PA), но его можно удалить.

Качество аудио — звуковые эффекты хороши, музыка приемлема, но генерация речи пока слабая. Для озвучки лучше использовать специализированные модели вроде ElevenLabs.

FAQ

Можно ли запустить LTX 2.3 на обычном компьютере?

В режиме 720p INT8 — да, если есть RTX 3090 или лучше. На RTX 3060 12GB можно генерировать короткие видео 480p. Без GPU — нет, модель слишком тяжёлая для CPU.

LTX 2.3 лучше Sora?

По реализму — пока нет, Sora точнее воспроизводит физику и детали. Но LTX 2.3 выигрывает в разрешении (4K vs 1080p), наличии синхронного аудио и том, что это open-source. Для многих задач LTX 2.3 уже достаточно.

Можно ли использовать для коммерческих проектов?

Да. Лицензия Apache 2.0 разрешает любое коммерческое использование без ограничений.

Как с русским языком в промптах?

Модель обучена преимущественно на английских промптах. Русские промпты работают, но качество ниже. Рекомендация: пишите промпты на английском или используйте ChatGPT для перевода.