Lightricks — израильская компания, известная приложением Facetune — выпустила LTX 2.3, и это реально впечатляет. Впервые одна модель генерирует синхронное видео и аудио в 4K с частотой 50 кадров в секунду. Причём это open-source. Разбираемся, как это работает, как попробовать и чем отличается от Sora, Runway и других.
Что нового в LTX 2.3
LTX — линейка видеомоделей Lightricks. Версия 2.0 умела генерировать видео по тексту. Версия 2.1 добавила image-to-video. А 2.3 — это качественный скачок:
Главные обновления
| Функция | LTX 2.1 | LTX 2.3 |
|---|---|---|
| Разрешение | 1080p | 4K (3840×2160) |
| Частота кадров | 24 fps | 50 fps |
| Длительность | 5 сек | 15 сек |
| Аудио | Нет | Синхронное генерация |
| Архитектура | 14B DiT | 22B DiT |
| Модальности | Text-to-Video, Image-to-Video | + Audio, Video-to-Video |
| Лицензия | Apache 2.0 | Apache 2.0 |
Как работает синхронная генерация видео+аудио
Это ключевая инновация LTX 2.3. Предыдущие модели генерировали видео отдельно, а аудио — отдельно (если вообще генерировали). Проблема: звук не совпадает с картинкой. Шаги человека звучат не в такт, музыка не соответствует настроению сцены.
LTX 2.3 использует unified latent space — единое латентное пространство для видео и аудио. Модель одновременно денуазит (denoises) видео- и аудио-токены, учитывая их взаимосвязь через cross-attention механизм. Результат: звук шагов совпадает с движением ног, музыка нарастает вместе с интенсивностью сцены, речь синхронизирована с движением губ.
Архитектура 22B DiT
DiT (Diffusion Transformer) — архитектура, заменившая U-Net в современных видеомоделях. LTX 2.3 использует модифицированную версию с 22 миллиардами параметров:
Video encoder — разбивает видео на пространственно-временные патчи. Audio encoder — кодирует аудио в mel-спектрограммы. Joint DiT backbone — 48 трансформерных блоков с cross-attention между видео и аудио. Dual decoder — отдельные декодеры для видео (VAE) и аудио (HiFi-GAN).
Качество генерации: примеры и впечатления
Я протестировал LTX 2.3 на десятках промптов. Вот что впечатлило:
Реалистичные сцены природы — дождь с звуком капель, ветер в деревьях с шелестом листьев, морские волны с шумом прибоя. Синхронизация почти идеальная.
Городские сцены — автомобили с звуком двигателей, пешеходы с шагами, фоновый гул города. 4K-детализация позволяет разглядеть вывески и номерные знаки.
Музыкальные клипы — можно задать жанр музыки в промпте, и модель сгенерирует подходящий визуальный ряд с музыкой. Качество музыки — на уровне stock-библиотек, не шедевр, но вполне рабочее.
Слабые места
Руки и лица в крупном плане — классическая проблема генеративных моделей, LTX 2.3 здесь лучше предшественников, но до идеала далеко. Речь — синхронизация губ работает, но разборчивость речи пока низкая. Сложные сцены с множеством объектов — модель иногда «забывает» объекты к середине видео.
Сравнение с конкурентами
| Параметр | LTX 2.3 | Sora | Runway Gen-4 | Pika 2.0 | Kling 2.0 |
|---|---|---|---|---|---|
| Разрешение | 4K | 1080p | 4K | 1080p | 1080p |
| FPS | 50 | 24 | 30 | 24 | 30 |
| Длительность | 15 сек | 60 сек | 10 сек | 10 сек | 10 сек |
| Аудио | Синхронное | Отдельное | Нет | Нет | Нет |
| Open-source | Да | Нет | Нет | Нет | Нет |
| Цена | Бесплатно (self-hosted) | $200/мес | $76/мес | $58/мес | $30/мес |
| Реализм | 8/10 | 9/10 | 8/10 | 7/10 | 7/10 |
| Temporal coherence | 8/10 | 9/10 | 7/10 | 6/10 | 7/10 |
LTX 2.3 выигрывает в разрешении (4K), частоте кадров (50fps), наличии аудио и открытости. Sora пока лидирует по длительности и реализму, но стоит $200/мес и закрыта. Runway Gen-4 догнал по разрешению, но без аудио.
Как попробовать LTX 2.3
Онлайн-демо
Lightricks запустили демо на Hugging Face Spaces: бесплатно, 720p, до 5 секунд. Для полного 4K нужен собственный GPU.
Self-hosted
Модель опубликована на Hugging Face. Минимальные требования для 4K:
| Режим | GPU | VRAM | Скорость |
|---|---|---|---|
| 4K BF16 | A100 80GB или H100 | 80 GB | ~2 мин / 5 сек видео |
| 1080p BF16 | RTX 4090 | 24 GB | ~45 сек / 5 сек видео |
| 720p INT8 | RTX 3090 | 24 GB | ~30 сек / 5 сек видео |
Установка через pip: pip install ltx-video. Дальше стандартный Python-скрипт с текстовым промптом. API совместим с ComfyUI — есть нода для интеграции в рабочие процессы.
Через API
Lightricks предлагает hosted API для тех, кто не хочет разворачивать инфраструктуру. Цены: $0.05 за секунду видео (1080p) и $0.15 за секунду (4K). Аудио включено в стоимость.
Для кого LTX 2.3
Контент-мейкеры и SMM — быстрая генерация коротких видео для соцсетей с готовым звуком. Не нужно искать stock-музыку и синхронизировать.
Прототипирование — дизайнеры и продюсеры могут создать видео-концепт за минуту вместо дней. Показать клиенту идею до начала съёмок.
Инди-разработчики игр — генерация катсцен, трейлеров, фоновых видео с подходящей атмосферой и звуком.
Разработчики AI-продуктов — open-source + API позволяет встроить видеогенерацию в любой продукт без зависимости от облака.
Ограничения и риски
Вычислительные требования — 4K-генерация требует серьёзного GPU. Для массового использования пока дорого.
Deepfake-потенциал — синхронизация губ и речи — это тот же механизм, что используется для deepfakes. Lightricks встроили невидимый watermark (C2PA), но его можно удалить.
Качество аудио — звуковые эффекты хороши, музыка приемлема, но генерация речи пока слабая. Для озвучки лучше использовать специализированные модели вроде ElevenLabs.
FAQ
Можно ли запустить LTX 2.3 на обычном компьютере?
В режиме 720p INT8 — да, если есть RTX 3090 или лучше. На RTX 3060 12GB можно генерировать короткие видео 480p. Без GPU — нет, модель слишком тяжёлая для CPU.
LTX 2.3 лучше Sora?
По реализму — пока нет, Sora точнее воспроизводит физику и детали. Но LTX 2.3 выигрывает в разрешении (4K vs 1080p), наличии синхронного аудио и том, что это open-source. Для многих задач LTX 2.3 уже достаточно.
Можно ли использовать для коммерческих проектов?
Да. Лицензия Apache 2.0 разрешает любое коммерческое использование без ограничений.
Как с русским языком в промптах?
Модель обучена преимущественно на английских промптах. Русские промпты работают, но качество ниже. Рекомендация: пишите промпты на английском или используйте ChatGPT для перевода.