Lightricks LTX-2.3 开源发布：220亿参数视频生成模型，支持4K竖屏与音视频同步

💡 站外导读：当短视频成为主流媒介，内容创作者面临两个核心痛点：一是传统视频制作成本高、周期长，难以快速响应热点；二是现有AI生成工具在画质、竖屏适配和音画同步上存在明显短板，无法直接用于专业场景。在此背景下，以色列公司Lightricks开源了其最新一代视频生成模型LTX-2.3，旨在通过强大的多模态生成能力与工程化优化，降低高质量视频内容的生产门槛。

LTX-2.3是什么

LTX-2.3 是以色列 AI 公司 Lightricks 开源的最新一代视频生成模型，采用 Diffusion Transformer 架构，拥有 220 亿参数。模型支持文本、图像、音频三种输入方式生成视频，最高可输出 4K 分辨率，并原生支持 9:16 竖屏格式和 24/48FPS 帧率选择。相比前代，LTX-2.3 通过全新训练的 VAE 架构显著提升了画面细节锐度，解决了高分辨率下纹理模糊的问题，同时新增原生音频生成功能，实现音视频同步输出。模型提供 7 个生成端点，单次最长可生成 20 秒视频，并支持 LoRA 微调。

阅读目录

LTX-2.3是什么
LTX-2.3的主要功能
LTX-2.3的技术原理
LTX-2.3的项目地址
LTX-2.3的应用场景

📝 站长洞察 (Editor’s Insight)

LTX-2.3

LTX-2.3的主要功能

多模态视频生成：支持 text-to-video（文本生视频）、image-to-video（图像生视频）、audio-to-video（音频生视频）三种核心生成方式，满足不同创作需求。
原生竖屏支持：新增 9:16 竖屏格式（最高 1080×1920），直接适配短视频平台和社交媒体内容创作。
音视频同步生成：新增原生音频生成功能，可同步输出环境音、音效和对话，也可通过音频输入驱动视频画面生成。
灵活帧率选择：支持 24FPS 电影感和 48FPS 流畅运动两种帧率模式。
视频延展与重拍：提供 extend-video（视频延长）和 retake-video（片段重生成）功能，单次最长生成 20 秒，可通过延展进一步延长。
快速生成模式：针对效率场景提供 text-to-video fast 和 image-to-video fast 加速版本。
高分辨率输出：支持最高 4K 分辨率，通过全新 VAE 架构实现更锐利的画面细节和纹理表现。
LoRA 微调支持：创作者可在本地进行 LoRA 适配器训练，不到一小时即可完成定制化模型微调。
配套超分工具：提供 2x/1.5x 空间超分和 2x 帧率提升的后期处理模型，优化最终输出质量。
本地桌面编辑器：同步推出 LTX Desktop 开源视频编辑器，基于 LTX-2.3 引擎，完全本地运行无需云端。

LTX-2.3的技术原理

DiT 扩散Transformer架构：基于 Diffusion Transformer 架构，将扩散模型与 Transformer 结合，通过迭代去噪过程生成高质量视频，拥有约 220 亿参数规模。
全新VAE变分自编码器：重新训练的 Variational Autoencoder 大幅改善编码-解码质量，显著提升画面锐度、纹理细节和面部特征清晰度，解决前代高分辨率下细节模糊问题。
时空联合建模：采用时空分离的注意力机制处理视频数据，同时建模空间维度的画面内容和时序维度的运动变化，确保生成视频的时序连贯性。
原生音频生成模块：集成音频生成子网络，实现音视频端到端同步生成，支持从音频输入驱动视觉内容生成，确保声画同步。
多模态条件注入：通过不同的条件编码器将文本、图像、音频三种模态输入统一映射到潜在空间，实现灵活的多模态控制。
蒸馏加速版本：提供 distilled 蒸馏版模型，通过知识蒸馏技术压缩模型规模，在保持质量的同时提升推理速度。
LoRA低秩适配：支持 Low-Rank Adaptation 技术，允许用户在预训练模型基础上快速注入特定风格或概念，实现低成本定制化。
超分辨率后处理：配套独立的超分模型，采用空间上采样（2x/1.5x）和帧率插值（2x）技术，对生成视频进行二次优化。

LTX-2.3的项目地址

项目官网：https://ltx.io/model/ltx-2-3
Hugging Face：https://huggingface.co/Lightricks/LTX-2.3
arXiv技术论文：https://arxiv.org/pdf/2601.03233

LTX-2.3的应用场景

短视频与社交媒体内容：原生 9:16 竖屏支持和 24/48FPS 帧率选择，完美适配抖音、TikTok、Instagram Reels 等平台的内容创作需求。
广告与营销视频：快速生成产品展示、品牌宣传片，支持图像到视频的转换，可将静态产品图转化为动态广告素材。
影视预演与概念设计：导演和制片方可用文本快速生成镜头预览，验证创意概念后再投入正式拍摄，降低前期成本。
游戏与动画制作：生成游戏过场动画、角色动作参考，或作为动画制作的初版素材，加速内容生产流程。
音乐MV与音视频创作：audio-to-video 功能支持用音频驱动画面生成，适合音乐人快速制作歌词版 MV 或视觉化音轨。
教育与培训内容：生成教学演示视频、操作步骤可视化，将静态教材转化为动态讲解内容。

📝 站长洞察 (Editor’s Insight)

LTX-2.3的发布标志着AI视频生成从“玩具”走向“生产力工具”的关键一步。其核心价值不仅在于220亿参数的模型规模，更在于对实际创作场景的深度适配：原生9:16竖屏、音视频同步、4K输出与LoRA微调，直击短视频营销、影视预演等行业的效率痛点。从技术路径看，DiT架构与全新VAE的结合，代表了“架构创新解决实际问题”的思路，而非单纯追求参数膨胀。值得关注的是，配套的开源桌面编辑器与超分工具，形成了从生成到优化的完整工作流，这或将降低专业视频工具链的构建门槛。在Sora等大厂模型主导舆论的背景下，Lightrick选择开源并聚焦工程化，可能更利于在垂直生态中快速落地，值得国内AIGC创业者借鉴。

Lightricks LTX-2.3 开源发布：220亿参数视频生成模型，支持4K竖屏与音视频同步

LTX-2.3是什么

LTX-2.3的主要功能

LTX-2.3的技术原理

LTX-2.3的项目地址

LTX-2.3的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型

GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型

Matrix -Game3.5 – 昆仑万维开源的实时流式交互世界模型

vivago R1- 智象未来推出的无限时长多模态创作智能体

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

LTX-2.3是什么

LTX-2.3的主要功能

LTX-2.3的技术原理

LTX-2.3的项目地址

LTX-2.3的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复