Step-Video-T2V – 阶跃星辰开源的文本到视频模型

最近更新: 2026年6月8日下午6:03

Step-Video-T2V是什么

Step-Video-T2V 是阶跃星辰团队推出的开源文本到视频预训练模型，拥有 300 亿参数，能生成长达 204 帧的高质量视频。模型基于深度压缩的变分自编码器（Video-VAE），实现 16×16 的空间压缩和 8× 的时间压缩，显著提高了训练和推理效率。Step-Video-T2V 配备双语文本编码器，支持中英文提示输入，通过直接偏好优化（DPO）方法进一步提升视频质量。模型基于扩散的 Transformer（DiT）架构和 3D 全注意力机制，在生成具有强烈运动动态和高美学质量的视频方面表现出色。

阅读目录

Step-Video-T2V是什么
Step-Video-T2V的主要功能
Step-Video-T2V的技术原理
Step-Video-T2V的项目地址
Step-Video-T2V的应用场景

Step-Video-T2V

Step-Video-T2V的主要功能

高质量视频生成：Step-Video-T2V 拥有 300 亿参数，能生成长达 204 帧的高质量视频，支持 544×992 分辨率。
双语文本支持：配备双语文本编码器，支持中英文提示词的直接输入，能理解并生成与文本描述相符的视频。
动态与美学优化：通过 3D 全注意力的 DiT 架构和 Flow Matching 训练方法，生成具有强烈动态效果和高美学质量的视频。

Step-Video-T2V的技术原理

深度压缩的变分自编码器（Video-VAE）：Step-Video-T2V 使用了深度压缩的变分自编码器（Video-VAE），实现了 16×16 的空间压缩和 8× 的时间压缩。显著降低了视频生成任务的计算复杂度，同时保持了优异的视频重建质量。
双语文本编码器：模型配备了两个预训练的双语文本编码器，能处理中文和英文提示。Step-Video-T2V 可以直接理解中英文输入，生成与文本描述相符的视频。
基于扩散的 Transformer（DiT）架构：Step-Video-T2V 基于扩散的 Transformer（DiT）架构，包含 3D 全注意力机制。通过 Flow Matching 训练，将输入噪声逐步去噪为潜在帧，用文本嵌入和时间步作为条件因子。在生成具有强烈运动动态和高美学质量的视频方面表现出色。
直接偏好优化（DPO）：为了进一步提升生成视频的质量，Step-Video-T2V 引入了视频直接偏好优化（Video-DPO）方法。DPO 通过人类偏好数据对模型进行微调，减少伪影并增强视觉效果，使生成的视频更加平滑和真实。
级联训练策略：模型采用了级联训练流程，包括文本到图像（T2I）预训练、文本到视频/图像（T2VI）预训练、文本到视频（T2V）微调和直接偏好优化（DPO）训练。加速了模型的收敛，充分利用了不同质量的视频数据。
系统优化：Step-Video-T2V 在系统层面进行了优化，包括张量并行、序列并行和 Zero1 优化，实现高效的分布式训练。引入了高性能通信框架 StepRPC 和双层监控系统 StepTelemetry，优化数据传输效率和识别性能瓶颈。

Step-Video-T2V的项目地址

Github仓库：https://github.com/stepfun-ai/Step-Video-T2V
HuggingFace模型库：https://huggingface.co/stepfun-ai/stepvideo-t2v
arXiv技术论文：https://arxiv.org/pdf/2502.10248

Step-Video-T2V的应用场景

视频内容创作：Step-Video-T2V 能根据文本提示快速生成创意视频，帮助创作者节省时间和精力，降低视频制作的门槛。
广告制作：可以为品牌和广告商生成个性化的视频广告内容，提升广告的吸引力和传播效果。
教育与培训：Step-Video-T2V 可以生成教学视频，帮助学生更好地理解和记忆知识。
娱乐与影视：为影视制作提供创意素材，辅助生成特效、动画或短剧片段，加速创作流程。
社交媒体：Step-Video-T2V 为用户提供个性化的视频生成工具，丰富社交平台的内容生态，提升用户互动性。生成的视频可以用于社交媒体的创意内容分享。

OpenAI o4-mini – OpenAI推出的小型推理模型

影视圈又一重磅联手！生数科技牵手华策，加速 AI 视频从“创意辅助”迈向“真实生产”

发表评价

Step-Video-T2V – 阶跃星辰开源的文本到视频模型

Step-Video-T2V是什么

Step-Video-T2V的主要功能

Step-Video-T2V的技术原理

Step-Video-T2V的项目地址

Step-Video-T2V的应用场景

发表评价取消回复

最近更新

Agents – AIWaves公司推出的AI Agent开发工具

MiniCPM-V – 面壁智能推出的开源多模态大模型

VideoDoodles – Adobe推出的AI视频编辑框架

CharacterFactory – 大连理工推出的AI角色创作工具

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

Step-Video-T2V是什么

Step-Video-T2V的主要功能

Step-Video-T2V的技术原理

Step-Video-T2V的项目地址

Step-Video-T2V的应用场景

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复