Seaweed-7B – 字节推出的视频生成模型

最近更新: 2026年6月7日下午11:51

Seaweed-7B是什么

Seaweed-7B 是字节跳动团队推出的视频生成模型，拥有约 70 亿参数。Seaweed-7B具备强大的视频生成能力。模型支持从文本描述、图像或音频生成高质量的视频内容，支持多种分辨率和时长，广泛应用于视频创作、动画生成、实时交互等场景。Seaweed-7B设计注重成本效益，基于优化训练策略和架构，让中等规模模型在性能上与大型模型相媲美，降低计算成本。

阅读目录

Seaweed-7B是什么
Seaweed-7B的主要功能
Seaweed-7B的技术原理
Seaweed-7B的项目地址
Seaweed-7B的应用场景

Seaweed-7B

Seaweed-7B的主要功能

文本到视频：根据文本描述生成与之匹配的视频内容，支持复杂的动作和场景。
图像到视频：用图像作为第一帧，生成与之风格一致的视频，或指定第一帧和最后一帧生成过渡视频。
音频驱动视频生成：根据音频输入生成匹配的视频内容，确保口型和动作与音频同步。
长镜头生成：支持生成长达 20 秒的单镜头视频，或基于扩展技术生成长达一分钟的视频。
连贯的故事叙述：生成多镜头长视频，维持场景和镜头之间的连贯性。
实时生成：支持在 1280×720 分辨率和 24fps 下实时生成视频。
高分辨率和超分辨率：支持生成高达 1280×720 分辨率的视频，基于进一步上采样到 2K QHD 分辨率。
相机控制和世界探索：支持用定义的轨迹进行精确的相机控制，提供互动式世界探索功能。
物理一致性增强：基于计算机生成的合成视频进行后训练，增强视频生成的物理一致性和 3D 效果。

Seaweed-7B的技术原理

变分自编码器（VAE）：将视频数据压缩到低维潜在空间，从潜在空间重建原始视频。基于因果 3D 卷积架构，支持图像和视频的统一编码，避免边界闪烁问题。基于混合分辨率训练（如 256×256、512×512 等）提高高分辨率视频的重建质量。
扩散变换器（DiT）：在 VAE 的潜在空间中生成视频内容，逐步去噪生成高质量视频。用混合流结构，结合全注意力和窗口注意力机制，提高训练效率和生成质量。用多模态旋转位置编码（MM-RoPE）增强文本和视频之间的位置信息融合。
多阶段训练策略：从低分辨率图像开始逐步过渡到高分辨率视频，优化 GPU 资源分配。包括预训练阶段（仅图像、图像+视频）和后训练阶段（监督微调、人类反馈强化学习）。
优化技术：多级激活检查点（MLAC）减少 GPU 内存占用和计算开销。融合 CUDA 内核优化 I/O 操作，提高训练和推理效率。扩散蒸馏技术减少生成所需的函数评估次数（NFE），加速推理过程。
数据处理：用高质量视频数据，基于时间分割、空间裁剪、质量过滤等方法进行数据清洗。用合成视频数据增强训练数据的多样性和物理一致性。生成详细的视频字幕增强模型的文本理解能力。