字节跳动Waver 1.0重磅发布：一体化AI视频生成，支持1080p，性能碾压Sora

💡 站外导读：在AIGC浪潮下，视频生成正成为内容创作的新焦点，但现有工具常面临模型切换繁琐、分辨率与时长受限、运动生成生硬等痛点。字节跳动最新推出的Waver 1.0，旨在破解这一行业难题。作为新一代一体化视频生成模型，它基于修正流Transformer架构，在单一框架内无缝支持文本到视频、图像到视频及文本到图像生成，并突破了1080p高分辨率与复杂运动建模的瓶颈，为高效、高质量的视频内容生产开辟了新路径。

Waver 1.0是什么

Waver 1.0 是字节跳动推出的新一代视频生成模型，基于修正流 Transformer 架构，支持文本到视频（T2V）、图像到视频（I2V）和文本到图像（T2I）生成，可在单一框架内完成，无需切换模型。支持高达 1080p 的分辨率和 2-10 秒的灵活视频长度，擅长捕捉复杂运动，生成的视频在运动幅度和时间一致性上表现出色。在 Waver-Bench 1.0 和 Hermes 运动测试集上，Waver 1.0 的表现优于现有的开源和闭源模型。支持多种艺术风格的视频生成，包括极致现实、动画、粘土、毛绒等。

阅读目录

Waver 1.0是什么
Waver 1.0的主要功能
Waver 1.0的技术原理
Waver 1.0的项目地址
Waver 1.0的应用场景

📝 站长洞察 (Editor’s Insight)

Waver 1.0

Waver 1.0的主要功能

一体化生成：支持文本到视频（T2V）、图像到视频（I2V）和文本到图像（T2I）生成，无需切换模型。
高分辨率与灵活长度：支持最高 1080p 分辨率和 2-10 秒的视频长度，可灵活调整分辨率和宽高比。
复杂运动建模：擅长捕捉复杂运动，生成的视频在运动幅度和时间一致性上表现出色。
多镜头叙事：能生成多镜头连贯叙事视频，保证核心主题、视觉风格和整体氛围的高度一致性。
艺术风格支持：支持多种艺术风格的视频生成，如极致现实、动画、粘土、毛绒等。
性能优势：在 Waver-Bench 1.0 和 Hermes 运动测试集上，性能优于现有开源和闭源模型。
推理优化：采用 APG 技术，减少伪影，提高生成视频的真实感。
训练策略：通过低分辨率视频训练，逐步增加分辨率，优化运动生成能力。
提示标签：通过提示标签区分不同类型的训练数据，提升生成效果。

Waver 1.0的技术原理

模型架构：Waver 1.0采用混合流DiT（Hybrid Stream DiT）架构，使用Wan-VAE获取压缩视频潜在变量，采用flan-t5-xxl和Qwen2.5-32B-Instruct提取文本特征，基于修正流Transformer构建DiT模型。视频和文本模态通过双流+单流的方式融合。
1080p生成：Waver-Refiner采用DiT架构，通过流匹配方法训练。先将低分辨率视频（480p或720p）上采样到1080p，再添加噪声，以噪声低分辨率视频为输入，输出高质量1080p视频。使用窗口注意力机制，减少推理步骤，显著提高推理速度。
训练方法：在低分辨率视频上训练对学习运动至关重要。投入大量计算资源在192p视频上训练，然后逐渐增加分辨率到480p和720p。遵循SD3中的流匹配训练设置，逐渐增加480p和720p视频训练时的sigma shift值。
提示标签：采用提示标签方法区分不同类型的训练数据，根据视频风格和视频质量为训练数据分配不同标签。在训练时，将描述视频风格的提示添加到标题前，将描述视频质量的提示添加到训练标题末尾。在推理时，将描述不良质量的提示（如低清晰度或慢动作）纳入负提示。
推理优化：将APG扩展到视频生成中，以增强真实感并减少伪影。APG将CFG中的更新项分解为平行和正交分量，并降低平行分量的权重，以实现高质量生成而不过度饱和。

Waver 1.0的项目地址

项目官网：http://www.waver.video/
Github仓库：https://github.com/FoundationVision/Waver
arXiv技术论文：https://arxiv.org/pdf/2508.15761

Waver 1.0的应用场景

内容创作：可用于故事创作、广告、短剧等，将文本描述转化为生动的视频。
产品展示：能将产品图片转化为动态展示视频，适用于电商直播、产品展示和虚拟试穿等。
教育与培训：可以将教学内容或培训文档转化为互动视频，提升学习体验。
社交媒体：快速生成适合社交媒体发布的视频内容，吸引用户关注。
动画制作：将静态图片转化为动画，适用于动画制作、角色驱动和特效生成。
游戏开发：为游戏生成动态场景和角色动画，增强游戏的沉浸感。

📝 站长洞察 (Editor’s Insight)

Waver 1.0的发布，标志着AI视频生成正从“能用”向“好用”、从“单一模态”向“一体化平台”快速演进。其核心突破在于通过混合流DiT架构与流匹配训练，实现了对复杂物理运动的高保真建模与生成质量的显著提升，这直指当前视频AI在真实感与连贯性上的行业短板。字节跳动将其开源，更显其以技术生态构建护城河的战略意图。这不仅是模型能力的迭代，更是AIGC工具链整合的范式转移——创作者无需再为不同任务寻找不同工具，工作流得以大幅简化。展望未来，随着此类高性能、易用模型的普及，短视频、电商展示、游戏动画等领域的创作门槛将被进一步拉低，内容产业的生产效率与创意边界将迎来新一轮解放。竞争焦点将从单一的生成质量，转向模型的易用性、可控性及与下游应用场景的深度整合。

字节跳动Waver 1.0重磅发布：一体化AI视频生成，支持1080p，性能碾压Sora

Waver 1.0是什么

Waver 1.0的主要功能

Waver 1.0的技术原理

Waver 1.0的项目地址

Waver 1.0的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

CAD-MLLM – 上海科技大学联合多机构推出的计算机辅助设计CAD模型生成系统

LaTRO – 基于自我奖励提升LLMs复杂推理能力的框架

ReCapture – 谷歌和新加坡国立大学共同推出的视频处理技术

MagicClay – Adobe 推出的3D建模工具，文本引导3D模型局部雕刻

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

Waver 1.0是什么

Waver 1.0的主要功能

Waver 1.0的技术原理

Waver 1.0的项目地址

Waver 1.0的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复