GPDiT – 清华北大联合阶跃星辰等推出的视频生成模型

最近更新: 2026年6月7日下午8:03

GPDiT是什么

GPDiT（Generative Pre-trained Autoregressive Diffusion Transformer）是北京大学、清华大学、StepFun公司及中国科学技术大学推出的新型视频生成模型，模型结合扩散模型和自回归模型的优势，基于自回归方式预测未来的潜在帧，自然地建模运动动态和语义一致性。GPDiT引入轻量级因果注意力机制，减少计算成本，推出一种无参数的旋转基时间条件策略，有效编码时间信息。GPDiT在视频生成、视频表示和少样本学习任务中均表现出色，展示了在多种视频建模任务中的多功能性和适应性。

阅读目录

GPDiT是什么
GPDiT的主要功能
GPDiT的技术原理
GPDiT的项目地址
GPDiT的应用场景

GPDiT

GPDiT的主要功能

高质量视频生成：生成具有高时间一致性和运动连贯性的长序列视频。
视频表示学习：基于自回归建模和扩散过程，学习视频的语义和动态表示，用在下游任务。
少样本学习：够快速适应多种视频处理任务，如风格转换、边缘检测等。
多任务学习：支持多种视频处理任务，如灰度转换、深度估计、人物检测等。

GPDiT的技术原理

自回归扩散框架：基于自回归方式预测未来的潜在帧，自然地建模运动动态和语义一致性。
轻量级因果注意力：引入种轻量级因果注意力机制，消除训练期间干净帧之间的注意力计算，减少计算成本，不降低生成性能。
旋转基时间条件机制：推出一种无参数的旋转基时间条件策略，将噪声注入过程重新解释为数据和噪声分量定义的复平面上的旋转，去除adaLN-Zero及相关参数，有效编码时间信息。
连续潜在空间：在连续潜在空间中进行建模，增强了生成质量和表示能力。

GPDiT的项目地址

arXiv技术论文：https://arxiv.org/pdf/2505.07344

GPDiT的应用场景

视频创作：生成高质量视频，用在广告、影视、动画等。
视频编辑：实现风格转换、色彩调整、分辨率提升等。
少样本学习：快速适应人物检测、边缘检测等任务。
内容理解：自动标注、分类和检索视频内容。
创意生成：激发艺术家和设计师的创意，生成艺术风格视频。

Neo-1 – VantAI 推出的首个原子生成式AI模型

Step1X-Edit – 阶跃星辰开源的通用图像编辑框架

发表评价

GPDiT – 清华北大联合阶跃星辰等推出的视频生成模型

GPDiT是什么

GPDiT的主要功能

GPDiT的技术原理

GPDiT的项目地址

GPDiT的应用场景

发表评价取消回复

最近更新

Agents – AIWaves公司推出的AI Agent开发工具

MiniCPM-V – 面壁智能推出的开源多模态大模型

VideoDoodles – Adobe推出的AI视频编辑框架

CharacterFactory – 大连理工推出的AI角色创作工具

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

GPDiT是什么

GPDiT的主要功能

GPDiT的技术原理

GPDiT的项目地址

GPDiT的应用场景

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复