Qihoo-T2X – 360 AI 研究院和中山大学开源的高效多模态生成模型

最近更新: 2026年6月8日上午11:33

QIHOO-T2X是什么

Qihoo-T2X 是360 AI 研究院和中山大学推出的基于代理标记化扩散 Transformer（PT-DiT）的高效多模态生成模型，Qihoo-T2X引入稀疏代理标记注意力机制，显著降低传统扩散 Transformer 在全局自注意力计算中的冗余性，结合窗口注意力和移位窗口注意力增强细节建模能力。Qihoo-T2X 支持多种任务，包括文本到图像（T2I）、文本到视频（T2V）和文本到多视图（T2MV）生成。

阅读目录

QIHOO-T2X是什么
Qihoo-T2X的主要功能
Qihoo-T2X的技术原理
Qihoo-T2X的项目地址
Qihoo-T2X的应用场景

QIHOO-T2X

Qihoo-T2X的主要功能

文本到图像：根据输入的文本描述生成高质量、高分辨率的图像，生成与文本描述高度一致的图像内容，适用于创意设计、艺术生成等领域。
文本到视频：根据文本描述生成连贯的视频内容，支持生成动态场景和视频序列，适用于视频创作、动画制作等场景。
文本到多视图：根据文本描述生成同一物体或场景的多视角图像，适用于 3D 对象的多视角展示，支持虚拟现实（VR）和增强现实（AR）应用。
高效生成：基于优化的代理标记化注意力机制，显著降低计算复杂度，支持高分辨率图像和长视频的高效生成，降低训练和推理成本。

Qihoo-T2X的技术原理

代理标记化注意力：传统的扩散 Transformer 用全局自注意力机制，计算复杂度高且存在冗余。PT-DiT（Qihoo-T2X的核心架构）基于在每个时空窗口内计算平均标记作为代理标记（proxy tokens），对代理标记进行自注意力计算，大幅减少计算量。代理标记之间的全局语义信息基于交叉注意力（cross-attention）注入到所有潜在标记中，确保全局信息的有效传播。
窗口注意力与移位窗口注意力：为增强局部细节建模能力，PT-DiT 引入窗口注意力机制，对局部窗口内的标记进行自注意力计算。移位窗口注意力机制用在避免因窗口划分导致的“网格效应”，进一步提升生成质量。
稀疏代理标记的高效计算：基于稀疏代理标记机制，PT-DiT 在处理高分辨率图像和长视频时，显著降低计算复杂度，且保持生成内容的质量。
多任务适应性：PT-DiT 的架构设计能无缝适应图像生成、视频生成和多视图生成等多种任务，无需对模型结构进行重大调整。

Qihoo-T2X的项目地址

项目官网：https://360cvgroup.github.io/Qihoo-T2X/
GitHub仓库：https://github.com/360CVGroup/Qihoo-T2X
arXiv技术论文：https://arxiv.org/pdf/2409.04005

Qihoo-T2X的应用场景

创意设计与艺术创作：基于文本描述快速生成高质量艺术图像，支持多种风格，加速设计流程，为艺术家提供灵感。
视频内容生成：生成连贯的动画视频，适用于广告、宣传和动画制作，减少视频创作成本和时间。
教育与培训：生成教学用图像和视频，帮助学生理解复杂概念，支持虚拟实验室和动态教学资源。
娱乐与游戏开发：生成虚拟场景、角色和动态内容，用在游戏开发、虚拟现实（VR）和增强现实（AR）应用，提升沉浸感。
广告与营销：快速生成个性化广告图像和视频，提高营销效果，满足品牌视觉内容需求。

分享

GigaTok – 港大联合字节推出用于自回归图像生成的视觉分词器

Baichuan-Audio – 百川智能开源的端到端语音交互模型

发表评价

发表评价取消回复