STAR – 南大、字节、西南大学联合开源的现实世界视频超分辨率框架

最近更新: 2026年6月8日下午10:07

STAR是什么

STAR是南京大学、字节跳动、西南大学联合推出的，创新的现实世界视频超分辨率（VSR）框架，能从低分辨率（LR）视频生成高分辨率（HR）视频，同时保持细节清晰度和时间一致性。STAR整合强大的文本到视频（T2V）扩散模型增强视频的空间细节和时间建模能力。STAR引入局部信息增强模块（LIEM），在全局注意力块之前丰富局部细节，减轻复杂退化引入的伪影问题。STAR推出动态频率（DF）损失，引导模型在不同扩散步骤中关注不同频率成分，提高恢复保真度。

阅读目录

STAR是什么
STAR的主要功能
STAR的技术原理
STAR的项目地址
STAR的应用场景

STAR的主要功能

现实世界视频超分辨率：将现实世界中的低分辨率视频提升为高分辨率，同时恢复视频中的细节，如清晰的面部特征和准确的文字结构等。
增强空间细节：基于文本到视频（T2V）扩散模型的强大生成能力，生成具有丰富空间细节的视频，让视频内容更加逼真和清晰。
保持时间一致性：在提升视频分辨率的过程中，有效保持视频帧之间的时间一致性，避免出现运动模糊或不连贯的现象，让视频播放更加流畅自然。
减轻退化伪影：针对现实世界视频中存在的复杂退化问题，如噪声、模糊和压缩等，STAR能有效减轻退化引入的伪影，提高视频的视觉质量。

STAR的技术原理

T2V模型整合：将大规模预训练的文本到视频扩散模型融入视频超分辨率任务中。T2V模型具备强大的生成能力和丰富的时空先验知识，从文本描述生成高质量视频，为视频超分辨率提供有力的模型基础。
局部信息增强模块（LIEM）：在全局注意力机制之前引入LIEM，弥补T2V模型在处理局部细节方面的不足。LIEM基于局部注意力机制关注视频中的局部区域，增强局部信息的表达，更好地捕获和恢复视频中的细节，减轻复杂退化带来的伪影问题。
动态频率（DF）损失：STAR推出DF损失优化模型的训练过程。损失函数根据扩散步骤动态调整对低频和高频成分的约束，使模型在早期阶段优先恢复视频的结构和大体轮廓（低频信息），在后期阶段再细化细节（高频信息）。