SkyReels-A1 – 昆仑万维开源的表情动作可控算法

最近更新: 2026年6月8日下午2:03

SkyReels-A1是什么

SkyReels-A1是昆仑万维开源的中国首个SOTA（State-of-the-Art）级别的基于视频基座模型的表情动作可控算法。SkyReels-A1能实现更精准可控的人物视频生成，能基于任意人体比例（如肖像、半身及全身）生成高度逼真的动态视频。SkyReels-A1基于精准模拟人物表情变化、情绪、皮肤肌理和身体动作等细节，实现高保真微表情还原。SkyReels-A1支持侧脸表情控制、眉眼微表情生成，及更大幅度的头部和身体动作，效果优于同类产品。

阅读目录

SkyReels-A1是什么
SkyReels-A1的主要功能
SkyReels-A1的技术原理
SkyReels-A1的项目地址
SkyReels-A1的应用场景

SkyReels-A1

SkyReels-A1的主要功能

高保真肖像动画生成：从静态肖像生成动态视频，支持多种身体比例（如头部、半身、全身）。精确地将驱动视频中的表情和动作迁移到目标肖像上，同时保持身份一致性。
表情和动作的精确控制：支持复杂表情（如微妙的眉眼动作、嘴唇运动）和全身动作的自然迁移。提供高保真的表情捕捉和动作驱动能力，适用于虚拟形象、远程通信和数字媒体生成。
身份保持与自然融合：在动画生成过程中，确保生成的人物与原始肖像的身份高度一致，避免身份失真。

SkyReels-A1的技术原理

视频扩散模型：基于逐步逆转噪声过程，将随机噪声转化为结构化的视频内容。扩散模型估计每个时间步的噪声，逐步生成高质量的视频帧。基于Transformer的自注意力机制，捕捉视频中的时空信息，生成连贯且自然的动态内容。
表情感知地标：提取驱动视频中的表情地标（如面部关键点），作为动画生成的运动描述符。基于3D神经渲染模块，精确捕捉细微的表情变化（如眉毛、嘴唇的动作），融入生成过程中。
时空对齐地标引导模块：使用3D因果编码器将地标信息映射到视频的潜在空间，确保驱动信号与生成视频的时空一致性。基于精细调整，增强运动信号的捕捉能力，确保生成视频的运动连贯性。
面部图像-文本对齐模块：将面部特征映射到文本特征空间，增强身份一致性。基于融合视觉和文本特征，提高生成结果的准确性和身份保留能力。
分阶段训练策略：
- 动作驱动训练：专注于将动作条件融入视频生成过程，优化运动表示。
- 身份保持训练：优化面部特征的投影层，增强身份一致性。
- 多模块联合微调：联合优化所有模块，提升模型的泛化能力和生成质量。