Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 智谱AI Kaleido开源框架:多主体视频生成突破一致性难题,附GitHub地址与技术详解
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 智谱AI Kaleido开源框架:多主体视频生成突破一致性难题,附GitHub地址与技术详解
AI 工具

智谱AI Kaleido开源框架:多主体视频生成突破一致性难题,附GitHub地址与技术详解

站外新闻
最近更新: 2026年6月7日 下午8:11
AIGC Diffusion Transformer 多主体视频生成 开源框架 智谱AI
SHARE

💡 站外导读:在AIGC浪潮下,高质量视频生成需求激增,但多主体场景下的“角色一致性”与“背景干扰”始终是行业痛点。智谱AI开源的Kaleido框架,正是针对这一核心挑战的破局之作。它通过创新的数据管线与R-RoPE机制,首次在开源领域实现了多主体视频的精准解耦与稳定生成,标志着AIGC视频创作从单体展示向复杂叙事迈出了关键一步,为开发者提供了强大的底层工具。

Kaleido是什么

Kaleido 是智谱AI开源的多主体视频生成框架,能解决多主体视频生成中的主体一致性与背景解耦问题。框架通过创新的数据构建管线和 R-RoPE(Reference Rotary Positional Encoding)机制,有效分离主体与背景信息,在多主体场景下保持主体特征一致性。Kaleido 在多主体视频生成中达到 SOTA 效果,为视频生成领域提供强大的开源方案,助力开发者实现高质量的多主体视频创作。

阅读目录
  • Kaleido是什么
  • Kaleido的主要功能
  • Kaleido的技术原理
  • Kaleido的项目地址
  • Kaleido的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Kaleido

Kaleido的主要功能

  • 多主体一致性生成:框架能在视频中保持多个主体(如人物、物体等)的视觉一致性,在复杂场景和多人交互中能维持稳定的主体特征。
  • 背景解耦:框架能有效分离主体与背景信息,避免生成视频中出现参考图像中的无关背景细节,使主体在不同背景中具有更好的适应性。
  • 高质量视频生成:通过优化的数据构建和训练方法,生成高质量、高保真度的视频内容,适用多种应用场景,如广告、影视制作等。
  • 灵活的条件控制:框架支持通过多张参考图像和文本提示进行视频生成,为创作者提供更灵活的创作空间。

Kaleido的技术原理

  • 数据构建管线:Kaleido 采用创新的数据构建管线,解决多主体视频生成中的背景纠缠和主体一致性问题。管线通过跨配对数据合成(将不同实例的主体与背景组合)和背景修复技术,强迫模型在训练时解耦主体特征,避免简单复制参考图像中的背景信息。通过多阶段的数据增强(如主体定位、分割、质量过滤等),确保数据的多样性和高质量,提升模型在复杂场景下的生成能力。
  • R-RoPE(Reference Rotary Positional Encoding):为精确区分不同参考图像与视频 Token,Kaleido 引入 R-RoPE 机制。通过为参考图像的 Token 提供独立的旋转位置编码,显式地在注意力计算中确立不同主体与视频帧之间的边界。R-RoPE 通过空间位移确保参考图像 Token 在模型的时空嵌入空间中占据独特位置,有效避免多主体特征混淆,显著提升多主体生成的时空一致性。
  • 模型架构与条件注入:Kaleido 基于扩散模型和 Diffusion Transformer 架构,通过简单而高效的条件注入策略,将多张参考图像与视频生成过程结合。模型将参考图像 Token 与视频噪声表示沿序列维度拼接,同时用 R-RoPE 机制区分图像和视频信息。

Kaleido的项目地址

  • 项目官网:https://criliasmiller.github.io/Kaleido_Project/
  • GitHub仓库:https://github.com/zai-org/Kaleido
  • HuggingFace模型库:https://huggingface.co/zai-org/Kaleido-14B-S2V
  • arXiv技术论文:https://arxiv.org/pdf/2510.18573

Kaleido的应用场景

  • 影视制作:Kaleido 能根据角色的多张参考图生成高质量的动画视频,帮助动画师快速生成初步动画素材,提高制作效率。
  • 广告创意:通过多主体视频生成,Kaleido 能为广告创作者提供灵活的素材生成方案,快速生成包含多个产品或人物的广告视频。
  • 虚拟试穿:在电商领域,Kaleido 能生成用户试穿虚拟服装或佩戴虚拟饰品的视频,提升用户体验。
  • 虚拟角色互动:为虚拟主播或虚拟角色生成自然的互动视频,使其在直播、游戏等场景中表现出更丰富的动态效果。
  • 教育与培训:用在生成教学视频,例如通过多主体生成展示实验过程或多人协作场景,增强教学的直观性和趣味性。

📝 站长洞察 (Editor’s Insight)

Kaleido的发布,远不止一个新模型那么简单。它揭示了AIGC视频生成正从‘单体炫技’向‘多体叙事’的深水区迈进。智谱AI通过开源此框架,巧妙地将行业难题(多主体一致性)转化为社区共建的机遇,其技术路径——用高质量、解耦的数据强制模型学习‘纯粹’的主体特征,再通过R-RoPE在架构层面固化身份边界——极具启发性。这预示着未来视频生成模型的竞争,将更多地聚焦于数据工程与架构创新的结合。对于从业者而言,Kaleido不仅是工具,更是一个观察多主体生成技术演进的绝佳样本。其在影视预演、个性化广告、虚拟社交等场景的落地潜力,正推动AIGC从内容生产的‘辅助工具’向‘核心生产力引擎’加速转变。

VEG3
字节跳动Seedream 5.0 Lite发布:多模态AI创作模型,支持联网检索与实时生图
微软重磅发布MAI-Transcribe-1语音转文字模型:25种语言全面超越Whisper,成本直降50%,企业级应用场景全解析
Salley AI职业导师
警报:微软Copilot惊现‘幽灵周报’漏洞!AI助手竟成企业数据‘内鬼’
TAGGED:AIGCDiffusion Transformer多主体视频生成开源框架智谱AI
分享
Email 复制链接 打印
Share
上一篇 智谱AI发布SCAIL:影视级角色动画生成框架,一键实现多人复杂交互与照片驱动动画
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

智谱AI发布SCAIL:影视级角色动画生成框架,一键实现多人复杂交互与照片驱动动画
AI 工具 AIGC 资讯
RealVideo:智谱AI开源实时视频生成系统,2秒出片,重新定义AI对话体验
AI 工具 AIGC 资讯
智谱AI开源SSVAE:视频生成效率革命,3倍加速收敛、参数量锐减70%!
AI 工具 AIGC 资讯
突破扩散模型极限!蚂蚁集团开源100B参数LLaDA 2.0,推理速度2倍超越自回归模型
AI 工具 AIGC 资讯

相关推荐

AI 工具

火龙果写作Pitaya

remaker
AI 工具

智谱AI

remaker
AI 工具

美图WHEE

remaker
游戏

“麒麟“芯片:冲出重围,拨云见日

Rick
AIGC Midjourney prompt 华为mate60 国产芯片
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 AI音乐生成 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek Gemini GPT-5.4 GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenClaw prompt RAG stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大模型推理 大语言模型 字节跳动 家居 小红书 展台 开源 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 早报 智谱AI 本地AI 海报设计 清华大学 生成式AI 科幻 端侧AI 端侧部署 网络安全 腾讯 腾讯混元 英伟达 蚂蚁集团 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 边缘计算 通义千问 长上下文 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.