Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: JoyAI-Echo – 京东开源的长音视频生成框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > JoyAI-Echo – 京东开源的长音视频生成框架
AIGC 资讯

JoyAI-Echo – 京东开源的长音视频生成框架

站外新闻
最近更新: 2026年6月7日 下午5:59
SHARE

JoyAI-Echo是什么

JoyAI-Echo 是京东推出的开源长音视频生成框架,专为分钟级多镜头故事生成设计。框架通过跨模态记忆库、记忆驱动后训练、Director Agent 对话式编辑和轻量化实时超分四大技术创新,解决长视频生成中角色变脸、音色突变、生成缓慢等核心痛点,首次实现长达 5 分钟的高一致性、可交互、高清长视频生成,标志着京东进入长视频生成全球第一梯队。

阅读目录
  • JoyAI-Echo是什么
  • JoyAI-Echo的主要功能
  • JoyAI-Echo的技术原理
  • 如何使用JoyAI-Echo
  • JoyAI-Echo的核心优势
  • JoyAI-Echo的项目地址
  • JoyAI-Echo的同类竞品对比
  • JoyAI-Echo的应用场景

JoyAI-Echo

JoyAI-Echo的主要功能

  • 分钟级多镜头故事生成:支持从单个提示词 JSON 生成连贯的多镜头长视频序列,最长可达 5 分钟。
  • 跨模态音视频联合生成:单一管道同步输出视频与音频,确保音画同步。
  • 配对跨模态记忆库:在多镜头生成中持续保存并调用角色外观特征与说话人音色,保持故事级一致性。
  • DMD 蒸馏少步推理:通过分布匹配蒸馏技术,实现约 7.5 倍的生成速度提升。
  • Director Agent 对话式编辑:用户可用自然语言与导演助理交互,自动拆分剧本、角色、场景和镜头,支持局部修订,无需重跑整条视频。
  • 轻量化实时超分:支持从 736×1280 单步超分至 1152×1920 或 1472×2560,在流式延迟约束下保持高清输出。

JoyAI-Echo的技术原理

  • 跨模态音视频记忆库:JoyAI-Echo 的核心突破为内置一个配对跨模态记忆库,通过 Slot-paired 机制将视觉记忆与音频记忆绑定存储。在多镜头生成过程中,记忆库持续保存并调用角色的面部特征、整体外观、说话人音色以及音画对应关系,使每个新镜头都以前续镜头的身份特征为条件进行生成,在长达 5 分钟的视频中保持故事级一致性,彻底解决角色变脸和音色突变问题。
  • 记忆驱动后训练与 DMD 蒸馏加速:团队推出一套记忆驱动的后训练流程,结合监督微调(SFT)、跨模态 RLHF 及 Distribution Matching Distillation(DMD)技术。其中 DMD 将原本的多步扩散推理压缩为少步推理,在保持生成质量的同时实现了约 7.5 倍的推理加速,使分钟级长视频的流式生成从理论变为实用。
  • Director Agent 交互架构:框架引入一个智能导演代理,将用户的自然语言意图自动扩展为结构化的剧本、镜头、角色和场景描述,支持规划、生成、评审、局部修订四个环节的闭环工作流。用户可通过对话方式指定修改,Agent 仅重新生成有问题的局部镜头无需重跑整条视频,将静态生成转变为动态协作。
  • 轻量化实时音视频超分:为满足专业内容生产的高清需求,JoyAI-Echo 配套单步音视频超分模块,可在流式延迟约束下将 736×1280 的基础输出实时锐化至 1152×1920 或 1472×2560,确保高分辨率输出不打破流式生成的实时性。

如何使用JoyAI-Echo

  • 克隆仓库:git clone https://github.com/jd-opensource/JoyAI-Echo.git
  • 创建环境:用 Python 3.11 + PyTorch 2.8 + CUDA 12.8,通过 conda 或 uv 安装依赖,并确保 ffmpeg 可用。
  • 下载模型权重:从 Hugging Face 下载约 46GB 的 echo-longvideo-release.safetensors 和约 24GB 的 gemma-3-12b 文本编码器,放置于 checkpoints/ 目录。
  • 编写故事提示词:创建 JSON 文件,按角色与主体、动作与对话、风格、镜头运动、背景、音效与 BGM 的顺序描述每个镜头。
  • 运行推理:执行 python inference.py,模型一次性加载后处理所有提示文件,输出至 inference_result/outputs/ 目录。

JoyAI-Echo的核心优势

  • 超长一致性:在长达 5 分钟的视频中,角色身份、视觉形象和声音音色保持高度一致,彻底解决同一个人演着演着变成另一个人的问题。
  • 极速生成:记忆驱动后训练结合 DMD 技术,推理速度提升约 7.5 倍,从等半天变为秒出片。
  • 对话式交互创作:Director Agent 将静态生成转变为动态协作,支持自然语言规划、评审和局部修订,大幅降低创作门槛。
  • 高清实时输出:轻量化超分模块在流式延迟下稳定输出高分辨率视频,满足专业内容生产需求。
  • 全面开源:代码与权重已全部开源,基于 LTX-2.3 和 Gemma 构建,支持学术研究与二次开发。

JoyAI-Echo的项目地址

  • 项目官网:https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/
  • GitHub仓库:https://github.com/jd-opensource/JoyAI-Echo

JoyAI-Echo的同类竞品对比

对比维度 JoyAI-Echo HappyOyster
长视频生成能力 ✅ 支持最长 5 分钟多镜头连贯故事生成 ✅ 支持长视频生成,但具体时长未明确公开
角色/身份一致性 ✅ 59.4% 用户偏好;跨模态记忆库确保多镜头角色外观与音色一致 27.7% 用户偏好;未明确披露类似记忆机制
视觉美学 ✅ 63.6% 用户偏好 27.6% 用户偏好
音频质量 ✅ 81.7% 用户偏好;联合音视频生成,音色稳定 11.8% 用户偏好
提示词遵循 ✅ 80.6% 用户偏好;Director Agent 自动拆分剧本与镜头 5.9% 用户偏好
生成速度 ✅ DMD 蒸馏加速,7.5 倍推理提速,支持流式生成 标准多步扩散推理,未明确披露加速机制
对话式编辑 ✅ Director Agent 支持自然语言交互与局部镜头修订,无需重跑全片 ❌ 未明确支持对话式局部编辑
实时超分辨率 ✅ 轻量化单步超分,支持至 1472×2560 ❌ 未明确支持实时超分
开源情况 ✅ 代码与权重全面开源(学术研究/非商业用途) ❌ 未开源
底层架构 基于 LTX-2.3 + Gemma-3-12B,配对跨模态记忆库条件生成 基于自研模型,具体技术细节披露较少

JoyAI-Echo的应用场景

  • 虚拟故事创作与动漫制作:生成长达数分钟的连贯动画故事,保持角色外观、声音和性格在多镜头间高度一致,大幅降低传统动画制作成本。
  • 数字人内容生产与直播:为虚拟主播、数字人客服快速生成长视频内容,确保数字人的面容和音色在长时间输出中不漂移,提升真实感与专业度。
  • 品牌营销视频快速迭代:通过 Director Agent 的对话式编辑能力,营销团队可像聊天一样修改广告脚本和镜头,快速产出多版本品牌视频,缩短创意周期。
  • 影视前期预演与分镜制作:导演和制片方可用自然语言生成长片分镜与预演视频,在正式拍摄前验证镜头语言、角色走位和叙事节奏,降低试错成本。
黄仁勋内部讲话引爆科技圈:AI时代,宁可浪费钱也别浪费时间
OpenAI官方命令行工具震撼发布:一键调用GPT-5.5,开发者效率革命已至
科大讯飞星火X2-Flash MoE大模型发布:30B参数对标万亿级性能,Agent时代性价比之王
奔腾4惊现AI复活赛!2006年古董CPU硬扛Meta Llama 3大模型,每秒仅0.21 Token背后藏何玄机?
腾讯文档行业首发「人机双写」原生接入WorkBuddy构建AI原生编辑器
分享
Email 复制链接 打印
Share
上一篇 Microsoft Scout – 微软推出的 AI 个人助手
下一篇 MAI-Voice-2 – 微软推出的新一代文本转语音模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Toonflow – 开源的一站式 AI 短剧创作工具
AIGC 资讯
BrowserAct Skills – 开源的 AI Agent 浏览器自动化 CLI 工具
AIGC 资讯
PawBench – 阿里通义推出的通用智能体评测基准
AIGC 资讯
MAI-Voice-2 – 微软推出的新一代文本转语音模型
AIGC 资讯

相关推荐

AIGC 资讯

YouTube全面升级AI内容识别系统:2026年起自动生成拟真视频标签,深度解析合规新规

站外新闻
AIGC AI内容标签 Gemini Omni YouTube 内容合规
全息流体渐变通用占位特色图
AIGC 资讯

OpenAI CEO 萨姆・奥特曼:积极主动的 AI 将成为未来趋势

站外新闻
AI 工具AIGC 资讯

SearchClaw:人大自研开源AI深度研究智能体,支持多源检索与自托管部署

站外新闻
AI智能体 人大 信息检索 深度研究 自托管
AI 工具AIGC 资讯

小米OneVL开源:0.24秒延迟!具身智能团队发布SOTA级自动驾驶VLA世界模型

站外新闻
VLA 世界模型 小米具身智能 潜空间推理 自动驾驶大模型
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 支付宝 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.