Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: JoyAI-Echo – 京东开源的长音视频生成框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > JoyAI-Echo – 京东开源的长音视频生成框架
AIGC 资讯

JoyAI-Echo – 京东开源的长音视频生成框架

站外新闻
最近更新: 2026年6月7日 下午5:59
SHARE

JoyAI-Echo是什么

JoyAI-Echo 是京东推出的开源长音视频生成框架,专为分钟级多镜头故事生成设计。框架通过跨模态记忆库、记忆驱动后训练、Director Agent 对话式编辑和轻量化实时超分四大技术创新,解决长视频生成中角色变脸、音色突变、生成缓慢等核心痛点,首次实现长达 5 分钟的高一致性、可交互、高清长视频生成,标志着京东进入长视频生成全球第一梯队。

阅读目录
  • JoyAI-Echo是什么
  • JoyAI-Echo的主要功能
  • JoyAI-Echo的技术原理
  • 如何使用JoyAI-Echo
  • JoyAI-Echo的核心优势
  • JoyAI-Echo的项目地址
  • JoyAI-Echo的同类竞品对比
  • JoyAI-Echo的应用场景

JoyAI-Echo

JoyAI-Echo的主要功能

  • 分钟级多镜头故事生成:支持从单个提示词 JSON 生成连贯的多镜头长视频序列,最长可达 5 分钟。
  • 跨模态音视频联合生成:单一管道同步输出视频与音频,确保音画同步。
  • 配对跨模态记忆库:在多镜头生成中持续保存并调用角色外观特征与说话人音色,保持故事级一致性。
  • DMD 蒸馏少步推理:通过分布匹配蒸馏技术,实现约 7.5 倍的生成速度提升。
  • Director Agent 对话式编辑:用户可用自然语言与导演助理交互,自动拆分剧本、角色、场景和镜头,支持局部修订,无需重跑整条视频。
  • 轻量化实时超分:支持从 736×1280 单步超分至 1152×1920 或 1472×2560,在流式延迟约束下保持高清输出。

JoyAI-Echo的技术原理

  • 跨模态音视频记忆库:JoyAI-Echo 的核心突破为内置一个配对跨模态记忆库,通过 Slot-paired 机制将视觉记忆与音频记忆绑定存储。在多镜头生成过程中,记忆库持续保存并调用角色的面部特征、整体外观、说话人音色以及音画对应关系,使每个新镜头都以前续镜头的身份特征为条件进行生成,在长达 5 分钟的视频中保持故事级一致性,彻底解决角色变脸和音色突变问题。
  • 记忆驱动后训练与 DMD 蒸馏加速:团队推出一套记忆驱动的后训练流程,结合监督微调(SFT)、跨模态 RLHF 及 Distribution Matching Distillation(DMD)技术。其中 DMD 将原本的多步扩散推理压缩为少步推理,在保持生成质量的同时实现了约 7.5 倍的推理加速,使分钟级长视频的流式生成从理论变为实用。
  • Director Agent 交互架构:框架引入一个智能导演代理,将用户的自然语言意图自动扩展为结构化的剧本、镜头、角色和场景描述,支持规划、生成、评审、局部修订四个环节的闭环工作流。用户可通过对话方式指定修改,Agent 仅重新生成有问题的局部镜头无需重跑整条视频,将静态生成转变为动态协作。
  • 轻量化实时音视频超分:为满足专业内容生产的高清需求,JoyAI-Echo 配套单步音视频超分模块,可在流式延迟约束下将 736×1280 的基础输出实时锐化至 1152×1920 或 1472×2560,确保高分辨率输出不打破流式生成的实时性。

如何使用JoyAI-Echo

  • 克隆仓库:git clone https://github.com/jd-opensource/JoyAI-Echo.git
  • 创建环境:用 Python 3.11 + PyTorch 2.8 + CUDA 12.8,通过 conda 或 uv 安装依赖,并确保 ffmpeg 可用。
  • 下载模型权重:从 Hugging Face 下载约 46GB 的 echo-longvideo-release.safetensors 和约 24GB 的 gemma-3-12b 文本编码器,放置于 checkpoints/ 目录。
  • 编写故事提示词:创建 JSON 文件,按角色与主体、动作与对话、风格、镜头运动、背景、音效与 BGM 的顺序描述每个镜头。
  • 运行推理:执行 python inference.py,模型一次性加载后处理所有提示文件,输出至 inference_result/outputs/ 目录。

JoyAI-Echo的核心优势

  • 超长一致性:在长达 5 分钟的视频中,角色身份、视觉形象和声音音色保持高度一致,彻底解决同一个人演着演着变成另一个人的问题。
  • 极速生成:记忆驱动后训练结合 DMD 技术,推理速度提升约 7.5 倍,从等半天变为秒出片。
  • 对话式交互创作:Director Agent 将静态生成转变为动态协作,支持自然语言规划、评审和局部修订,大幅降低创作门槛。
  • 高清实时输出:轻量化超分模块在流式延迟下稳定输出高分辨率视频,满足专业内容生产需求。
  • 全面开源:代码与权重已全部开源,基于 LTX-2.3 和 Gemma 构建,支持学术研究与二次开发。

JoyAI-Echo的项目地址

  • 项目官网:https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/
  • GitHub仓库:https://github.com/jd-opensource/JoyAI-Echo

JoyAI-Echo的同类竞品对比

对比维度 JoyAI-Echo HappyOyster
长视频生成能力 ✅ 支持最长 5 分钟多镜头连贯故事生成 ✅ 支持长视频生成,但具体时长未明确公开
角色/身份一致性 ✅ 59.4% 用户偏好;跨模态记忆库确保多镜头角色外观与音色一致 27.7% 用户偏好;未明确披露类似记忆机制
视觉美学 ✅ 63.6% 用户偏好 27.6% 用户偏好
音频质量 ✅ 81.7% 用户偏好;联合音视频生成,音色稳定 11.8% 用户偏好
提示词遵循 ✅ 80.6% 用户偏好;Director Agent 自动拆分剧本与镜头 5.9% 用户偏好
生成速度 ✅ DMD 蒸馏加速,7.5 倍推理提速,支持流式生成 标准多步扩散推理,未明确披露加速机制
对话式编辑 ✅ Director Agent 支持自然语言交互与局部镜头修订,无需重跑全片 ❌ 未明确支持对话式局部编辑
实时超分辨率 ✅ 轻量化单步超分,支持至 1472×2560 ❌ 未明确支持实时超分
开源情况 ✅ 代码与权重全面开源(学术研究/非商业用途) ❌ 未开源
底层架构 基于 LTX-2.3 + Gemma-3-12B,配对跨模态记忆库条件生成 基于自研模型,具体技术细节披露较少

JoyAI-Echo的应用场景

  • 虚拟故事创作与动漫制作:生成长达数分钟的连贯动画故事,保持角色外观、声音和性格在多镜头间高度一致,大幅降低传统动画制作成本。
  • 数字人内容生产与直播:为虚拟主播、数字人客服快速生成长视频内容,确保数字人的面容和音色在长时间输出中不漂移,提升真实感与专业度。
  • 品牌营销视频快速迭代:通过 Director Agent 的对话式编辑能力,营销团队可像聊天一样修改广告脚本和镜头,快速产出多版本品牌视频,缩短创意周期。
  • 影视前期预演与分镜制作:导演和制片方可用自然语言生成长片分镜与预演视频,在正式拍摄前验证镜头语言、角色走位和叙事节奏,降低试错成本。
STAR – 南大、字节、西南大学联合开源的现实世界视频超分辨率框架
Cloudflare 作为 AI 领域的新动向:与 CEO Matthew Prince 的专访 [译]
微软开源Fara-7B:70亿参数AI Agent自动操作电脑,效率飙升、隐私无忧
高德与阿里重磅开源AGenUI:三端原生A2UI框架,让AI Agent输出直接变为可交互界面
Zerox – 开源的OCR工具,零样本识别多种格式文件
分享
Email 复制链接 打印
Share
上一篇 Microsoft Scout – 微软推出的 AI 个人助手
下一篇 MAI-Voice-2 – 微软推出的新一代文本转语音模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

华为盘古大模型5.5震撼发布:7180亿参数Ultra MoE领衔,五大模型重塑产业智能
AI 工具 AIGC 资讯
腾讯清华重磅开源MindOmni:强化学习驱动的多模态推理生成模型,重塑视觉AI边界
AI 工具 AIGC 资讯
联影智能发布‘元智’医疗大模型:多模态融合,一次CT扫描诊断37种疾病
AI 工具 AIGC 资讯
Dive3D重磅发布:北大x小红书联手破解文本生成3D多样性难题,SIM损失取代KL散度实现模式突破
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

LG EXAONE 4.0混合推理大模型发布:32B专业版+1.2B端侧版,数学编程能力登顶MMLU-Pro

站外新闻
AI Agent LG EXAONE 4.0 MCP接口 混合推理大模型 端侧大模型
量子芯片科技感占位特色图
AI 工具AIGC 资讯

领英重拳出击:AI水文末日!深度解析平台如何精准限流低质内容

站外新闻
AIGC AI生成内容 内容治理 职场社交 领英
AIGC 资讯

Multi-Agent Orchestrator – 亚马逊开源的多智能体框架

站外新闻
AIGC 资讯

AutoAgent – 港大推出的 AI 智能体框架,零代码创建智能助手

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.