Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: MM-StoryAgent – 上海交大联合阿里开源的多智能体故事绘本视频生成框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > MM-StoryAgent – 上海交大联合阿里开源的多智能体故事绘本视频生成框架
AIGC 资讯

MM-StoryAgent – 上海交大联合阿里开源的多智能体故事绘本视频生成框架

站外新闻
最近更新: 2026年6月8日 下午2:18
SHARE

MM-StoryAgent是什么

MM-StoryAgent 是上海交通大学X-LANCE实验室和阿里巴巴集团联合推出的开源多模态、多智能体框架,用在生成沉浸式的有声故事绘本视频。基于结合大型语言模型(LLMs)和多种模态的生成工具(如文本、图像、音频),用多阶段写作流程和模态特定的提示修订机制,提升故事的吸引力和沉浸感。框架支持灵活的模块化设计,能替换不同的生成模型和API。MM-StoryAgent 提高了故事质量,在图像、语音、音乐和音效之间实现更好的对齐效果,为儿童故事书的自动化创作提供了高效、灵活且富有表现力的解决方案。

阅读目录
  • MM-StoryAgent是什么
  • MM-StoryAgent的主要功能
  • MM-StoryAgent的技术原理
  • MM-StoryAgent的项目地址
  • MM-StoryAgent的应用场景

MM-StoryAgent

MM-StoryAgent的主要功能

  • 高质量故事生成:基于多智能体协作和多阶段写作流程,生成具有吸引力、教育性和情感共鸣的故事内容。
  • 多模态内容生成:结合文本、图像、语音、音乐和音效等多种模态,为用户带来丰富的沉浸式体验。
  • 角色一致性:在图像生成中,基于角色提取和提示修订,确保故事中的角色在视觉上保持一致。
  • 模态对齐:基于提示修订和对比学习模型,优化文本与图像、音频之间的对齐效果,提升整体故事的连贯性。
  • 灵活的模块化设计:支持灵活替换生成模块(如不同的文本生成模型、图像生成模型等),便于开发者根据需求进行定制和优化。

MM-StoryAgent的技术原理

  • 多智能体协作架构:模拟业余作者与专家之间的对话,生成故事大纲和章节内容。对话过程模拟人类的头脑风暴,为故事提供更丰富的创意和吸引力。针对图像、音频等不同模态的需求,将文本故事转化为适合生成模型的提示内容。基于“修订者-审核者”的多轮协作,优化提示的质量。
  • 多模态生成技术:
    • 文本生成:基于大型语言模型(LLMs)生成故事文本。
    • 图像生成:用扩散模型(如 StoryDiffusion)生成与故事内容一致的图像,并通过角色提取确保角色在多帧图像中保持一致。
    • 音频生成:基于文本到语音(TTS)模型生成旁白,用 AudioLDM2 或 MusicGen 等模型生成音效和背景音乐。
    • 视频合成:将生成的图像、音频和文本内容合成,形成完整的有声故事视频。
  • 模态对齐优化:用对比学习模型(如 CLIP、CLAP)评估生成内容与文本之间的对齐程度,基于提示修订机制优化生成效果。
  • 模块化设计:框架支持灵活替换不同的生成模型和API,开发者根据需求选择更先进的模型提升生成质量。

MM-StoryAgent的项目地址

  • GitHub仓库:https://github.com/X-PLUG/MM_StoryAgent
  • arXiv技术论文:https://arxiv.org/pdf/2503.05242
  • 在线体验Demo:https://huggingface.co/spaces/wsntxxn/MM-StoryAgent

MM-StoryAgent的应用场景

  • 儿童教育与娱乐:生成有趣且富有教育意义的有声故事视频,陪伴儿童学习和成长。
  • 数字内容创作:为创作者快速生成多模态故事内容,降低创作成本,提高效率。
  • 在线教育:辅助教学,用故事形式讲解知识,增强学习趣味性。
  • 多媒体出版:自动化生成有声绘本,助力出版社快速制作多媒体内容。
  • 智能设备集成:应用于智能音箱、平板等设备,提供个性化的故事生成服务。
ShotAdapter – Adobe联合UIUC推出的多镜头视频生成框架
Kairos 3.0: 大晓机器人开源商业级世界模型,用物理AI加速具身智能落地
豆包·语音播客模型 – 火山引擎推出的语音播客模型
Skywork-VL Reward – Skywork AI开源的多模态奖励模型
Custom-SVG – Adobe联合香港城市大学推出的SVG定制生成框架
分享
Email 复制链接 打印
Share
上一篇 UniAct – 清华、商汤、北大、上海AI Lab共同推出的具身基础模型框架
下一篇 谛韵DiffRhythm – 西北工业联合港中文推出的端到端音乐生成工具
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Self Forcing: Adobe与德克萨斯大学联合推出实时视频生成模型,单GPU实现17FPS,告别传统AI视频生成延迟
AI 工具 AIGC 资讯
腾讯AI Lab重磅开源SongGeneration:AI音乐生成大模型,多轨合成、风格克隆,媲美商业模型
AI 工具 AIGC 资讯
快手OneRec:颠覆传统推荐!端到端生成式AI系统引爆观看时长与GMV
AI 工具 AIGC 资讯
Kimi-Researcher:月之暗面端到端强化学习Agent,深度研究基准测试超Claude 4 Opus
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

Science Skills – 谷歌 DeepMind 开源的科研技能工具包

站外新闻
AIGC 资讯

LCVD – 川大推出的光照可控肖像动画生成框架

站外新闻
AI 工具AIGC 资讯

Stable Audio 3 开源发布:0.62秒生成20秒音频,音频创作门槛再降低

站外新闻
AIGC Stability AI Stable Audio 3 潜扩散模型 音频生成
全息流体渐变通用占位特色图
AIGC 资讯

SentinelOne裁员8%聚焦AI安全:年营收增长21%仍亏损,科技巨头集体押注生成式AI

站外新闻
AI网络安全 SentinelOne 企业转型 生成式AI 科技裁员
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.