Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 中科院重磅开源Jodi:一个模型统一图像生成与理解,开启多模态AI新范式
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 中科院重磅开源Jodi:一个模型统一图像生成与理解,开启多模态AI新范式
AI 工具AIGC 资讯

中科院重磅开源Jodi:一个模型统一图像生成与理解,开启多模态AI新范式

站外新闻
最近更新: 2026年6月7日 下午8:28
AIGC 中国科学院 图像生成 多模态AI 扩散模型
SHARE

💡 站外导读:在AIGC浪潮中,视觉生成与理解长期被视为两个独立赛道,模型割裂、数据孤岛、协同困难成为行业痛点。中国科学院计算技术研究所与国科大联合推出Jodi,一个颠覆性的统一扩散模型框架。它通过联合建模图像与多个视觉标签域,首次在一个模型内无缝实现联合生成、可控生成与图像感知三大核心任务,为解决多模态任务的碎片化问题提供了全新范式,标志着AI在视觉统一建模上迈出关键一步。

Jodi是什么

Jodi是中国科学院计算技术研究所和中国科学院大学推出的扩散模型框架,基于联合建模图像域和多个标签域,将视觉生成与理解统一起来。Jodi基于线性扩散Transformer和角色切换机制,执行联合生成(同时生成图像和多个标签)、可控生成(基于标签组合生成图像)及图像感知(从图像预测多个标签)三种任务。Jodi用包含20万张高质量图像和7个视觉域标签的Joint-1.6M数据集进行训练。Jodi在生成和理解任务中均表现出色,展现强大的可扩展性和跨领域一致性。

阅读目录
  • Jodi是什么
  • Jodi的主要功能
  • Jodi的技术原理
  • Jodi的项目地址
  • Jodi的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Jodi

Jodi的主要功能

  • 联合生成:同时生成图像和多个标签,例如深度图、法线图、边缘图等,生成的图像和标签在语义和空间上保持一致。
  • 可控生成:根据给定的标签组合生成图像,用户指定某些标签作为条件输入,控制生成图像的特定属性或特征。
  • 图像感知:从给定的图像中同时预测多个标签,实现对图像的多维度理解和分析,例如同时进行深度估计、边缘检测、语义分割等任务。

Jodi的技术原理

  • 联合建模:基于图像域和多个标签域的联合分布进行建模,基于学习联合分布p(x, y1, y2, …, yM),推导出生成任务和理解任务所需的边际分布和条件分布。
  • 角色切换机制:在训练过程中,每个域随机分配三种角色之一,生成目标([G])、条件输入([C])或被忽略([X])。模型能同时学习不同类型的概率分布,包括联合生成、可控生成和图像感知。
  • 线性扩散Transformer:用线性扩散Transformer作为主干网络,基于线性注意力机制有效降低计算复杂度,让模型能高效地处理多个视觉域。引入了掩码线性注意力和领域不变的位置嵌入,增强不同视觉域之间的一致性和对齐。
  • 数据集构建:为支持多视觉域的联合建模,Jodi构建Joint-1.6M数据集,包含20万张高质量图像以及对应的7个视觉域的自动标签,为模型训练提供丰富的数据支持。

Jodi的项目地址

  • 项目官网:https://vipl-genun.github.io/Project-Jodi/
  • GitHub仓库:https://github.com/VIPL-GENUN/Jodi
  • HuggingFace模型库:https://huggingface.co/VIPL-GENUN/Jodi
  • arXiv技术论文:https://arxiv.org/pdf/2505.19084

Jodi的应用场景

  • 创意内容生成:为艺术家和设计师提供灵感,快速生成具有特定风格或元素的图像。
  • 多模态数据增强:生成高质量的多模态数据,增强机器学习模型的训练数据集。
  • 图像编辑与修复:根据用户输入修复或编辑图像,生成缺失部分或调整风格。
  • 视觉理解与分析:预测多种视觉标签,辅助图像理解任务,如医学图像分析。
  • 虚拟现实与增强现实:生成逼真的虚拟场景和标注信息,提升VR和AR应用的体验。

📝 站长洞察 (Editor’s Insight)

Jodi的发布,远不止是一个新模型的问世。它精准击中了当前AIGC领域‘生成’与‘理解’二元割裂的核心矛盾。在行业追求‘世界模型’和‘通用智能体’的大背景下,Jodi通过联合建模与角色切换机制,优雅地实现了多任务、多模态的统一学习,这预示着AI架构正从‘专用化’向‘通用化’加速演进。其基于线性扩散Transformer的技术路径,也反映了业界对计算效率与模型可扩展性的极致追求。尽管仍处于学术开源阶段,但其展现出的跨领域一致性和强大能力,已为未来虚拟内容生成、机器人感知、自动驾驶仿真等应用描绘了清晰蓝图。这不仅是技术突破,更是一次关于AI如何更高效、更一体化地理解与创造世界的范式探索。

商汤开源 SenseNova-Skills:20+ 模块化 AI 办公技能,一键驱动 Agent 完成 PPT/Excel/信息图全流程
ART – 微软联合清华和北大等推出的多层透明图像生成技术
Finedefics – 北大团队推出的细粒度多模态大模型
SmartEraser – 中科大与微软亚洲研究院推出的图像对象移除技术
快手开源Klear-Reasoner:8B参数模型刷榜AIME和LiveCodeBench,GPPO算法突破推理极限
TAGGED:AIGC中国科学院图像生成多模态AI扩散模型
分享
Email 复制链接 打印
Share
上一篇 HunyuanPortrait:腾讯清华联手打造下一代肖像动画引擎,单图驱动视频生成新突破
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

HunyuanPortrait:腾讯清华联手打造下一代肖像动画引擎,单图驱动视频生成新突破
AI 工具 AIGC 资讯
蚂蚁集团开源Ming-Lite-Omni:统一多模态大模型,支持文本、图像、音视频全模态交互与生成
AI 工具 AIGC 资讯
AI-Media2Doc:开源AI神器,一键将音视频秒变小红书笔记、公众号爆款文章与思维导图
AI 工具
DeepSeek-R1-0528开源发布:660B参数模型,编程能力超越Claude 4与Gemini 2.5 Pro
AI 工具 AIGC 资讯

相关推荐

AI 工具

Aigur.dev

remaker
AIGC 资讯

AgentSociety – 清华大学推出的社会模拟器

站外新闻
AI 工具最新趋势

腾讯混元世界模型1.5开源:实时交互式3D世界生成,赋能游戏、影视与具身智能

站外新闻
3D生成 AIGC 世界模型 具身智能 腾讯混元
AI 工具

IMI Prompt

remaker
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.