Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 小米开源Lego-Edit:基于MLLM的下一代图像编辑框架,三阶段强化学习实现SOTA性能
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 小米开源Lego-Edit:基于MLLM的下一代图像编辑框架,三阶段强化学习实现SOTA性能
AI 工具AIGC 资讯

小米开源Lego-Edit:基于MLLM的下一代图像编辑框架,三阶段强化学习实现SOTA性能

站外新闻
最近更新: 2026年6月7日 下午8:17
AIGC 图像编辑框架 多模态大语言模型 小米开源 强化学习
SHARE

💡 站外导读:随着AIGC与多模态技术的深度融合,图像编辑领域正从传统的工具依赖型转向指令驱动型。用户不再满足于预设功能的简单调整,而是期望通过自然语言指令完成复杂、精准的创意操作。这一趋势对模型的泛化能力、工具调用灵活性与零样本适应能力提出了极高要求。然而,现有方案常面临指令理解局限、新工具集成需重训、编辑区域控制粗糙等痛点。小米开源的Lego-Edit框架,正是针对这些行业核心挑战而生。

Lego-Edit是什么

Lego-Edit 是小米开源的基于指令的图像编辑框架,通过多模态大语言模型(MLLM)的泛化能力,实现对图像的灵活编辑。采用模型级工具包,包含多种高效训练的模型,可执行多种图像操作。Lego-Edit 通过三阶段渐进式强化学习训练策略,先进行监督微调(SFT),再在特定任务上强化学习(RL),最后利用大量未标注指令进行额外 RL 训练,增强对灵活指令的处理能力。优势在于强大的泛化能力,能在多个基准测试中达到 SOTA 性能,支持局部、全局及多步骤编辑,接受掩码输入以精确控制编辑区域。Lego-Edit 无需重新训练即可整合新工具,方便扩展功能。

阅读目录
  • Lego-Edit是什么
  • Lego-Edit的主要功能
  • Lego-Edit的技术原理
  • Lego-Edit的项目地址
  • Lego-Edit的应用场景
      • 📝 站长洞察 (Editor’s Insight)
Lego-Edit

Lego-Edit的主要功能

  • 强大的图像编辑能力:Lego-Edit 能根据用户指令完成多种复杂的图像编辑任务,包括但不限于局部编辑、全局编辑和多步骤编辑,满足不同场景下的图像处理需求。
  • 灵活的指令理解与执行:借助多模态大语言模型(MLLM)的泛化能力,Lego-Edit 可以理解并执行开放域的指令,即使面对未见过的指令,能通过其强大的推理能力进行处理。
  • 模型级工具包的高效利用:框架包含多种在有限数据上高效训练的模型级工具,这些工具具备多种图像操作功能,MLLM 可以通过调用这些工具来完成细粒度的编辑操作,实现高效且精准的图像修改。
  • 无需重新训练即可整合新工具:Lego-Edit 支持在无需额外微调的情况下,整合新引入的编辑工具,使得其功能可以轻松扩展,适应不断变化的图像编辑需求。
  • 掩码输入支持精确编辑:接受掩码输入是 Lego-Edit 的一大亮点,用户可以通过掩码精确指定需要编辑的图像区域,实现更加精准的局部编辑效果。
  • 开源与易用性:Lego-Edit 的代码在 Apache 2.0 许可下开源,模型在 CC BY-NC 4.0 许可下开源,用户可以方便地获取和使用。通过简单的环境搭建和预训练模型下载,可使用 Gradio WebUI 开始图像编辑,降低了使用门槛。

Lego-Edit的技术原理

  • 模型级工具包:Lego-Edit 集成多种高效训练的模型,每个模型负责特定的图像操作功能,如颜色调整、对象替换等,形成一个功能丰富的工具包,为复杂的图像编辑任务提供基础支持。
  • 多模态大语言模型(MLLM)驱动:利用 MLLM 的强大泛化能力和推理能力,理解用户指令并协调模型级工具包中的不同模型,完成从指令解析到具体操作的转换,实现灵活的图像编辑。
  • 三阶段渐进式强化学习训练策略:首先进行监督微调(SFT),让模型学习基本的图像编辑知识;接着通过强化学习(RL)在特定编辑任务上训练,建立推理能力和工具使用知识;最后利用大量未标注指令进行额外的 RL 训练,由大规模批评模型提供反馈,进一步增强对灵活指令的处理能力。
  • 掩码输入机制:支持用户通过掩码指定需要编辑的图像区域,使编辑操作更加精确,能针对图像的特定部分进行修改,不影响其他区域,提高编辑的灵活性和准确性。
  • 无需重新训练的工具整合:Lego-Edit 能在不进行额外微调的情况下,直接整合新引入的编辑工具,快速适应新的编辑需求,扩展功能范围,保持系统的高效性和可扩展性。

Lego-Edit的项目地址

  • 项目官网:https://xiaomi-research.github.io/lego-edit/
  • Github仓库:https://github.com/xiaomi-research/lego-edit
  • arXiv技术论文:https://arxiv.org/pdf/2509.12883

Lego-Edit的应用场景

  • 创意设计领域:设计师可以用 Lego-Edit 快速实现创意构思,通过简单指令完成复杂的图像合成、风格转换等操作,提高设计效率,激发更多创意灵感。
  • 内容创作与编辑:在视频制作、广告设计、社交媒体内容创作等场景中,Lego-Edit 能帮助创作者快速修改图像素材,如调整颜色、替换背景、添加特效等,满足多样化的内容创作需求。
  • 电商与产品展示:电商商家可以使用 Lego-Edit 对产品图片进行优化,如去除瑕疵、调整光线、添加虚拟场景等,提升产品展示效果,增强用户购买意愿。
  • 教育与培训:在教育领域,Lego-Edit 可以作为教学工具,帮助学生学习图像编辑技巧,培养创造力和审美能力。同时,教师也可以利用它快速制作教学课件中的图像素材。
  • 个人照片美化:普通用户可以使用 Lego-Edit 对个人照片进行美化,如去除背景、调整肤色、添加装饰元素等,轻松制作出满意的照片,用于社交媒体分享或个人收藏。
  • 虚拟现实与游戏开发:在虚拟现实和游戏开发中,Lego-Edit 可用于快速生成和修改游戏中的图像资源,如角色外观、场景元素等,提高开发效率,丰富游戏视觉效果。

📝 站长洞察 (Editor’s Insight)

Lego-Edit的发布,标志着图像编辑正从“功能堆砌”迈向“智能编排”新阶段。其核心突破在于将多模态大语言模型(MLLM)的推理能力与模块化工具包结合,通过三阶段渐进强化学习,让模型不仅学会使用工具,更学会在复杂指令下创造性组合工具。这本质上是在构建一个“图像编辑领域的GPT”,让AI成为指令的解读者与执行者。掩码输入的精巧设计,则解决了局部编辑精度与全局一致性的长期矛盾。更重要的是,其“无需重训整合新工具”的特性,为开源生态的扩展性树立了新范式。从行业视角看,这预示着未来专业图像工具可能被“指令+工具集”的AI原生范式逐步替代。对于开发者与创作者而言,现在正是布局多模态指令工程、探索AI增强工作流的最佳时机。

AI 音频编辑迈入新纪元:腾讯混元联合多家顶尖机构发布 MMAE 基准,当前模型精准编辑能力不足 5%
CommuniqAI
Oliva – 开源语音RAG助手,实时语音搜索向量数据库
OpenAI广告平台全面开放:免费ChatGPT用户成精准流量池,CPC定价与投放策略全解析
Multica开源AI Agent协作平台:让Claude Code、Codex成为你的团队正式成员
TAGGED:AIGC图像编辑框架多模态大语言模型小米开源强化学习
分享
Email 复制链接 打印
Share
上一篇 Codexia:革新AI编码体验的开源桌面神器,多会话管理与实时流式响应一网打尽
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Codexia:革新AI编码体验的开源桌面神器,多会话管理与实时流式响应一网打尽
AI 工具
清华微软联手开源Kronos:全球首个金融K线图基础模型,预测精度碾压传统方法
AI 工具 AIGC 资讯
快手OneSearch框架深度解析:端到端生成式电商搜索革命,订单量提升3.22%的三大技术突破
AI 工具 AIGC 资讯
突破数据瓶颈!Meta LSP自我博弈技术:大模型无需海量数据也能变强
AI 工具 AIGC 资讯

相关推荐

AI 工具

Cheap NFT Art

remaker
AIGC 资讯

HUGWBC – 上海交大联合上海 AI Lab 推出的人形机器人全身控制器

站外新闻
AI 工具AIGC 资讯

字节抖音联合新加坡国立大学开源SAIL-VL2:MoE架构视觉语言模型革新多模态AI

站外新闻
AIGC 多模态理解 字节跳动 混合专家架构 视觉语言模型
AI 工具AIGC 资讯

Lightpanda:颠覆Chrome!开源AI浏览器,内存仅1/16,速度飙升9倍

站外新闻
AI Agent Lightpanda Playwright 开源浏览器 自动化框架
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.4 GPT-5.5 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 NVIDIA openai OpenClaw prompt SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型应用 大模型推理 大语言模型 字节跳动 家居 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 智谱AI 月之暗面 本地AI 清华大学 生成式AI 知识管理 科大讯飞 端侧AI 端侧部署 美团 腾讯混元 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 赛博朋克 通义千问 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.