小米开源Lego-Edit：基于MLLM的下一代图像编辑框架，三阶段强化学习实现SOTA性能

💡 站外导读：随着AIGC与多模态技术的深度融合，图像编辑领域正从传统的工具依赖型转向指令驱动型。用户不再满足于预设功能的简单调整，而是期望通过自然语言指令完成复杂、精准的创意操作。这一趋势对模型的泛化能力、工具调用灵活性与零样本适应能力提出了极高要求。然而，现有方案常面临指令理解局限、新工具集成需重训、编辑区域控制粗糙等痛点。小米开源的Lego-Edit框架，正是针对这些行业核心挑战而生。

Lego-Edit是什么

Lego-Edit 是小米开源的基于指令的图像编辑框架，通过多模态大语言模型（MLLM）的泛化能力，实现对图像的灵活编辑。采用模型级工具包，包含多种高效训练的模型，可执行多种图像操作。Lego-Edit 通过三阶段渐进式强化学习训练策略，先进行监督微调（SFT），再在特定任务上强化学习（RL），最后利用大量未标注指令进行额外 RL 训练，增强对灵活指令的处理能力。优势在于强大的泛化能力，能在多个基准测试中达到 SOTA 性能，支持局部、全局及多步骤编辑，接受掩码输入以精确控制编辑区域。Lego-Edit 无需重新训练即可整合新工具，方便扩展功能。

阅读目录

Lego-Edit是什么
Lego-Edit的主要功能
Lego-Edit的技术原理
Lego-Edit的项目地址
Lego-Edit的应用场景

📝 站长洞察 (Editor’s Insight)

Lego-Edit的主要功能

强大的图像编辑能力：Lego-Edit 能根据用户指令完成多种复杂的图像编辑任务，包括但不限于局部编辑、全局编辑和多步骤编辑，满足不同场景下的图像处理需求。
灵活的指令理解与执行：借助多模态大语言模型（MLLM）的泛化能力，Lego-Edit 可以理解并执行开放域的指令，即使面对未见过的指令，能通过其强大的推理能力进行处理。
模型级工具包的高效利用：框架包含多种在有限数据上高效训练的模型级工具，这些工具具备多种图像操作功能，MLLM 可以通过调用这些工具来完成细粒度的编辑操作，实现高效且精准的图像修改。
无需重新训练即可整合新工具：Lego-Edit 支持在无需额外微调的情况下，整合新引入的编辑工具，使得其功能可以轻松扩展，适应不断变化的图像编辑需求。
掩码输入支持精确编辑：接受掩码输入是 Lego-Edit 的一大亮点，用户可以通过掩码精确指定需要编辑的图像区域，实现更加精准的局部编辑效果。
开源与易用性：Lego-Edit 的代码在 Apache 2.0 许可下开源，模型在 CC BY-NC 4.0 许可下开源，用户可以方便地获取和使用。通过简单的环境搭建和预训练模型下载，可使用 Gradio WebUI 开始图像编辑，降低了使用门槛。

Lego-Edit的技术原理

模型级工具包：Lego-Edit 集成多种高效训练的模型，每个模型负责特定的图像操作功能，如颜色调整、对象替换等，形成一个功能丰富的工具包，为复杂的图像编辑任务提供基础支持。
多模态大语言模型（MLLM）驱动：利用 MLLM 的强大泛化能力和推理能力，理解用户指令并协调模型级工具包中的不同模型，完成从指令解析到具体操作的转换，实现灵活的图像编辑。
三阶段渐进式强化学习训练策略：首先进行监督微调（SFT），让模型学习基本的图像编辑知识；接着通过强化学习（RL）在特定编辑任务上训练，建立推理能力和工具使用知识；最后利用大量未标注指令进行额外的 RL 训练，由大规模批评模型提供反馈，进一步增强对灵活指令的处理能力。
掩码输入机制：支持用户通过掩码指定需要编辑的图像区域，使编辑操作更加精确，能针对图像的特定部分进行修改，不影响其他区域，提高编辑的灵活性和准确性。
无需重新训练的工具整合：Lego-Edit 能在不进行额外微调的情况下，直接整合新引入的编辑工具，快速适应新的编辑需求，扩展功能范围，保持系统的高效性和可扩展性。

Lego-Edit的项目地址

项目官网：https://xiaomi-research.github.io/lego-edit/
Github仓库：https://github.com/xiaomi-research/lego-edit
arXiv技术论文：https://arxiv.org/pdf/2509.12883

Lego-Edit的应用场景

创意设计领域：设计师可以用 Lego-Edit 快速实现创意构思，通过简单指令完成复杂的图像合成、风格转换等操作，提高设计效率，激发更多创意灵感。
内容创作与编辑：在视频制作、广告设计、社交媒体内容创作等场景中，Lego-Edit 能帮助创作者快速修改图像素材，如调整颜色、替换背景、添加特效等，满足多样化的内容创作需求。
电商与产品展示：电商商家可以使用 Lego-Edit 对产品图片进行优化，如去除瑕疵、调整光线、添加虚拟场景等，提升产品展示效果，增强用户购买意愿。
教育与培训：在教育领域，Lego-Edit 可以作为教学工具，帮助学生学习图像编辑技巧，培养创造力和审美能力。同时，教师也可以利用它快速制作教学课件中的图像素材。
个人照片美化：普通用户可以使用 Lego-Edit 对个人照片进行美化，如去除背景、调整肤色、添加装饰元素等，轻松制作出满意的照片，用于社交媒体分享或个人收藏。
虚拟现实与游戏开发：在虚拟现实和游戏开发中，Lego-Edit 可用于快速生成和修改游戏中的图像资源，如角色外观、场景元素等，提高开发效率，丰富游戏视觉效果。

📝 站长洞察 (Editor’s Insight)

Lego-Edit的发布，标志着图像编辑正从“功能堆砌”迈向“智能编排”新阶段。其核心突破在于将多模态大语言模型（MLLM）的推理能力与模块化工具包结合，通过三阶段渐进强化学习，让模型不仅学会使用工具，更学会在复杂指令下创造性组合工具。这本质上是在构建一个“图像编辑领域的GPT”，让AI成为指令的解读者与执行者。掩码输入的精巧设计，则解决了局部编辑精度与全局一致性的长期矛盾。更重要的是，其“无需重训整合新工具”的特性，为开源生态的扩展性树立了新范式。从行业视角看，这预示着未来专业图像工具可能被“指令+工具集”的AI原生范式逐步替代。对于开发者与创作者而言，现在正是布局多模态指令工程、探索AI增强工作流的最佳时机。

小米开源Lego-Edit：基于MLLM的下一代图像编辑框架，三阶段强化学习实现SOTA性能

Lego-Edit是什么

Lego-Edit的主要功能

Lego-Edit的技术原理

Lego-Edit的项目地址

Lego-Edit的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

FeyNoBg – Feyn Labs 开源的自动背景去除模型

Qwen-Audio-3.0-ASR-Flash – 阿里千问推出的语音识别大模型

微软云端隐忧：千亿营收背后的增速换挡与杠杆风险

微信公众号推出 AI”一键排版”：自动分段、生成小标题、匹配配图三步到位

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

Lego-Edit是什么

Lego-Edit的主要功能

Lego-Edit的技术原理

Lego-Edit的项目地址

Lego-Edit的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复