💡 站外导读:随着AIGC与多模态技术的深度融合,图像编辑领域正从传统的工具依赖型转向指令驱动型。用户不再满足于预设功能的简单调整,而是期望通过自然语言指令完成复杂、精准的创意操作。这一趋势对模型的泛化能力、工具调用灵活性与零样本适应能力提出了极高要求。然而,现有方案常面临指令理解局限、新工具集成需重训、编辑区域控制粗糙等痛点。小米开源的Lego-Edit框架,正是针对这些行业核心挑战而生。
Lego-Edit是什么
Lego-Edit 是小米开源的基于指令的图像编辑框架,通过多模态大语言模型(MLLM)的泛化能力,实现对图像的灵活编辑。采用模型级工具包,包含多种高效训练的模型,可执行多种图像操作。Lego-Edit 通过三阶段渐进式强化学习训练策略,先进行监督微调(SFT),再在特定任务上强化学习(RL),最后利用大量未标注指令进行额外 RL 训练,增强对灵活指令的处理能力。优势在于强大的泛化能力,能在多个基准测试中达到 SOTA 性能,支持局部、全局及多步骤编辑,接受掩码输入以精确控制编辑区域。Lego-Edit 无需重新训练即可整合新工具,方便扩展功能。

Lego-Edit的主要功能
-
强大的图像编辑能力:Lego-Edit 能根据用户指令完成多种复杂的图像编辑任务,包括但不限于局部编辑、全局编辑和多步骤编辑,满足不同场景下的图像处理需求。
-
灵活的指令理解与执行:借助多模态大语言模型(MLLM)的泛化能力,Lego-Edit 可以理解并执行开放域的指令,即使面对未见过的指令,能通过其强大的推理能力进行处理。
-
模型级工具包的高效利用:框架包含多种在有限数据上高效训练的模型级工具,这些工具具备多种图像操作功能,MLLM 可以通过调用这些工具来完成细粒度的编辑操作,实现高效且精准的图像修改。
-
无需重新训练即可整合新工具:Lego-Edit 支持在无需额外微调的情况下,整合新引入的编辑工具,使得其功能可以轻松扩展,适应不断变化的图像编辑需求。
-
掩码输入支持精确编辑:接受掩码输入是 Lego-Edit 的一大亮点,用户可以通过掩码精确指定需要编辑的图像区域,实现更加精准的局部编辑效果。
-
开源与易用性:Lego-Edit 的代码在 Apache 2.0 许可下开源,模型在 CC BY-NC 4.0 许可下开源,用户可以方便地获取和使用。通过简单的环境搭建和预训练模型下载,可使用 Gradio WebUI 开始图像编辑,降低了使用门槛。
Lego-Edit的技术原理
-
模型级工具包:Lego-Edit 集成多种高效训练的模型,每个模型负责特定的图像操作功能,如颜色调整、对象替换等,形成一个功能丰富的工具包,为复杂的图像编辑任务提供基础支持。
-
多模态大语言模型(MLLM)驱动:利用 MLLM 的强大泛化能力和推理能力,理解用户指令并协调模型级工具包中的不同模型,完成从指令解析到具体操作的转换,实现灵活的图像编辑。
-
三阶段渐进式强化学习训练策略:首先进行监督微调(SFT),让模型学习基本的图像编辑知识;接着通过强化学习(RL)在特定编辑任务上训练,建立推理能力和工具使用知识;最后利用大量未标注指令进行额外的 RL 训练,由大规模批评模型提供反馈,进一步增强对灵活指令的处理能力。
-
掩码输入机制:支持用户通过掩码指定需要编辑的图像区域,使编辑操作更加精确,能针对图像的特定部分进行修改,不影响其他区域,提高编辑的灵活性和准确性。
-
无需重新训练的工具整合:Lego-Edit 能在不进行额外微调的情况下,直接整合新引入的编辑工具,快速适应新的编辑需求,扩展功能范围,保持系统的高效性和可扩展性。
Lego-Edit的项目地址
- 项目官网:https://xiaomi-research.github.io/lego-edit/
-
Github仓库:https://github.com/xiaomi-research/lego-edit
-
arXiv技术论文:https://arxiv.org/pdf/2509.12883
Lego-Edit的应用场景
-
创意设计领域:设计师可以用 Lego-Edit 快速实现创意构思,通过简单指令完成复杂的图像合成、风格转换等操作,提高设计效率,激发更多创意灵感。
-
内容创作与编辑:在视频制作、广告设计、社交媒体内容创作等场景中,Lego-Edit 能帮助创作者快速修改图像素材,如调整颜色、替换背景、添加特效等,满足多样化的内容创作需求。
-
电商与产品展示:电商商家可以使用 Lego-Edit 对产品图片进行优化,如去除瑕疵、调整光线、添加虚拟场景等,提升产品展示效果,增强用户购买意愿。
-
教育与培训:在教育领域,Lego-Edit 可以作为教学工具,帮助学生学习图像编辑技巧,培养创造力和审美能力。同时,教师也可以利用它快速制作教学课件中的图像素材。
-
个人照片美化:普通用户可以使用 Lego-Edit 对个人照片进行美化,如去除背景、调整肤色、添加装饰元素等,轻松制作出满意的照片,用于社交媒体分享或个人收藏。
-
虚拟现实与游戏开发:在虚拟现实和游戏开发中,Lego-Edit 可用于快速生成和修改游戏中的图像资源,如角色外观、场景元素等,提高开发效率,丰富游戏视觉效果。
📝 站长洞察 (Editor’s Insight)
Lego-Edit的发布,标志着图像编辑正从“功能堆砌”迈向“智能编排”新阶段。其核心突破在于将多模态大语言模型(MLLM)的推理能力与模块化工具包结合,通过三阶段渐进强化学习,让模型不仅学会使用工具,更学会在复杂指令下创造性组合工具。这本质上是在构建一个“图像编辑领域的GPT”,让AI成为指令的解读者与执行者。掩码输入的精巧设计,则解决了局部编辑精度与全局一致性的长期矛盾。更重要的是,其“无需重训整合新工具”的特性,为开源生态的扩展性树立了新范式。从行业视角看,这预示着未来专业图像工具可能被“指令+工具集”的AI原生范式逐步替代。对于开发者与创作者而言,现在正是布局多模态指令工程、探索AI增强工作流的最佳时机。
