InstructMove – 东京大学联合 Adobe 推出基于指令的图像编辑模型

InstructMove是什么

InstructMove是东京大学和Adobe公司联合推出的基于指令的图像编辑模型，通过观察视频中的帧对变化学习如何根据指令进行图像操作。模型基于多模态大型语言模型（MLLMs）生成描述帧对之间变化的编辑指令，训练出能在保持内容一致性的同时，执行复杂非刚性编辑任务的能力，如调整主体姿势、改变表情和视角等。InstructMove用真实视频帧作为数据源，确保编辑过程中内容的自然性和真实性，克服合成数据集在复杂编辑任务上的局限性。InstructMove支持基于掩码等控制机制进行精确的局部编辑，进一步增强在实际应用中的灵活性和实用性。

阅读目录

InstructMove是什么
InstructMove的主要功能
InstructMove的技术原理
InstructMove的项目地址
InstructMove的应用场景

InstructMove

InstructMove的主要功能

非刚性编辑：能调整图像中主体的姿势、表情等非刚性特征，符合给定的编辑指令。
视角调整：根据指令改变图像的拍摄视角，如将相机视角向左或向右移动等，改变图像的构图和视觉效果。
元素重新排列：对图像中的元素进行重新排列或移动，如将玩具的腿放在一起、让鸟的尾巴可见等，满足特定的编辑需求。
精确局部编辑：与掩码等控制机制的结合，支持对图像的特定区域进行精确的局部编辑，实现更细致的修改效果。

InstructMove的技术原理

数据集构建
- 视频帧采样：从互联网视频中采样帧对，确保帧对之间存在有意义的变换，如主体姿势变化、元素移动或相机视角调整等，获取到大量自然且真实的图像变换样本。
- 多模态语言模型生成指令：用多模态大型语言模型（MLLMs），如GPT-4o或Pixtral-12B，分析采样得到的帧对之间的差异，生成准确的编辑指令。
模型架构与训练
- 预训练模型微调：在构建的数据集上微调预训练的文本到图像（T2I）模型，如Stable Diffusion。
- 空间条件策略：引入空间条件策略，将参考图像与噪声输入沿空间维度进行拼接，而不是传统的通道拼接。
- 去噪网络训练：将拼接后的输入送入去噪U-Net网络，预测噪声图。给予计算预测噪声图与原始噪声图之间的差异，优化模型参数，准确地根据编辑指令对目标图像进行去噪和重建，实现图像编辑。
控制机制集成
- 掩码引导：支持与掩码等控制机制的集成，实现精确的局部编辑。在推理阶段，用掩码控制编辑区域，将更新后的潜在表示与参考潜在表示进行融合，对图像的特定部分进行修改。
- 其他空间控制：与ControlNet等可控扩散模型集成，接受用户提供的额外视觉线索，如草图或骨架关键点等，实现更复杂和精确的图像编辑操作。

InstructMove的项目地址

项目官网：ljzycmd.github.io/projects/InstructMove
arXiv技术论文：https://arxiv.org/pdf/2412.12087v1

InstructMove的应用场景

影视后期制作：特效师调整科幻电影中外星生物角色的表情，让其更符合剧情要求的愤怒情绪。
广告创意设计：设计师用为汽车广告调整赛车视角和背景元素，突出新车型的速度与激情特点，吸引消费者注意。
室内设计：室内设计师调整卧室床头柜位置和窗帘样式，满足客户对美观和实用性的需求，营造温馨舒适的睡眠环境。
艺术教育：老师在绘画课上调整人物动作，帮助学生理解动作与情感的关系，加深对艺术创作的理解。
个人照片编辑：个人用户调整聚会照片中的表情，使其更自然轻松，分享到社交平台，获得朋友点赞好评。

InstructMove – 东京大学联合 Adobe 推出基于指令的图像编辑模型

InstructMove是什么

InstructMove的主要功能

InstructMove的技术原理

InstructMove的项目地址

InstructMove的应用场景

发表评价取消回复

最近更新

曹操出行在杭州开放Robotaxi主驾无人测试首款原生Robotaxi计划2027年量产

Cursor新一代AI智能体集群完成SQLite重建测试，全部配置实现100%通过率

Midjourney 推出 V8.2 图像模型：审美更锋利、废片大减，个性化更懂你的口味

AI越狱一周无人察觉，OpenAI失控智能体还留下了”逃脱秘籍”

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

InstructMove是什么

InstructMove的主要功能

InstructMove的技术原理

InstructMove的项目地址

InstructMove的应用场景

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复