Mini DALL·E 3 – 北京理工联合上海 AI Lab等高校推出的交互式文生图框架

最近更新: 2026年6月8日上午8:11

Mini DALL·E 3是什么

Mini DALL·E 3 是北京理工大学、上海AI Lab、清华大学和香港中文大学联合推出的交互式文本到图像（iT2I）框架。基于自然语言与用户进行多轮对话，实现高质量图像的生成、编辑和优化。用户用简单的指令逐步细化图像要求，基于大型语言模型（LLM）和预训练的文本到图像模型（如 Stable Diffusion），无需额外训练生成与文本描述高度一致的图像。系统支持问答功能，为用户提供更连贯的交互体验，提升人机交互的便捷性和图像生成质量。

阅读目录

Mini DALL·E 3是什么
Mini DALL·E 3的主要功能
Mini DALL·E 3的技术原理
Mini DALL·E 3的项目地址
Mini DALL·E 3的应用场景

Mini DALL·E 3

Mini DALL·E 3的主要功能

交互式图像生成：用户基于自然语言描述需求，系统生成匹配的图像。
图像编辑优化：支持用户要求修改图像，系统根据反馈逐步调整。
内容一致性：多轮对话中保持图像主题和风格连贯。
问答结合：支持用户询问图像细节，系统结合内容回答。

Mini DALL·E 3的技术原理

大型语言模型（LLM）：基于现有的大型语言模型（如 ChatGPT、LLAMA 等）作为核心，分析用户的自然语言指令，生成图像描述。基于提示技术，引导 LLM 生成符合要求的图像描述文本。
提示技术与文本转换：用特殊的提示格式（如 <image> 和 <edit> 标签），将图像生成任务转化为文本生成任务。基于多轮对话，系统根据上下文和用户反馈逐步优化图像描述。提供提示细化模块，将 LLM 生成的原始描述进一步优化，适配后续的文本到图像模型。
文本到图像模型（T2I）：结合现有的文本到图像模型，将 LLM 生成的图像描述转化为实际的图像。根据描述的复杂性和内容变化的大小，选择不同的 T2I 模型确保生成质量和效率。
层次化内容一致性控制：引入不同层次的 T2I 模型，实现小幅度内容变化（如风格调整）和大幅度内容变化（如场景重构）的灵活处理。基于预训练的 T2I 模型，将前一次生成的图像作为上下文输入，确保多轮生成中图像内容的一致性。
系统架构：包括 LLM、路由器（router）、适配器（adapter）和 T2I 模型。路由器负责解析 LLM 的输出，识别图像生成需求传递给适配器。适配器将图像描述转换为适合 T2I 模型的格式，由 T2I 模型生成图像。