Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: UNO – 字节跳动推出的创新AI图像生成框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > UNO – 字节跳动推出的创新AI图像生成框架
AIGC 资讯

UNO – 字节跳动推出的创新AI图像生成框架

站外新闻
最近更新: 2026年6月8日 上午6:21
SHARE

UNO是什么

UNO是字节跳动推出创新的AI图像生成框架,突破传统模型在多主体生成中的局限。通过“少到多”的泛化方法,能高质量地生成单主体和多主体图像,解决了多主体场景下的一致性难题。UNO基于扩散变换器生成高一致性的多主体数据,采用渐进式跨模态对齐技术,分阶段训练模型,逐步提升生成效果。引入了通用旋转位置嵌入(UnoPE),支持多种分辨率和长宽比的图像生成。

阅读目录
  • UNO是什么
  • UNO的主要功能
  • UNO的技术原理
  • UNO的项目地址
  • UNO的应用场景

UNO

UNO的主要功能

  • 单主体定制生成:UNO能根据一张参考图像生成保持同一主体特征但处于不同场景、姿势或风格的图像。
  • 多主体组合生成:UNO可以接收多个参考图像作为输入,生成包含所有参考主体的新图像。
  • 虚拟试穿与产品展示:UNO支持虚拟试穿功能,可以将特定的产品(如服装、饰品等)放置在不同的人物模型上,展示其效果。可以将产品放置在各种场景中,保持产品的原始特征。
  • 风格化生成:UNO能对参考主体进行风格转换,生成不同风格的图像。
  • 强大的泛化能力:UNO在多个任务中展现了强大的泛化能力,能适应多种应用场景,如单主体和多主体驱动的图像生成,能泛化到id、tryon、style等场景。

UNO的技术原理

  • 高一致性数据合成管道:UNO 利用扩散变换器(Diffusion Transformers)的内在上下文生成能力,生成高一致性的多主体配对数据。能自动创建大规模、高质量的训练数据,解决了数据获取的难题。
  • 渐进式跨模态对齐:UNO 采用渐进式跨模态对齐策略,将训练过程分为两个阶段:
    • 第一阶段:使用单主体上下文生成的数据对预训练的文本到图像(T2I)模型进行微调,使其具备处理单主体驱动生成任务的能力。
    • 第二阶段:引入多主体数据继续训练,增强模型处理复杂场景的能力。通过这种逐步对齐的方式,模型能更好地适应从单主体到多主体的生成任务。
  • 通用旋转位置嵌入(UnoPE):UNO 引入了通用旋转位置嵌入(UnoPE),有效解决了在扩展视觉主体控制时的属性混淆问题。UnoPE 通过为文本和图像标记分配特定的位置索引,调控多模态标记之间的交互,使模型专注于从文本特征中获取布局信息,在保持良好文本可控性的同时,提高主体相似性。
  • 模型架构:UNO 以开源模型 FLUX.1 dev 为基础,继承了其文生图基础能力和多模态注意力机制,采用了通用定制化模型框架。使模型能从文本到图像模型迭代训练而来,通过其独特的渐进式跨模态对齐和通用旋转位置嵌入等机制,实现了在单主体和多主体驱动生成中既能保持高一致性又能确保可控性。
  • 数据管理与模型进化:UNO 采用“模型-数据共同进化”的新范式,核心思想是用较弱的模型生成训练数据,训练更强的模型。让模型在训练过程中逐渐适应多样化场景,能有效应对实际应用中可能遇到的复杂情况。

UNO的项目地址

  • 项目官网:https://bytedance.github.io/UNO/
  • Github仓库:https://github.com/bytedance/UNO
  • HuggingFace模型:https://huggingface.co/bytedance-research/UNO
  • arXiv技术论文:https://arxiv.org/pdf/2504.02160

UNO的应用场景

  • 虚拟试穿:UNO 可以将不同的服装、饰品等产品放置在虚拟人物模型上,生成不同场景下的试穿效果。
  • 产品设计:在产品设计中,UNO 可以将产品放置在各种背景和场景中,保持产品的原始特征,为设计师提供更灵活的设计思路。
  • 创意设计:UNO 能接收多个参考图像作为输入,生成包含所有参考主体的新图像。
  • 个性化内容生成:UNO 可以根据一张参考图像生成保持同一主体特征但处于不同场景、姿势或风格的图像。
  • 角色和场景设计:UNO 可以为游戏开发提供强大的图像生成支持,帮助开发者快速生成角色和场景,激发创意。
xAR – 字节联合霍普金斯大学推出的自回归视觉生成框架
Sa2VA – 字节跳动等机构开源的多模态大语言模型
Glyph视觉压缩框架:智谱清华联手,大模型推理速度提升4倍,显存占用直降2/3
字节跳动Seed重磅开源:Ouro循环语言模型横空出世,1.4B参数性能超越大型LLM,重新定义AI推理效率
MangaNinja – 基于参考图像的线稿着色技术
分享
Email 复制链接 打印
Share
上一篇 福棠·百川 – 百川智能联合北京儿童等推出的儿科大模型
下一篇 PaddleSpeech – 百度飞桨团队开源的语音处理工具
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

快手OneRec:颠覆传统推荐!端到端生成式AI系统引爆观看时长与GMV
AI 工具 AIGC 资讯
Kimi-Researcher:月之暗面端到端强化学习Agent,深度研究基准测试超Claude 4 Opus
AI 工具 AIGC 资讯
华为盘古大模型5.5震撼发布:7180亿参数Ultra MoE领衔,五大模型重塑产业智能
AI 工具 AIGC 资讯
腾讯清华重磅开源MindOmni:强化学习驱动的多模态推理生成模型,重塑视觉AI边界
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

PixelFlow – 港大联合 Adobe 推出的图像生成模型

站外新闻
AIGC 资讯

TransPixar – 港中文联合 Adobe 等机构开源的生成透明背景视频技术

站外新闻
AIGC 资讯

llmware – 专为企业级应用设计的开源统一框架

站外新闻
AI 工具AIGC 资讯

科大讯飞开源企业级AI智能体平台 Astron Agent:一键部署高可用工作流,集成RPA实现决策到行动闭环

站外新闻
Astron Agent RPA自动化 企业智能工作流 智能体平台 科大讯飞
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.