Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: AnyStory – 阿里通义推出的高保真个性化文本到图像生成框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > AnyStory – 阿里通义推出的高保真个性化文本到图像生成框架
AIGC 资讯

AnyStory – 阿里通义推出的高保真个性化文本到图像生成框架

站外新闻
最近更新: 2026年6月9日 上午6:48
SHARE

AnyStory是什么

AnyStory是阿里巴巴通义实验室研发的创新文本到图像生成框架,实现单个和多个主体的高保真个性化图像生成。通过“编码-路由”的方法来建模主体个性化问题。在编码阶段,AnyStory结合强大的ReferenceNet和CLIP视觉编码器,对主体特征进行高保真度的编码,捕捉丰富的细节和语义信息。ReferenceNet支持高分辨率输入,与去噪U-Net的特征空间对齐,为生成图像提供坚实的细节基础;CLIP视觉编码器则负责提取主体的粗略概念,确保生成的图像与文本描述紧密对齐。在路由阶段,解耦的实例感知主体路由器能准确感知并预测主体在潜在空间中的位置,引导主体条件的注入,有效避免了多主体生成中常见的主体混合问题,使每个主体能在生成的图像中保持其独特的特征和细节。

阅读目录
  • AnyStory是什么
  • AnyStory的主要功能
  • AnyStory的技术原理
  • AnyStory的项目地址
  • AnyStory的应用场景

AnyStory的主要功能

  • 高保真度单主体个性化:AnyStory能生成具有特定主体的高保真度图像,捕捉到丰富的细节和语义信息,使生成的图像与文本描述紧密对齐。
  • 多主体个性化:在涉及多个主体的场景中,AnyStory能准确地感知和预测每个主体在潜在空间中的位置,引导主体条件的注入,避免了多主体生成中常见的主体混合问题,使每个主体能在生成的图像中保持其独特的特征和细节。
  • 文本描述对齐:AnyStory确保生成的图像与文本描述紧密对齐,通过CLIP视觉编码器提取主体的粗略概念,确保生成的图像与文本描述的一致性。
  • 细节保留:基于ReferenceNet,AnyStory能保留主体的精细细节,提供高质量的图像生成支持。
  • 灵活的主体条件注入:通过解耦的实例感知主体路由器,AnyStory能灵活地将主体条件注入到潜在空间中,实现对生成图像的精确控制。

AnyStory的技术原理

  • 编码阶段
    • ReferenceNet:是通用且强大的图像编码器,支持高分辨率输入,能提取主体的精细细节。ReferenceNet的特征空间与去噪U-Net对齐,便于U-Net直接提取不同深度和尺度的主体特征。ReferenceNet通过变分自动编码器(VAE)对参考图像进行编码,然后通过一个与U-Net相同架构的网络提取其特征。
    • CLIP视觉编码器:CLIP视觉编码器负责提取主体的粗略概念,确保生成的图像与文本描述紧密对齐。CLIP的特征主要是语义的,虽然分辨率较低,能提供与文本嵌入良好对齐的特征,触发主体生成。
  • 路由阶段
    • 解耦路由机制:通过独立分支预测主体在潜在空间中的位置。给定一系列分割后的主体图像,分别通过CLIP图像编码器和一个额外的单查询QFormer获取路由特征。这些特征通过图像分割解码器建模路由器,生成粗略的路由图,再通过掩码交叉注意力模块细化路由图,最终用于指导主体信息的注入。
    • 实例感知路由正则化损失:为了促进路由器学习并区分不同主体实例,引入了实例感知路由正则化损失。这一损失函数确保路由器能准确地将主体特征路由到相应区域,减少对无关区域的影响。
    • 路由引导的主体信息注入:对于CLIP编码的主体表示,使用解耦交叉注意力将它们整合到U-Net中,增加路由引导的定位约束。对于ReferenceNet编码的主体特征,采用原始的参考注意力,增加由路由图引起的注意力掩码,确保主体特征准确注入到目标区域。
  • 训练阶段
    • 主体编码器训练:训练主体QFormer、ReferenceNet以及注意力块中相应的键、值矩阵。使用预训练的U-Net权重初始化ReferenceNet,收集大量保持主体身份一致但在背景、姿势和视角上显示变化的配对数据进行训练,防止主体过拟合。
    • 路由器训练:固定主体编码器,训练路由器。主要训练数据包括额外的未配对多人图像,路由器能够有效地泛化到一般主体,归因于CLIP模型的强大泛化能力和高度压缩的单令牌路由特征。

AnyStory的项目地址

  • 项目官网:https://aigcdesigngroup.github.io/AnyStory
  • arXiv技术论文:https://arxiv.org/pdf/2501.09503v1

AnyStory的应用场景

  • 创意绘画:艺术家可以用AnyStory将脑海中的创意转化为视觉作品。为特定的客户定制个性化的肖像,AnyStory能提供高质量的图像生成支持,缩短创作周期。
  • 概念设计:在设计初期,AnyStory可以帮助艺术家和设计师快速生成概念图,为后续的详细设计提供参考。
  • 角色概念图:游戏设计师可以用AnyStory根据游戏背景故事和角色设定,快速生成多个角色的概念图。
  • 漫画创作:为漫画创作者提供快速生成角色和场景的工具,加速创作过程,提高作品的视觉效果。
  • 个性化广告:根据不同的目标受众和营销主题,快速生成包含特定产品或品牌元素的图像,提高广告的吸引力和效果。
Open Computer Agent – Hugging Face 推出的免费云端 AI Agent 工具
TimesFM 2.0 – 谷歌研究团队开源的时间序列预测模型
小米OmniVoice震撼开源:600+语种、40倍实时,定义下一代多语言TTS新标杆
高德开源SkillClaw:AI Agent技能自动进化框架,实现团队经验零成本复利
Mureka V9全球第一!昆仑万维AI音乐模型全面超越Suno V5,音乐性与可控性登顶
分享
Email 复制链接 打印
Share
上一篇 Nemotron-CC – 英伟达推出的大型预训练数据集
下一篇 Whisper Input – 开源AI语音输入工具,支持多语言实时转录和翻译
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

京东开源JoyAI-LLM-Flash:48B参数MoE架构,3B激活参数实现128K超长上下文与高效推理
AI 工具 AIGC 资讯
蚂蚁集团Ming-omni-tts重磅开源:16.8B参数统一音频生成大模型,粤语情感控制超93%,超越SeedTTS引领AIGC音频新范式
AI 工具 AIGC 资讯
ClawWork深度解析:HKUDS开源AI Agent经济生存基准测试框架,挑战大模型“赚钱”能力
AI 工具 最新趋势
Google DeepMind发布Lyria 3:AI音乐生成模型重大突破,一句话生成带人声的30秒完整歌曲
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

MiniMax Music 2.6深度评测:20秒极速生成、14种结构控制,AI音乐创作进入可控时代

站外新闻
AI Agent AIGC AI音乐生成 MiniMax 音乐大模型
AIGC 资讯

Hallo3 – 复旦联合百度开源的高动态与真实感肖像动画生成框架

站外新闻
AIGC 资讯

FastAPI-MCP – 一键将 FastAPI 转换为 MCP 服务器的开源工具

站外新闻
AIGC 资讯

Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 AI音乐生成 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE架构 NVIDIA openai OpenClaw OpenRouter Pika prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 小红书 展台 建筑 开源 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 清华大学 生成式AI 科幻 端侧AI 网络安全 联想 腾讯 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 边缘计算 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.