Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: PhotoDoodle – 字节联合新加坡国立大学等推出的艺术化图像编辑框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > PhotoDoodle – 字节联合新加坡国立大学等推出的艺术化图像编辑框架
AIGC 资讯

PhotoDoodle – 字节联合新加坡国立大学等推出的艺术化图像编辑框架

站外新闻
最近更新: 2026年6月8日 下午8:40
SHARE

PhotoDoodle是什么

PhotoDoodle是新加坡国立大学、上海交通大学、北京邮电大学、字节跳动和Tiamat团队联合推出的艺术化图像编辑框架,基于少量样本学习艺术家的独特风格,实现照片涂鸦(photo doodling)。PhotoDoodle用两阶段训练策略:基于大规模数据预训练通用图像编辑模型OmniEditor,用少量艺术家策划的前后图像对进行微调,捕捉特定的编辑风格。PhotoDoodle引入位置编码重用机制和无噪声条件范式,确保生成结果与背景的无缝融合和一致性。PhotoDoodle推出包含6种风格和300多个样本的高质量数据集,为相关研究提供基准。

阅读目录
  • PhotoDoodle是什么
  • PhotoDoodle的主要功能
  • PhotoDoodle的技术原理
  • PhotoDoodle的项目地址
  • PhotoDoodle的应用场景

PhotoDoodle

PhotoDoodle的主要功能

  • 艺术风格学习与复现:从少量艺术家提供的样本中学习独特的编辑风格,应用于新的图像编辑任务中。
  • 装饰性元素生成:支持在照片上添加装饰性元素(如手绘线条、色彩块、装饰图案等),确保这些元素与背景无缝融合。
  • 保持背景一致性:在编辑过程中,严格保留原始照片的背景内容,避免背景失真或风格被破坏。
  • 指令驱动的编辑:基于自然语言指令控制图像编辑内容,实现精准的局部修改和风格化处理。
  • 高效风格定制:借助低秩适应(LoRA)技术,仅需30-50对样本即可快速适配不同艺术家的风格,降低训练成本。

PhotoDoodle的技术原理

  • OmniEditor预训练:用大规模图像编辑数据集对预训练的DiT模型进行微调,将其转化为通用图像编辑器(OmniEditor)。引入位置编码克隆机制(Positional Encoding Cloning)和无噪声条件范式(Noise-free Conditioning),确保编辑过程中的空间一致性和背景保留。基于多模态注意力机制(MMA)结合文本指令和图像条件,实现精准的图像编辑。
  • EditLoRA微调:在预训练的OmniEditor基础上,用少量艺术家提供的前后图像对进行低秩适应(LoRA)微调。基于低秩分解矩阵适应性调整模型权重,捕捉特定艺术家的编辑风格,同时保留预训练模型的通用能力。
  • 位置编码克隆机制:在源图像和目标图像之间共享相同的位置编码,确保生成结果的空间一致性,避免背景与装饰元素之间的错位。
  • 无噪声条件范式:在生成过程中保留源图像的无噪声条件,防止背景内容在迭代去噪过程中被破坏,保持原始图像的细节和纹理。
  • 条件流匹配损失函数:优化条件流匹配损失函数,指导模型学习从噪声到目标图像的生成路径,进一步提升编辑效果。

PhotoDoodle的项目地址

  • GitHub仓库:https://github.com/showlab/PhotoDoodle
  • HuggingFace模型库:https://huggingface.co/nicolaus-huang/PhotoDoodle
  • arXiv技术论文:https://arxiv.org/pdf/2502.14397

PhotoDoodle的应用场景

  • 数字艺术创作:为照片添加艺术风格,快速生成创意作品。
  • 商业设计:快速生成符合品牌风格的设计图像,提升设计效率。
  • 社交媒体:为个人照片添加装饰效果,增强分享内容的吸引力。
  • 艺术教育:辅助教学,帮助学生理解和实践不同艺术风格。
  • 娱乐互动:实时生成艺术化图像,增强互动体验。
Cosmos 3 – 英伟达开源的全模态物理 AI 基础大模型
阿里重磅发布HappyOyster:实时交互式世界模型,AI生成沉浸式虚拟世界体验
gpt-4o-transcribe – OpenAI 推出的语音转文本模型
NVIDIA开源Audio Flamingo Next:7B参数模型如何实现30分钟长音频理解并超越Gemini?
omp – 开源的 AI 终端编程智能体,能与 IDE 深度联动
分享
Email 复制链接 打印
Share
上一篇 星火纪要 – 科大讯飞推出的会议交流总结和分析平台
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

星火纪要 – 科大讯飞推出的会议交流总结和分析平台
AIGC 资讯
ConsistentDreamer – 华为推出的单张图像生成 3D 资产技术
AIGC 资讯
GLM-4-32B – 智谱开源的新一代基座模型
AIGC 资讯
Crawl4LLM – 清华和卡内基梅隆大学联合开源的智能爬虫系统
AIGC 资讯

相关推荐

全息流体渐变通用占位特色图
AIGC 资讯

AI巨头罕见“踩刹车”:Anthropic警告“AI造AI”时代逼近,呼吁全球放缓研发

站外新闻
AIGC 资讯

CodeGraph – 开源代码知识图谱工具,加速代码理解和分析

站外新闻
AIGC 资讯

2GB内存也能跑大模型!谷歌Gemini Go正式下凡,入门级安卓机迎来AI普惠

站外新闻
AIGC 资讯

VideoGrain – 悉尼科技大学和浙大推出的视频编辑框架

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.