Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: PhotoDoodle – 字节联合新加坡国立大学等推出的艺术化图像编辑框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > PhotoDoodle – 字节联合新加坡国立大学等推出的艺术化图像编辑框架
AIGC 资讯

PhotoDoodle – 字节联合新加坡国立大学等推出的艺术化图像编辑框架

站外新闻
最近更新: 2026年6月8日 下午8:40
SHARE

PhotoDoodle是什么

PhotoDoodle是新加坡国立大学、上海交通大学、北京邮电大学、字节跳动和Tiamat团队联合推出的艺术化图像编辑框架,基于少量样本学习艺术家的独特风格,实现照片涂鸦(photo doodling)。PhotoDoodle用两阶段训练策略:基于大规模数据预训练通用图像编辑模型OmniEditor,用少量艺术家策划的前后图像对进行微调,捕捉特定的编辑风格。PhotoDoodle引入位置编码重用机制和无噪声条件范式,确保生成结果与背景的无缝融合和一致性。PhotoDoodle推出包含6种风格和300多个样本的高质量数据集,为相关研究提供基准。

阅读目录
  • PhotoDoodle是什么
  • PhotoDoodle的主要功能
  • PhotoDoodle的技术原理
  • PhotoDoodle的项目地址
  • PhotoDoodle的应用场景

PhotoDoodle

PhotoDoodle的主要功能

  • 艺术风格学习与复现:从少量艺术家提供的样本中学习独特的编辑风格,应用于新的图像编辑任务中。
  • 装饰性元素生成:支持在照片上添加装饰性元素(如手绘线条、色彩块、装饰图案等),确保这些元素与背景无缝融合。
  • 保持背景一致性:在编辑过程中,严格保留原始照片的背景内容,避免背景失真或风格被破坏。
  • 指令驱动的编辑:基于自然语言指令控制图像编辑内容,实现精准的局部修改和风格化处理。
  • 高效风格定制:借助低秩适应(LoRA)技术,仅需30-50对样本即可快速适配不同艺术家的风格,降低训练成本。

PhotoDoodle的技术原理

  • OmniEditor预训练:用大规模图像编辑数据集对预训练的DiT模型进行微调,将其转化为通用图像编辑器(OmniEditor)。引入位置编码克隆机制(Positional Encoding Cloning)和无噪声条件范式(Noise-free Conditioning),确保编辑过程中的空间一致性和背景保留。基于多模态注意力机制(MMA)结合文本指令和图像条件,实现精准的图像编辑。
  • EditLoRA微调:在预训练的OmniEditor基础上,用少量艺术家提供的前后图像对进行低秩适应(LoRA)微调。基于低秩分解矩阵适应性调整模型权重,捕捉特定艺术家的编辑风格,同时保留预训练模型的通用能力。
  • 位置编码克隆机制:在源图像和目标图像之间共享相同的位置编码,确保生成结果的空间一致性,避免背景与装饰元素之间的错位。
  • 无噪声条件范式:在生成过程中保留源图像的无噪声条件,防止背景内容在迭代去噪过程中被破坏,保持原始图像的细节和纹理。
  • 条件流匹配损失函数:优化条件流匹配损失函数,指导模型学习从噪声到目标图像的生成路径,进一步提升编辑效果。

PhotoDoodle的项目地址

  • GitHub仓库:https://github.com/showlab/PhotoDoodle
  • HuggingFace模型库:https://huggingface.co/nicolaus-huang/PhotoDoodle
  • arXiv技术论文:https://arxiv.org/pdf/2502.14397

PhotoDoodle的应用场景

  • 数字艺术创作:为照片添加艺术风格,快速生成创意作品。
  • 商业设计:快速生成符合品牌风格的设计图像,提升设计效率。
  • 社交媒体:为个人照片添加装饰效果,增强分享内容的吸引力。
  • 艺术教育:辅助教学,帮助学生理解和实践不同艺术风格。
  • 娱乐互动:实时生成艺术化图像,增强互动体验。
Sky-T1 – NovaSky 开源的推理 AI 模型,可从零开始复现该模型
昆仑万维Matrix-Game 2.0开源:首个通用实时交互世界模型,25FPS分钟级生成,开启AI游戏与VR新范式
渣打银行裁员8000人:AI替代低价值人力,银行业‘冰冷转型’下的人类岗位危机
VideoCaptioner – AI视频字幕处理工具,支持字幕样式调整和多格式导出
阶跃星辰开源Step 3.5 Flash:1960亿参数MoE模型,350TPS极速推理与Agent性能比肩顶尖闭源模型
分享
Email 复制链接 打印
Share
上一篇 星火纪要 – 科大讯飞推出的会议交流总结和分析平台
下一篇 AReaL-boba – 蚂蚁联合清华开源的强化学习训练框架
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

字节跳动发布SeedVR2:单步视频修复模型,以极低成本实现1080p高清画质革新
AI 工具 AIGC 资讯
北大微软联手突破:Next-Frame Diffusion实现30+FPS实时自回归视频生成,扩散模型与因果注意力新范式
AI 工具 AIGC 资讯
美团LLIA框架深度解析:实时音频驱动肖像视频生成,如何实现低延迟高保真交互?
AI 工具 AIGC 资讯
腾讯开源Hunyuan3D-2.1:工业级3D生成模型,支持PBR材质与多模态输入,1秒极速出图
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

InstructMove – 东京大学联合 Adobe 推出基于指令的图像编辑模型

站外新闻
AI 工具AIGC 资讯

月之暗面Kimi K2模型开源:万亿参数MoE架构,代码与Agent能力超越主流开源模型

站外新闻
Agent能力 Kimi K2 MoE模型 代码生成 开源大模型
AI 工具AIGC 资讯

百度MuseSteamer多模态视频生成大模型:AI一键生成电影级音效一体化视频

站外新闻
AIGC AI视频创作 多模态AI 百度AI 视频生成大模型
AI 工具AIGC 资讯

恶意开发者滥用Claude生成超670个恶意npm包:AI成供应链攻击新武器,开源安全告急!

站外新闻
AI安全 Claude npm 供应链攻击 恶意软件
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.