Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: PixelHacker – 华中科技联合VIVO推出的图像修复模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > PixelHacker – 华中科技联合VIVO推出的图像修复模型
AIGC 资讯

PixelHacker – 华中科技联合VIVO推出的图像修复模型

站外新闻
最近更新: 2026年6月7日 下午9:59
SHARE

PixelHacker是什么

PixelHacker 是华中科技大学和 VIVO AI Lab联合推出的图像修复(Image Inpainting)模型。基于引入潜在类别引导(Latent Categories Guidance, LCG)范式,分别对前景和背景进行编码,基于线性注意力将特征注入去噪过程中,实现结构和语义的一致性。模型基于大规模数据集(包含 1400 万图像 – 掩码对)进行预训练,在多个开源基准数据集(如 Places2、CelebA-HQ 和 FFHQ)上微调,展现出卓越的修复效果。

阅读目录
  • PixelHacker是什么
  • PixelHacker的主要功能
  • PixelHacker的技术原理
  • PixelHacker的项目地址
  • PixelHacker的应用场景
PixelHacker

PixelHacker的主要功能

  • 高质量图像修复:在自然场景、人脸图像等多种数据集上表现出色,生成逼真的修复内容。
  • 结构和语义一致性:确保修复区域与周围环境在纹理、形状和颜色上自然过渡,逻辑上符合场景。
  • 适应多种场景:对不同类型的图像(如风景、人脸、复杂背景)具有良好的适应性,支持多种分辨率和掩码类型。

PixelHacker的技术原理

  • 潜在类别引导(LCG):将图像分为前景和背景两部分,分别用在两个固定大小的嵌入(embeddings)编码潜在特征。方法避免对具体类别标签的依赖。在训练时,用多种掩码(如随机笔刷掩码、对象语义掩码、场景语义掩码等)构造图像-掩码对,分配到前景或背景嵌入中。
  • 扩散模型架构:基于扩散模型(Diffusion Model)作为其生成框架。扩散模型基于逐步去噪的过程生成图像内容,生成高质量且多样化的图像。在去噪过程中,基于线性注意力(Linear Attention)将前景和背景的潜在特征注入到模型中。
  • 训练和微调:在包含 1400 万图像掩码对的大规模数据集上进行预训练,学习到丰富的图像分布和语义信息。在预训练的基础上,PixelHacker 在多个开源基准数据集(如 Places2、CelebA-HQ 和 FFHQ)上进行微调,适应特定任务和数据分布,进一步提升性能。
  • 多步交互:在去噪的每一步中,基于线性注意力将前景和背景的潜在特征与当前的图像特征进行交互,确保生成内容在结构和语义上与周围环境保持一致。
  • 分类器自由引导(CFG):在推理阶段,用分类器自由引导(Classifier-Free Guidance)技术,调整引导规模(guidance scale)平衡生成内容的多样性和一致性。

PixelHacker的项目地址

  • 项目官网:https://hustvl.github.io/PixelHacker/
  • GitHub仓库:https://github.com/hustvl/PixelHacker
  • arXiv技术论文:https://arxiv.org/pdf/2504.20438

PixelHacker的应用场景

  • 修复老旧照片:自动填补划痕、污渍或缺失部分,恢复照片完整性。
  • 移除无关对象:从图像中去除不需要的元素(如行人、杂物),保持背景自然。
  • 创意内容生成:辅助艺术家和设计师快速生成高质量图像,用于广告、海报或艺术创作。
  • 医学影像修复:填补医学图像中的缺失或损坏区域,提升诊断准确性。
  • 文化遗产保护:修复文物和古籍图像,填补缺失部分,助力文化传承。
AI创投Q1狂飙1100亿:大模型与具身智能引领技术迭代新风暴
2023: AI 的一年 [译]
200B+参数刷新SOTA!智象未来「原生全模态」旗舰模型HiDream-O1-Image-Pro深度解析
OpenHuman:开源AI桌面助手革命,主动感知工作上下文,集成118+应用构建你的私人知识网络
腾讯发布CodeBuddy Security,用AI Agent实现更高效的代码审计
分享
Email 复制链接 打印
Share
上一篇 KeySync – 帝国理工联合弗罗茨瓦夫大学推出的口型同步框架
下一篇 PilotDeck – 清华联合面壁智能开源的 Agent 操作系统
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

T2I-R1 – 港中文联合上海AI Lab推出文生图模型
AIGC 资讯
FreeLLMAPI – 开源 AI 模型聚合平台,统一OpenAI兼容格式
AIGC 资讯
LTXV-13B – Lightricks开源的最新视频生成模型
AIGC 资讯
Cobra – 清华、港中文和腾讯开源的漫画线稿上色框架
AIGC 资讯

相关推荐

AI 工具AIGC 资讯

阿里通义Qwen3.7-Max旗舰大模型发布:全能智能体基座,编程推理全面领先,定义AI Agent新标杆

站外新闻
AI编程 Qwen3.7-Max 大模型 智能体 阿里通义千问
AIGC 资讯

Gemma 4 12B – 谷歌开源的多模态大模型

站外新闻
量子芯片科技感占位特色图
AI 工具AIGC 资讯

谷歌AI翻车!竟把’Google’拼错,大模型‘不识字’的硬伤藏不住了

站外新闻
AI摘要 Transformer 大语言模型 词元 谷歌
AI 工具AIGC 资讯

Ling-2.6-flash:蚂蚁百灵打造‘干活’模型,104B参数仅激活7.4B,Token效率碾压同行

站外新闻
Agent AI推理 MoE 大模型 蚂蚁百灵
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.