Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: xAR – 字节联合霍普金斯大学推出的自回归视觉生成框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > xAR – 字节联合霍普金斯大学推出的自回归视觉生成框架
AIGC 资讯

xAR – 字节联合霍普金斯大学推出的自回归视觉生成框架

站外新闻
最近更新: 2026年6月9日 上午4:49
SHARE

xAR是什么

xAR 是字节跳动和约翰·霍普金斯大学联合提出的新型自回归视觉生成框架。框架通过“下一个X预测”(Next-X Prediction)和“噪声上下文学习”(Noisy Context Learning)技术,解决了传统自回归模型在视觉生成中的信息密度不足和累积误差问题。

阅读目录
  • xAR是什么
  • xAR的主要功能
  • xAR的技术原理
  • xAR的项目地址
  • xAR的应用场景

xAR

xAR的主要功能

  • 下一个X预测(Next-X Prediction):扩展了传统的“下一个标记预测”,支持模型预测更复杂的实体(如图像块、单元、子采样、整个图像等),捕捉更丰富的语义信息。
  • 噪声上下文学习(Noisy Context Learning):通过在训练中引入噪声,提高模型对误差的鲁棒性,缓解累积误差问题。
  • 高性能生成:在 ImageNet 数据集上,xAR 模型在推理速度和生成质量上均优于现有技术,如 DiT 和其他扩散模型。
  • 灵活的预测单元:支持多种预测单元设计(如单元、子采样、多尺度预测等),适用于不同的视觉生成任务。

xAR的技术原理

  • 流匹配(Flow Matching):xAR基于流匹配方法将离散的标记分类问题转化为连续的实体回归问题。具体来说:
    • 模型通过插值和噪声注入的方式生成带噪声的输入。
    • 在每个自回归步骤中,模型预测从噪声分布到目标分布的方向流(Velocity),从而逐步优化生成结果。
  •  推理策略:在推理阶段,xAR采用自回归的方式逐步生成图像:
    • 首先从高斯噪声中预测初始单元(如8×8的图像块)。
    • 基于已生成的单元,模型逐步生成下一个单元,直到完成整个图像的生成。
  • 实验结果:xAR在ImageNet-256和ImageNet-512基准测试中取得了显著的性能提升:
    • xAR-B(1.72亿参数)模型在推理速度上比DiT-XL(6.75亿参数)快20倍,同时在弗雷歇 inception 距离(FID)上达到1.72,优于现有的扩散模型和自回归模型。
    • xAR-H(11亿参数)模型在ImageNet-256上达到了1.24的FID,创造了新的最优水平,且不依赖于视觉基础模型(如DINOv2)或高级引导区间采样。

xAR的项目地址

  • 项目官网:https://oliverrensu.github.io/project/xAR/
  • arXiv技术论文:https://arxiv.org/pdf/2502.20388

xAR的应用场景

  • 艺术创作:艺术家可以用xAR生成创意图像,作为艺术作品的灵感来源或直接用于创作。xAR能生成具有丰富细节和多样风格的图像,支持不同分辨率和风格的创作需求。
  • 虚拟场景生成:在游戏开发和虚拟现实(VR)中,xAR可以快速生成逼真的虚拟场景,包括自然景观、城市环境和虚拟角色等,提升用户体验。
  • 老照片修复:通过生成高质量的图像内容,xAR可以修复老照片中的损坏部分,恢复其原始细节和色彩。
  • 视频内容生成:xAR可以生成视频中的特定场景或对象,用于视频特效制作、动画生成和视频编辑。
  • 数据增强:通过生成多样化的图像,xAR可以扩充训练数据集,提升模型的泛化能力和鲁棒性。
高德与阿里重磅开源AGenUI:三端原生A2UI框架,让AI Agent输出直接变为可交互界面
字节FlowAct-R1:单张图+音频,实时生成无限时长数字人视频,1.5秒低延迟
PaliGemma 2 mix – 谷歌DeepMind推出的升级版视觉语言模型
微软开源VibeVoice-ASR:60分钟长音频一键转录,说话者分离+热词自定义,会议记录神器
Handy:开源离线语音转文字神器,本地处理保护隐私,支持Whisper模型与多平台
分享
Email 复制链接 打印
Share
上一篇 Baichuan-Omni-1.5 – 百川智能开源的全模态理解模型
下一篇 RAG-FiT – 英特尔实验室推出用于开发、增强大模型的开源RAG框架
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

流光脑波AI大脑占位特色图
2026年3月美国AI榜单巨变:Claude单月狂飙130%紧追ChatGPT,格局突变信号已现
AIGC 资讯 最新趋势
得物实战揭秘:AI Coding工具如何突破数仓开发’失忆’痛点,Harness工程引领新范式
AI 工具 AIGC 资讯
全息流体渐变通用占位特色图
历史性和解!Meta妥协规避审判,美国首例学校诉社交媒体成瘾案落幕,揭示行业司法风向
AIGC 资讯
量子芯片科技感占位特色图
Spotify与环球音乐联手:AI翻唱混音工具上线,正版版权终结Suno野蛮生长
AI 工具 AIGC 资讯 最新趋势

相关推荐

AI 工具AIGC 资讯

智源研究院开源RoboBrain-X0:全球首个跨本体具身模型,零样本驱动多形态机器人

站外新闻
具身智能 智源研究院 机器人 跨本体泛化
AI 工具AIGC 资讯

OpenAI官方Prompt模板「ChatGPT for any role」:免费提升10倍职场效率的终极指南

站外新闻
chatgpt openai Prompt Engineering 提示词模板 职场效率
AIGC 资讯

Minion Agent – 开源的多功能 AI Agent 框架

站外新闻
AIGC 资讯

RealtimeSTT – AI实时语音转文本库,自动检测说话的开始与结束

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 轻量级模型 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.