Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: AvatarGO – 南洋理工联合上海 AI Lab 等推出的4D人体与物体交互生成框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > AvatarGO – 南洋理工联合上海 AI Lab 等推出的4D人体与物体交互生成框架
AIGC 资讯

AvatarGO – 南洋理工联合上海 AI Lab 等推出的4D人体与物体交互生成框架

站外新闻
最近更新: 2026年6月8日 下午12:31
SHARE

AvatarGO是什么

AvatarGO 是南洋理工大学S-Lab、上海 AI Lab,香港大学联合推出的新型框架,用在从文本输入直接生成可动画化的 4D 人体与物体交互场景。通过零样本(zero-shot)方法基于预训练的扩散模型,解决传统方法在生成日常 HOI 场景时因缺乏大规模交互数据而受限的问题。AvatarGO 的核心包括:LLM 引导的接触重定位,基于 Lang-SAM 从文本提示中识别接触部位,确保人体与物体的空间关系精确表示;对应感知的运动优化,用 SMPL-X 的线性混合蒙皮函数构建运动场,优化人体和物体的动画,减少穿透问题。AvatarGO框架在多种人体与物体组合及多样化姿态下表现出优越的生成和动画能力。

阅读目录
  • AvatarGO是什么
  • AvatarGO的主要功能
  • AvatarGO的技术原理
  • AvatarGO的项目地址
  • AvatarGO的应用场景

AvatarGO

AvatarGO的主要功能

  • 从文本生成 4D 交互场景:基于简单的文本描述直接生成包含人体和物体交互的 4D 动画。
  • 精确的人体与物体接触表示:准确识别人体与物体的接触部位(如手、脚等),确保在生成的 3D 和 4D 场景中,人体与物体的空间关系是合理的。
  • 解决动画中的穿透问题:在动画生成过程中,有效避免人体与物体之间的穿透现象。
  • 多样化的 4D 动画生成:生成动态的 4D 动画,支持多种人物动作和物体交互。
  • 支持多种人物和物体组合:处理各种人物和物体的组合,包括虚拟角色(如动漫人物、超级英雄)和现实人物,及各种日常物品(如武器、工具、乐器等)。

AvatarGO的技术原理

  • LLM 引导的接触重定位: Lang-SAM(Language Segment Anything Model) 从文本描述中提取接触部位(如“手”)。基于将 3D 人体模型渲染成 2D 图像,结合文本提示,生成人体接触部位的分割掩码。掩码被反向投影到 3D 模型中,初始化物体的位置,确保物体与人体的接触部位是准确的。
  • 空间感知的分数蒸馏采样:引入 SSDS,增强与人体-物体交互相关的文本标记(如“holding”)的注意力权重,帮助扩散模型理解人体与物体之间的空间关系。
  • 对应关系感知的运动优化: SMPL-X 模型作为中介,为人体和物体构建运动场。基于线性混合蒙皮(LBS)函数,将物体的运动与人体的运动同步优化。引入新的训练目标——对应关系感知损失,最小化人体与物体之间的空间偏差,确保在动画过程中两者不会出现穿透现象。
  • 基于扩散模型的 3D 和 4D 生成:
    • 3D 生成:用 DreamGaussian 方法生成高质量的 3D 人体和物体模型。基于 3D 高斯点云表示场景,分数蒸馏采样(SDS)优化生成结果。
    • 4D 动画生成:在 3D 模型的基础上,基于 HexPlane 特征 和 SMPL-X 模型生成动态的 4D 动画。优化物体的全局参数(如旋转、平移)和人体的运动序列,生成连贯且逼真的 4D 动画。

AvatarGO的项目地址

  • 项目官网:https://yukangcao.github.io/AvatarGO
  • GitHub仓库:https://github.com/yukangcao/AvatarGO
  • arXiv技术论文:https://arxiv.org/pdf/2410.07164

AvatarGO的应用场景

  • 虚拟导购员:在商店中为顾客提供商品信息和购物建议。
  • 展厅讲解员:在博物馆或展厅中介绍展品和产品信息。
  • 数字大堂经理:在银行或营业厅提供咨询和引导服务。
  • 车载虚拟助手:在汽车中作为智能助手,提供陪伴和交互体验。
  • VR/AR内容创作:生成4D动画,用于虚拟现实和增强现实中的角色和交互设计。
VITA-Audio – 开源的端到端多模态语音大模型,低延迟、推理快
“聊天已死”?OpenAI 秘密推进 ChatGPT 重大改版,拟打造全能“超级应用”
xAI被曝曾利用Claude输出数据训练编码模型,因Anthropic撤销权限转入地下提取
MAI-Image-2.5 – 微软推出的旗舰级文生图模型
Gemma 3 QAT – 谷歌推出的最新开源模型,Gemma 3 量化版
分享
Email 复制链接 打印
Share
上一篇 R1-Omni – 阿里通义开源的全模态大语言模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

R1-Omni – 阿里通义开源的全模态大语言模型
AIGC 资讯
FlexiAct – 清华联合腾讯推出的动作迁移模型
AIGC 资讯
RF-DETR – Roboflow推出的实时目标检测模型
AIGC 资讯
MoLing – 本地AI办公自动化助手,基于 MCP 服务器
AIGC 资讯

相关推荐

AI 工具AIGC 资讯

OpenAI官方命令行工具震撼发布:一键调用GPT-5.5,开发者效率革命已至

站外新闻
API调试 GPT-5.5 OpenAI CLI 命令行工具 自动化脚本
AIGC 资讯

Baichuan-Audio – 百川智能开源的端到端语音交互模型

站外新闻
AIGC 资讯

Orpheus TTS – 开源AI语音合成系统,支持多种语音风格

站外新闻
AIGC 资讯

Odysseus – 开源的本地自托管 AI 工作空间

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.