Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: SpatialLM – 群核科技开源的空间理解多模态模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > SpatialLM – 群核科技开源的空间理解多模态模型
AIGC 资讯

SpatialLM – 群核科技开源的空间理解多模态模型

站外新闻
最近更新: 2026年6月8日 上午4:47
SHARE

SpatialLM是什么

SpatialLM 是群核科技开源的空间理解多模态模型,赋予机器人和智能系统类似人类的空间认知能力。通过分析普通手机拍摄的视频,能重建出详细的 3D 场景布局,标注出房间结构、家具摆放、通道宽度等信息。模型基于大语言模型框架,结合点云重建和结构化表示技术,将视频中的场景转化为结构化的 3D 模型,为具身智能训练提供了高效的基础框架。

阅读目录
  • SpatialLM是什么
  • SpatialLM的主要功能
  • SpatialLM的技术原理
  • SpatialLM的项目地址
  • SpatialLM的应用场景

SpatialLM

SpatialLM的主要功能

  • 视频生成 3D 场景:SpatialLM 可以将普通手机拍摄的视频转化为详细的 3D 场景布局。通过分析视频中的每一帧画面,重建出场景的三维结构,包括房间布局、家具摆放、通道宽度等信息。
  • 空间认知与推理:模型突破了传统大语言模型对物理世界几何与空间关系的理解局限,赋予机器类似人类的空间认知和解析能力。能对场景中的物体进行语义理解,生成结构化的 3D 场景布局,标注出物体的三维坐标、尺寸参数和类别信息。
  • 低成本数据采集:SpatialLM 不需要借助复杂的传感器或智能穿戴设备,普通手机或相机拍摄的视频即可作为数据输入。大大降低了开发者的数据采集门槛,使更多企业和研究者能够快速开展相关研究。
  • 具身智能训练:SpatialLM 为具身智能领域提供了基础的空间理解训练框架。企业可以针对特定场景对模型进行微调,实现机器人在复杂环境中的导航、避障和任务执行能力。结合群核科技的空间智能训练平台 SpatialVerse,机器人可以在仿真环境中完成技能学习,形成从认知到行动的完整闭环。
  • 虚拟场景生成:SpatialLM 可以将现实世界的数据转化为虚拟环境中的丰富场景。通过其合成数据引擎,可以泛化生成亿万级新场景,为虚拟现实、增强现实和游戏开发等领域提供强大的支持。

SpatialLM的技术原理

  • 视频输入与点云重建:SpatialLM 使用 MASt3R-SLAM 技术处理输入的 RGB 视频。将视频拆解为帧,提取物体的细节空间点,计算其深度和位置,生成高密度的 3D 点云模型。
  • 点云编码与特征提取:点云数据被编码器转化为紧凑的特征向量。保留了场景中物体的关键几何和语义信息。
  • 大语言模型生成场景代码:通过大语言模型(LLM),将点云特征转化为结构化的场景代码。包含空间结构的坐标和尺寸,标注了物体的语义边界框(如“沙发 – 长 1.8 米 – 距墙 0.5 米”)。
  • 结构化 3D 布局生成:场景代码被进一步转换为结构化的 3D 场景布局,明确标注出每个物体的三维坐标、尺寸参数和类别信息。可以被可视化工具还原为可交互的 3D 场景。
  • 物理规则嵌入:SpatialLM 内置了物理常识(如“家具不能悬空”“通道宽度≥0.8 米”),确保生成的 3D 场景符合物理规则。

SpatialLM的项目地址

  • Github仓库:https://github.com/manycore-research/SpatialLM
  • HuggingFace模型库:https://huggingface.co/manycore-research/SpatialLM-Llama-1B

SpatialLM的应用场景

  • 具身智能训练:SpatialLM 能帮助机器人在虚拟环境中进行障碍规避、物体抓取等任务的训练。
  • 自动导航:在机器人导航任务中,SpatialLM 可以实时解析环境中的空间信息,帮助机器人避开障碍物并规划最优路径。
  • AR/VR 领域:SpatialLM 能将现实世界的场景快速转化为虚拟环境中的丰富场景,支持增强现实和虚拟现实应用的开发。
  • 建筑设计与规划:SpatialLM 可以分析建筑物的 3D 点云数据,识别出墙体、门窗等结构信息,帮助建筑设计和规划人员更高效地进行设计工作。
  • 教育与培训:教育工作者可以用 SpatialLM 开发教育软件,帮助学生学习 3D 建模和空间视觉能力。通过直观的 3D 场景生成和解析,学生能更好地理解空间关系和几何概念。
字节港中文等重磅开源OmniShow:12.3B参数统一框架,首个支持RAP2V的端到端人-物交互视频生成模型
GPT-5.6后端日志泄露:150万Token上下文窗口定义新基准,AI六月决战将重塑开发范式
360重磅开源FG-CLIP 2:超越Google与Meta,全球最强双语视觉语言模型来了!
英伟达Nemotron 3开源模型系列发布:MoE架构助力4倍吞吐量,重塑多智能体AI开发范式
Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
分享
Email 复制链接 打印
Share
上一篇 URM – 阿里妈妈推出的世界知识大模型
下一篇 HoloPart – 港大联合 VAST 开源生成完整可编辑部件的 3D 模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

快手OneRec:颠覆传统推荐!端到端生成式AI系统引爆观看时长与GMV
AI 工具 AIGC 资讯
Kimi-Researcher:月之暗面端到端强化学习Agent,深度研究基准测试超Claude 4 Opus
AI 工具 AIGC 资讯
华为盘古大模型5.5震撼发布:7180亿参数Ultra MoE领衔,五大模型重塑产业智能
AI 工具 AIGC 资讯
腾讯清华重磅开源MindOmni:强化学习驱动的多模态推理生成模型,重塑视觉AI边界
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯最新趋势

DeerFlow 2.0:字节跳动开源超级智能体框架,11层中间件+动态子智能体,5分钟速搭企业级AI Agent工作流

站外新闻
AIGC DeerFlow 2.0 多智能体协同 字节跳动 超级智能体框架
AIGC 资讯

BioMedGPT-R1 – 清华联合水木分子推出的多模态生物医药大模型

站外新闻
AI 工具AIGC 资讯

谷歌重磅开源 TranslateGemma:Gemma 3 系列翻译模型,支持 55 种语言与多模态图像翻译

站外新闻
Gemma 3 TranslateGemma 多模态大模型 开源模型 机器翻译
AI 工具AIGC 资讯

ClawLess:南方科技大学 & 港科大AI Agent安全框架,形式化验证+系统调用拦截,构筑数学级安全壁垒

站外新闻
AI Agent BPF 南方科技大学 安全框架 形式化验证
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.