Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Hugging Face开源SmolVLA:4.5亿参数机器人模型,CPU可运行、消费级GPU可训练
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > Hugging Face开源SmolVLA:4.5亿参数机器人模型,CPU可运行、消费级GPU可训练
AI 工具AIGC 资讯

Hugging Face开源SmolVLA:4.5亿参数机器人模型,CPU可运行、消费级GPU可训练

站外新闻
最近更新: 2026年6月7日 下午8:26
Hugging Face SmolVLA 开源机器人 机器人模型 视觉语言模型
SHARE

💡 站外导读:机器人技术正从实验室走向日常,但高昂的硬件成本、复杂的模型部署和数据的封闭性一直是普及的三大门槛。开发者渴望能用消费级硬件训练和部署的机器人AI,而非依赖昂贵的专业算力。SmolVLA的诞生,正是为了打破这一僵局——它是一个完全开源、参数精简(仅4.5亿)的视觉-语言-行动模型,其设计哲学是“让每个人都能用上先进的机器人AI”。

SmolVLA是什么

SmolVLA 是 Hugging Face 开源的轻量级视觉-语言-行动(VLA)模型,专为经济高效的机器人设计。拥有4.5亿参数,模型小巧,可在CPU上运行,单个消费级GPU即可训练,能在MacBook上部署。SmolVLA 完全基于开源数据集训练,数据集标签为“lerobot”。

阅读目录
  • SmolVLA是什么
  • SmolVLA的主要功能
  • SmolVLA的技术原理
  • SmolVLA的项目地址
  • SmolVLA的应用场景
      • 📝 站长洞察 (Editor’s Insight)

SmolVLA

SmolVLA的主要功能

  • 多模态输入处理:SmolVLA 能处理多种输入,包括多幅图像、语言指令以及机器人的状态信息。通过视觉编码器提取图像特征,将语言指令标记化后输入解码器,将传感运动状态通过线性层投影到一个标记上,与语言模型的标记维度对齐。
  • 动作序列生成:模型包含一个动作专家模块,是一个轻量级的 Transformer,能基于视觉-语言模型(VLM)的输出,生成未来机器人的动作序列块。采用流匹配技术进行训练,通过引导噪声样本回归真实数据分布来学习动作生成,实现高精度的实时控制。
  • 高效推理与异步执行:SmolVLA 引入了异步推理堆栈,将动作执行与感知和预测分离,实现更快、更灵敏的控制,使机器人可以在快速变化的环境中更快速地响应,提高了响应速度和任务吞吐量。

SmolVLA的技术原理

  • 视觉-语言模型(VLM):SmolVLA 使用 SmolVLM2 作为其 VLM 主干,模型经过优化,能处理多图像输入。包含一个 SigLIP 视觉编码器和一个 SmolLM2 语言解码器。图像标记通过视觉编码器提取,语言指令被标记化后直接输入解码器,传感运动状态则通过线性层投影到一个标记上,与语言模型的标记维度对齐。解码器层处理连接的图像、语言和状态标记,得到的特征随后传递给动作专家。
  • 动作专家:动作专家是一个轻量级的 Transformer(约1亿参数),基于 VLM 的输出,生成未来机器人的动作序列块。动作专家采用流匹配技术进行训练,通过引导噪声样本回归真实数据分布来学习动作生成,实现高精度的实时控制。
  • 视觉 Token 减少:为了提高效率,SmolVLA 限制每帧图像的视觉 Token 数量为64个,大大减少了处理成本。
  • 层跳跃加速推理:SmolVLA 跳过 VLM 中的一半层进行计算,有效地将计算成本减半,同时保持了良好的性能。
  • 交错注意力层:与传统的 VLA 架构不同,SmolVLA 交替使用交叉注意力(CA)和自注意力(SA)层。提高了多模态信息整合的效率,加快推理速度。
  • 异步推理:SmolVLA 引入了异步推理策略,让机器人的“手”和“眼”能独立工作。在这种策略下,机器人可以一边执行当前动作,一边已经开始处理新的观察并预测下一组动作,消除推理延迟,提高控制频率。

SmolVLA的项目地址

  • HuggingFace模型库:https://huggingface.co/lerobot/smolvla_base
  • arXiv技术论文:https://arxiv.org/pdf/2506.01844

SmolVLA的应用场景

  • 物体抓取与放置:SmolVLA 可以控制机械臂完成复杂的抓取和放置任务。例如,在工业生产线上,机器人需要根据视觉输入和语言指令,准确地抓取零件并将其放置到指定位置。
  • 家务劳动:SmolVLA 可以应用于家庭服务机器人,帮助完成各种家务劳动。例如,机器人可以根据自然语言指令,识别并清理房间中的杂物,或者将物品放置到指定位置。
  • 货物搬运:在物流仓库中,SmolVLA 可以控制机器人完成货物的搬运任务。机器人可以根据视觉输入识别货物的位置和形状,结合语言指令,生成最优的搬运路径和动作序列,提高货物搬运的效率和准确性。
  • 机器人教育:SmolVLA 可以作为机器人教育的工具,帮助学生和研究人员更好地理解和开发机器人技术。

📝 站长洞察 (Editor’s Insight)

SmolVLA的发布,远不止是一个新模型的开源。它精准地切中了机器人AI民主化的要害:成本与可及性。通过将模型轻量化到可在CPU和消费级GPU上运行,并完全依赖开源数据训练,Hugging Face正在复制其在NLP和视觉领域的成功路径——即通过降低门槛,激发社区创新。这预示着机器人开发正从“大厂专属”转向“开源社区共创”的新阶段。其异步推理等工程优化,更显示了从追求论文指标到注重实际部署效能的范式转变。未来,基于此类轻量、高效、开源的VLA模型,我们将看到更多个性化、场景化的机器人应用如雨后春笋般涌现,真正推动服务机器人进入千家万户。

美团万亿参数大模型LongCat-2.0-Preview:国产芯片训推闭环破局,1M上下文免费开放内测
PPLEGPT
smolagents – Hugging Face 开源的轻量级 Agent 构建库
微软重磅开源!Agent Lightning:基于强化学习的AI Agent训练框架,无缝集成LangChain、AutoGen等主流平台
谢赛宁团队开源Solaris:首个多人视频世界生成模型,突破AI世界模拟新边界
TAGGED:Hugging FaceSmolVLA开源机器人机器人模型视觉语言模型
分享
Email 复制链接 打印
Share
上一篇 字节跳动ContentV开源!80亿参数文生视频模型,轻松生成5秒高清视频
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

字节跳动ContentV开源!80亿参数文生视频模型,轻松生成5秒高清视频
AI 工具 AIGC 资讯
PartCrafter:单图生成多部件3D模型,AI精准重建复杂场景 | 前沿3D生成技术解析
AI 工具 AIGC 资讯
阿里通义实验室MaskSearch:揭秘如何让AI大模型成为顶级信息检索专家,性能暴涨!
AI 工具 AIGC 资讯
浙大北大联手突破!InftyThink:无限深度推理范式,重塑大模型思考极限
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

MAETok – 港大联合北大等机构推出的自动编码器

站外新闻
AIGC 资讯

X-Fusion – 加州大学联合Adobe等机构推出的多模态融合框架

站外新闻
AI 工具AIGC 资讯

上海AI Lab重磅发布MMSI-Video-Bench:评估大模型视频空间智能的终极基准

站外新闻
AI视频理解 上海人工智能实验室 基准测试 多模态大语言模型 视频空间智能
AI 工具AIGC 资讯

美团联合上交大发布OneCAT:纯解码器多模态大模型,开启AI视觉生成与理解新范式

站外新闻
AIGC 专家混合 多模态大模型 文本到图像生成 美团
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.