💡 站外导读:当 AI Agent 正从「对话助手」进化为「数字员工」,企业最缺的不是大模型,而是能让 Agent 真正干活的「技能包」。传统办公 SaaS 各自为政,数据孤岛导致端到端效率低下;而社区技能虽多,却缺乏统一质检与标准化接口,难以胜任生产级任务。在此背景下,商汤 OpenSenseNova 团队开源了 SenseNova-Skills——一套面向 Agent 运行时设计的模块化办公技能库,试图用分层架构与 VLM 质量闭环,解决「AI 能聊天但不能干活」的核心痛点。
SenseNova-Skills是什么
SenseNova-Skills 是 OpenSenseNova(商汤)团队开源的模块化 AI 办公技能库,专为 Agent 运行时设计。工具将信息图生成、PPT 制作、Excel 数据分析与深度研究四大办公能力拆解为独立技能,可直接集成到 OpenClaw、hermes-agent 等 Agent 框架中,让 AI 助手拥有端到端的专业办公执行力。

SenseNova-Skills的主要功能
-
信息图生成:
sn-infographic支持 87 种布局与 66 种风格,通过 VLM 质量检查与多轮迭代,将复杂数据与长报告转化为高密度可视化信息图;sn-image-imitate可按参考图风格生成新图;sn-image-resume自动生成精美简历图。 -
PPT 生成:
sn-ppt-entry作为统一入口,解析 PDF/DOCX/MD/TXT 后分发至创意模式(每页为 16:9 PNG)或标准模式(样式规范→大纲→素材规划→VLM 质检→HTML→审阅→导出 PPTX)。 -
数据分析:
sn-da-excel-workflow支持多表读取、大文件(≥1 万行)自动转 Parquet、清洗、筛选、跨表聚合;sn-da-image-caption实现表格 OCR 与图表理解;sn-da-large-file-analysis以流式读取处理大文件。 -
深度研究:
sn-deep-research统一编排规划→多维度证据收集→综合判断→最终报告,支持断点续跑;sn-research-planning自动生成研究计划;sn-dimension-research按维度执行搜索与交叉验证;sn-research-synthesis整合多维度报告。 -
垂直搜索:覆盖学术(ArXiv、PubMed)、开发者(GitHub、HuggingFace)、中文社交(B站、知乎、抖音)及英文社交(Reddit、X、YouTube)。
SenseNova-Skills的技术原理
-
分层技能架构:采用 Tier 0(基础层,如
sn-image-base提供文生图/图识别)+ Tier 1(应用层,如sn-infographic)的分层设计,底层能力可被上层技能复用与组合。 -
Agent Skills 规范:每个技能独立目录,通过
SKILL.md声明触发器、能力与执行流,兼容 OpenClaw 与 hermes-agent 运行时。 -
VLM 质量闭环:在信息图与 PPT 生成中引入视觉语言模型进行多轮质检与评分,确保输出符合出版标准。
-
大文件流式处理:针对万行级 Excel 采用
openpyxl只读模式 +iter_rows流式读取,结合 Parquet 转换与分块处理,降低内存占用。 -
断点续跑机制:深度研究流程将中间产物(
plan.json、sub_reports、synthesis.md)持久化到report_dir,支持任意阶段中断后恢复。
如何使用SenseNova-Skills
- Agent 自动安装(推荐):向 Agent(如 OpenClaw)发送指令:”请从 https://github.com/OpenSenseNova/SenseNova-Skills 安装 SenseNova-Skills 到技能目录。” 安装完成后重启 Agent 服务即可生效。
- 手动安装:
- 克隆仓库:
git clone https://github.com/OpenSenseNova/SenseNova-Skills.git --depth=1 - 复制技能到对应目录:OpenClaw 用户拷贝至
~/.openclaw/skills/,hermes-agent 用户拷贝至~/.hermes/skills/ - 配置 API 密钥与环境变量(各技能目录下按
SKILL.md指引填写.env) - 重启 Agent 服务,通过自然语言触发对应技能
- 克隆仓库:
- 直接使用:访问 办公小浣熊,在 Raccoon Pro 计划中直接体验全套技能,无需自行配置环境与密钥。
SenseNova-Skills的核心优势
-
端到端工作流编排:覆盖数据分析→深度研究→PPT 汇报的完整链条,支持复杂办公任务一站式闭环。
-
Agent 原生集成:技能库直接嵌入 Agent 运行时,通过自然语言指令可调用,无需在多个 SaaS 平台间切换。
-
分层可组合:底层能力与上层应用解耦,开发者可按需调用单个技能或拼接多技能完成定制化工作流。
-
输出质量可控:内置 VLM 质检、自动提示词评分与多轮迭代机制,显著提升信息图与 PPT 的专业度与一致性。
-
开箱即用:已集成至 Raccoon Pro,个人与企业用户可零配置直接体验;同时开源供开发者自由扩展。
SenseNova-Skills的项目地址
- GitHub仓库:https://github.com/OpenSenseNova/SenseNova-Skills
SenseNova-Skills的同类竞品对比
| 维度 | SenseNova-Skills | OpenClaw 办公技能生态 | Microsoft Copilot Cowork |
|---|---|---|---|
| 产品形态 | 开源端到端办公技能库 | 开源 Agent 框架 + 社区技能市场 | 闭源企业级办公 Agent 执行层 |
| 核心能力 | 信息图生成、PPT 制作、Excel 数据分析、深度研究、垂直搜索 | 邮件/日历/文档/项目管理/浏览器自动化等 80+ 生产力技能 | 邮件起草、文档创建、PPT 生成、日历管理、Teams 发帖、跨应用研究 |
| 技能规模 | 20+ 核心技能,覆盖 4 大办公领域 | ClawHub 注册中心超 13,000 社区技能,生产力类约占 12% | 13 种内置技能 + 最多 20 个自定义 SKILL.md |
| 工作流编排 | 端到端闭环(数据分析→深度研究→PPT 汇报),技能可组合 | 以单点集成为主,复杂工作流需手动拼接多个技能 | 跨 Microsoft 365 应用自动拆解任务并执行,预置流程模板 |
| 质量保障 | 内置 VLM 视觉语言模型质检、自动提示词评分、多轮迭代优化 | 质量依赖社区维护,无统一质检机制,生产级技能约 10–15 个 | 企业级安全与合规治理,无显式生成质量检查环节 |
| 运行时集成 | OpenClaw、hermes-agent、Raccoon(小浣熊)Pro | 原生 OpenClaw 运行时,兼容 hermes-agent、Claude Code 等 | 仅限 Microsoft 365 生态,无外部运行时扩展 |
| 自定义扩展 | 完全开源,可自由修改 SKILL.md 与分层技能逻辑 | 完全开源,社区可贡献任意技能,但缺乏办公领域统一标准 | 支持 20 个自定义 SKILL.md,上限固定,不可修改内置逻辑 |
| 中文场景 | 原生支持,内置 B 站/知乎/抖音中文社交搜索与中文信息图生成 | 部分支持(Lark 集成较好),多数技能面向国际工具链 | 支持中文输入,但搜索与内容源深度绑定国际版 Office |
| 部署方式 | 可本地/私有部署,API 密钥自主管理 | 可本地自托管,数据完全可控 | 纯云端处理,依赖企业 Microsoft 365 合规体系 |
| 使用门槛 | 需配置 Agent 运行时与 API 密钥,面向技术用户 | 需技术背景安装与筛选技能,生态庞杂上手成本高 | 零配置,自然语言即可触发,面向全体知识工作者 |
SenseNova-Skills的应用场景
-
运营汇报:将月度运营数据 Excel 通过
sn-da-excel-workflow清洗分析,经sn-deep-research补充行业洞察,最终由sn-ppt-standard生成风格统一的汇报 PPT。 -
行业研究:输入行业名称,自动执行研究规划→多维度证据搜集→冲突数据交叉验证→综合报告撰写,输出带图表的 Markdown + 离线 HTML 报告。
-
信息图营销:将产品卖点或技术白皮书通过
sn-infographic一键转化为 87 种布局的高密度信息图,适配公众号、小红书、B 站等多平台传播。 -
简历与品牌视觉:用
sn-image-resume与sn-image-imitate快速生成个性化简历图与品牌风格一致的视觉素材。 -
大文件数据分析:针对万行级销售或财务表格,通过流式读取与 Parquet 转换完成聚合分析,避免内存溢出。
📝 站长洞察 (Editor’s Insight)
SenseNova-Skills 的发布,标志着 Agent 生态正从「框架之争」进入「技能之争」的深水区。过去一年,OpenClaw、hermes-agent 等运行时百花齐放,但真正能端到端完成「数据分析→深度研究→PPT 汇报」闭环的技能库几乎空白——商汤这次精准填补了这个断层。其 Tier 0/1 分层设计极具前瞻性:底层文生图、OCR 等基础能力可被社区复用,上层信息图、PPT 等应用技能则封装了完整的质检与迭代逻辑,这种「乐高式」组合正是 Agent 规模化的关键。更值得关注的是 VLM 质量闭环的引入——当大多数开源工具仍停留在「能生成」阶段,商汤已用视觉语言模型实现「生成后自检」,这是从玩具到生产级工具的质变。当然,20+ 技能对比社区 13000+ 的生态规模仍有差距,但垂直场景的深度与端到端编排能力,恰恰是企业客户最看重的。可以预见,随着 Agent 运行时趋于成熟,这类高质量、可组合的技能库将成为兵家必争之地。
