PaddleOCR-VL-1.6 – 百度推出的文档解析视觉语言模型
PaddleOCR-VL-1.6是什么 PaddleOCR-VL-1.6 是百度飞桨团队推出的文档解析视觉语言模型(VLM),是 PaddleOCR-VL 系列的最新升级…
OpenClacky – 李亚飞团队开源的低成本 AI Agent
OpenClacky是什么 OpenClacky 是李亚飞团队开源的 AI Agent,支持一键安装与跨平台运行。工具通过精简工具集、智能上下文压缩和模型路由大幅降低使用…
Hermes Desktop – Nous Research 推出的 Hermes 桌面端
Hermes Desktop是什么 Hermes Desktop 是 Nous Research 推出的官方 Hermes 桌面客户端,支持 macOS、Windows …
MAI-Thinking-1 – 微软推出的首款自研高级推理模型
MAI-Thinking-1是什么 MAI-Thinking-1 是微软推出的首款自研高级推理模型。模型采用 35B 活跃参数 / 约 1T 总参数的稀疏 MoE 架构,…
Ideogram 4 – Ideogram 开源的文本到图像生成模型
Ideogram 4是什么 Ideogram 4 是 Ideogram 推出的首个开源文本到图像生成模型,拥有 93 亿参数,从头训练非基于现有模型微调。模型专为高质量图…
Gemma 4 12B – 谷歌开源的多模态大模型
Gemma 4 12B是什么 Gemma 4 12B是谷歌开源的多模态大模型,采用业界首个无编码器统一架构,视觉和音频数据直接输入LLM主干,彻底砍掉独立编码器。模型12…
Science Skills – 谷歌 DeepMind 开源的科研技能工具包
Science Skills是什么 Science Skills 是谷歌 DeepMind 推出的开源科研技能集合,专为加速 AI Agent 驱动的科学研究工作流设计。…
Odysseus – 开源的本地自托管 AI 工作空间
Odysseus是什么 Odysseus 是开源自托管的 AI 工作空间,提供类似 ChatGPT / Claude 的聊天界面,工具完全本地化运行,数据不出本机、隐私零…
Toonflow – 开源的一站式 AI 短剧创作工具
Toonflow是什么 Toonflow 是开源的一站式 AI 短剧创作工具,将小说、剧本通过多 Agent 协作自动转化为结构化剧本、智能分镜、角色视觉和动画视频,实现…
BrowserAct Skills – 开源的 AI Agent 浏览器自动化 CLI 工具
BrowserAct Skills是什么 BrowserAct Skills 是面向 AI Agent 的浏览器自动化 CLI 工具,能解决 Agent 操控浏览器时的核…
PawBench – 阿里通义推出的通用智能体评测基准
PawBench是什么 PawBench 是通义实验室推出的通用智能体评测基准,面向个人助理与 Agent 场景,将底座模型与运行框架(Harness)纳入同一评测体系。…
MAI-Voice-2 – 微软推出的新一代文本转语音模型
MAI-Voice-2是什么 MAI-Voice-2 是微软推出的新一代文本转语音(TTS)模型,是微软迄今最具表现力和自然感的语音合成模型。相比前代在保真度、语言覆盖、…
JoyAI-Echo – 京东开源的长音视频生成框架
JoyAI-Echo是什么 JoyAI-Echo 是京东推出的开源长音视频生成框架,专为分钟级多镜头故事生成设计。框架通过跨模态记忆库、记忆驱动后训练、Director …
Microsoft Scout – 微软推出的 AI 个人助手
Microsoft Scout是什么 Microsoft Scout 是微软推出的 AI 个人助手,基于 OpenClaw 开源技术构建。工具拥有独立 Entra 身份,…
GitNexus – 开源代码知识图谱引擎,构建完整依赖关系图
GitNexus是什么 GitNexus 是开源的代码知识图谱引擎,通过 Tree-sitter 解析将代码仓库构建为完整的依赖关系图,用 MCP 协议向 Cursor、…
html-video – Open Design 团队开源的 HTML 版剪映
html-video是什么 html-video 是 Open Design 团队(nexu.io)开源的HTML版剪映,基于 hyperframes 框架构建。工具让 …
