Grok 3 – xAI公司推出的最新一代AI模型
Grok 3是什么 Grok 3是埃隆·马斯克旗下xAI公司推出的最新一代人工智能模型,模型被马斯克称为“地球上最聪明的人工智能”,推理能力在多项基准测试中超越了包括Ch…
FastAPI-MCP – 一键将 FastAPI 转换为 MCP 服务器的开源工具
FastAPI-MCP是什么 FastAPI-MCP 是将 FastAPI 应用的端点自动转换为符合模型上下文协议(MCP)的开源工具。具有零配置的特点,只需简单指向 F…
SigLIP 2 – 谷歌 DeepMind 推出的多语言视觉语言编码器模型
SigLIP 2是什么 SigLIP 2 是Google DeepMind 提出先进的多语言视觉-语言模型 ,是 SigLIP 的升级版本,提升图像与文本之间的对齐能力。…
SeedFoley – 字节推出的端到端视频音效生成模型
SeedFoley是什么 SeedFoley 是字节跳动豆包大模型语音团队开发的端到端视频音效生成模型,为视频创作提供智能音效生成服务。通过融合时空视频特征与扩散生成模型…
ICEdit – 浙江大学联合哈佛大学推出的指令式图像编辑框架
ICEdit是什么 ICEdit(In-Context Edit)是浙江大学和哈佛大学推出的指令式图像编辑框架。基于大规模扩散变换器(Diffusion Transfor…
Cosmos-Reason1 – NVIDIA推出的系列多模态大语言模型
Cosmos-Reason1是什么 Cosmos-Reason1 是NVIDIA推出的系列多模态大语言模型,模型能生成基于物理现实的响应。Cosmos-Reason1 包…
Data Formulator – 微软研究院开源的 AI 数据可视化工具
Data Formulator是什么 Data Formulator是微软研究院推出的开源 AI 驱动的数据可视化工具,帮助用户通过简单交互和指令快速创建丰富的数据可视化…
AutoRAG – Cloudflare 推出的全托管检索增强生成服务
AutoRAG是什么 AutoRAG 是Cloudflare推出的全托管的检索增强生成(RAG)管道,帮助开发者轻松将上下文感知的 AI 集成到应用程序中,无需管理基础设…
Proxy Lite – 开源视觉语言模型,支持自动化网页任务
Proxy Lite是什么 Proxy Lite 是开源的轻量级视觉语言模型(VLM),参数量为3B,支持自动化网页任务。Proxy Lite 能像人类一样操作浏览器,完…
Reka Flash 3 – Reka AI 推出的开源推理模型
Reka Flash 3是什么 Reka Flash 3 是 Reka AI 推出的开源推理模型,拥有 21 亿参数。支持多模态输入,包括文本、图像、视频和音频,可处理最…
Instella – AMD开源的30亿参数系列语言模型
Instella是什么 Instella是AMD推出的系列30亿参数的开源语言模型。模型完全从零开始在AMD Instinct™ MI300X GPU上训练而成,基于自回…
Concept Lancet – 宾夕法尼亚大学推出的图像编辑框架
Concept Lancet是什么 Concept Lancet(CoLan)是宾夕法尼亚大学的研究团队推出的零样本、即插即用的图像编辑框架。Concept Lancet…
NLWeb – 微软推出支持自然语言与任何网站交互的开源项目
NLWeb是什么 NLWeb 是微软推出的开源项目,基于简化网站自然语言界面的创建,让任何网站都能变成 AI 驱动的应用程序。NLWeb用 Schema.org、RSS …
Cua – 专为 MacOS 推出的开源 AI Agent项目
Cua是什么 Cua 是 trycua 团队推出的开源AI Agent项目,为 macOS 用户提供高性能的虚拟化和 AI 代理功能。Cua基于苹果的 Virtualiz…
SongGen – 上海 AI Lab 和北航、港中文推出的歌曲生成模型
SongGen是什么 SongGen是上海AI Lab、北京航空航天大学和香港中文大学推出的单阶段自回归Transformer模型,用在从文本生成歌曲。SongGen基于…
Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
Ming-flash-omni-2.0是什么 Ming-flash-omni-2.0是蚂蚁集团开源的全模态大模型,采用100B总参数/6B激活参数的MoE架构。作为业界S…
