SpatialLM – 群核科技开源的空间理解多模态模型
SpatialLM是什么 SpatialLM 是群核科技开源的空间理解多模态模型,赋予机器人和智能系统类似人类的空间认知能力。通过分析普通手机拍摄的视频,能重建出详细的 …
URM – 阿里妈妈推出的世界知识大模型
URM是什么 URM(Universal Recommendation Model)是阿里妈妈推出的世界知识大模型,基于知识注入和信息对齐,将LLM的通用知识与电商领域的…
Gemma 3n – 谷歌推出的端侧多模态AI模型
Gemma 3n是什么 Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型。基于 Gemini Nano 架构,采用逐层嵌入技术,将内存占用压缩至 …
OmniTalker – 阿里推出的实时文本驱动说话头像生成框架
OmniTalker是什么 OmniTalker 是阿里巴巴发布的实时文本驱动的说话头像生成技术,能同时处理文本、图像、音频和视频等多种模态输入,以流式方式生成自然语音响…
混元3D v2.5 – 腾讯推出的最新版 3D 生成模型
混元3D v2.5是什么 混元3D v2.5是腾讯推出的新一代3D生成模型,在建模精细度上大幅提升,总参数量从1B提升至10B,有效面片数增加超10倍,有效几何分辨率达到…
Open Code Reasoning – 英伟达开源的代码推理AI模型
Open Code Reasoning是什么 Open Code Reasoning(OCR)是英伟达开源的代码推理AI模型,基于Nemotron架构,专为提升代码推理和…
RoboOS – 智源研究院推出的首个跨本体具身大小脑协作框架
RoboOS是什么 RoboOS是智源研究院推出的首个跨本体具身大小脑协作框架。基于“大脑-小脑”分层架构,具身大脑RoboBrain负责全局感知与决策,小脑技能库负责低…
UniRig – 清华联合 VAST 开源的通用自动骨骼绑定框架
UniRig是什么 UniRig是清华大学计算机系和VAST联合推出的创新自动骨骼绑定框架,用在处理复杂和多样化的3D模型。基于大型自回归模型和骨骼点交叉注意力机制,生成…
Multi-Agent Orchestrator – 亚马逊开源的多智能体框架
Multi-Agent Orchestrator是什么 Multi-Agent Orchestrator 是用于管理和协调多个智能代理(Agent)的框架。通过分类器识别…
DeepSeek-Prover-V2 – DeepSeek推出的开源数学推理大模型
DeepSeek-Prover-V2是什么 DeepSeek-Prover-V2是深度求索团队 DeepSeek 开源的专注于数学推理的超大规模语言模型。包含两个版本:D…
混元图像2.0 – 腾讯推出的实时AI图片生成大模型
混元图像2.0是什么 混元图像2.0(Hunyuan Image 2.0)是腾讯推出的业内首个毫秒级响应的实时AI图片生成大模型。混元图像2.0支持文本、语音、草图等多种…
Seedream 3.0 – 字节推出的 AI 图片生成模型,精准生成复杂中文内容
Seedream 3.0是什么 Seedream 3.0(即梦3.0)是字节跳动推出的AI图片生成模型,模型支持原生 2K 分辨率图像输出,快速生成高品质图像,仅需 3 …
UFO² – 微软推出的 Windows 桌面 Agent 操作系统
UFO²是什么 UFO² 是微软推出的面向 Windows 桌面的多Agent操作系统(AgentOS),基于深度系统集成和自然语言交互实现复杂桌面任务的自动化。UFO²…
KuaiMod – 快手推出的自动化短视频质量判别框架
KuaiMod是什么 KuaiMod 是快手推出的基于多模态大模型的短视频质量判别框架,能高效识别和过滤有害及低质量内容。框架借鉴普通法(Common Law)体系,基于…
Vidu Q1 – 生数科技推出的高可控视频大模型
Vidu Q1是什么 Vidu Q1 是清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军教授团队推出的高可控视频大模型。支持生成1080p高清视频,画质细腻,…
The AI Scientist-v2 – 通用端到端 AI 系统,自动探索科学假设生成论文
The AI Scientist-v2是什么 The AI Scientist-v2 是 Sakana AI 、不列颠哥伦比亚大学、Vector研究所等机构联合推出的完全…
