Matrix-Game – 昆仑万维开源的工业界首个空间智能大模型
Matrix-Game是什么 Matrix-Game是昆仑万维开源的工业界首个10B+空间智能大模型,是Matrix-Zero世界模型中的可交互视频生成大模型。模型基于两…
LAM – 微软推出的大型行动模型,能自主操作Windows程序
LAM是什么 LAM是微软推出的名为“Large Action Model”(简称 LAM)的新人工智能模型。与传统语言模型不同,LAM能够自主操作Windows程序,实…
CreatiLayout – 复旦和字节联合推出创新的布局到图像生成技术
CreatiLayout是什么 CreatiLayout 是复旦大学和字节跳动联合提出的创新的布局到图像生成(Layout-to-Image, L2I)技术。通过构建大规…
GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
GPT‑5.4是什么 GPT-5.4是OpenAI推出的旗舰AI模型,定位为”专为专业工作设计的最强前沿模型”。模型首次将推理、编程、原生计算机操作、深度网页搜索和百万T…
GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型
GPT‑5.3‑Codex‑Spark是什么 GPT-5.3-Codex-Spark是OpenAI首个专为实时编程设计的轻量级模型,主打极致速度。模型运行在Cerebra…
MILS – Meta AI 推出的零样本生成高质量多模态描述方法
MILS是什么 MILS(Multimodal Iterative LLM Solver)是Meta AI提出的无需训练即可赋予大型语言模型(LLM)多模态能力的方法。通…
Baichuan-M1-preview – 百川智能推出的国内首个全场景深度思考模型
Baichuan-M1-preview是什么 Baichuan-M1-preview 是百川智能推出的国内首个全场景深度思考模型。模型具备语言、视觉和搜索三大领域的推理能…
ParGo – 字节与中山大学联合推出的多模态大模型连接器
ParGo是什么 ParGo是字节团队与中山大学合作提出的创新的多模态大语言模型连接器,提升视觉和语言模态在多模态大语言模型(MLLMs)中的对齐效果。通过结合局部tok…
Motion Dreamer – 香港科技大学推出的运动合理视频生成框架
Motion Dreamer是什么 Motion Dreamer是香港科技大学(广州)研究者提出的视频生成框架,生成运动合理视频。基于两阶段生成方式,先基于输入图像和运动…
GitFriend – AI GitHub助手,自动生成定制化README文件
GitFriend是什么 GitFriend 是基于 React、TypeScript 和 AI 技术推出的 AI GitHub 辅助工具,能简化 GitHub 的使用流…
smolagents – Hugging Face 开源的轻量级 Agent 构建库
smolagents是什么 smolagents 是 Hugging Face 推出的轻量级开源库,简化智能代理的构建过程。极简的代码量(约千行)和直观的API设计,使开…
RealisHuman – 用于修复生成图像中畸形人体部分的后处理框架
RealisHuman是什么 RealisHuman 是创新的后处理框架,细化生成图像中的人体部位,如手和脸等。框架通过两阶段的方法来实现这一目标。首先,使用原始的畸形部…
Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
Ming-flash-omni-2.0是什么 Ming-flash-omni-2.0是蚂蚁集团开源的全模态大模型,采用100B总参数/6B激活参数的MoE架构。作为业界S…
AlphaGeometry2 – 谷歌 DeepMind 推出解决复杂几何问题的AI系统
AlphaGeometry2是什么 AlphaGeometry2 是谷歌 DeepMind 推出的先进的人工智能系统,专门用于解决国际数学奥林匹克竞赛(IMO)中的几何问…
OpenDeepResearcher – 开源 AI 研究工具,自动完成搜索、评估、提取和报告生成
OpenDeepResearcher是什么 OpenDeepResearcher 是开源的 AI 研究工具,能帮助用户高效地完成复杂的信息查询和分析任务。基于迭代搜索和推…
TokenVerse – DeepMind等机构推出的多概念个性化图像生成方法
TokenVerse是什么 TokenVerse 是基于预训练文本到图像扩散模型的多概念个性化图像生成方法。能从单张图像中解耦复杂的视觉元素和属性,从多张图像中提取概念进…
