GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型
GPT‑5.3‑Codex‑Spark是什么 GPT-5.3-Codex-Spark是OpenAI首个专为实时编程设计的轻量级模型,主打极致速度。模型运行在Cerebra…
MILS – Meta AI 推出的零样本生成高质量多模态描述方法
MILS是什么 MILS(Multimodal Iterative LLM Solver)是Meta AI提出的无需训练即可赋予大型语言模型(LLM)多模态能力的方法。通…
Baichuan-M1-preview – 百川智能推出的国内首个全场景深度思考模型
Baichuan-M1-preview是什么 Baichuan-M1-preview 是百川智能推出的国内首个全场景深度思考模型。模型具备语言、视觉和搜索三大领域的推理能…
ParGo – 字节与中山大学联合推出的多模态大模型连接器
ParGo是什么 ParGo是字节团队与中山大学合作提出的创新的多模态大语言模型连接器,提升视觉和语言模态在多模态大语言模型(MLLMs)中的对齐效果。通过结合局部tok…
Motion Dreamer – 香港科技大学推出的运动合理视频生成框架
Motion Dreamer是什么 Motion Dreamer是香港科技大学(广州)研究者提出的视频生成框架,生成运动合理视频。基于两阶段生成方式,先基于输入图像和运动…
GitFriend – AI GitHub助手,自动生成定制化README文件
GitFriend是什么 GitFriend 是基于 React、TypeScript 和 AI 技术推出的 AI GitHub 辅助工具,能简化 GitHub 的使用流…
smolagents – Hugging Face 开源的轻量级 Agent 构建库
smolagents是什么 smolagents 是 Hugging Face 推出的轻量级开源库,简化智能代理的构建过程。极简的代码量(约千行)和直观的API设计,使开…
RealisHuman – 用于修复生成图像中畸形人体部分的后处理框架
RealisHuman是什么 RealisHuman 是创新的后处理框架,细化生成图像中的人体部位,如手和脸等。框架通过两阶段的方法来实现这一目标。首先,使用原始的畸形部…
Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
Ming-flash-omni-2.0是什么 Ming-flash-omni-2.0是蚂蚁集团开源的全模态大模型,采用100B总参数/6B激活参数的MoE架构。作为业界S…
AlphaGeometry2 – 谷歌 DeepMind 推出解决复杂几何问题的AI系统
AlphaGeometry2是什么 AlphaGeometry2 是谷歌 DeepMind 推出的先进的人工智能系统,专门用于解决国际数学奥林匹克竞赛(IMO)中的几何问…
OpenDeepResearcher – 开源 AI 研究工具,自动完成搜索、评估、提取和报告生成
OpenDeepResearcher是什么 OpenDeepResearcher 是开源的 AI 研究工具,能帮助用户高效地完成复杂的信息查询和分析任务。基于迭代搜索和推…
TokenVerse – DeepMind等机构推出的多概念个性化图像生成方法
TokenVerse是什么 TokenVerse 是基于预训练文本到图像扩散模型的多概念个性化图像生成方法。能从单张图像中解耦复杂的视觉元素和属性,从多张图像中提取概念进…
MatterGen – 微软推出的无机材料生成模型
MatterGen是什么 MatterGen是微软推出的创新生成模型,专门用在设计无机材料。基于独特的扩散过程,逐步细化原子类型、坐标和周期晶格,生成跨越周期表的稳定、多…
Sky-T1 – NovaSky 开源的推理 AI 模型,可从零开始复现该模型
Sky-T1是什么 Sky-T1是加州大学伯克利分校Sky Computing实验室的研究团队NovaSky发布的开源推理AI模型,名为Sky-T1-32B-Previe…
Muyan-TTS – 开源文本转语音模型,零样本语音合成
Muyan-TTS是什么 Muyan-TTS 是为播客场景设计的开源文本转语音(TTS)模型。模型预训练超过10万小时的播客音频数据,能实现零样本语音合成,无需大量目标说…
Cosmos – 英伟达推出的生成式世界基础模型平台
Cosmos是什么 Cosmos是英伟达推出的生成式世界基础模型平台,加速物理人工智能(AI)系统的发展,特别是在自动驾驶和机器人领域。Cosmos能接受文本、图像或视频…
