MiniCPM-o 2.6 – 面壁智能开源的多模态大模型,性能媲美GPT-4o
MiniCPM-o 2.6是什么 MiniCPM-o 2.6 是MiniCPM-o 系列最新、性能最佳的多模态大模型,具有 8B 参数量。MiniCPM-o 2.6在视觉…
WorldPM – 阿里Qwen团队联合复旦推出的偏好建模模型系列
WorldPM是什么 WorldPM(World Preference Modeling)是阿里巴巴集团的Qwen团队和复旦大学推出的偏好建模模型系列。基于大规模训练揭示…
GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型
GPT‑5.3‑Codex‑Spark是什么 GPT-5.3-Codex-Spark是OpenAI首个专为实时编程设计的轻量级模型,主打极致速度。模型运行在Cerebra…
AgentRefine – 北京邮电大学联合美团推出的智能体合成框架
AgentRefine是什么 AgentRefine 是北京邮电大学和美团联合提出的智能体合成框架,通过“精炼调整”(Refinement Tuning)提升基于大型语言…
Wonderland – 多伦多大学、Snap和UCLA联合推出的单视图3D场景生成技术
Wonderland是什么 Wonderland是多伦多大学、Snap和UCLA的研究团队推出的技术,能够从单张图像生成高质量、广范围的3D场景,允许控制摄像轨迹。证明了…
MultiBooth – 清华联合 Meta 等机构推出的多概念图像生成方法
MultiBooth是什么 MultiBooth是清华大学深圳国际研究生院、 Meta、香港科技大学等机构推出的多概念图像生成方法,能从文本中生成包含多个用户指定概念的图…
WiseDiag – 杭州智诊科技推出全球领先的医疗大模型
WiseDiag是什么 WiseDiag 是杭州智诊科技推出的全球领先的医疗大模型,专注于基于人工智能技术提升医疗服务的效率和质量。模型具有 730 亿参数和 32k 的…
GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型
GPT‑5.3 Instant是什么 GPT‑5.3 Instant 是 OpenAI 推出的轻量级对话模型,专为优化日常聊天体验设计。模型显著改善”爱说教、太啰嗦”的机…
HealthGPT – 浙大联合阿里等机构推出的医学视觉语言模型
HealthGPT是什么 HealthGPT 是浙江大学、电子科技大学、阿里巴巴等多家机构联合开发的先进的医学视觉语言模型(Med-LVLM),通过异构知识适应技术实现医…
GEN3C – NVIDIA 联合多伦多大学等推出的生成式视频模型
GEN3C是什么 GEN3C 是NVIDIA、多伦多大学和向量研究所推出的新型生成式视频模型,基于精确的相机控制和时空一致性生成高质量的 3D 视频内容。GEN3C构建基…
InfiniteYou – 字节跳动开源的身份保持图像生成框架
InfiniteYou是什么 InfiniteYou(InfU)是字节跳动智能创作团队推出的基于扩散变换器(Diffusion Transformers,如 FLUX)的…
MAETok – 港大联合北大等机构推出的自动编码器
MAETok是什么 MAETok(Masked Autoencoders Tokenizer)是卡内基梅隆大学、香港大学、北京大学等机构推出的扩散模型的新型图像标记化方法…
Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
Ming-flash-omni-2.0是什么 Ming-flash-omni-2.0是蚂蚁集团开源的全模态大模型,采用100B总参数/6B激活参数的MoE架构。作为业界S…
ViDoRAG – 通义联合中科大、上交大推出的视觉文档检索增强生成框架
ViDoRAG是什么 ViDoRAG是阿里巴巴通义实验室联合中国科学技术大学和上海交通大学推出的视觉文档检索增强生成框架。基于多智能体协作和动态迭代推理,解决传统方法在处…
CityDreamer4D – 南洋理工推出的无边界 4D 城市建模框架
CityDreamer4D是什么 CityDreamer4D是南洋理工大学 S-Lab 团队开发的用于生成无边界 4D 城市的组合生成模型。将动态物体(如车辆)与静态场景…
k1.5 – Kimi推出的多模态思考模型
k1.5是什么 k1.5 是月之暗面Kimi推出的最新多模态思考模型,具备强大的推理和多模态处理能力。模型在 short-CoT(短链思维)模式下,数学、代码、视觉多模态…
