Ola – 清华联合腾讯等推出的全模态语言模型
Ola是什么 Ola是清华大学、腾讯 Hunyuan 研究团队和新加坡国立大学 S-Lab 合作开发的全模态语言模型。通过渐进式模态对齐策略,逐步扩展语言模型支持的模态,…
Dream-7B – 港大联合华为诺亚方舟开源的扩散推理模型
Dream-7B是什么 Dream-7B是香港大学和华为诺亚方舟实验室联合推出的扩散式推理模型,是目前最强大的开源扩散大语言模型。Dream-7B训练数据涵盖文本、数学和…
Fractal Generative Models – 麻省理工推出的分形生成模型
Fractal Generative Models是什么 Fractal Generative Models(分形生成模型)是麻省理工学院计算机科学与人工智能实验室和Go…
IC-Portrait – ETH联合浙大等推出的个性化肖像生成框架
IC-Portrait是什么 IC-Portrait是新型的个性化肖像生成框架,解决用户资料图像多样性(如外观和光照条件差异)带来的挑战。通过将肖像生成任务分解为“光照感…
DITTO-2 – Adobe 联合加大推出的音乐生成模型
DITTO-2是什么 DITTO-2 是 Adobe 和加州大学研究人员联合推出的新型音乐生成模型,通过优化扩散模型的推理时间,实现快速且可控的音乐生成。模型基于扩散模型…
GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型
GPT‑5.3‑Codex‑Spark是什么 GPT-5.3-Codex-Spark是OpenAI首个专为实时编程设计的轻量级模型,主打极致速度。模型运行在Cerebra…
Claude 3.7 Max – Cursor 上线的最新 AI 模型,支持200k上下文
Claude 3.7 Max是什么 Claude 3.7 Max 是 Cursor 推出的专为复杂代码任务设计的最新 AI 模型,称为史上最强代码助手。基于 Claude…
GLM-Realtime – 智谱推出的端到端多模态模型
GLM-Realtime是什么 GLM-Realtime是智谱推出的全新端到端多模态模型,具备低延迟的视频理解与语音交互能力,特别融入清唱功能,让大模型在对话中能展现歌唱…
文心大模型4.5 Turbo – 百度推出的最新多模态大模型
文心大模型4.5 Turbo是什么 文心大模型4.5 Turbo是百度推出的高性能、低成本多模态大模型。基于文心大模型4.5的基础上进行优化,具备多模态、强推理能力,能处…
Steamer-I2V – 百度推出的图像到视频生成模型
Steamer-I2V是什么 Steamer-I2V 是百度 Steamer 团队推出的图像到视频生成模型,通过将静态图像转化为动态视频,展现出卓越的视觉生成能力。模型在…
GLM-Z1-Air – 智谱推出的深度思考模型
GLM-Z1-Air是什么 GLM-Z1-Air 是智谱公司推出的基于 GLM-4-Air-0414 的深度思考模型。GLM-Z1-Air在预训练阶段引入更多推理类数据,…
Profiling Data – DeepSeek开源训练和推理框架的性能分析数据
Profiling Data是什么 Profiling Data是DeepSeek开源的训练和推理框架的性能分析数据,基于PyTorch Profiler捕获的程序运行过…
X-R1 – 基于强化学习的低成本训练框架
X-R1是什么 X-R1是基于强化学习的低成本训练框架,能加速大规模语言模型的后训练(Scaling Post-Training)开发。X-R1用极低的成本训练0.5B(…
BlenderMCP – 基于 MCP 集成的 3D 建模工具
BlenderMCP是什么 BlenderMCP是将Blender与Claude AI基于模型上下文协议(MCP)集成的工具。BlenderMCP用socket服务器实现…
Ovis2 – 阿里国际推出的多模态大语言系列模型
Ovis2是什么 Ovis2 是阿里巴巴国际团队推出的新型多模态大语言模型,基于结构化嵌入对齐解决视觉与文本模态间的差异。Ovis2继承、优化了 Ovis 系列架构,强化…
AI 音频编辑迈入新纪元:腾讯混元联合多家顶尖机构发布 MMAE 基准,当前模型精准编辑能力不足 5%
人工智能在音频生成领域已取得显著进展,但“编辑”现有音频的能力仍面临巨大挑战。近日,腾讯混元(Tencent Hy)联合上海交通大学(SJTU)、新加坡南洋理工大学(NT…
