GLM-Z1-Air – 智谱推出的深度思考模型
GLM-Z1-Air是什么 GLM-Z1-Air 是智谱公司推出的基于 GLM-4-Air-0414 的深度思考模型。GLM-Z1-Air在预训练阶段引入更多推理类数据,…
Profiling Data – DeepSeek开源训练和推理框架的性能分析数据
Profiling Data是什么 Profiling Data是DeepSeek开源的训练和推理框架的性能分析数据,基于PyTorch Profiler捕获的程序运行过…
X-R1 – 基于强化学习的低成本训练框架
X-R1是什么 X-R1是基于强化学习的低成本训练框架,能加速大规模语言模型的后训练(Scaling Post-Training)开发。X-R1用极低的成本训练0.5B(…
BlenderMCP – 基于 MCP 集成的 3D 建模工具
BlenderMCP是什么 BlenderMCP是将Blender与Claude AI基于模型上下文协议(MCP)集成的工具。BlenderMCP用socket服务器实现…
Ovis2 – 阿里国际推出的多模态大语言系列模型
Ovis2是什么 Ovis2 是阿里巴巴国际团队推出的新型多模态大语言模型,基于结构化嵌入对齐解决视觉与文本模态间的差异。Ovis2继承、优化了 Ovis 系列架构,强化…
AI 音频编辑迈入新纪元:腾讯混元联合多家顶尖机构发布 MMAE 基准,当前模型精准编辑能力不足 5%
人工智能在音频生成领域已取得显著进展,但“编辑”现有音频的能力仍面临巨大挑战。近日,腾讯混元(Tencent Hy)联合上海交通大学(SJTU)、新加坡南洋理工大学(NT…
Gemini Embedding – 谷歌推出的文本嵌入模型
Gemini Embedding是什么 Gemini Embedding 是 Google 推出的先进的文本嵌入模型,基于将文本转化为高维数值向量,捕捉其语义和上下文信息…
InternVideo2.5 – 上海 AI Lab 联合南大、中科院开源的视频多模态大模型
InternVideo2.5是什么 InternVideo2.5是上海人工智能实验室联合南京大学、中科院深圳先进技术研究院共同开源的视频多模态大模型。在视频理解领域取得了…
ACE-Step – ACE Studio联合阶跃星辰开源的音乐生成基础模型
ACE-Step是什么 ACE-Step 是 ACE Studio 和 StepFun 联合推出的开源音乐生成基础模型,基于创新的架构设计实现高效、连贯且可控的音乐创作。…
AndroidGen – 智谱推出增强大语言模型 Agent 能力的框架
AndroidGen是什么 AndroidGen 是智谱技术团队推出增强基于大语言模型(LLM)的 Agent 能力的框架,特别是在数据稀缺的情况下。框架通过收集人类任务…
ACE++ – 阿里通义推出的升级版图像生成与编辑模型
ACE++是什么 ACE++是阿里巴巴通义实验室推出的先进的图像生成与编辑工具,通过指令化和上下文感知的内容填充技术,实现了高质量的图像创作和编辑功能。ACE++ 提供多…
Llama Nemotron – 英伟达推出的系列推理模型
Llama Nemotron是什么 Llama Nemotron是NVIDIA推出的一系列推理模型,专注于推理和多种智能代理(agentic AI)任务。模型基于Llam…
Image-01 – MiniMax 推出的文本到图像生成模型
Image-01是什么 Image-01 是 MiniMax 推出的先进文本到图像生成模型,具备卓越的图像生成能力。能将用户输入的文本描述精准转化为高质量图像,支持多种纵…
SyncAnimation – 南科大等推出的实时音频驱动生成头部运动框架
SyncAnimation是什么 SyncAnimation是实时端到端的音频驱动框架,用于生成人体姿态和说话头像动画。通过音频信号实时生成与音频同步的上半身姿态和面部表…
DiffEditor – 北大联合腾讯推出的细粒度图像编辑工具
DiffEditor是什么 DiffEditor是北京大学深圳研究生院与腾讯PCG的研究团队提出的基于扩散模型(Diffusion Model)的图像编辑工具,通过引入图…
PlanGEN – 谷歌研究团队推出的多智能体框架
PlanGEN是什么 PlanGEN 是谷歌研究团队推出的多智能体框架,通过多智能体协作、约束引导和算法自适应选择,解决复杂问题的规划和推理。包含三个关键组件:约束智能体…
