AI 音频编辑迈入新纪元:腾讯混元联合多家顶尖机构发布 MMAE 基准,当前模型精准编辑能力不足 5%
人工智能在音频生成领域已取得显著进展,但“编辑”现有音频的能力仍面临巨大挑战。近日,腾讯混元(Tencent Hy)联合上海交通大学(SJTU)、新加坡南洋理工大学(NT…
Gemini Embedding – 谷歌推出的文本嵌入模型
Gemini Embedding是什么 Gemini Embedding 是 Google 推出的先进的文本嵌入模型,基于将文本转化为高维数值向量,捕捉其语义和上下文信息…
InternVideo2.5 – 上海 AI Lab 联合南大、中科院开源的视频多模态大模型
InternVideo2.5是什么 InternVideo2.5是上海人工智能实验室联合南京大学、中科院深圳先进技术研究院共同开源的视频多模态大模型。在视频理解领域取得了…
ACE-Step – ACE Studio联合阶跃星辰开源的音乐生成基础模型
ACE-Step是什么 ACE-Step 是 ACE Studio 和 StepFun 联合推出的开源音乐生成基础模型,基于创新的架构设计实现高效、连贯且可控的音乐创作。…
AndroidGen – 智谱推出增强大语言模型 Agent 能力的框架
AndroidGen是什么 AndroidGen 是智谱技术团队推出增强基于大语言模型(LLM)的 Agent 能力的框架,特别是在数据稀缺的情况下。框架通过收集人类任务…
ACE++ – 阿里通义推出的升级版图像生成与编辑模型
ACE++是什么 ACE++是阿里巴巴通义实验室推出的先进的图像生成与编辑工具,通过指令化和上下文感知的内容填充技术,实现了高质量的图像创作和编辑功能。ACE++ 提供多…
Llama Nemotron – 英伟达推出的系列推理模型
Llama Nemotron是什么 Llama Nemotron是NVIDIA推出的一系列推理模型,专注于推理和多种智能代理(agentic AI)任务。模型基于Llam…
Image-01 – MiniMax 推出的文本到图像生成模型
Image-01是什么 Image-01 是 MiniMax 推出的先进文本到图像生成模型,具备卓越的图像生成能力。能将用户输入的文本描述精准转化为高质量图像,支持多种纵…
SyncAnimation – 南科大等推出的实时音频驱动生成头部运动框架
SyncAnimation是什么 SyncAnimation是实时端到端的音频驱动框架,用于生成人体姿态和说话头像动画。通过音频信号实时生成与音频同步的上半身姿态和面部表…
DiffEditor – 北大联合腾讯推出的细粒度图像编辑工具
DiffEditor是什么 DiffEditor是北京大学深圳研究生院与腾讯PCG的研究团队提出的基于扩散模型(Diffusion Model)的图像编辑工具,通过引入图…
PlanGEN – 谷歌研究团队推出的多智能体框架
PlanGEN是什么 PlanGEN 是谷歌研究团队推出的多智能体框架,通过多智能体协作、约束引导和算法自适应选择,解决复杂问题的规划和推理。包含三个关键组件:约束智能体…
Skywork R1V – 昆仑万维开源的多模态思维链推理模型
Skywork R1V是什么 Skywork R1V是昆仑万维开源的首款工业界多模态思维链推理模型,具备强大的视觉链式推理能力。Skywork R1V能对视觉输入进行多步…
CogView-3-Flash – 智谱推出的首个免费AI图像生成模型
CogView-3-Flash 是什么 CogView-3-Flash 是智谱推出的首个免费AI图像生成模型,能根据文本描述生成高审美分数的图像,支持多种分辨率,满足专业…
文心大模型X1 Turbo – 百度推出的最新深度思考型模型
文心大模型X1 Turbo是什么 文心大模型X1 Turbo是百度推出的深度思考型模型,是文心大模型4.5 Turbo的升级版本,具备更先进的思维链和深度思考理能力,擅长…
DanceGRPO – 字节Seed联合港大推出的统一视觉生成强化学习框架
DanceGRPO是什么 DanceGRPO 是字节跳动 Seed 和香港大学联合推出的首个统一视觉生成强化学习框架。将强化学习应用在视觉生成领域,覆盖两大生成范式(di…
AI-ClothingTryOn – AI虚拟试穿应用,支持生成多版本试衣效果
AI-ClothingTryOn是什么 AI-ClothingTryOn 是基于 Python 的桌面应用程序,用 Google Gemini AI 技术实现虚拟试衣功能…
