EMAGE – 清华联合东大等机构推出的音频生成全身共语手势框架
EMAGE是什么 EMAGE(Expressive Masked Audio-conditioned GEsture modeling)是清华大学、东京大学、庆应义塾大学…
ARTalk – 东京大学等机构推出的3D头部动画生成框架
ARTalk是什么 ARTalk是东京大学和日本理化学研究所推出的新型语音驱动3D头部动画生成框架,基于自回归模型实现实时、高同步性的唇部动作和自然的面部表情及头部姿势生…
Qwen2.5-Max – 阿里通义千问推出的MoE模型
Qwen2.5-Max是什么 Qwen2.5-Max是阿里云推出的超大规模MoE(Mixture of Experts)模型,使用超过20万亿tokens的预训练数据。模…
LineArt – 吉林大学等机构推出的设计绘图外观迁移框架
LineArt是什么 LineArt是吉林大学、瑞典皇家理工学院、东京工业大学等机构推出的,无需训练的高质量设计绘图外观迁移框架,能将复杂外观特征转移到详细的设计图纸上,…
Open-LLM-VTuber – AI数字人语音交互项目,支持实时语音对话和视觉感知
Open-LLM-VTuber是什么 Open-LLM-VTuber 是开源的跨平台语音交互 AI 伴侣项目。支持实时语音对话、视觉感知,配备生动的 Live2D 动态形…
星火语音同传大模型 – 科大讯飞推出的端到端语音同传大模型
星火语音同传大模型是什么 星火语音同传大模型是科大讯飞于2025年1月15日发布的国内首个具备端到端语音同传能力的大模型。模型在内容完整度、信息准确度以及语言质量上均处于…
FLUX-Text – 阿里推出的多语言场景文本编辑框架
FLUX-Text是什么 FLUX-Text 是阿里推出的新型的多语言场景文本编辑框架,基于扩散模型(Diffusion Model)和轻量级字形嵌入模块。框架基于注入字…
GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型
GPT‑5.3 Instant是什么 GPT‑5.3 Instant 是 OpenAI 推出的轻量级对话模型,专为优化日常聊天体验设计。模型显著改善”爱说教、太啰嗦”的机…
BFS-Prover – 字节豆包推出的自动定理证明系统
BFS-Prover是什么 BFS-Prover 是字节跳动豆包大模型团队推出的基于大语言模型(LLM)的自动定理证明系统,通过改进传统的广度优先搜索(BFS)算法,结合…
LaDeCo – 西安交大联合微软推出的自动图形设计构图方法
LaDeCo是什么 LaDeCo是西安交通大学和微软研究院联合推出的自动图形设计构图方法,基于将设计任务分解为层次化的步骤来实现。LaDeCo对输入的设计元素进行层规划,…
Seer – 上海 AI Lab 联合北大等机构推出的端到端操作模型
Seer是什么 Seer是由上海AI实验室、北京大学计算机科学与技术学院、北京大学软件与微电子学院等机构联合推出的端到端操作模型,实现机器人视觉预测与动作执行的高度协同。…
TIGER – 清华大学推出的轻量级语音分离模型
TIGER是什么 TIGER(Time-frequency Interleaved Gain Extraction and Reconstruction Network)…
Magma – 微软研究院联合华盛顿等高校推出的多模态AI基础模型
Magma是什么 Magma 是微软研究院推出的新型多模态AI基础模型,能为多模态人工智能代理(AI agents)提供通用能力。Magma能理解和执行多模态输入的任务,…
NEXUS-O – 多模态AI模型,实现对语言、音频和视觉全方位感知与交互
NEXUS-O是什么 NEXUS-O 是HiThink 研究院、英国帝国理工学院、浙江大学、复旦大学、微软、Meta AI等机构推出的多模态AI模型,能实现对语言、音频和…
FlashVideo – 字节联合港大推出的高分辨率视频生成框架
FlashVideo是什么 FlashVideo是字节跳动团队提出的高效的高分辨率视频生成框架,通过两阶段方法解决了传统单阶段扩散模型在高分辨率视频生成中面临的巨大计算成…
食神 – 老板电器推出的首个烹饪大模型
食神是什么 食神是老板电器推出的首个烹饪垂直领域大模型。基于老板电器46年积累的海量烹饪数据,结合DeepSeek技术,能精准理解烹饪场景需求。用户可通过语音、文字等方式…
