VideoRefer – 浙大联合阿里达摩学院推出的视频对象感知与推理技术
VideoRefer是什么 VideoRefer是浙江大学和阿里达摩学院联合推出的,专门用在视频中对象的感知和推理。基于增强视频大型语言模型(Video LLMs)的空间…
OpenThinker-32B – 斯坦福、UC 伯克利等机构联合开源的推理模型
OpenThinker-32B是什么 OpenThinker-32B 是斯坦福、UC 伯克利、华盛顿大学等机构联合开发的开源推理模型,拥有 328 亿参数,支持 16,0…
LLaDA – 人大高瓴AI联合蚂蚁推出的扩散大语言模型
LLaDA是什么 LLaDA(Large Language Diffusion with mAsking)是中国人民大学高瓴AI学院李崇轩、文继荣教授团队和蚂蚁集团共同推…
Sonic – 腾讯联合浙大推出的音频驱动肖像动画框架
Sonic是什么 Sonic是腾讯和浙江大学推出的音频驱动肖像动画框架,基于全局音频感知生成逼真的面部表情和动作。Sonic基于上下文增强音频学习和运动解耦控制器,分别提…
DynamicFace – 小红书联合上海交大等推出的视频换脸技术
DynamicFace是什么 DynamicFace是小红书团队推出新型的视频换脸技术,技术通过结合扩散模型和即插即用的时间层,基于3D面部先验知识,实现高质量和一致性的…
GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
GPT‑5.4是什么 GPT-5.4是OpenAI推出的旗舰AI模型,定位为”专为专业工作设计的最强前沿模型”。模型首次将推理、编程、原生计算机操作、深度网页搜索和百万T…
Whisper Input – 开源AI语音输入工具,支持多语言实时转录和翻译
Whisper Input是什么 Whisper Input 是开源的语音输入工具,基于 Python 和 OpenAI 的 Whisper 模型开发。通过简单的快捷键操…
AnyStory – 阿里通义推出的高保真个性化文本到图像生成框架
AnyStory是什么 AnyStory是阿里巴巴通义实验室研发的创新文本到图像生成框架,实现单个和多个主体的高保真个性化图像生成。通过“编码-路由”的方法来建模主体个性…
Nemotron-CC – 英伟达推出的大型预训练数据集
Nemotron-CC是什么 Nemotron-CC是NVIDIA团队推出的大型预训练数据集,能将Common Crawl数据转化为适用于长序列预训练的高质量语料。Nem…
HealthBench – OpenAI推出的开源医疗测试基准
HealthBench是什么 HealthBench是OpenAI推出的开源医疗测试基准,用在评估大型语言模型(LLMs)在医疗保健领域的表现和安全性。HealthBen…
GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型
GPT‑5.3‑Codex‑Spark是什么 GPT-5.3-Codex-Spark是OpenAI首个专为实时编程设计的轻量级模型,主打极致速度。模型运行在Cerebra…
VideoVAE+ – 香港科技大学推出的先进跨模态视频变分自编码器
VideoVAE+是什么 VideoVAE+(VideoVAE Plus)是香港科技大学团队推出的先进的跨模态视频变分自编码器(Video VAE),通过引入新的时空分离…
JoyCaption – 开源的图像提示词生成工具
JoyCaption是什么 JoyCaption 是开源的图像提示词生成工具,用于训练扩散模型。JoyCaption 涵盖广泛的图像风格、内容、种族、性别和取向,最小化过…
Social Media Agent – AI社交媒体内容管理工具,输入URL自动生成帖子
Social Media Agent是什么 Social Media Agent是智能的社交媒体内容管理工具,能帮用户收集、整理和安排发布社交媒体帖子,基于输入的URL内…
Agentic Reasoning – 牛津大学推出增强LLM推理能力的框架
Agentic Reasoning是什么 Agentic Reasoning是牛津大学推出的增强大型语言模型(LLM)推理能力的框架。基于整合外部工具(如网络搜索、代码执…
GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型
GPT‑5.3 Instant是什么 GPT‑5.3 Instant 是 OpenAI 推出的轻量级对话模型,专为优化日常聊天体验设计。模型显著改善”爱说教、太啰嗦”的机…
