Sitcom-Crafter – 北航联合港中文等高校推出的 3D 人类动作生成系统
Sitcom-Crafter是什么 Sitcom-Crafter 是北京航空航天大学、香港中文大学(深圳)、悉尼科技大学、中山大学等高校联合推出的 3D 场景中人类动作生…
IMAGPose – 南京理工大学推出姿态引导图像生成的统一框架
IMAGPose是什么 IMAGPose 是南京理工大学推出的用于人体姿态引导图像生成的统一条件框架。解决传统方法在姿态引导的人物图像生成中存在的局限性,如无法同时生成多…
ProtGPS – 麻省理工学院等机构推出的蛋白质语言模型
ProtGPS是什么 ProtGPS(Protein Localization Prediction Model)是麻省理工学院(MIT)和怀特黑德生物医学研究所推出的,…
Voila – 开源端到端语音大模型,实现低延迟语音对话
Voila是什么 Voila 是开源的端到端语音大模型,专为语音交互而设计。具备高保真、低延迟的实时流式音频处理能力,能直接处理语音输入并生成语音输出,为用户提供流畅且自…
Gemini 2.5 Pro – 谷歌推出的最新 AI 思考模型
Gemini 2.5 Pro是什么 Gemini 2.5 Pro 是谷歌推出的最新 AI 模型,是一个“思考模型”,能在回应前进行推理,提升性能和准确性。模型在多个基准测…
MoMask – 文本驱动生成高质量3D人体动作的模型
MoMask是什么 MoMask是创新的3D人体动作生成工具,通过生成式掩码建模技术,能根据文本描述生成高质量的3D人体动作。MoMask采用分层量化方案,将人体运动表示…
Lipsync-2 – Sync Labs 推出的首个零-shot 嘴型同步模型
Lipsync-2是什么 Lipsync-2 是 Sync Labs 推出的全球首个零-shot 嘴型同步模型。无需针对特定演讲者进行预训练,能即时学习并生成符合独特说话…
SpeciesNet – Google 开源的动物物种识别 AI 模型
SpeciesNet是什么 SpeciesNet 是 Google 开源的人工智能模型,通过分析相机陷阱拍摄的照片来识别动物物种。基于超过 6500 万张图像训练而成,能…
快看漫画启动“数字生命”战略,AI新品Livo拟于7月公测
在近日举办的2026腾讯AI产业应用大会AI新视听专场上,快看漫画宣布正在研发AI数字生命产品“Livo”,预计将于今年7月正式启动公测。据透露,该产品由快看漫画创始人陈…
DiffSplat – 北大联合字节推出的 3D 生成框架
DiffSplat是什么 DiffSplat是新型的 3D 生成方法,从文本提示和单视图图像快速生成 3D 高斯点阵(Gaussian Splats)。通过微调预训练的文…
子曰-o1 – 网易有道推出国内首个输出分步式讲解的推理模型
子曰-o1是什么 子曰-o1是网易有道发布的国内首个输出分步式讲解的推理模型。模型采用14B轻量级架构,专为消费级显卡设计,能在低显存设备上稳定运行。通过思维链技术,模拟…
MHA2MLA – 复旦、上海AI Lab等推出优化LLM推理效率的方法
MHA2MLA是什么 MHA2MLA是复旦大学、华东师范大学、上海AI Lab等机构联合推出的数据高效的微调方法,基于引入DeepSeek的多头潜在注意力机制(MLA),…
LangManus – AI自动化框架,多智能体协同完成复杂任务
LangManus是什么 LangManus 是 AI 自动化框架,基于分层多智能体系统设计。包含多种智能体,如协调员、规划员、研究员、程序员等,各司其职,协同完成复杂任…
AutoMouser – AI Chrome扩展程序,实时交互跟踪自动生成测试代码
AutoMouser是什么 AutoMouser是Chrome扩展程序,能智能地跟踪用户交互,基于OpenAI的GPT模型自动生成Selenium测试代码。通过记录用户的…
LiveCC – 字节联合新加坡国立大学开源的实时视频解说模型
LiveCC是什么 LiveCC 是新加坡国立大学Show Lab 团队联合字节跳动推出的实时视频解说模型,基于自动语音识别(ASR)字幕进行大规模训练。LiveCC像专…
AlphaEvolve – 谷歌 DeepMind 推出的通用科学AI Agent
AlphaEvolve是什么 AlphaEvolve是谷歌DeepMind推出的通用科学Agent,基于结合大型语言模型(LLMs)的创造力和自动评估器来设计和优化高级算…
