JoyGen – 京东和港大推出音频驱动的3D说话人脸视频生成框架
JoyGen是什么 JoyGen是京东科技和香港大学推出的,音频驱动的3D说话人脸视频生成框架,专注于实现精确的唇部与音频同步及高质量的视觉效果。JoyGen结合音频特征…
AgiBot Digital World – 智元机器人推出的机器人仿真框架
AgiBot Digital World是什么 AgiBot Digital World 是智元机器人推出的高保真机器人仿真框架,为机器人操作技能研究与应用提供高效支持。…
QVQ-72B-Preview – 阿里通义开源的多模态推理模型
QVQ-72B-Preview是什么 QVQ-72B-Preview 是阿里云通义千问团队开源的多模态推理模型,专注于提升视觉推理能力。模型在多个基准测试中表现出色,在多…
百聆 – AI语音对话助手,端到端时延低至800ms
百聆是什么 百聆(Bailing)是开源的语音对话助手,基于语音识别(ASR)、语音活动检测(VAD)、大语言模型(LLM)和语音合成(TTS)技术实现与用户的自然语音对…
讯飞星火X1 – 科大讯飞推出的首个全国产深度推理大模型
讯飞星火X1是什么 讯飞星火X1是科大讯飞于2025年1月15日发布的国内首个基于全国产算力平台训练的具备深度思考和推理能力的大模型。在解题过程中更接近人类的“慢思考”方…
Index-AniSora – B站开源的动漫视频生成模型
Index-AniSora是什么 Index-AniSora 是哔哩哔哩开源的先进动漫视频生成模型,模型支持一键生成多种动漫风格的视频,涵盖番剧片段、国创动画、VTube…
FacePoke – 开源的实时面部编辑工具,拖拽操作面部表情
FacePoke是什么 FacePoke是基于AI技术的开源实时面部编辑工具。用户基于简单的鼠标拖拽操作,对人物照片中的头部朝向(如抬头、低头、左右摇头)和面部表情(如眼…
StockMixer – 上海交大推出的股票价格预测架构
StockMixer是什么 StockMixer是上海交通大学推出的用在股票价格预测的多层感知器(MLP)架构,具备简单和强大的预测能力。架构基于指标混合、时间混合和股票…
EnerVerse – 智元机器人推出的首个机器人4D世界模型
EnerVerse是什么 EnerVerse 是智元机器人团队开发的首个机器人4D世界模型,通过生成未来具身空间来指导机器人完成复杂任务。模型采用自回归扩散模型,结合稀疏…
Collaborative Gym – 支持人与AI代理实时交互协作的评估框架
Collaborative Gym是什么 Collaborative Gym(Co-Gym)是专注于人机协作(Human-Agent Collaboration)的框架,…
TongGeometry – 北京通院联合北大AI研究院推出的几何模型
TongGeometry是什么 TongGeometry 是北京通用AI研究院和北京大学AI研究所联合推出的基于树搜索的几何模型,专门用在提出和解决奥林匹克级别的几何问题…
OpenManus – MetaGPT 团队推出的 Manus 开源复刻版
OpenManus是什么 OpenManus 是MetaGPT 团队推出的开源复刻版 Manus,提供无需邀请码的 AI Agent 。OpenManus基于模…
VisoMaster – AI换脸和编辑软件,支持图片和视频高质量换脸
VisoMaster是什么 VisoMaster 是基于 AI 技术的换脸和编辑软件,功能强大操作简便。支持图片、视频以及直播换脸,能生成自然逼真的换脸效果,应用于娱乐、…
GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型
GPT‑5.3‑Codex‑Spark是什么 GPT-5.3-Codex-Spark是OpenAI首个专为实时编程设计的轻量级模型,主打极致速度。模型运行在Cerebra…
EMAGE – 清华联合东大等机构推出的音频生成全身共语手势框架
EMAGE是什么 EMAGE(Expressive Masked Audio-conditioned GEsture modeling)是清华大学、东京大学、庆应义塾大学…
ARTalk – 东京大学等机构推出的3D头部动画生成框架
ARTalk是什么 ARTalk是东京大学和日本理化学研究所推出的新型语音驱动3D头部动画生成框架,基于自回归模型实现实时、高同步性的唇部动作和自然的面部表情及头部姿势生…
