SongGen – 上海 AI Lab 和北航、港中文推出的歌曲生成模型
SongGen是什么 SongGen是上海AI Lab、北京航空航天大学和香港中文大学推出的单阶段自回归Transformer模型,用在从文本生成歌曲。SongGen基于…
Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
Ming-flash-omni-2.0是什么 Ming-flash-omni-2.0是蚂蚁集团开源的全模态大模型,采用100B总参数/6B激活参数的MoE架构。作为业界S…
Kimi Latest – Kimi推出的实时更新AI模型,与Kimi智能助手同步
Kimi Latest是什么 Kimi Latest是月之暗面Kimi推出的实时更新AI模型,为用户提供同步对标Kimi智能助手的模型体验。支持128k上下文长度,可根据…
MineWorld – 微软研究院开源的实时交互式世界模型
MineWorld是什么 MineWorld是微软研究院开源的基于《我的世界》(Minecraft)的实时交互式世界模型,基于视觉-动作自回归Transformer架构,…
AvatarGO – 南洋理工联合上海 AI Lab 等推出的4D人体与物体交互生成框架
AvatarGO是什么 AvatarGO 是南洋理工大学S-Lab、上海 AI Lab,香港大学联合推出的新型框架,用在从文本输入直接生成可动画化的 4D 人体与物体交互…
R1-Omni – 阿里通义开源的全模态大语言模型
R1-Omni是什么 R1-Omni 是阿里通义推出的基于强化学习(RLVR)的全模态大语言模型,专注于情感识别任务。通过结合视觉和音频信息,能清晰地解释情感识别的推理过…
FlexiAct – 清华联合腾讯推出的动作迁移模型
FlexiAct是什么 FlexiAct是清华大学和腾讯ARC实验室联合推出的新型动作迁移模型。FlexiAct能在给定目标图像的情况下,将参考视频中的动作迁移到目标主体…
RF-DETR – Roboflow推出的实时目标检测模型
RF-DETR是什么 RF-DETR是Roboflow推出的实时目标检测模型。RF-DETR是首个在COCO数据集上达到60+平均精度均值(mAP)的实时模型,性能优于现…
MoLing – 本地AI办公自动化助手,基于 MCP 服务器
MoLing是什么 MoLing 是无依赖的本地办公自动化助手,是基于计算机和浏览器使用的 MCP 服务器。MoLing 基于操作系统 API 实现系统交互,支持文件系统…
WeGen – 中科大联合上海交大等推出的统一多模态生成模型
WeGen是什么 WeGen 是中国科学技术大学联合上海交通大学、微信团队、中国科学院等机构推出的统一多模态生成模型,基于自然对话实现多样化的视觉生成任务。WeGen结合…
子曰翻译2.0 – 网易有道推出的最新翻译大模型
子曰翻译2.0是什么 子曰翻译2.0是网易有道推出的最新翻译大模型,模型在数据、算法和评估三个关键维度进行了系统性升级,实现了翻译质量、效率和鲁棒性的质的飞跃。 在数据层…
Maestro – 开源的端到端自动化测试框架
Maestro是什么 Maestro是用在移动和Web应用的端到端自动化测试框架。基于内置的容错能力和延迟容忍机制,解决传统测试中常见的不稳定性和等待问题。Maestro…
LangGraph WhatsApp Agent – 用于构建与 WhatsApp 用户互动的 AI Agent
LangGraph WhatsApp Agent是什么 LangGraph WhatsApp Agent 是基于 LangGraph 和 Twilio 构建的开源项目,用…
FaceShot – 同济大学联合上海 AI Lab等推出的肖像动画生成框架
FaceShot是什么 FaceShot是同济大学、上海 AI Lab和南京理工大学推出的新型无需训练的肖像动画生成框架。用外观引导的地标匹配模块和基于坐标的地标重定位模…
SWEET-RL – Meta 推出的多轮强化学习框架
SWEET-RL是什么 SWEET-RL是Meta推出的多轮强化学习框架,专门用在训练大型语言模型(LLM)代理进行协作推理任务。SWEET-R基于训练时的额外信息(如参…
VideoFusion – AI视频剪辑工具,自动去除视频黑边、水印和字幕
VideoFusion是什么 VideoFusion 是开源的短视频拼接与处理软件,专为高效视频编辑设计。支持自动去除视频中的黑边、水印和字幕,能将视频自动旋转为横屏或竖…
