Qwen2.5-VL – 阿里通义千问开源的视觉语言模型
Qwen2.5-VL是什么 Qwen2.5-VL是阿里通义千问团队开源的旗舰视觉语言模型,具有3B、7B和72B三种不同规模。模型在视觉理解方面表现出色,能识别常见物体,…
FramePainter – 哈工大联合华为诺亚推出的交互式图像编辑AI工具
FramePainter是什么 FramePainter 是基于 AI 的交互式图像编辑工具,通过结合视频扩散模型和直观的草图控制,让用户能通过简单的绘制、点击或拖动操作…
MiniMax-01 – MiniMax开源的全新系列模型
MiniMax-01是什么 MiniMax-01是MiniMax推出的全新系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL…
OpenVision – 加州大学开源的视觉编码器家族
OpenVision是什么 OpenVision是加州大学圣克鲁兹分校(UCSC)推出的完全开放、高效且灵活的高级视觉编码器家族,专注于多模态学习。提供从5.9M到632…
VLM-R1 – 浙大 Om AI Lab 推出的视觉语言模型
VLM-R1是什么 VLM-R1 是 Om AI Lab 推出的基于强化学习技术的视觉语言模型,通过自然语言指令精确定位图像中的目标物体,如根据描述“图中红色的杯子”找到…
StoryWeaver – 厦大和网易伏羲联合推出的统一故事可视化 AI 模型
StoryWeaver是什么 StoryWeaver是厦门大学多媒体可信感知与高效计算教育部重点实验室和网易伏羲人工智能实验室推出的AI模型,能用知识增强的故事角色定制实…
AutoDroid-V2 – 清华推出的移动端GUI自动化脚本代理
AutoDroid-V2是什么 AutoDroid-V2是清华大学人工智能产业研究院推出的基于小型语言模型(SLM)的移动端GUI自动化脚本代理,能基于代码生成技术提升设…
PIKE-RAG – 微软亚洲研究院推出的检索增强型生成框架
PIKE-RAG是什么 PIKE-RAG(sPecIalized KnowledgE and Rationale Augmented Generation)是微软亚洲研究…
Aider – 开源AI编程助手,基于命令行指定自动完成代码修改
Aider是什么 Aider 是开源的AI辅助编程工具,基于终端与大型语言模型(LLM)配合,实现高效代码编辑和开发。Aider支持多种编程语言,如 Python、Jav…
Resume Matcher – 开源AI简历优化工具,解析简历和职位描述提供改进建议
Resume Matcher是什么 Resume Matcher 是开源的 AI 简历优化工具,帮助求职者提升简历通过自动化筛选系统(ATS)的概率。Resume Mat…
LLMDet – 阿里通义联合中山大学等机构推出的开放词汇目标检测模型
LLMDet是什么 LLMDet是阿里巴巴集团通义实验室、中山大学计算机科学与工程学院、鹏城实验室等机构推出的开放词汇目标检测器,基于与大型语言模型(LLM)协同训练提升…
Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
Ming-flash-omni-2.0是什么 Ming-flash-omni-2.0是蚂蚁集团开源的全模态大模型,采用100B总参数/6B激活参数的MoE架构。作为业界S…
JoyGen – 京东和港大推出音频驱动的3D说话人脸视频生成框架
JoyGen是什么 JoyGen是京东科技和香港大学推出的,音频驱动的3D说话人脸视频生成框架,专注于实现精确的唇部与音频同步及高质量的视觉效果。JoyGen结合音频特征…
AgiBot Digital World – 智元机器人推出的机器人仿真框架
AgiBot Digital World是什么 AgiBot Digital World 是智元机器人推出的高保真机器人仿真框架,为机器人操作技能研究与应用提供高效支持。…
QVQ-72B-Preview – 阿里通义开源的多模态推理模型
QVQ-72B-Preview是什么 QVQ-72B-Preview 是阿里云通义千问团队开源的多模态推理模型,专注于提升视觉推理能力。模型在多个基准测试中表现出色,在多…
百聆 – AI语音对话助手,端到端时延低至800ms
百聆是什么 百聆(Bailing)是开源的语音对话助手,基于语音识别(ASR)、语音活动检测(VAD)、大语言模型(LLM)和语音合成(TTS)技术实现与用户的自然语音对…
