LangBot – 多模态即时聊天机器人构建与管理的开源平台
LangBot是什么 LangBot 是开源的即时聊天机器人平台,支持多平台(如 QQ、微信、飞书、Discord 等)和多种大语言模型(如 ChatGPT、DeepSe…
GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
GPT‑5.4是什么 GPT-5.4是OpenAI推出的旗舰AI模型,定位为”专为专业工作设计的最强前沿模型”。模型首次将推理、编程、原生计算机操作、深度网页搜索和百万T…
MatAnyone – 南洋理工和商汤科技推出的人像视频抠图框架
MatAnyone是什么 MatAnyone是南洋理工大学S-Lab实验室和商汤科技推出的,针对复杂背景人像视频抠图的先进框架,专注于目标指定的视频抠图任务。MatAny…
CSM – Sesame团队推出的语音对话模型
CSM是什么 CSM(Conversational Speech Model)是Sesame团队推出的新型语音对话模型,提升语音助手的自然度和情感交互能力。CSM基于多模…
Qwen2.5-VL – 阿里通义千问开源的视觉语言模型
Qwen2.5-VL是什么 Qwen2.5-VL是阿里通义千问团队开源的旗舰视觉语言模型,具有3B、7B和72B三种不同规模。模型在视觉理解方面表现出色,能识别常见物体,…
FramePainter – 哈工大联合华为诺亚推出的交互式图像编辑AI工具
FramePainter是什么 FramePainter 是基于 AI 的交互式图像编辑工具,通过结合视频扩散模型和直观的草图控制,让用户能通过简单的绘制、点击或拖动操作…
MiniMax-01 – MiniMax开源的全新系列模型
MiniMax-01是什么 MiniMax-01是MiniMax推出的全新系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL…
OpenVision – 加州大学开源的视觉编码器家族
OpenVision是什么 OpenVision是加州大学圣克鲁兹分校(UCSC)推出的完全开放、高效且灵活的高级视觉编码器家族,专注于多模态学习。提供从5.9M到632…
VLM-R1 – 浙大 Om AI Lab 推出的视觉语言模型
VLM-R1是什么 VLM-R1 是 Om AI Lab 推出的基于强化学习技术的视觉语言模型,通过自然语言指令精确定位图像中的目标物体,如根据描述“图中红色的杯子”找到…
StoryWeaver – 厦大和网易伏羲联合推出的统一故事可视化 AI 模型
StoryWeaver是什么 StoryWeaver是厦门大学多媒体可信感知与高效计算教育部重点实验室和网易伏羲人工智能实验室推出的AI模型,能用知识增强的故事角色定制实…
AutoDroid-V2 – 清华推出的移动端GUI自动化脚本代理
AutoDroid-V2是什么 AutoDroid-V2是清华大学人工智能产业研究院推出的基于小型语言模型(SLM)的移动端GUI自动化脚本代理,能基于代码生成技术提升设…
PIKE-RAG – 微软亚洲研究院推出的检索增强型生成框架
PIKE-RAG是什么 PIKE-RAG(sPecIalized KnowledgE and Rationale Augmented Generation)是微软亚洲研究…
Aider – 开源AI编程助手,基于命令行指定自动完成代码修改
Aider是什么 Aider 是开源的AI辅助编程工具,基于终端与大型语言模型(LLM)配合,实现高效代码编辑和开发。Aider支持多种编程语言,如 Python、Jav…
Resume Matcher – 开源AI简历优化工具,解析简历和职位描述提供改进建议
Resume Matcher是什么 Resume Matcher 是开源的 AI 简历优化工具,帮助求职者提升简历通过自动化筛选系统(ATS)的概率。Resume Mat…
LLMDet – 阿里通义联合中山大学等机构推出的开放词汇目标检测模型
LLMDet是什么 LLMDet是阿里巴巴集团通义实验室、中山大学计算机科学与工程学院、鹏城实验室等机构推出的开放词汇目标检测器,基于与大型语言模型(LLM)协同训练提升…
Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
Ming-flash-omni-2.0是什么 Ming-flash-omni-2.0是蚂蚁集团开源的全模态大模型,采用100B总参数/6B激活参数的MoE架构。作为业界S…
