Chatbox AI – 开源的AI客户端助手,支持多种主流AI模型
Chatbox AI是什么 Chatbox AI是开源的跨平台AI客户端应用和智能助手,支持 Windows、Mac、Linux、iOS、Android 和网页版,集成多…
WarriorCoder – 微软联合华南理工大学推出的代码生成大模型
WarriorCoder是什么 WarriorCoder 是华南理工大学计算机科学与工程学院和微软推出的代码生成大语言模型(LLM)。基于模拟专家模型之间的对抗生成高质量…
VideoLLaMA3 – 阿里达摩院推出的多模态基础模型
VideoLLaMA3是什么 VideoLLaMA3 是阿里巴巴开源的前沿多模态基础模型,专注于图像和视频理解。基于 Qwen 2.5 架构,结合了先进的视觉编码器(如 …
Zerox – 开源的OCR工具,零样本识别多种格式文件
Zerox是什么 Zerox是开源的本地化高精度OCR工具,基于GPT-4o-mini模型,无需提前训练实现零样本识别。Zerox支持PDF、DOCX、图片等多种格式文件…
Emotion-LLaMA – 多模态情绪识别与推理模型,融合音频、视觉和文本输入
Emotion-LLaMA是什么 Emotion-LLaMA是多模态情绪识别与推理模型,融合了音频、视觉和文本输入,通过特定情绪编码器整合信息。模型基于修改版LLaMA,…
Nexus-Gen – 魔搭联合华东师范等机构开源的全模态图像生成模型
Nexus-Gen是什么 Nexus-Gen 是魔搭团队、华东师范大学等机构推出的开源全能图像生成模型,支持同时完成图像理解、生成和编辑任务。Nexus-Gen融合强大的…
MME-CoT – 港中文等机构推出评估视觉推理能力的基准框架
MME-CoT 是什么 MME-CoT 是香港中文大学(深圳)、香港中文大学、字节跳动、南京大学、上海人工智能实验室、宾夕法尼亚大学、清华大学等机构共同推出的用于评估大型…
AI Dev Gallery – 微软推出面向Windows开发者本地运行AI模型的开源工具
AI Dev Gallery是什么 AI Dev Gallery是微软推出的开源AI工具包和示例库,集成在Visual Studio中,帮助Windows开发者轻松集成端…
Edicho – 蚂蚁集团联合港科大等高校推出的多图像一致性编辑方法
Edicho是什么 Edicho 是香港科技大学、蚂蚁集团、斯坦福大学和香港中文大学推出的,基于扩散模型的图像编辑方法,能在多图像间实现一致性编辑。Edicho用免训练的…
WebLI-100B – 谷歌 DeepMind 推出的1000亿视觉语言数据集
WebLI-100B是什么 WebLI-100B是Google DeepMind推出的包含1000亿图像-文本对的超大规模数据集,用在预训练视觉语言模型(VLMs)。We…
CLaMP 3- 清华团队推出的音乐信息检索框架
CLaMP 3是什么 CLaMP 3是清华大学人工智能学院的朱文武教授团队推出的多模态、多语言的音乐信息检索框架。基于对比学习,将乐谱(如ABC符号)、音频(如MERT特…
WorldSense – 小红书联合上海交大推出的多模态全面评测新基准
WorldSense是什么 WorldSense是小红书和上海交通大学推出的,用在评估多模态大型语言模型(MLLMs)在现实世界场景中对视觉、听觉和文本输入的综合理解能力…
RAG-FiT – 英特尔实验室推出用于开发、增强大模型的开源RAG框架
RAG-FiT是什么 RAG-FiT(曾用名RAG Foundry)是英特尔实验室推出的开源框架,用在微调(fine-tuning)增强大型语言模型(LLMs)在检索增强…
xAR – 字节联合霍普金斯大学推出的自回归视觉生成框架
xAR是什么 xAR 是字节跳动和约翰·霍普金斯大学联合提出的新型自回归视觉生成框架。框架通过“下一个X预测”(Next-X Prediction)和“噪声上下文学习”(…
Baichuan-Omni-1.5 – 百川智能开源的全模态理解模型
Baichuan-Omni-1.5是什么 Baichuan-Omni-1.5是百川智能开源的全模态模型。支持文本、图像、音频和视频的全模态理解,具备文本和音频的双模态生成…
Video Alchemist – AI视频生成模型,具备多主体开放集合个性化能力
Video Alchemist是什么 Video Alchemist是Snap公司等推出的新型视频生成模型,具备多主体、开放集合个性化能力,能根据文本提示和参考图像生成视…
