Zerox – 开源的OCR工具,零样本识别多种格式文件
Zerox是什么 Zerox是开源的本地化高精度OCR工具,基于GPT-4o-mini模型,无需提前训练实现零样本识别。Zerox支持PDF、DOCX、图片等多种格式文件…
Emotion-LLaMA – 多模态情绪识别与推理模型,融合音频、视觉和文本输入
Emotion-LLaMA是什么 Emotion-LLaMA是多模态情绪识别与推理模型,融合了音频、视觉和文本输入,通过特定情绪编码器整合信息。模型基于修改版LLaMA,…
Nexus-Gen – 魔搭联合华东师范等机构开源的全模态图像生成模型
Nexus-Gen是什么 Nexus-Gen 是魔搭团队、华东师范大学等机构推出的开源全能图像生成模型,支持同时完成图像理解、生成和编辑任务。Nexus-Gen融合强大的…
MME-CoT – 港中文等机构推出评估视觉推理能力的基准框架
MME-CoT 是什么 MME-CoT 是香港中文大学(深圳)、香港中文大学、字节跳动、南京大学、上海人工智能实验室、宾夕法尼亚大学、清华大学等机构共同推出的用于评估大型…
AI Dev Gallery – 微软推出面向Windows开发者本地运行AI模型的开源工具
AI Dev Gallery是什么 AI Dev Gallery是微软推出的开源AI工具包和示例库,集成在Visual Studio中,帮助Windows开发者轻松集成端…
Edicho – 蚂蚁集团联合港科大等高校推出的多图像一致性编辑方法
Edicho是什么 Edicho 是香港科技大学、蚂蚁集团、斯坦福大学和香港中文大学推出的,基于扩散模型的图像编辑方法,能在多图像间实现一致性编辑。Edicho用免训练的…
WebLI-100B – 谷歌 DeepMind 推出的1000亿视觉语言数据集
WebLI-100B是什么 WebLI-100B是Google DeepMind推出的包含1000亿图像-文本对的超大规模数据集,用在预训练视觉语言模型(VLMs)。We…
CLaMP 3- 清华团队推出的音乐信息检索框架
CLaMP 3是什么 CLaMP 3是清华大学人工智能学院的朱文武教授团队推出的多模态、多语言的音乐信息检索框架。基于对比学习,将乐谱(如ABC符号)、音频(如MERT特…
WorldSense – 小红书联合上海交大推出的多模态全面评测新基准
WorldSense是什么 WorldSense是小红书和上海交通大学推出的,用在评估多模态大型语言模型(MLLMs)在现实世界场景中对视觉、听觉和文本输入的综合理解能力…
RAG-FiT – 英特尔实验室推出用于开发、增强大模型的开源RAG框架
RAG-FiT是什么 RAG-FiT(曾用名RAG Foundry)是英特尔实验室推出的开源框架,用在微调(fine-tuning)增强大型语言模型(LLMs)在检索增强…
xAR – 字节联合霍普金斯大学推出的自回归视觉生成框架
xAR是什么 xAR 是字节跳动和约翰·霍普金斯大学联合提出的新型自回归视觉生成框架。框架通过“下一个X预测”(Next-X Prediction)和“噪声上下文学习”(…
Baichuan-Omni-1.5 – 百川智能开源的全模态理解模型
Baichuan-Omni-1.5是什么 Baichuan-Omni-1.5是百川智能开源的全模态模型。支持文本、图像、音频和视频的全模态理解,具备文本和音频的双模态生成…
Video Alchemist – AI视频生成模型,具备多主体开放集合个性化能力
Video Alchemist是什么 Video Alchemist是Snap公司等推出的新型视频生成模型,具备多主体、开放集合个性化能力,能根据文本提示和参考图像生成视…
GR00T-Teleop – 英伟达发布通过 Apple Vision Pro 捕捉人类动作的技术
GR00T-Teleop是什么 GR00T-Teleop是NVIDIA Isaac GR00T的一部分,用在捕获远程操作数据的关键技术。基于NVIDIA CloudXR连…
GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
GPT‑5.4是什么 GPT-5.4是OpenAI推出的旗舰AI模型,定位为”专为专业工作设计的最强前沿模型”。模型首次将推理、编程、原生计算机操作、深度网页搜索和百万T…
Claude 3.7 Sonnet – Anthropic 推出的首款混合推理模型
Claude 3.7 Sonnet是什么 Claude 3.7 Sonnet 是 Anthropic 公司推出的全球首款混合推理模型,具备“标准模式”和“扩展思考模式”两…
