Aria-UI – 港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型
Aria-UI是什么 Aria-UI是香港大学和Rhymes AI共同推出的为图形用户界面(GUI)定位任务设计的大型多模态模型。基于纯视觉方法,不依赖于HTML或AXT…
CustomVideoX – 中科大联合浙大等推出的个性化视频生成框架
CustomVideoX是什么 CustomVideoX 是中科大和浙大等联合提出的创新的个性化视频生成框架,通过参考图像和文本描述生成高质量的定制化视频。框架基于视频扩…
GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
GPT‑5.4是什么 GPT-5.4是OpenAI推出的旗舰AI模型,定位为”专为专业工作设计的最强前沿模型”。模型首次将推理、编程、原生计算机操作、深度网页搜索和百万T…
PaliGemma 2 mix – 谷歌DeepMind推出的升级版视觉语言模型
PaliGemma 2 mix是什么 PaliGemma 2 Mix是谷歌DeepMind发布的最新多任务视觉语言模型(VLM)。集成了多种视觉和语言处理能力,支持图像描…
Mercury Coder – Inception Labs 推出的商业级扩散大型语言模型
Mercury Coder是什么 Mercury Coder 是 Inception Labs 推出的首个扩散型大语言模型(dLLM),是 Mercury 系列中专门用在…
Goku – 港大和字节联合推出的最新视频生成模型
Goku是什么 Goku是香港大学和字节跳动联合发布的最新视频生成模型,专为图像和视频的联合生成设计。基于先进的rectified flow Transformer框架,…
RuoYi AI – 全栈式 AI 开发平台,快速搭建个性化 AI 应用
RuoYi AI是什么 RuoYi AI 是全栈式 AI 开发平台,提供完整的前端、后台管理及小程序应用,支持灵活修改和分发代码。RuoYi AI 支持本地 RAG 方案…
Eino – 字节跳动开源的大模型应用开发框架
Eino是什么 Eino 是字节跳动开源的大模型应用开发框架,能帮助开发者高效构建基于大模型的 AI 应用。Eino以 Go 语言为基础,具备稳定的内核、灵活的扩展性和完…
GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型
GPT‑5.3‑Codex‑Spark是什么 GPT-5.3-Codex-Spark是OpenAI首个专为实时编程设计的轻量级模型,主打极致速度。模型运行在Cerebra…
Shandu – AI研究工具,自动进行多层次信息挖掘和分析
Shandu是什么 Shandu 是开源的 AI 研究自动化工具,结合了 LangChain 和 LangGraph 技术,能自动化地进行多层次信息挖掘和分析,生成结构化…
SpeechGPT 2.0-preview – 复旦大学推出的端到端实时语音交互模型
SpeechGPT 2.0-preview是什么 SpeechGPT 2.0-preview 是复旦大学 OpenMOSS 团队推出的拟人化实时交互系统,基于百万小时级中…
OmniThink – 浙大联合阿里通义实验室推出的深度思考机器写作框架
OmniThink是什么 OmniThink是浙江大学和阿里巴巴通义实验室联合开发的创新的机器写作框架,通过模拟人类的迭代扩展和反思过程,突破大型语言模型在机器写作中的知…
Command A – Cohere 推出的生成式 AI 模型
Command A是什么 Command A 是 Cohere 推出的最新生成式 AI 模型,专为企业级应用设计。Command A用高性能和低硬件成本为核心优势,能在两…
LlamaV-o1 – 多模态视觉推理模型,采用逐步推理学习方法解决复杂任务
LlamaV-o1是什么 LlamaV-o1是阿联酋穆罕默德·本·扎耶德人工智能大学等机构提出的新多模态视觉推理模型,提升大型语言模型的逐步视觉推理能力。引入视觉推理链基…
SketchVideo – 快手联合多所高校推出基于草图的视频生成与编辑框架
SketchVideo是什么 SketchVideo 是中国科学院大学,香港科技大学和快手可灵团队推出的基于草图的视频生成与编辑框架。在关键帧上绘制草图,结合文本提示,实…
OmniSQL – 开源文本到 SQL 模型,自然语言转换为 SQL 查询语句
OmniSQL是什么 OmniSQL 是开源的文本到 SQL 模型,将自然语言问题高效转换为 SQL 查询语句。通过创新的数据合成框架生成了首个百万量级的文本到 SQL …
