Open Deep Research – Deep Research开源复现版智能体,支持切换多种语言模型
Open Deep Research是什么 Open Deep Research 是开源的 AI 智能体,是Deep Research开源复现项目,基于推理大量网络数据完…
GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型
GPT‑5.3‑Codex‑Spark是什么 GPT-5.3-Codex-Spark是OpenAI首个专为实时编程设计的轻量级模型,主打极致速度。模型运行在Cerebra…
Tarsier2 – 字节跳动推出的视觉理解大模型
Tarsier2是什么 Tarsier2是字节跳动推出的先进的大规模视觉语言模型(LVLM),生成详细且准确的视频描述,在多种视频理解任务中表现出色。模型通过三个关键升级…
SmartEraser – 中科大与微软亚洲研究院推出的图像对象移除技术
SmartEraser是什么 SmartEraser是中国科学技术大学与微软亚洲研究院推出的图像编辑技术,专门用在从图像中移除用户指定的对象。SmartEraser基于创…
Eko – Fellou AI 推出的开源 AI 代理开发框架
Eko是什么 Eko是Fellou AI推出的生产就绪型JavaScript框架,基于自然语言驱动的方式,帮助开发者轻松创建从简单指令到复杂流程的可靠智能代理。Eko支持…
GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型
GPT‑5.3 Instant是什么 GPT‑5.3 Instant 是 OpenAI 推出的轻量级对话模型,专为优化日常聊天体验设计。模型显著改善”爱说教、太啰嗦”的机…
MeteoRA – 南大推出高效可扩展的多任务嵌入框架
MeteoRA是什么 MeteoRA 是南京大学计算机科学与技术系的研究团队推出的用于大型语言模型(LLM)的多任务嵌入框架,将多个任务特定的 LoRA(低秩适配器)集成…
Figma-Low-Code – 将Figma设计转换为Vue.js应用程序的开源项目
Figma-Low-Code是什么 Figma-Low-Code是开源的项目,基于Luisa框架,支持开发者直接将Figma设计转换为Vue.js应用程序。大幅减少设计师…
CHRONOS – 阿里通义联合上海交大等推出时间线摘要生成新框架
CHRONOS是什么 CHRONOS是上海交通大学计算机科学与工程系、阿里巴巴集团通义实验室等机构联合推出的,用在新闻时间线摘要生成的新型框架,基于迭代自问自答的方式,用…
Sa2VA – 字节跳动等机构开源的多模态大语言模型
Sa2VA是什么 Sa2VA是字节跳动联合加州大学默塞德分校、武汉大学和北京大学共同推出的多模态大语言模型,是SAM2和LLaVA结合而成,能实现对图像和视频的密集、细粒…
Step-Audio-TTS-3B – 高性能 TTS 模型,能生成特定情感和说唱风格的语音
Step-Audio-TTS-3B是什么 Step-Audio-TTS-3B 是 Stepfun-AI 团队推出的高性能文本到语音(TTS)模型,具有强大的语音合成能力。…
Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
Ming-flash-omni-2.0是什么 Ming-flash-omni-2.0是蚂蚁集团开源的全模态大模型,采用100B总参数/6B激活参数的MoE架构。作为业界S…
DynVFX – AI视频增强技术,将新动态内容与原始视频无缝融合
DynVFX是什么 DynVFX是创新的视频增强技术,能根据简单的文本指令将动态内容无缝集成到真实视频中。通过结合预训练的文本到视频扩散模型和视觉语言模型(VLM),实现…
Chatbox AI – 开源的AI客户端助手,支持多种主流AI模型
Chatbox AI是什么 Chatbox AI是开源的跨平台AI客户端应用和智能助手,支持 Windows、Mac、Linux、iOS、Android 和网页版,集成多…
WarriorCoder – 微软联合华南理工大学推出的代码生成大模型
WarriorCoder是什么 WarriorCoder 是华南理工大学计算机科学与工程学院和微软推出的代码生成大语言模型(LLM)。基于模拟专家模型之间的对抗生成高质量…
VideoLLaMA3 – 阿里达摩院推出的多模态基础模型
VideoLLaMA3是什么 VideoLLaMA3 是阿里巴巴开源的前沿多模态基础模型,专注于图像和视频理解。基于 Qwen 2.5 架构,结合了先进的视觉编码器(如 …
