FireRedASR – 小红书开源的自动语音识别模型
FireRedASR是什么 FireRedASR 是小红书开源的工业级自动语音识别(ASR)模型家族,支持普通话、中文方言和英语,在普通话 ASR 基准测试中达到了新的最…
Gemini 2.0 Pro – 谷歌推出的高性能多模态AI模型
Gemini 2.0 Pro是什么 Gemini 2.0 Pro是Google推出的高性能实验版AI模型,专为编程性能和复杂提示处理优化。Gemini 2.0 Pro具备…
Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
Ming-flash-omni-2.0是什么 Ming-flash-omni-2.0是蚂蚁集团开源的全模态大模型,采用100B总参数/6B激活参数的MoE架构。作为业界S…
Fast3R – Meta 联合密歇根大学推出的多视图3D重建方法
Fast3R是什么 Fast3R是Meta和密歇根大学的研究人员提出的新型的多视图3D重建方法,基于Transformer架构,能在一个前向传播过程中处理1000多张图像…
SHMT – 阿里达摩院联合武汉理工等机构推出的自监督化妆转移技术
SHMT是什么 SHMT(Self-supervised Hierarchical Makeup Transfer)是阿里巴巴达摩院与武汉理工大学等机构联合研发的先进自监…
NVIDIA-Ingest – 英伟达开源的智能文档提取及结构化工具
NVIDIA-Ingest是什么 NVIDIA-Ingest是英伟达开源的用于解析复杂、混乱的非结构化PDF和其他企业文档的微服务集合。NVIDIA-Ingest能将文档…
Seedance 1.0 lite – 火山引擎推出的视频生成模型
Seedance 1.0 lite是什么 Seedance 1.0 lite是火山引擎推出的豆包视频生成模型的小参数量版本,支持文生视频和图生视频两种生成方式,支持生成5…
memobase – 基于用户画像的长期记忆系统
memobase是什么 memobase 是开源的基于用户画像的长期记忆系统,专为生成式人工智能应用设计。memobase能为虚拟助手、教育工具等应用提供用户记忆功能,帮…
Languine – 面向开发者自动化应用程序的多语言翻译 AI 工具
Languine是什么 Languine 是 AI 驱动的翻译工具,能帮助开发者简化应用程序的开发过程。Languine 基于智能检测、AI 翻译、自动化工作流程和开发者…
麦橘超然 – 麦橘推出的AI文生图模型,基于 Flux.1 架构
麦橘超然是什么 麦橘超然(MajicFlus)是麦橘推出的基于Flux.1架构的AI模型,专注于生成高质量的人像图像,擅长表现亚洲女性的细腻与美感。模型融合多种技术,能生…
Matrix-Zero – 昆仑万维推出的世界模型
Matrix-Zero是什么 Matrix-Zero是昆仑万维推出的世界模型,包含两款子模型:3D场景生成大模型和可交互视频生成大模型。Matrix-Zero能将用户输入…
瑞智病理大模型 – 瑞金联合华为推出的多模态互动式病理大模型
瑞智病理大模型是什么 瑞智病理大模型(RuiPath)是上海交通大学医学院附属瑞金医院与华为共同推出的临床级国产多模态互动式病理大模型。模型覆盖了中国每年全癌种发病人数9…
GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
GPT‑5.4是什么 GPT-5.4是OpenAI推出的旗舰AI模型,定位为”专为专业工作设计的最强前沿模型”。模型首次将推理、编程、原生计算机操作、深度网页搜索和百万T…
MVoT – 微软联合剑桥和中科院推出的多模态推理可视化框架
MVoT是什么 MVoT(Multimodal Visualization-of-Thought)是微软研究院、剑桥大学语言技术实验室、中国科学院自动化研究所推出的新型多…
Open Deep Research – Deep Research开源复现版智能体,支持切换多种语言模型
Open Deep Research是什么 Open Deep Research 是开源的 AI 智能体,是Deep Research开源复现项目,基于推理大量网络数据完…
GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型
GPT‑5.3‑Codex‑Spark是什么 GPT-5.3-Codex-Spark是OpenAI首个专为实时编程设计的轻量级模型,主打极致速度。模型运行在Cerebra…
