GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
GPT‑5.4是什么 GPT-5.4是OpenAI推出的旗舰AI模型,定位为”专为专业工作设计的最强前沿模型”。模型首次将推理、编程、原生计算机操作、深度网页搜索和百万T…
VMix – 字节联合中科大推出增强模型生成美学质量的适配器
VMix是什么 VMix是创新的即插即用美学适配器,提升文本到图像扩散模型生成图像的美学质量。通过解耦输入文本提示中的内容描述和美学描述,将细粒度的美学标签(如色彩、光线…
AIOpsLab – 微软等机构共同开源的面向 AIOps 代理的综合 AI 框架
AIOpsLab是什么 AIOpsLab是微软公司、加州大学伯克利分校、伊利诺伊大学香槟分校、微软研究院等机构推出的,用在构建、评估和改进云服务运营管理AIOps代理的原…
GAS – 卡内基梅隆联合上海 AI Lab 等推出的单图生成3D人体框架
GAS是什么 GAS(Generative Avatar Synthesis from a Single Image)是卡内基梅隆大学、上海人工智能实验室和斯坦福大学的研…
RSIDiff – 基于合成数据提升图像生成质量的递归自训练框架
RSIDiff是什么 RSIDiff 是用于提升文本到图像扩散模型性能的递归自训练(RSI)框架。通过迭代优化模型,基于模型自身生成的数据进行训练,解决传统自训练中常见的…
StochSync – AI图像生成技术,为360°全景图和3D网格纹理生成高质量图像
StochSync是什么 StochSync(Stochastic Diffusion Synchronization)是创新的图像生成技术,专门用于在复杂空间(如360…
MnnLlmApp – 阿里巴巴开源的离线大模型 Android 手机应用AI助手
MnnLlmApp是什么 MnnLlmApp 是阿里巴巴基于 MNN-LLM 框架开源的 Android 手机应用,支持各类大语言模型(LLM)在手机上离线运行。具备多模…
GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型
GPT‑5.3 Instant是什么 GPT‑5.3 Instant 是 OpenAI 推出的轻量级对话模型,专为优化日常聊天体验设计。模型显著改善”爱说教、太啰嗦”的机…
FilmAgent – 哈工大联合清华推出的AI电影自动化制作工具
FilmAgent是什么 FilmAgent是哈尔滨工业大学(深圳)的研究团队开发的基于多智能体协作框架的虚拟电影制作工具,通过自动化流程实现虚拟3D空间中的端到端电影制…
Uni-AdaFocus – 清华大学推出通用的高效视频理解框架
Uni-AdaFocus是什么 Uni-AdaFocus是清华大学自动化系的研究团队推出的通用的高效视频理解框架,框架通过自适应聚焦机制,动态调整计算资源的分配,实现对视…
ViTPose – 基于 Transformer 架构的人体姿态估计模型
ViTPose是什么 ViTPose 是基于 Transformer 架构的人体姿态估计模型。以普通视觉 Transformer 作为骨干网络,通过将输入图像切块并送入 …
MCPHub – 一站式MCP服务器聚合平台
MCPHub 是什么 MCPHub是一站式MCP(模型上下文协议)服务器聚合平台。支持将多个MCP服务器整合到不同的流式HTTP(SSE)端点,基于直观的Web界面和强大…
Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
Ming-flash-omni-2.0是什么 Ming-flash-omni-2.0是蚂蚁集团开源的全模态大模型,采用100B总参数/6B激活参数的MoE架构。作为业界S…
FireCrawl – 开源 AI 网络爬虫工具,擅长处理动态网页内容、自动爬取网站及子页面
FireCrawl是什么 FireCrawl是开源的AI爬虫工具,专门用在Web数据提取,转换为Markdown或其他结构化数据。FireCrawl具备强大的抓取能力,支…
VideoRefer – 浙大联合阿里达摩学院推出的视频对象感知与推理技术
VideoRefer是什么 VideoRefer是浙江大学和阿里达摩学院联合推出的,专门用在视频中对象的感知和推理。基于增强视频大型语言模型(Video LLMs)的空间…
OpenThinker-32B – 斯坦福、UC 伯克利等机构联合开源的推理模型
OpenThinker-32B是什么 OpenThinker-32B 是斯坦福、UC 伯克利、华盛顿大学等机构联合开发的开源推理模型,拥有 328 亿参数,支持 16,0…
