华为开源openPangu-VL-7B:专为昇腾优化,720P推理仅160ms的多模态视觉大模型
💡 站外导读:多模态大模型正成为AI竞争新焦点,但算力成本高、端侧部署难仍是行业痛点。华为近日开源openPangu-VL-7B,专为昇腾硬件优化,720P推理仅160毫…
10Kh RealOmni-Open: Gen Robot.AI开源全球最大具身智能数据集(1万小时/95TB)
💡 站外导读:具身智能是通往通用人工智能的关键路径,但其发展长期受制于高质量、大规模真实场景数据的匮乏。当前主流的机器人学习多依赖实验室环境或仿真数据,导致模型在真实家庭…
上海AI Lab重磅开源OS-Copilot:你的终极通用操作系统AI Agent,革新人机交互与自动化工作流
💡 站外导读:随着AI技术深度融入日常工作流,用户面临着跨应用操作繁琐、重复任务耗时以及操作系统交互不够智能的痛点。在AI Agent成为新一代人机交互范式的大背景下,上…
智元机器人开源Genie Sim 3.0:大模型驱动的高保真仿真平台,分钟级生成万级场景
💡 站外导读:在具身智能研发的浪潮中,高质量、大规模仿真数据的获取与真实环境的精准复刻,是制约算法训练与验证效率的关键瓶颈。传统仿真平台构建成本高、场景泛化能力弱,难以满…
OpenAI发布GPT-5.3 Instant:免费轻量级对话模型,幻觉率大降27%告别啰嗦
💡 站外导读:在AI对话领域,用户长期被模型“爱说教、太啰嗦”的机械语气困扰,且高风险场景下的事实准确性不足。随着大模型技术从“能力竞赛”转向“体验优化”,OpenAI最…
阶跃星辰发布Step-Audio-R1.1:全球首个开源原生语音推理模型,以96.4%准确率登顶权威榜单
💡 站外导读:在AIGC浪潮中,语音AI长期受困于“先转录后理解”的低效范式,难以捕捉实时语义和情感,限制了其在复杂场景的应用。行业亟需突破性技术,实现从语音信号到深度推…
谷歌重磅开源 TranslateGemma:Gemma 3 系列翻译模型,支持 55 种语言与多模态图像翻译
💡 站外导读:随着 AI 应用的全球化,跨语言内容处理成为企业与开发者的核心痛点。传统翻译工具在低资源语言上表现不佳,且通常无法处理图像中的文本。谷歌此次开源的 Tran…
FLUX.2 [klein] 开源:Black Forest Labs 推出亚秒级图像生成模型,4B版仅需13GB显存
💡 站外导读:图像生成领域长期受推理速度与硬件成本双重制约,实时应用与消费级部署难以兼顾。Black Forest Labs 开源 FLUX.2 模型,以亚秒级推理和低显…
