OmniManip – 智元机器人联合北大推出的通用机器人操作框架
OmniManip是什么 OmniManip 是北京大学与智元机器人联合实验室开发的通用机器人操作框架,通过结合视觉语言模型(VLM)的高层次推理能力和精确的三维操作能力…
VACE – 阿里通义推出的视频生成与编辑框架
VACE是什么 VACE(Video Creation and Editing)是阿里巴巴通义实验室推出的一站式视频生成与编辑框架。基于整合多种视频任务(如参考视频生成、…
SmolDocling – 轻量级的多模态文档处理模型
SmolDocling是什么 SmolDocling(SmolDocling-256M-preview )是高效轻量级的多模态文档处理模型。能将文档图像端到端地转换为结构…
加大学开启 AI 实验:50 万师生与 ChatGPT 共探未来教育
美国加州州立大学(CSU)最近与 OpenAI 达成了一项重磅协议,成为全球范围内单一机构最大规模的 ChatGPT 应用实验。这项合作价值 1690 万美元,将使该校系…
汽车行业AI新坐标!长安“天枢大模型”正式通过国家生成式AI备案
近日,长安汽车官方发布消息,其全栈自研的“天枢大模型”已顺利通过国家网信办的“生成式人工智能服务”备案审批。这一关键节点的突破,不仅让长安汽车成为重庆首家、同时也是国内极…
微信开放平台发布AI生态接入指引,小程序可支持微信AI直接调用
微信开放平台于2026年6月8日正式发布《关于开发者接入微信AI生态的指引》,宣布为小程序开发者提供便捷接入微信AI生态的能力。这一举措标志着微信正加速构建智能交互生态,…
Kimi-Audio – Moonshot AI 开源的音频基础模型
Kimi-Audio是什么 Kimi-Audio 是 Moonshot AI 推出的开源音频基础模型,专注于音频理解、生成和对话任务。在超过 1300 万小时的多样化音频…
WorldMem – 南洋理工联合北大和上海 AI Lab 推出的世界生成模型
WorldMem是什么 WorldMem 是南洋理工大学、北京大学和上海 AI Lab 推出的创新 AI 世界生成模型。模型基于引入记忆机制,解决传统世界生成模型在长时序…
GLM-Z1-Rumination – 智谱推出的沉思模型
GLM-Z1-Rumination是什么 GLM-Z1-Rumination 是智谱推出的沉思模型,基于 GLM-Z1 进一步优化而成,具体参数为GLM-Z1-Rumin…
Scribe – ElevenLabs 推出的高精度语音转文本模型
Scribe是什么 Scribe 是 ElevenLabs 推出的高精度语音转文本模型,专为多语言和复杂音频环境设计。支持99种语言,英语和意大利语的转录准确率分别达到9…
员工反弹与技术翻车:Meta 缩减“监控员工训练 AI”计划
Meta 公司此前宣布的内部 AI 训练计划遭遇重大挫折。这项名为“模型能力计划”(MCI)的工具原计划通过追踪员工的键盘敲击和鼠标点击数据,来获取真实的电脑使用数据并训…
Finedefics – 北大团队推出的细粒度多模态大模型
Finedefics是什么 Finedefics 是北京大学彭宇新教授团队推出的细粒度多模态大模型,提升多模态大语言模型(MLLMs)在细粒度视觉识别(FGVR)任务中的…
豆包1.5·UI-TARS – 字节豆包推出的 GUI Agent 模型
豆包1.5·UI-TARS是什么 豆包1.5·UI-TARS是字节豆包推出的面向图形界面交互(GUI)的Agent模型。模型基于感知、推理和动作执行等类人能力,与图形界面…
Auto-Deep-Research – 香港大学开源的全自动个人 AI 助理
Auto-Deep-Research是什么 Auto-Deep-Research 是香港大学黄超教授实验室开源的全自动个人 AI 助理,作为 OpenAI Deep Re…
FoxBrain – 鸿海研究院推出的推理大语言模型
FoxBrain是什么 FoxBrain 是鸿海研究院推出的繁体中文大型语言模型(LLM),具有强大的推理能力。基于 Meta Llama 3.1 架构,拥有 70B 参…
D-DiT – 耶鲁大学联合字节Seed等机构推出的多模态扩散模型
D-DiT是什么 D-DiT(Dual Diffusion Transformer)是卡内基梅隆大学、耶鲁大学和字节跳动Seed实验室推出的多模态扩散模型,能统一图像生成…
