小米MiMo-V2-Omni全模态Agent基座模型发布:三模态融合、百万上下文,挑战Gemini与Claude
💡 站外导读:当AI行业还在争论多模态如何拼接时,小米已悄然亮出底牌。2026年3月,代号Healer Alpha的模型匿名调用量登顶OpenRouter榜单,测试用户惊…
Eliza – 开源多功能AI Agent框架,快速搭建智能、高效的AI系统
Eliza是什么 Eliza 是ai16z开源的多代理模拟框架,旨在创建、部署和管理自主 AI 代理。 以 TypeScript 作为编程语言开发,为构建智能代理提供了一…
smoltalk-chinese – OpenCSG 开源专为中文大型语言模型设计的合成数据集
smoltalk-chinese是什么 smoltalk-chinese 是OpenCSG开源的专为中文大型语言模型(LLM)设计的合成数据集,该数据集包含超过 70 万…
小米发布万亿参数旗舰Agent大模型MiMo-V2-Pro:性能逼近Claude Opus,价格仅1/5
💡 站外导读:随着AI Agent从概念走向生产力,行业呼唤能自主完成复杂任务的智能体。然而,顶尖Agent模型往往伴随着高昂成本与复杂配置,阻碍了技术普惠。小米最新发布…
MagicMirror – 开源的一键 AI 换脸、换发型和穿搭应用
MagicMirror是什么 MagicMirror是开源的AI换脸、换发型和穿搭应用,通过深度学习技术让用户能够一键变换形象。应用的特点简单易用、硬件友好、隐私保护和轻…
百度千帆Qianfan-OCR震撼发布:4B参数端到端文档智能模型登顶权威评测,开源重塑OCR技术格局
💡 站外导读:传统OCR技术长期面临多阶段Pipeline的误差累积困境,文档解析需经过检测、识别、理解等多个独立模块串联,导致信息丢失与精度瓶颈。随着企业数字化转型加速…
PanoDreamer – 单张图像生成连贯360° 3D场景的新方法
PanoDreamer是什么 PanoDreamer是能够从单张图像生成连贯的360° 3D场景的新方法。这种方法不同于现有技术,它将问题构建为单图像全景和深度估计的两个…
LLM2LLM – 通过迭代数据增强提升大语言模型的技术
LLM2LLM是什么 LLM2LLM是创新的迭代数据增强策略,提升大型语言模型(LLM)在数据稀缺情况下的性能。方法通过基于一个强大的教师模型来生成合成数据,增强学生模型…
GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型
GPT‑5.3 Instant是什么 GPT‑5.3 Instant 是 OpenAI 推出的轻量级对话模型,专为优化日常聊天体验设计。模型显著改善”爱说教、太啰嗦”的机…
VideoMaker – 浙大联合腾讯和华为推出的零样本定制视频生成框架
VideoMaker是什么 VideoMaker是浙江大学、腾讯和华为诺亚方舟实验室共同开发的创新项目,基于视频扩散模型(VDM)的零样本定制视频生成框架。与传统方法不同…
CodeElo – 阿里 Qwen 团队推出评估 LLM 编程能力的基准测试
CodeElo是什么 CodeElo 是用于评估大型语言模型(LLMs)在编程竞赛级别代码生成能力的基准测试工具。通过与人类程序员的 Elo 评级系统进行比较,来衡量 L…
GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
GPT‑5.4是什么 GPT-5.4是OpenAI推出的旗舰AI模型,定位为”专为专业工作设计的最强前沿模型”。模型首次将推理、编程、原生计算机操作、深度网页搜索和百万T…
TITAN – 哈佛医学院研究推出的多模态全切片病理基础模型
TITAN是什么 TITAN是哈佛医学院研究团队开发的多模态全切片病理基础模型,通过视觉自监督学习和视觉-语言对齐预训练,能在无需微调或临床标签的情况下提取通用的切片表示…
FlexRAG – 中科院推出的高性能多模态 RAG 框架
FlexRAG是什么 FlexRAG 是创新的检索增强生成(RAG)框架,解决传统 RAG 系统在处理长上下文时面临的计算成本高和生成质量不足的问题。通过将检索到的上下文…
