Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
Ming-flash-omni-2.0是什么 Ming-flash-omni-2.0是蚂蚁集团开源的全模态大模型,采用100B总参数/6B激活参数的MoE架构。作为业界S…
小米MiMo-V2-TTS重磅发布:上亿小时数据训练,Agent时代的语音合成革命
💡 站外导读:随着AI Agent时代到来,语音交互正从“能听清”迈向“有灵魂”。传统TTS系统在情感表达、多方言支持和复杂语境理解上瓶颈明显,难以满足智能体人性化交互需…
R2R – AI 检索增强生成应用开发平台,支持多模态内容处理、混合搜索、知识图谱构建
R2R是什么 R2R是先进的AI检索系统,专注于Retrieval-Augmented Generation(增强型检索生成)。R2R集成多模态内容摄取、混合搜索、知识图…
GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型
GPT‑5.3‑Codex‑Spark是什么 GPT-5.3-Codex-Spark是OpenAI首个专为实时编程设计的轻量级模型,主打极致速度。模型运行在Cerebra…
小米MiMo-V2-Omni全模态Agent基座模型发布:三模态融合、百万上下文,挑战Gemini与Claude
💡 站外导读:当AI行业还在争论多模态如何拼接时,小米已悄然亮出底牌。2026年3月,代号Healer Alpha的模型匿名调用量登顶OpenRouter榜单,测试用户惊…
Eliza – 开源多功能AI Agent框架,快速搭建智能、高效的AI系统
Eliza是什么 Eliza 是ai16z开源的多代理模拟框架,旨在创建、部署和管理自主 AI 代理。 以 TypeScript 作为编程语言开发,为构建智能代理提供了一…
smoltalk-chinese – OpenCSG 开源专为中文大型语言模型设计的合成数据集
smoltalk-chinese是什么 smoltalk-chinese 是OpenCSG开源的专为中文大型语言模型(LLM)设计的合成数据集,该数据集包含超过 70 万…
小米发布万亿参数旗舰Agent大模型MiMo-V2-Pro:性能逼近Claude Opus,价格仅1/5
💡 站外导读:随着AI Agent从概念走向生产力,行业呼唤能自主完成复杂任务的智能体。然而,顶尖Agent模型往往伴随着高昂成本与复杂配置,阻碍了技术普惠。小米最新发布…
MagicMirror – 开源的一键 AI 换脸、换发型和穿搭应用
MagicMirror是什么 MagicMirror是开源的AI换脸、换发型和穿搭应用,通过深度学习技术让用户能够一键变换形象。应用的特点简单易用、硬件友好、隐私保护和轻…
百度千帆Qianfan-OCR震撼发布:4B参数端到端文档智能模型登顶权威评测,开源重塑OCR技术格局
💡 站外导读:传统OCR技术长期面临多阶段Pipeline的误差累积困境,文档解析需经过检测、识别、理解等多个独立模块串联,导致信息丢失与精度瓶颈。随着企业数字化转型加速…
PanoDreamer – 单张图像生成连贯360° 3D场景的新方法
PanoDreamer是什么 PanoDreamer是能够从单张图像生成连贯的360° 3D场景的新方法。这种方法不同于现有技术,它将问题构建为单图像全景和深度估计的两个…
LLM2LLM – 通过迭代数据增强提升大语言模型的技术
LLM2LLM是什么 LLM2LLM是创新的迭代数据增强策略,提升大型语言模型(LLM)在数据稀缺情况下的性能。方法通过基于一个强大的教师模型来生成合成数据,增强学生模型…
GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型
GPT‑5.3 Instant是什么 GPT‑5.3 Instant 是 OpenAI 推出的轻量级对话模型,专为优化日常聊天体验设计。模型显著改善”爱说教、太啰嗦”的机…
VideoMaker – 浙大联合腾讯和华为推出的零样本定制视频生成框架
VideoMaker是什么 VideoMaker是浙江大学、腾讯和华为诺亚方舟实验室共同开发的创新项目,基于视频扩散模型(VDM)的零样本定制视频生成框架。与传统方法不同…
CodeElo – 阿里 Qwen 团队推出评估 LLM 编程能力的基准测试
CodeElo是什么 CodeElo 是用于评估大型语言模型(LLMs)在编程竞赛级别代码生成能力的基准测试工具。通过与人类程序员的 Elo 评级系统进行比较,来衡量 L…
