Ad image
Ad image

最近更新

腾讯开源Covo-Audio:70亿参数端到端语音大模型,挑战GPT-4o的实时对话新标杆

💡 站外导读:传统语音AI依赖ASR-LLM-TTS的级联架构,存在延迟高、误差累积的行业痛点,严重制约了实时交互体验。随着GPT-4o等端到端模型的出现,行业迎来范式变革,但闭源特性限制了应用与创新。在此背景下,腾讯开源Covo-Audi…

Midjourney V8震撼发布:速度飙升5倍、原生2K直出,AI图像生成进入新时代

💡 站外导读:当AI绘画工具还在为生成速度、文本渲染和画面连贯性焦头烂额时,Midjourney直接甩出了一张王牌——V…

Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型

Ming-flash-omni-2.0是什么 Ming-flash-omni-2.0是蚂蚁集团开源的全模态大模型,采用1…

GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型

GPT‑5.3 Instant是什么 GPT‑5.3 Instant 是 OpenAI 推出的轻量级对话模型,专为优化日…

理想汽车发布MindVLA-o1:原生多模态VLA架构,定义自动驾驶与具身智能新范式

💡 站外导读:当行业仍在争论端到端纯视觉与多传感器融合路线孰优孰劣时,理想汽车已悄然开辟新赛道。其最新发布的MindVL…

GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型

GPT‑5.4是什么 GPT-5.4是OpenAI推出的旗舰AI模型,定位为”专为专业工作设计的最强前沿模型”。模型首次将推理、编程、原生计算机操作、深度网页搜索和百万Token上下文整合进单一模型,且未牺牲任何单项性能。在OSWorld电脑操作测试中,以75%成功率首次超越人类水平;在GDPval知识工作测试中,83%的任务达到或超过专业人士水准。GPT-5.4支持截图理解界面并执行鼠标键盘操作…

预计阅读时间: 27

MagicMirror – 开源的一键 AI 换脸、换发型和穿搭应用

MagicMirror是什么 MagicMirror是开源的AI换脸、换发型和穿搭应用,通过深度学习技术让用户能够一键变…

PanoDreamer – 单张图像生成连贯360° 3D场景的新方法

PanoDreamer是什么 PanoDreamer是能够从单张图像生成连贯的360° 3D场景的新方法。这种方法不同于…

LLM2LLM – 通过迭代数据增强提升大语言模型的技术

LLM2LLM是什么 LLM2LLM是创新的迭代数据增强策略,提升大型语言模型(LLM)在数据稀缺情况下的性能。方法通过…

GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型

GPT‑5.3 Instant是什么 GPT‑5.3 Instant 是 OpenAI 推出的轻量级对话模型,专为优化日…

VideoMaker – 浙大联合腾讯和华为推出的零样本定制视频生成框架

VideoMaker是什么 VideoMaker是浙江大学、腾讯和华为诺亚方舟实验室共同开发的创新项目,基于视频扩散模型…

CodeElo – 阿里 Qwen 团队推出评估 LLM 编程能力的基准测试

CodeElo是什么 CodeElo 是用于评估大型语言模型(LLMs)在编程竞赛级别代码生成能力的基准测试工具。通过与…