站外新闻 – 第 154 页 – Prompt 语宙

站外新闻

4997 .

SpatialClaw – 英伟达联合 KAIST 推出的免训练空间推理框架

SpatialClaw是什么 SpatialClaw 是 NVIDIA Research 与 KAIST 联合推出的免训练空间推理框架，通过代码即动作机制在持久化 Pyt…

EchoBird – 开源 AI Agent 桌面管理工具

EchoBird是什么 EchoBird 是开源 AI Agent 桌面管理工具，基于 Tauri + Rust 开发。工具通过 Model Nexus 模型中心，将 C…

MaineCoon – AI 实时音视频世界模型，专为社交互动场景

MaineCoon是什么 MaineCoon 是全球首个专为社交互动场景优化的实时音视频自回归世界模型。模型拥有 220 亿参数，能在单 GPU 上实现47.5 FPS …

AudioX-Turbo – Noiz AI 联合清华推出的音频生成框架

AudioX-Turbo是什么 AudioX-Turbo 是 Noiz AI 联合香港科技大学、清华大学推出的统一高效音频生成框架，支持文本、视频、音频任意组合输入生成高…

Agent Mail – 腾讯QQ邮箱推出的AI Agent专属邮箱服务

Agent Mail 是什么 Agent Mail 是腾讯QQ邮箱推出的AI Agent专属邮箱服务，与个人邮箱完全隔离，原生适配Agent框架。Agent可通过微信扫码…

VidMuse – Sand.ai 推出的 AI 音乐视频 Agent

VidMuse是什么 VidMuse 是 Sand.ai 推出的 AI 音乐视频 Agent。用户只需上传 Suno 链接或 MP3 文件，可自动生成 30–60 秒的音…

Spatial-TTT – 清华联合混元开源的流式视觉空间智能框架

Spatial-TTT是什么 Spatial-TTT 是清华大学、腾讯混元与南洋理工大学联合推出的流式视觉空间智能框架。框架仅 2B 参数，通过 Test-Time Tr…

豆包2.1 – 字节跳动推出的全新智能体模型系列

豆包2.1是什么 Seed 2.1 是字节跳动 Seed 团队推出的面向真实生产力场景的全新智能体模型系列，包含 Pro 与 Turbo 两个版本。模型以解决日常生活、专…

Boogu-Image-0.1 – Boogu开源的统一图像生成与编辑模型

Boogu-Image-0.1是什么 Boogu-Image-0.1 是 Boogu 团队开源的统一图像生成与编辑模型家族。模型在同一架构下同时支持文生图、指令式图像编辑…

豆包音频生成模型1.0 – 火山引擎推出的端到端音频创作模型

豆包音频生成模型1.0是什么豆包音频生成模型1.0（Seed-Audio 1.0）是火山引擎推出的端到端音频创作模型，支持文本或音频作为参考输入生成目标音频。模型单条P…

Seedance 2.5 – 字节跳动推出的最新视频生成模型

Seedance 2.5是什么 Seedance 2.5 是字节跳动旗下豆包视频生成模型的最新旗舰版本，预计 7 月初全面上线。作为 Seedance 2.0 的重大升级…

Unlimited-OCR – 百度开源的端到端长文档 OCR 模型

Unlimited-OCR是什么 Unlimited-OCR 是百度推出的端到端长文档 OCR 模型，通过 Reference Sliding Window Attent…

MMSkills – 上海交大与小红书联合推出的多模态技能框架

MMSkills是什么 MMSkills 是上海交通大学与小红书联合推出的面向通用视觉 Agent 的多模态技能框架，支持将可复用技能从纯文本步骤扩展为包含文本流程、运行…

Ornith-1.0 – DeepReinforce 开源的 Agentic 编程系列模型

Ornith-1.0是什么 Ornith-1.0 是 DeepReinforce 团队推出的专为 Agentic 编程任务设计的开源大模型系列，模型基于 Gemma 4 …

DSpark – DeepSeek 联合北京大学开源的推测解码加速框架

DSpark是什么 DSpark 是 DeepSeek 联合北京大学开源的推测解码加速框架，专门解决大模型自回归生成速度慢、像”挤牙膏”的痛点。采用半自回归生成架构，通过…

Confucius4-TTS – 网易有道开源的多语言语音合成引擎

Confucius4-TTS是什么 Confucius4-TTS 是网易有道开源的 1.3B 参数多语言语音合成引擎。模型只需 3 秒参考音频可零样本克隆音色，无需参考文…