Open Computer Agent – Hugging Face 推出的免费云端 AI Agent 工具
Open Computer Agent是什么 Open Computer Agent 是 Hugging Face 推出的免费云端 AI Agent 工具。支持在 Lin…
ModelEngine – 华为开源的全流程 AI 开发工具链
ModelEngine是什么 ModelEngine 是华为开源的全流程 AI 开发工具链,围绕数据使能、模型使能和应用使能三大核心功能展开,解决 AI 行业化落地过程中…
BrowseComp – OpenAI 开源的 AI Agent 网络浏览能力基准
BrowseComp是什么 BrowseComp 是 OpenAI 开源的用于评估 AI Agent网络浏览能力的基准测试。包含 1266 个极具挑战性的问题,覆盖电影、…
AVD2 – 清华联合复旦等机构推出的自动驾驶事故视频理解与生成框架
AVD2是什么 AVD2(Accident Video Diffusion for Accident Video Description)是清华大学联合香港科技大学、吉林…
Gemini Robotics – 谷歌 DeepMind 推出的具身智能大模型
Gemini Robotics是什么 Gemini Robotics 是谷歌 DeepMind 推出的基于 Gemini 2.0 的机器人项目,将大型多模态模型的能力引入…
Orpheus TTS – 开源AI语音合成系统,支持多种语音风格
Orpheus TTS是什么 Orpheus TTS 是基于 Llama-3b 架构的开源文本到语音(TTS)系统。Orpheus TTS 支持生成自然、富有情感且接近人…
Spatial-RAG – 埃默里大学等机构推出的空间推理能力框架
Spatial-RAG是什么 Spatial-RAG(Spatial Retrieval-Augmented Generation)是美国埃默里大学、德克萨斯大学奥斯汀分…
Speech-02 – MiniMax 推出的新一代文本转语音模型
Speech-02是什么 Speech-02 是 MiniMax 推出的新一代文本到语音(TTS)模型。模型基于回归 Transformer 架构,实现零样本语音克隆,仅…
Dolphin – 清华联合海天瑞声推出的语音识别大模型
Dolphin是什么 Dolphin是清华大学电子工程系语音与音频技术实验室联合海天瑞声共同推出的面向东方语言的语音大模型。支持40个东方语种的语音识别,中文语种涵盖22…
HippoRAG 2 – 俄亥俄州立大学推出的检索增强生成框架
HippoRAG 2是什么 HippoRAG 2是俄亥俄州立大学推出的检索增强生成(RAG)框架,解决现有RAG系统在模拟人类长期记忆动态性和关联性方面的局限性。Hipp…
xAI被曝曾利用Claude输出数据训练编码模型,因Anthropic撤销权限转入地下提取
埃隆·马斯克(Elon Musk)旗下的 AI 初创公司xAI近日被曝在过去数月内,直接利用 Anthropic 公司的旗舰模型 Claude 的输出数据来训…
从基本变量预测到复杂现象死磕!全球海洋现象智能预报大模型“琅琊”2. 0 正式发布
人工智能正在深度重构人类对复杂海洋现象的预报与认知能力。 6 月 6 日,第四届中国数字地球大会在山东青岛正式开幕。在本次大会上,由中国科学院海洋研究所自主研发的全球海洋…
Gemma 3 QAT – 谷歌推出的最新开源模型,Gemma 3 量化版
Gemma 3 QAT是什么 Gemma 3 QAT(Quantization-Aware Training)是谷歌推出的最新一代开源模型,是Gemma 3 的量化优化版…
Llasa TTS – 香港科技大学开源的文本转语音模型
Llasa TTS是什么 Llasa TTS 是香港科技大学基于 LLaMA 架构推出的开源文本转语音(TTS)模型,支持高质量语音合成和克隆。Llasa TTS 基于单…
Gemini 2.0 Flash – Google推出的多模态 AI 模型
Gemini 2.0 Flash是什么 Gemini 2.0 Flash是Google推出的多模态AI模型,结合文本理解和图像生成能力。根据自然语言输入生成高质量的图像,…
Absolute Zero – 清华大学等机构推出的语言模型推理训练方法
Absolute Zero是什么 Absolute Zero是清华大学 LeapLab 团队联合北京通用人工智能研究院 NLCo 实验室和宾夕法尼亚州立大学推出的全新语言…
