BAGEL – 字节跳动开源的多模态基础模型
BAGEL是什么 BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,其中70亿为活跃参数。采用混合变换器专家架构(MoT),通过两个独立编码器分别捕捉图像的像素…
Quasar Alpha – 支持百万 token 上下文的免费 AI 模型
Quasar Alpha是什么 Quasar Alpha 是支持 100 万 token 的超大上下文窗口的预发布版 AI 模型,可处理超长文本和复杂文档。代码生成能力出…
AvatarFX – Character.AI 推出的 AI 视频生成模型
AvatarFX是什么 AvatarFX 是 Character.AI 推出的先进 AI 视频生成模型。基于上传一张图片和选择声音,让角色瞬间“活起来”,实现说话、唱歌和…
VITA-Audio – 开源的端到端多模态语音大模型,低延迟、推理快
VITA-Audio是什么 VITA-Audio 是开源的端到端多模态语音大模型,具有低延迟、推理速度快的特点。通过轻量级的多模态交叉标记预测(MCTP)模块,可在首次前…
ObjectMover – 港大联合 Adobe 推出的新型图像编辑模型
ObjectMover是什么 ObjectMover 是香港大学和 Adobe Research 联合提出的新型图像编辑模型,解决图像中物体移动、插入和移除时出现的光照、…
PixelFlow – 港大联合 Adobe 推出的图像生成模型
PixelFlow是什么 PixelFlow 是香港大学和Adobe联合推出的图像生成模型,支持直接在像素空间中生成图像。PixelFlow基于高效的级联流建模,从低分辨…
Qwen2.5-Omni-3B – 阿里 Qwen 团队推出的轻量级多模态 AI 模型
Qwen2.5-Omni-3B是什么 Qwen2.5-Omni-3B 是阿里巴巴 Qwen 团队推出的轻量级多模态 AI 模型。是 Qwen2.5-Omni-7B 的精简…
OpenMemory MCP – 基于MCP协议的本地AI记忆共享工具
OpenMemory MCP是什么 OpenMemory MCP 是mem0推出的基于开放模型上下文协议(MCP)构建的开源工具,能解决 AI 工具记忆痛点,实现不同工具…
OmniCam – 浙大联合上海交大等高校推出的多模态视频生成框架
OmniCam是什么 OmniCam 是先进的多模态视频生成框架,通过摄像机控制实现高质量的视频生成。支持多种输入模态组合,用户可以提供文本描述、视频中的轨迹或图像作为参…
Miras – 谷歌推出的深度学习架构设计通用框架
Miras是什么 Miras是谷歌推出的用在深度学习架构设计的通用框架,特别是序列建模任务。Miras基于关联记忆和注意力偏差的概念,将Transformer、现代线性R…
Parakeet TDT 0.6B – 英伟达开源的自动语音识别模型
Parakeet TDT 0.6B是什么 Parakeet TDT 0.6B 是英伟达推出的开源自动语音识别(ASR)模型。采用FastConformer编码器和TDT解…
PhysGen3D – 清华等高校联合推出的单图创建交互式 3D 场景
PhysGen3D是什么 PhysGen3D 是创新的框架,能将单张图像转换为交互式的 3D 场景,生成具有物理真实感的视频。结合了基于图像的几何和语义理解以及基于物理的…
GPT-4.1 – OpenAI 推出新一代语言模型,支持百万 token 上下文
GPT-4.1是什么 GPT-4.1 是 OpenAI 最新推出的新一代语言模型,包含 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 三个版本。…
TesserAct – AI 4D具身世界模型,能预测3D场景的动态演变
TesserAct是什么 TesserAct 是创新的 4D 具身世界模型,能预测 3D 场景随时间的动态演变,响应具身代理的动作。通过训练 RGB-DN(RGB、深度和…
Graphiti – 开源AI动态知识图谱生成框架
Graphiti是什么 Graphiti 是为动态环境设计的 AI 知识图谱生成框架,为 AI 智能体构建能查询、具有时间感知能力的知识网络。Graphiti 能实时摄取…
AnimeGamer – 腾讯联合香港城市大学推出的动漫生活模拟系统
AnimeGamer是什么 AnimeGamer 是腾讯 PCG 和香港城市大学共同推出的无限动漫生活模拟系统。基于多模态大语言模型(MLLM),支持玩家基于开放式的语言…
