VideoVAE+ – 香港科技大学推出的先进跨模态视频变分自编码器
VideoVAE+是什么 VideoVAE+(VideoVAE Plus)是香港科技大学团队推出的先进的跨模态视频变分自编码器(Video VAE),通过引入新的时空分离…
JoyCaption – 开源的图像提示词生成工具
JoyCaption是什么 JoyCaption 是开源的图像提示词生成工具,用于训练扩散模型。JoyCaption 涵盖广泛的图像风格、内容、种族、性别和取向,最小化过…
Social Media Agent – AI社交媒体内容管理工具,输入URL自动生成帖子
Social Media Agent是什么 Social Media Agent是智能的社交媒体内容管理工具,能帮用户收集、整理和安排发布社交媒体帖子,基于输入的URL内…
Agentic Reasoning – 牛津大学推出增强LLM推理能力的框架
Agentic Reasoning是什么 Agentic Reasoning是牛津大学推出的增强大型语言模型(LLM)推理能力的框架。基于整合外部工具(如网络搜索、代码执…
GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型
GPT‑5.3 Instant是什么 GPT‑5.3 Instant 是 OpenAI 推出的轻量级对话模型,专为优化日常聊天体验设计。模型显著改善”爱说教、太啰嗦”的机…
FireRedASR – 小红书开源的自动语音识别模型
FireRedASR是什么 FireRedASR 是小红书开源的工业级自动语音识别(ASR)模型家族,支持普通话、中文方言和英语,在普通话 ASR 基准测试中达到了新的最…
Gemini 2.0 Pro – 谷歌推出的高性能多模态AI模型
Gemini 2.0 Pro是什么 Gemini 2.0 Pro是Google推出的高性能实验版AI模型,专为编程性能和复杂提示处理优化。Gemini 2.0 Pro具备…
Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
Ming-flash-omni-2.0是什么 Ming-flash-omni-2.0是蚂蚁集团开源的全模态大模型,采用100B总参数/6B激活参数的MoE架构。作为业界S…
Fast3R – Meta 联合密歇根大学推出的多视图3D重建方法
Fast3R是什么 Fast3R是Meta和密歇根大学的研究人员提出的新型的多视图3D重建方法,基于Transformer架构,能在一个前向传播过程中处理1000多张图像…
SHMT – 阿里达摩院联合武汉理工等机构推出的自监督化妆转移技术
SHMT是什么 SHMT(Self-supervised Hierarchical Makeup Transfer)是阿里巴巴达摩院与武汉理工大学等机构联合研发的先进自监…
NVIDIA-Ingest – 英伟达开源的智能文档提取及结构化工具
NVIDIA-Ingest是什么 NVIDIA-Ingest是英伟达开源的用于解析复杂、混乱的非结构化PDF和其他企业文档的微服务集合。NVIDIA-Ingest能将文档…
Seedance 1.0 lite – 火山引擎推出的视频生成模型
Seedance 1.0 lite是什么 Seedance 1.0 lite是火山引擎推出的豆包视频生成模型的小参数量版本,支持文生视频和图生视频两种生成方式,支持生成5…
memobase – 基于用户画像的长期记忆系统
memobase是什么 memobase 是开源的基于用户画像的长期记忆系统,专为生成式人工智能应用设计。memobase能为虚拟助手、教育工具等应用提供用户记忆功能,帮…
Languine – 面向开发者自动化应用程序的多语言翻译 AI 工具
Languine是什么 Languine 是 AI 驱动的翻译工具,能帮助开发者简化应用程序的开发过程。Languine 基于智能检测、AI 翻译、自动化工作流程和开发者…
麦橘超然 – 麦橘推出的AI文生图模型,基于 Flux.1 架构
麦橘超然是什么 麦橘超然(MajicFlus)是麦橘推出的基于Flux.1架构的AI模型,专注于生成高质量的人像图像,擅长表现亚洲女性的细腻与美感。模型融合多种技术,能生…
Matrix-Zero – 昆仑万维推出的世界模型
Matrix-Zero是什么 Matrix-Zero是昆仑万维推出的世界模型,包含两款子模型:3D场景生成大模型和可交互视频生成大模型。Matrix-Zero能将用户输入…
