Ad image
Ad image

最近更新

Magma – 微软研究院联合华盛顿等高校推出的多模态AI基础模型

Magma是什么 Magma 是微软研究院推出的新型多模态AI基础模型,能为多模态人工智能代理(AI agents)提供通用能力。Magma能理解和执行多模态输入的任务,覆盖数字和物理环境。Magma基于大规模的视觉-语言数据和动作数据进行…

预计阅读时间: 14

MobileVD – 首个针对移动设备优化的视频扩散模型

MobileVD是什么 MobileVD(Mobile Video Diffusion)是首个针对移动设备优化的视频扩散…

SynthLight – 耶鲁大学联合 Adobe 推出的人像重照明技术

SynthLight是什么 SynthLight 是耶鲁大学和 Adobe Research 联合推出的基于扩散模型的人…

MetaStone-L1-7B – 元石智算推出的轻量级推理模型

MetaStone-L1-7B是什么 MetaStone-L1-7B 是 MetaStone 系列中的轻量级推理模型,专…

Titans – 谷歌推出的新型神经记忆架构

Titans是什么 Titans是谷歌推出的新型神经网络架构,能突破Transformer在处理长序列数据时的记忆瓶颈。…

LuminaBrush – AI光源绘制工具,手绘光影线条自动生成光影效果

LuminaBrush是什么 LuminaBrush 是用在图像上绘制照明效果的交互式工具。LuminaBrush基于 Flux 文生图项目,用两阶段方法:第一阶段将图像转换为“均匀照明”的外观,第二阶段根据用户涂鸦生成具体的照明效果。两阶段方法简化了学习过程,避免复杂的光传输约束。LuminaBrush 基于合成随机法线和重新照亮图像进行训练,能处理皮肤纹理、头发等细节。 LuminaBrush…

预计阅读时间: 11

NPOA – 开源舆情检测工具,实时监控网络舆情与分析

NPOA是什么 NPOA 是开源的功能强大的舆情监测工具,可以帮助用户实时监控网络舆情,了解公众对特定话题或品牌的看法。…

流畅阅读 – 开源AI浏览器翻译插件,支持双语对照显示

流畅阅读是什么 流畅阅读(FluentRead)是开源的浏览器翻译插件,致力于为用户提供类似母语的阅读体验。流畅阅读基于…

OWL – 开源多智能体协作系统,动态交互实现任务自动化

OWL是什么 OWL(Optimized Workforce Learning)是基于CAMEL-AI框架开发的多智能体…

Soundwave – 港中文深圳开源的语音理解大模型

Soundwave是什么 Soundwave是香港中文大学(深圳)开源的语音理解大模型,专注于语音与文本的智能对齐和理解…

SANA 1.5 – 英伟联合MIT、清北等机构推出的文生图新框架

SANA 1.5是什么 SANA 1.5是英伟达联合MIT、清华、北大等机构推出的新型高效的线性扩散变换器(Linear…

GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型

GPT‑5.3 Instant是什么 GPT‑5.3 Instant 是 OpenAI 推出的轻量级对话模型,专为优化日…