LightLab – 谷歌等机构推出的图像光源控制模型
LightLab是什么 LightLab是谷歌等机构推出的基于扩散模型的图像光源控制模型,能对单张图像中的光源进行细粒度的参数化控制。模型支持用户调整光源的强度和颜色,插…
GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
GPT‑5.4是什么 GPT-5.4是OpenAI推出的旗舰AI模型,定位为”专为专业工作设计的最强前沿模型”。模型首次将推理、编程、原生计算机操作、深度网页搜索和百万T…
PySpur – 开源 AI 代理构建工具,拖拽式构建 AI 工作流
PySpur是什么 PySpur 是开源的轻量级可视化 AI 智能体工作流构建器,简化 AI 系统的开发流程。基于拖拽式界面让用户能快速构建、测试和迭代 AI 工作流,无…
SEMIKONG – 专为半导体领域设计的大型语言模型
SEMIKONG是什么 SEMIKONG是专门为半导体行业定制的大型语言模型(LLM),是Aitomatic、FPT Software和东京电子有限公司联合推出的。基于深…
ArtCrafter – 清华联合鹏城实验室和联想共同推出的文本到图像风格迁移框架
ArtCrafter是什么 ArtCrafter是清华大学、鹏城实验室和联想研究院共同推出的文本到图像风格迁移框架,基于扩散模型,解决传统方法在风格表达、内容一致性和输出…
NPOA – 开源舆情检测工具,实时监控网络舆情与分析
NPOA是什么 NPOA 是开源的功能强大的舆情监测工具,可以帮助用户实时监控网络舆情,了解公众对特定话题或品牌的看法。系统基于先进的自然语言处理技术,可以分析大量的网络…
流畅阅读 – 开源AI浏览器翻译插件,支持双语对照显示
流畅阅读是什么 流畅阅读(FluentRead)是开源的浏览器翻译插件,致力于为用户提供类似母语的阅读体验。流畅阅读基于先进的AI技术,支持多种翻译引擎,包括传统机器翻译…
OWL – 开源多智能体协作系统,动态交互实现任务自动化
OWL是什么 OWL(Optimized Workforce Learning)是基于CAMEL-AI框架开发的多智能体协作系统,通过智能体之间的动态交互实现高效的任务自…
Soundwave – 港中文深圳开源的语音理解大模型
Soundwave是什么 Soundwave是香港中文大学(深圳)开源的语音理解大模型,专注于语音与文本的智能对齐和理解。通过创新的对齐适配器和压缩适配器技术,有效解决了…
SANA 1.5 – 英伟联合MIT、清北等机构推出的文生图新框架
SANA 1.5是什么 SANA 1.5是英伟达联合MIT、清华、北大等机构推出的新型高效的线性扩散变换器(Linear Diffusion Transformer),用…
GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型
GPT‑5.3 Instant是什么 GPT‑5.3 Instant 是 OpenAI 推出的轻量级对话模型,专为优化日常聊天体验设计。模型显著改善”爱说教、太啰嗦”的机…
HumanOmni – 阿里通义等推出专注人类中心场景的多模态大模型
HumanOmni是什么 HumanOmni 是专注于人类中心场景的多模态大模型,视觉和听觉模态融合而成。通过处理视频、音频或两者的结合输入,能全面理解人类行为、情感和交…
YuE – 港科大联合 M-A-P 推出的开源AI音乐生成模型
YuE是什么 YuE 是香港科技大学和 Multimodal Art Projection 团队联合开发的开源 AI 音乐生成模型。能将歌词转化为完整的歌曲,支持多种音乐…
X-Dyna – 字节联合斯坦福等高校推出的动画生成框架
X-Dyna是什么 X-Dyna 是基于扩散模型的动画生成框架,基于驱动视频中的面部表情和身体动作,将单张人类图像动画化,生成具有真实感和环境感知能力的动态效果。核心是 …
文心大模型4.5 – 百度推出的首个原生多模态大模型
文心大模型4.5是什么 文心大模型4.5是百度正式发布的最新一代首个原生多模态大模型,在多模态理解、文本和逻辑推理等方面有显著提升,多项测试表现优于GPT4.5。模型已上…
moonshot-v1-vision-preview – 月之暗面推出的多模态图片理解模型
moonshot-v1-vision-preview是什么 moonshot-v1-vision-preview 是月之暗面推出的多模态图片理解模型,模型完善了 moon…
