站外新闻 – 第 87 页 – Prompt 语宙

站外新闻

5186 .

BiGR – 统一条件生成图像的模型框架，增强生成质量和表示能力

BiGR是什么 BiGR是一种新型的条件图像生成模型，用紧凑的二进制潜在代码进行生成训练，增强图像的生成质量和表示能力。作为首个在同一框架内统一生成和判别任务的模型，Bi…

MoE++ – 昆仑万维和北大联合推出的混合专家架构

MoE++是什么 MoE++是一种新型的混合专家（Mixture-of-Experts）架构，由昆仑万维2050研究院与北大袁粒团队联合推出。基于引入零计算量专家，零专家…

Granite 3.0 – IBM推出用于企业级应用的系列AI模型

Granite 3.0是什么 Granite 3.0 是 IBM 推出的一系列先进的AI模型，能在多个学术和企业基准测试中展现出卓越的性能。模型设计用在企业级应用，能执行…

Project Turntable – Adobe推出可旋转操作2D矢量图像的AI工具

Project Turntable是什么 Project Turntable是Adobe在2024年MAX大会上推出的一款创新AI工具。工具能让用户像操作3D对象一样旋转…

OmniAI – AI文档处理平台，支持多格式批量处理和信息提取

OmniAI是什么 OmniAI是一个强大的AI文档处理平台，基于先进的OCR技术，支持对PDF、DOCX、图片等多种文件格式进行快速处理和数据提取。平台支持用户轻松创建…

TaskWeaver – 微软推出代码优先的AI智能体框架

TaskWeaver是什么 TaskWeaver是由微软推出的一个代码优先的AI智能体框架，专注于无缝规划和执行数据分析任务。基于代码片段解释用户请求，高效协调各种插件（…

Stable Diffusion 3.5 – Stability AI最新开源的图像生成模型

Stable Diffusion 3.5是什么 Stable Diffusion 3.5是Stability AI公司最新推出的一系列先进的AI图像生成模型，包括Stab…

Mochi 1 – Genmo推出的开源高质量AI视频生成模型

Mochi 1是什么 Mochi 1是Genmo公司推出的开源AI视频生成模型，在动作质量和遵循用户提示方面表现出色。Mochi 1基于Apache 2.0许可证发布，支…

Claude 3.5 Haiku – Anthropic推出的响应最快的AI模型

Claude 3.5 Haiku是什么 Claude 3.5 Haiku 是 Anthropic 公司推出的一款新型人工智能模型，保持与前代 Claude 3 Haiku…

PUMA – 多粒度策略统一的多模态大语言模型

PUMA是什么 PUMA是一个先进的多模态大型语言模型（MLLM），旨在基于集成多粒度视觉特征统一和增强视觉生成和理解任务。PUMA能处理从文本到图像的生成、详细的图像编…

Janus – DeepSeek推出的自回归框架，统一多模态理解和生成任务

Janus是什么 Janus是一个由DeepSeek AI推出的自回归框架，旨在统一多模态理解和生成任务。将视觉编码分离成不同的路径解决以往方法的局限性，且用单一的变换器…

PaddleOCR 2.9 – 百度飞桨推出的新版开源光学字符识别（OCR）工具库

PaddleOCR 2.9 是什么 PaddleOCR 2.9是由百度飞桨（PaddlePaddle）推出的一款开源光学字符识别（OCR）工具库。提供丰富的算法和模型，支…

Mellum – JetBrains 推出专为开发者设计的大语言模型

Mellum是什么 Mellum 是 JetBrains 推出的一款专为开发者设计的大型语言模型（LLM），旨在提升 AI 驱动的开发工具。通过深度集成 JetBrain…

easegen – AI数字人课程制作平台，智能课件自动批量生成

easegen是什么 easegen是一个开源的AI+数字人课程制作项目，集成课程制作、视频管理、智能课件生成到智能出题的全套方案。项目支持PPT课件的批量自动生成、数字…

sCM – OpenAI推出连续时间一致性模型，两步采样生成高质量图像

sCM是什么 sCM是OpenAI推出的连续时间一致性模型，基于扩散模型原理进行改进。sCM简化理论框架和优化采样过程，实现图像生成速度的显著提升。sCM模型仅需两步采样…

Moonshine – 实时转录场景、低延时高准确的语音识别模型

Moonshine是什么 Moonshine是专为资源受限设备优化的语音识别模型，提供快速且准确的实时语音转文本服务。适于需要即时响应的应用场景，例如现场转录和语音命令识…