GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型
GPT‑5.3‑Codex‑Spark是什么 GPT-5.3-Codex-Spark是OpenAI首个专为实时编程设计的轻量级模型,主打极致速度。模型运行在Cerebra…
GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型
GPT‑5.3 Instant是什么 GPT‑5.3 Instant 是 OpenAI 推出的轻量级对话模型,专为优化日常聊天体验设计。模型显著改善”爱说教、太啰嗦”的机…
EliGen – 浙大联合阿里推出的新型实体级可控图像生成框架
EliGen是什么 EliGen是浙江大学和阿里巴巴集团联合开发的新型的实体级可控图像生成框架,通过引入区域注意力机制,无需额外参数即可将实体提示和任意形状的空间掩码无缝…
OCRmyPDF – 专为 PDF 文件转换为可搜索、可复制的文档AI工具
OCRmyPDF是什么 OCRmyPDF 是开源的命令行工具,专为将扫描的 PDF 文件转换为可搜索、可复制的文档。通过添加 OCR 文本层,将无法直接编辑的扫描 PDF…
Baichuan-M1-14B – 百川智能推出的行业首个开源医疗增强大模型
Baichuan-M1-14B是什么 Baichuan-M1-14B是百川智能推出的行业首个开源医疗增强大模型,医疗能力超越了更大参数量的Qwen2.5-72B,与o1-…
XMusic – 腾讯多媒体实验室自主研发的AI通用作曲框架
XMusic是什么 XMusic是腾讯多媒体实验室自主研发的AI通用作曲框架。用户只需上传视频、图片、文字、标签、哼唱等任意内容,XMusic能生成情绪、曲风、节奏可控的…
FaceLift – Adobe 联合加州大学推出的单张图像到 3D 头部模型生成技术
FaceLift是什么 FaceLift是Adobe和加州大学默塞德分校推出的单图像到3D头部模型的转换技术,能从单一的人脸图像中重建出360度的头部模型。FaceLif…
Chinese-LiPS – 智源研究院联合南大开源的中文多模态语音识别数据集
Chinese-LiPS是什么 Chinese-LiPS 是智源研究院联合南开大学共同打造的高质量中文多模态语音识别数据集,包含100小时的语音、视频和手动转录文本,创新…
Inf-DiT – 清华联合智谱 AI 推出的超高分辨率图像生成模型
Inf-DiT是什么 Inf-DiT 是清华大学、智谱AI 推出基于扩散模型的图像上采样方法,能生成超高分辨率图像。Inf-DiT引入单向块注意力机制(UniBA),将生…
优云智算 – UCloud 旗下 GPU 算力租赁平台
优云智算是什么 优云智算是UCloud优刻得旗下的GPU算力租赁平台,专注于为AI应用提供高效、灵活的算力资源。支持按需租赁,满足不同项目需求。平台拥有丰富的镜像社区,提…
Praison AI – 开源AI多智能体框架,低代码创建和管理AI代理
Praison AI是什么 Praison AI 是生产级的多智能体框架,基于低代码解决方案创建和管理AI代理,用自动化和解决从简单到复杂的任务。Praison AI 支…
GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
GPT‑5.4是什么 GPT-5.4是OpenAI推出的旗舰AI模型,定位为”专为专业工作设计的最强前沿模型”。模型首次将推理、编程、原生计算机操作、深度网页搜索和百万T…
Hibiki – Kyutai Labs 推出的实时语音翻译模型
Hibiki是什么 Hibiki是Kyutai Labs开源的用在同时语音翻译的解码器模型,能实时将一种语言的语音翻译成另一种语言的语音或文本。Hibiki基于多流语言模…
node-DeepResearch – Deep Research开源复现版 AI Agent,支持多步推理和复杂查询
node-DeepResearch是什么 node-DeepResearch 是开源的 AI 智能体项目,基于持续搜索和阅读网页,用 Gemini 语言模型和 Jina …
CogVideoX-2 – 智谱 AI 推出的文本到视频生成模型
CogVideoX-2是什么 CogVideoX-2是智谱 AI 推出的文本到视频生成模型,基于先进的 3D 变分自编码器(VAE),将视频数据压缩到原本的 2%,减少资…
Seaweed APT – 字节跳动推出的单步图像和视频生成项目
Seaweed APT是什么 Seaweed APT是字节跳动推出的对抗性后训练(Adversarial Post-Training)模型,能实现图像和视频的一站式生成。…
