LCVD – 川大推出的光照可控肖像动画生成框架
LCVD是什么 LCVD(Lighting Controllable Video Diffusion Model)是四川大学推出的高保真、光照可控的肖像动画生成框架。LC…
LalaEval – 港中文联合货拉拉推出面向特定领域的模型评估框架
LalaEval是什么 LalaEval是香港中文大学和货拉拉数据科学团队共同推出的面向特定领域大语言模型(LLMs)的人类评估框架,框架通过一套完整的端到端协议,涵盖领…
H-Optimus-0 – 法国初创公司Bioptimus开源的病理学AI基础模型
H-Optimus-0是什么 H-Optimus-0是法国初创公司Bioptimus发布的世界上最大的开源病理学AI基础模型。模型拥有11亿参数,是在专有数据集上训练的,…
AudioX – 港科大联合月之暗面推出的扩散变换器模型,任意内容生成音频
AudioX是什么 AudioX 是香港科技大学和月之暗面联合提出的统一扩散变压器模型,专门用于从任意内容生成音频和音乐。模型能处理多种输入模态,包括文本、视频、图像、音…
Kokoro-TTS – 轻量级文本转语音模型,支持多语言多语音风格生成
Kokoro-TTS是什么 Kokoro-TTS 是 hexgrad 开发的轻量级文本转语音(TTS)模型,具有 8200 万参数。基于 StyleTTS 2 和 IST…
GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型
GPT‑5.3 Instant是什么 GPT‑5.3 Instant 是 OpenAI 推出的轻量级对话模型,专为优化日常聊天体验设计。模型显著改善”爱说教、太啰嗦”的机…
AG-UI – AI Agent与前端应用交互的开源协议
AG-UI是什么 AG-UI(Agent-User Interaction Protocol)是开源的、轻量级的、基于事件的协议,支持标准化AI Agent 与前端应用之…
MegaTTS 3 – 字节与浙江大学合作推出的零样本语音合成系统
MegaTTS 3是什么 MegaTTS 3是字节跳动与浙江大学合作推出的零样本文本到语音合成系统,采用轻量级扩散模型,参数量仅0.45B,能高效生成高质量语音。系统将语…
SurveyX – 人民大学联合悉尼大学等推出自动化生成学术综述的系统
SurveyX是什么 SurveyX 是基于大型语言模型(LLMs)自动化生成学术综述的系统,是中国人民大学、悉尼大学和中国东北大学联合推出的。基于用户提供论文标题和关键…
AIGCPanel- 开源的一站式AI虚拟数字人系统
AIGCPanel是什么 AIGCPanel是开源AI数字人系统,支持视频合成、声音合成和声音克隆等核心功能。系统基于TypeScript开发,跨平台兼容,遵循AGPL-…
STAR – 南大、字节、西南大学联合开源的现实世界视频超分辨率框架
STAR是什么 STAR是南京大学、字节跳动、西南大学联合推出的,创新的现实世界视频超分辨率(VSR)框架,能从低分辨率(LR)视频生成高分辨率(HR)视频,同时保持细节…
DragAnything – 快手联合浙大等机构开源的可控视频生成方法
DragAnything是什么 DragAnything 是快手联合浙江大学和新加坡国立大学 Show Lab推出的,基于实体表示的可控视频生成方法,基于简单的轨迹输入实…
GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型
GPT‑5.3‑Codex‑Spark是什么 GPT-5.3-Codex-Spark是OpenAI首个专为实时编程设计的轻量级模型,主打极致速度。模型运行在Cerebra…
Helix – Figure 推出的端到端通用控制模型
Helix是什么 Helix 是 Figure 推出的通用视觉-语言-动作(VLA)模型,用于人形机器人的控制。Helix首创性地实现对机器人整个上身(包括手腕、躯干、头…
LaWGPT – 南京大学推出的中文法律大语言模型
LaWGPT是什么 LaWGPT 是南京大学推出的中文法律大语言模型,基于 LLaMA 模型进行二次预训练,融入大量中文法律知识。专注于法律领域,能理解和生成与法律相关的…
VideoCaptioner – AI视频字幕处理工具,支持字幕样式调整和多格式导出
VideoCaptioner是什么 VideoCaptioner(中文名:卡卡字幕助手)是基于大语言模型(LLM)的智能字幕处理工具,能简化视频字幕的生成与优化流程。Vi…
