Kokoro-TTS – 轻量级文本转语音模型,支持多语言多语音风格生成
Kokoro-TTS是什么 Kokoro-TTS 是 hexgrad 开发的轻量级文本转语音(TTS)模型,具有 8200 万参数。基于 StyleTTS 2 和 IST…
GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型
GPT‑5.3 Instant是什么 GPT‑5.3 Instant 是 OpenAI 推出的轻量级对话模型,专为优化日常聊天体验设计。模型显著改善”爱说教、太啰嗦”的机…
AG-UI – AI Agent与前端应用交互的开源协议
AG-UI是什么 AG-UI(Agent-User Interaction Protocol)是开源的、轻量级的、基于事件的协议,支持标准化AI Agent 与前端应用之…
MegaTTS 3 – 字节与浙江大学合作推出的零样本语音合成系统
MegaTTS 3是什么 MegaTTS 3是字节跳动与浙江大学合作推出的零样本文本到语音合成系统,采用轻量级扩散模型,参数量仅0.45B,能高效生成高质量语音。系统将语…
SurveyX – 人民大学联合悉尼大学等推出自动化生成学术综述的系统
SurveyX是什么 SurveyX 是基于大型语言模型(LLMs)自动化生成学术综述的系统,是中国人民大学、悉尼大学和中国东北大学联合推出的。基于用户提供论文标题和关键…
AIGCPanel- 开源的一站式AI虚拟数字人系统
AIGCPanel是什么 AIGCPanel是开源AI数字人系统,支持视频合成、声音合成和声音克隆等核心功能。系统基于TypeScript开发,跨平台兼容,遵循AGPL-…
STAR – 南大、字节、西南大学联合开源的现实世界视频超分辨率框架
STAR是什么 STAR是南京大学、字节跳动、西南大学联合推出的,创新的现实世界视频超分辨率(VSR)框架,能从低分辨率(LR)视频生成高分辨率(HR)视频,同时保持细节…
DragAnything – 快手联合浙大等机构开源的可控视频生成方法
DragAnything是什么 DragAnything 是快手联合浙江大学和新加坡国立大学 Show Lab推出的,基于实体表示的可控视频生成方法,基于简单的轨迹输入实…
GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型
GPT‑5.3‑Codex‑Spark是什么 GPT-5.3-Codex-Spark是OpenAI首个专为实时编程设计的轻量级模型,主打极致速度。模型运行在Cerebra…
Helix – Figure 推出的端到端通用控制模型
Helix是什么 Helix 是 Figure 推出的通用视觉-语言-动作(VLA)模型,用于人形机器人的控制。Helix首创性地实现对机器人整个上身(包括手腕、躯干、头…
LaWGPT – 南京大学推出的中文法律大语言模型
LaWGPT是什么 LaWGPT 是南京大学推出的中文法律大语言模型,基于 LLaMA 模型进行二次预训练,融入大量中文法律知识。专注于法律领域,能理解和生成与法律相关的…
VideoCaptioner – AI视频字幕处理工具,支持字幕样式调整和多格式导出
VideoCaptioner是什么 VideoCaptioner(中文名:卡卡字幕助手)是基于大语言模型(LLM)的智能字幕处理工具,能简化视频字幕的生成与优化流程。Vi…
DeepMesh – 清华和南洋理工推出的 3D 网格生成框架
DeepMesh是什么 DeepMesh 是清华大学和南洋理工大学研究人员提出的 3D 网格生成框架,基于强化学习和自回归变换器生成高质量的 3D 网格。通过两项关键创新…
Step-R1-V-Mini – 阶跃星辰最新推出的多模态推理模型
Step-R1-V-Mini是什么 Step-R1-V-Mini 是阶跃星辰最新推出的多模态推理模型。支持图文输入和文字输出,具备良好的指令遵循和通用能力,能高精度感知图…
SepLLM – 基于分隔符压缩加速大语言模型的高效框架
SepLLM是什么 SepLLM是香港大学、华为诺亚方舟实验室等机构联合提出的用于加速大语言模型(LLM)的高效框架,通过压缩段落信息并消除冗余标记,显著提高了模型的推理…
Aligner – 北大推出的残差修正模型对齐技术
Aligner是什么 Aligner是北京大学团队提出的大语言模型对齐技术,通过学习对齐答案与未对齐答案之间的修正残差来提升模型性能。采用自回归的 seq2seq 模型,…
