SketchVideo – 快手联合多所高校推出基于草图的视频生成与编辑框架
SketchVideo是什么 SketchVideo 是中国科学院大学,香港科技大学和快手可灵团队推出的基于草图的视频生成与编辑框架。在关键帧上绘制草图,结合文本提示,实…
OmniSQL – 开源文本到 SQL 模型,自然语言转换为 SQL 查询语句
OmniSQL是什么 OmniSQL 是开源的文本到 SQL 模型,将自然语言问题高效转换为 SQL 查询语句。通过创新的数据合成框架生成了首个百万量级的文本到 SQL …
TinyR1-Preview – 奇虎360联合北大团队推出的推理模型
TinyR1-Preview是什么 TinyR1-Preview是北京大学计算机学院与360公司联合推出的32B参数量的推理模型。模型仅用5%的参数量,逼近Deepsee…
ILLUME – 华为诺亚方舟实验室推出的统一多模态大模型
ILLUME是什么 ILLUME是华为诺亚方舟实验室提出的统一多模态大模型,将视觉理解与生成能力融入同一框架中。模型以大型语言模型(LLM)为核心,采用“连续图像输入 +…
TransPixar – 港中文联合 Adobe 等机构开源的生成透明背景视频技术
TransPixar是什么 TransPixar是香港中文大学、Adobe研究院 、香港科技大学和智能摩尔联合开源的,先进的文本到视频生成方法,扩展预训练的RGB视频模型…
KTransformers – 清华开源的大语言模型推理优化框架
KTransformers是什么 KTransformers是清华大学KVCache.AI团队联合趋境科技推出的开源项目,能优化大语言模型的推理性能,降低硬件门槛。KTr…
Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
Ming-flash-omni-2.0是什么 Ming-flash-omni-2.0是蚂蚁集团开源的全模态大模型,采用100B总参数/6B激活参数的MoE架构。作为业界S…
FlexTok – Apple 联合 EPFL 推出的图像处理技术
FlexTok是什么 FlexTok 是瑞士洛桑联邦理工学院(EPFL)和苹果公司联合开发的图像处理技术。通过将二维图像重新采样为一维离散标记序列(token seque…
AnythingLLM – 开源的全栈 AI 客户端,支持本地部署和API集成
AnythingLLM是什么 AnythingLLM 是开源免费且支持多模态交互的全栈 AI 客户端。AnythingLLM支持文本、图像和音频等多种输入方式,将任何文档…
MoshiVis – Kyutai 开源的多模态实时语音模型
MoshiVis是什么 MoshiVis 是 Kyutai 推出的开源多模态语音模型,基于 Moshi 实时对话语音模型开发,增加了视觉输入功能。能实现图像的自然、实时语…
NutWorld – 新加坡国立、南洋理工和Skywork AI推出的视频处理框架
NutWorld是什么 NutWorld是新加坡国立大学、南洋理工大学和Skywork AI推出的视频处理框架,能将日常单目视频高效地转换为动态3D高斯表示(Gaussi…
MagicColor – 香港科技大学推出的多实例线稿图着色框架
MagicColor是什么 MagicColor 是香港科技大学推出的多实例线稿图着色框架,支持高效地为线稿图添加色彩。MagicColor基于自监督训练策略和实例引导模…
LCVD – 川大推出的光照可控肖像动画生成框架
LCVD是什么 LCVD(Lighting Controllable Video Diffusion Model)是四川大学推出的高保真、光照可控的肖像动画生成框架。LC…
LalaEval – 港中文联合货拉拉推出面向特定领域的模型评估框架
LalaEval是什么 LalaEval是香港中文大学和货拉拉数据科学团队共同推出的面向特定领域大语言模型(LLMs)的人类评估框架,框架通过一套完整的端到端协议,涵盖领…
H-Optimus-0 – 法国初创公司Bioptimus开源的病理学AI基础模型
H-Optimus-0是什么 H-Optimus-0是法国初创公司Bioptimus发布的世界上最大的开源病理学AI基础模型。模型拥有11亿参数,是在专有数据集上训练的,…
AudioX – 港科大联合月之暗面推出的扩散变换器模型,任意内容生成音频
AudioX是什么 AudioX 是香港科技大学和月之暗面联合提出的统一扩散变压器模型,专门用于从任意内容生成音频和音乐。模型能处理多种输入模态,包括文本、视频、图像、音…
