SpeechGPT 2.0-preview – 复旦大学推出的端到端实时语音交互模型
SpeechGPT 2.0-preview是什么 SpeechGPT 2.0-preview 是复旦大学 OpenMOSS 团队推出的拟人化实时交互系统,基于百万小时级中…
OmniThink – 浙大联合阿里通义实验室推出的深度思考机器写作框架
OmniThink是什么 OmniThink是浙江大学和阿里巴巴通义实验室联合开发的创新的机器写作框架,通过模拟人类的迭代扩展和反思过程,突破大型语言模型在机器写作中的知…
Command A – Cohere 推出的生成式 AI 模型
Command A是什么 Command A 是 Cohere 推出的最新生成式 AI 模型,专为企业级应用设计。Command A用高性能和低硬件成本为核心优势,能在两…
LlamaV-o1 – 多模态视觉推理模型,采用逐步推理学习方法解决复杂任务
LlamaV-o1是什么 LlamaV-o1是阿联酋穆罕默德·本·扎耶德人工智能大学等机构提出的新多模态视觉推理模型,提升大型语言模型的逐步视觉推理能力。引入视觉推理链基…
SketchVideo – 快手联合多所高校推出基于草图的视频生成与编辑框架
SketchVideo是什么 SketchVideo 是中国科学院大学,香港科技大学和快手可灵团队推出的基于草图的视频生成与编辑框架。在关键帧上绘制草图,结合文本提示,实…
OmniSQL – 开源文本到 SQL 模型,自然语言转换为 SQL 查询语句
OmniSQL是什么 OmniSQL 是开源的文本到 SQL 模型,将自然语言问题高效转换为 SQL 查询语句。通过创新的数据合成框架生成了首个百万量级的文本到 SQL …
TinyR1-Preview – 奇虎360联合北大团队推出的推理模型
TinyR1-Preview是什么 TinyR1-Preview是北京大学计算机学院与360公司联合推出的32B参数量的推理模型。模型仅用5%的参数量,逼近Deepsee…
ILLUME – 华为诺亚方舟实验室推出的统一多模态大模型
ILLUME是什么 ILLUME是华为诺亚方舟实验室提出的统一多模态大模型,将视觉理解与生成能力融入同一框架中。模型以大型语言模型(LLM)为核心,采用“连续图像输入 +…
TransPixar – 港中文联合 Adobe 等机构开源的生成透明背景视频技术
TransPixar是什么 TransPixar是香港中文大学、Adobe研究院 、香港科技大学和智能摩尔联合开源的,先进的文本到视频生成方法,扩展预训练的RGB视频模型…
KTransformers – 清华开源的大语言模型推理优化框架
KTransformers是什么 KTransformers是清华大学KVCache.AI团队联合趋境科技推出的开源项目,能优化大语言模型的推理性能,降低硬件门槛。KTr…
Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
Ming-flash-omni-2.0是什么 Ming-flash-omni-2.0是蚂蚁集团开源的全模态大模型,采用100B总参数/6B激活参数的MoE架构。作为业界S…
FlexTok – Apple 联合 EPFL 推出的图像处理技术
FlexTok是什么 FlexTok 是瑞士洛桑联邦理工学院(EPFL)和苹果公司联合开发的图像处理技术。通过将二维图像重新采样为一维离散标记序列(token seque…
AnythingLLM – 开源的全栈 AI 客户端,支持本地部署和API集成
AnythingLLM是什么 AnythingLLM 是开源免费且支持多模态交互的全栈 AI 客户端。AnythingLLM支持文本、图像和音频等多种输入方式,将任何文档…
MoshiVis – Kyutai 开源的多模态实时语音模型
MoshiVis是什么 MoshiVis 是 Kyutai 推出的开源多模态语音模型,基于 Moshi 实时对话语音模型开发,增加了视觉输入功能。能实现图像的自然、实时语…
NutWorld – 新加坡国立、南洋理工和Skywork AI推出的视频处理框架
NutWorld是什么 NutWorld是新加坡国立大学、南洋理工大学和Skywork AI推出的视频处理框架,能将日常单目视频高效地转换为动态3D高斯表示(Gaussi…
MagicColor – 香港科技大学推出的多实例线稿图着色框架
MagicColor是什么 MagicColor 是香港科技大学推出的多实例线稿图着色框架,支持高效地为线稿图添加色彩。MagicColor基于自监督训练策略和实例引导模…
