Soundwave – 港中文深圳开源的语音理解大模型
Soundwave是什么 Soundwave是香港中文大学(深圳)开源的语音理解大模型,专注于语音与文本的智能对齐和理解。通过创新的对齐适配器和压缩适配器技术,有效解决了…
SANA 1.5 – 英伟联合MIT、清北等机构推出的文生图新框架
SANA 1.5是什么 SANA 1.5是英伟达联合MIT、清华、北大等机构推出的新型高效的线性扩散变换器(Linear Diffusion Transformer),用…
GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型
GPT‑5.3 Instant是什么 GPT‑5.3 Instant 是 OpenAI 推出的轻量级对话模型,专为优化日常聊天体验设计。模型显著改善”爱说教、太啰嗦”的机…
HumanOmni – 阿里通义等推出专注人类中心场景的多模态大模型
HumanOmni是什么 HumanOmni 是专注于人类中心场景的多模态大模型,视觉和听觉模态融合而成。通过处理视频、音频或两者的结合输入,能全面理解人类行为、情感和交…
YuE – 港科大联合 M-A-P 推出的开源AI音乐生成模型
YuE是什么 YuE 是香港科技大学和 Multimodal Art Projection 团队联合开发的开源 AI 音乐生成模型。能将歌词转化为完整的歌曲,支持多种音乐…
X-Dyna – 字节联合斯坦福等高校推出的动画生成框架
X-Dyna是什么 X-Dyna 是基于扩散模型的动画生成框架,基于驱动视频中的面部表情和身体动作,将单张人类图像动画化,生成具有真实感和环境感知能力的动态效果。核心是 …
文心大模型4.5 – 百度推出的首个原生多模态大模型
文心大模型4.5是什么 文心大模型4.5是百度正式发布的最新一代首个原生多模态大模型,在多模态理解、文本和逻辑推理等方面有显著提升,多项测试表现优于GPT4.5。模型已上…
moonshot-v1-vision-preview – 月之暗面推出的多模态图片理解模型
moonshot-v1-vision-preview是什么 moonshot-v1-vision-preview 是月之暗面推出的多模态图片理解模型,模型完善了 moon…
MCA-Ctrl – 中科院和中科大推出的图像定制生成框架
MCA-Ctrl是什么 MCA-Ctrl(Multi-party Collaborative Attention Control)是中科院计算所和中国科学院大学的推出的图…
Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
Ming-flash-omni-2.0是什么 Ming-flash-omni-2.0是蚂蚁集团开源的全模态大模型,采用100B总参数/6B激活参数的MoE架构。作为业界S…
Wan2.1 – 阿里开源的AI视频生成大模型
Wan2.1是什么 Wan2.1是阿里云开源的AI视频生成大模型,具备强大的视觉生成能力。Wan2.1支持文生视频和图生视频任务,包含两种尺寸的模型,14B参数的专业版擅…
MinT – 生成顺序事件的文本转视频模型,灵活控制时间戳
MinT是什么 MinT(Mind the Time)是Snap Research、多伦多大学和向量研究所联合推出的多事件视频生成框架,基于精确的时间控制,根据文本提示生…
Ingredients – 多ID照片定制视频生成框架,基于多ID照片与视频扩散相结合
Ingredients是什么 Ingredients是强大的框架,基于将多个特定身份(ID)照片与视频扩散Transformer相结合,用在定制视频创作。Ingredie…
Long-VITA – 腾讯优图联合南大、厦大开源的多模态模型
Long-VITA是什么 Long-VITA 是腾讯优图实验室、南京大学、厦门大学开源的多模态模型,能处理超过100万tokens的长文本输入,在短文本任务中表现出色。L…
Muse – 微软研究院推出的生成式AI模型
Muse是什么 Muse是微软推出的首个用在游戏创意生成的生成式AI模型,基于“World and Human Action Model”(WHAM)。Muse能生成游戏…
TicVoice 7.0 – 出门问问推出的第七代语音合成引擎
TicVoice 7.0是什么 TicVoice 7.0 是出门问问推出的第七代高品质 TTS(语音合成)引擎,基于新一代语音生成模型 Spark-TTS 。TicVoi…
