MCA-Ctrl – 中科院和中科大推出的图像定制生成框架
MCA-Ctrl是什么 MCA-Ctrl(Multi-party Collaborative Attention Control)是中科院计算所和中国科学院大学的推出的图…
Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
Ming-flash-omni-2.0是什么 Ming-flash-omni-2.0是蚂蚁集团开源的全模态大模型,采用100B总参数/6B激活参数的MoE架构。作为业界S…
Wan2.1 – 阿里开源的AI视频生成大模型
Wan2.1是什么 Wan2.1是阿里云开源的AI视频生成大模型,具备强大的视觉生成能力。Wan2.1支持文生视频和图生视频任务,包含两种尺寸的模型,14B参数的专业版擅…
MinT – 生成顺序事件的文本转视频模型,灵活控制时间戳
MinT是什么 MinT(Mind the Time)是Snap Research、多伦多大学和向量研究所联合推出的多事件视频生成框架,基于精确的时间控制,根据文本提示生…
Ingredients – 多ID照片定制视频生成框架,基于多ID照片与视频扩散相结合
Ingredients是什么 Ingredients是强大的框架,基于将多个特定身份(ID)照片与视频扩散Transformer相结合,用在定制视频创作。Ingredie…
Long-VITA – 腾讯优图联合南大、厦大开源的多模态模型
Long-VITA是什么 Long-VITA 是腾讯优图实验室、南京大学、厦门大学开源的多模态模型,能处理超过100万tokens的长文本输入,在短文本任务中表现出色。L…
Muse – 微软研究院推出的生成式AI模型
Muse是什么 Muse是微软推出的首个用在游戏创意生成的生成式AI模型,基于“World and Human Action Model”(WHAM)。Muse能生成游戏…
TicVoice 7.0 – 出门问问推出的第七代语音合成引擎
TicVoice 7.0是什么 TicVoice 7.0 是出门问问推出的第七代高品质 TTS(语音合成)引擎,基于新一代语音生成模型 Spark-TTS 。TicVoi…
LLaVA-Rad – 微软推出的小型多模态模型,专注于临床放射学报告生成
LLaVA-Rad是什么 LLaVA-Rad是微软研究院推出的小型多模态模型,专注于临床放射学报告生成。是LLaVA-Med项目的分支,特别是胸部X光(CXR)成像。基于…
Motia – AI Agent 开发框架,支持多种编程语言、一键部署智能体
Motia是什么 Motia 是专为软件工程师设计的 AI Agent 框架,简化 AI 智能体的开发、测试和部署过程。支持多种编程语言,如 Python、TypeScr…
ASAP – 卡内基梅隆大学联合英伟达推出的模拟与真实物理对齐框架
ASAP是什么 ASAP(Aligning Simulation and Real Physics)是卡内基梅隆大学和英伟达联合推出的,用在解决仿人机器人模拟与现实动力学…
GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
GPT‑5.4是什么 GPT-5.4是OpenAI推出的旗舰AI模型,定位为”专为专业工作设计的最强前沿模型”。模型首次将推理、编程、原生计算机操作、深度网页搜索和百万T…
Spark-TTS – AI文本转语音工具,支持中英零样本语音克隆
Spark-TTS是什么 Spark-TTS 是SparkAudio 团队开源的基于大型语言模型(LLM)的高效文本转语音(TTS)工具, 无需额外的生成模型,直接从 L…
VARGPT – 北大推出的多模态理解生成统一模型
VARGPT是什么 VARGPT是创新的多模态大语言模型,专注于视觉理解和生成任务。基于自回归框架,将视觉生成与理解统一在一个模型中,避免任务切换的复杂性。VARGPT在…
DeepSeek-R1 – DeepSeek推出的高性能AI推理模型,性能对标OpenAI o1正式版
DeepSeek-R1是什么 DeepSeek-R1是杭州深度求索公司 DeepSeek 推出的高性能AI推理模型,对标OpenAI的o1正式版。DeepSeek-R1推…
文心大模型X1 – 百度推出的深度思考模型
文心大模型X1是什么 文心大模型X1是百度推出的深度思考模型。具备“长思维链”,擅长中文知识问答、文学创作、逻辑推理等。X1增加了多模态能力,能理解和生成图片,能调用工具…
