Skywork R1V – 昆仑万维开源的多模态思维链推理模型
Skywork R1V是什么 Skywork R1V是昆仑万维开源的首款工业界多模态思维链推理模型,具备强大的视觉链式推理能力。Skywork R1V能对视觉输入进行多步…
CogView-3-Flash – 智谱推出的首个免费AI图像生成模型
CogView-3-Flash 是什么 CogView-3-Flash 是智谱推出的首个免费AI图像生成模型,能根据文本描述生成高审美分数的图像,支持多种分辨率,满足专业…
文心大模型X1 Turbo – 百度推出的最新深度思考型模型
文心大模型X1 Turbo是什么 文心大模型X1 Turbo是百度推出的深度思考型模型,是文心大模型4.5 Turbo的升级版本,具备更先进的思维链和深度思考理能力,擅长…
DanceGRPO – 字节Seed联合港大推出的统一视觉生成强化学习框架
DanceGRPO是什么 DanceGRPO 是字节跳动 Seed 和香港大学联合推出的首个统一视觉生成强化学习框架。将强化学习应用在视觉生成领域,覆盖两大生成范式(di…
AI-ClothingTryOn – AI虚拟试穿应用,支持生成多版本试衣效果
AI-ClothingTryOn是什么 AI-ClothingTryOn 是基于 Python 的桌面应用程序,用 Google Gemini AI 技术实现虚拟试衣功能…
Phi-4-Multimodal – 微软最新推出的多模态语言模型
Phi-4-Multimodal是什么 Phi-4-Multimodal 是微软最新推出的多模态语言模型,拥有 56 亿参数,能将语音、视觉和文本处理集成到一个统一架构中…
阿里巴巴宣布大模型组织架构升级,成立Token Foundry事业部并设立AI未来研究院
阿里巴巴今日宣布对AI业务组织架构进行重大升级,合并通义大模型事业部与未来生活实验室,正式成立Token Foundry事业部,由集团CEO吴泳铭直接负责。同时,阿里巴巴…
影视圈又一重磅联手!生数科技牵手华策,加速 AI 视频从“创意辅助”迈向“真实生产”
随着生成式 AI 的浪潮席卷内容产业,影视行业的生产范式正经历前所未有的重构。 6 月 7 日,在桐庐举办的华策 AIGC 高科技影视创制中心启航活动上,人工智能领域的新…
Step-Video-T2V – 阶跃星辰开源的文本到视频模型
Step-Video-T2V是什么 Step-Video-T2V 是阶跃星辰团队推出的开源文本到视频预训练模型,拥有 300 亿参数,能生成长达 204 帧的高质量视频。…
OpenAI o4-mini – OpenAI推出的小型推理模型
OpenAI o4-mini是什么 OpenAI o4-mini 是OpenAI推出的小型推理模型,专为快速、经济高效的推理而优化。OpenAI o4-mini 在数学、…
Kairos-HomeWorld – 大晓机器人推出的全屋三维可交互世界模型
Kairos-HomeWorld是什么 Kairos-HomeWorld 是大晓机器人联合香港中文大学与深圳河套学院推出的全球首个全屋三维可交互世界模型。模型通过四阶段分…
AgentSociety – 清华大学推出的社会模拟器
AgentSociety是什么 AgentSociety 是清华大学推出的基于大语言模型(LLM)的社会模拟器,通过构建具有“类人心智”的智能体来模拟复杂的社会行为和现象…
ABot-Earth0.5 – 高德推出的全球首个3D原生城市世界模型
ABot-Earth0.5 是什么 ABot-Earth0.5是阿里巴巴集团旗下高德推出的全球首个3D原生城市世界模型,定位为自动化3D城市工厂。用户输入单张卫星图像或文…
DoraCycle – 新加坡国立大学推出多模态领域适应的统一生成模型
DoraCycle是什么 DoraCycle 是新加坡国立大学 Show Lab 推出多模态领域适应的统一生成模型,通过两个多模态循环(text-to-image-to-…
HumanDiT – 浙大联合字节推出的姿态引导人体视频生成框架
HumanDiT是什么 HumanDiT 是浙江大学和字节跳动联合提出的姿态引导的高保真人体视频生成框架。基于扩散变换器(Diffusion Transformer,Di…
ReasonIR-8B – Meta AI 推出专为推理密集型检索任务设计的模型
ReasonIR-8B是什么 ReasonIR-8B 是 Meta AI 推出的专为推理密集型检索任务设计的模型。基于 LLaMA3.1-8B 训练,采用双编码器架构,将…
