SPRIGHT – 专注于空间关系的大型视觉语言数据集
SPRIGHT是什么 SPRIGHT(SPatially RIGHT)是亚利桑那州立大学 、Intel 实验室 、Hugging Face 、华盛顿大学等机构联合推出的,…
ENEL – 上海 AI Lab 推出的无编码器3D大型多模态模型
ENEL是什么 ENEL(Exploring the Potential of Encoder-free Architectures in 3D LMMs)是创新的无编码…
MoBA – Moonshot AI 提出的新型注意力机制
MoBA是什么 MoBA(Mixture of Block Attention)是 Moonshot AI 提出的新型注意力机制,提高大型语言模型(LLMs)处理长上下文…
BGE-VL – 智源研究院联合多所高校开源的多模态向量模型
BGE-VL是什么 BGE-VL 是北京智源研究院联合多所高校推出的多模态向量模型,基于大规模合成数据 MegaPairs 训练而成。BGE-VL专注于多模态检索任务,如…
MotionCanvas – 港中文和 Adobe 等机构推出的可控图像到视频生成方法
MotionCanvas是什么 MotionCanvas是香港中文大学、Adobe 研究院和莫纳什大学推出的图像到视频(I2V)生成方法,能将静态图像转化为具有丰富动态效…
VideoJAM – Meta 推出增强视频生成模型运动连贯性的框架
VideoJAM是什么 VideoJAM是Meta推出的,用在增强视频生成模型运动连贯性的框架。基于引入联合外观-运动表示,让模型在训练阶段同时学习预测视频的像素和运动信…
星火医疗大模型X1 – 讯飞医疗推出的深度推理大模型
星火医疗大模型X1是什么 星火医疗大模型X1是科大讯飞发布的深度推理大模型,专门针对医疗领域设计,具备强大的复杂问题处理能力。模型通过深度推理算法,能逐步解释循证过程,显…
DiffuEraser – 阿里通义实验室推出的视频修复模型
DiffuEraser是什么 DiffuEraser是基于稳定扩散模型的视频修复模型,以更丰富的细节和更连贯的结构填充视频中的遮罩区域。模型通过结合先验信息来提供初始化和…
GameFactory – 香港大学和快手联合推出的可泛化游戏场景框架
GameFactory是什么 GameFactory 是香港大学和快手科技联合提出的创新框架,解决游戏视频生成中的场景泛化难题。框架基于预训练的视频扩散模型,结合开放域视…
Prometheus – 浙大联合蚂蚁等高校推出的3D感知潜在扩散模型
Prometheus是什么 Prometheus是创新的3D感知潜在扩散模型,专门用于快速生成文本到3D场景的内容。能在几秒钟内完成对象和场景级别的3D生成,同时保持高质…
Step1X-3D – 阶跃星辰联合LightIllusions开源的3D资产生成框架
Step1X-3D是什么 Step1X-3D 是StepFun联合LightIllusions推出的高保真、可控的 3D 资产生成框架。基于严格的数据整理流程,从超过 5…
FantasyID – 阿里联合北邮大学推出的身份保持视频生成框架
FantasyID是什么 FantasyID 是阿里巴巴集团和北京邮电大学推出新型的身份保持视频生成(IPT2V)框架,基于增强人脸知识生成高质量的身份一致视频。Fant…
AutoRAG – 中科院开源的自主迭代检索模型
AutoRAG是什么 AutoRAG是中国科学院计算技术研究所(ICT/CAS)、中国科学院的人工智能安全重点实验室及中国科学院大学的研究人员共同推出的新型自主迭代检索模…
AnyCharV – 港中文联合清华等机构推出的角色可控视频生成框架
AnyCharV是什么 AnyCharV是香港中文大学、清华大学深圳国际研究生院、香港大学联合推出的角色可控视频生成框架,能将任意参考角色图像与目标驱动视频相结合,生成高…
ToddlerBot – 斯坦福大学开源的机器学习与人形机器人平台
ToddlerBot是什么 ToddlerBot是斯坦福大学开源的用在运动操作的开源机器学习与人形机器人平台,为高效收集大规模、高质量的训练数据设计。ToddlerBot…
混元图生视频 – 腾讯混元开源的图生视频模型
混元图生视频是什么 混元图生视频是腾讯混元推出的开源图生视频模型,用户可以通过上传一张图片进行简短描述,让图片动起来生成5秒的短视频。模型支持对口型、动作驱动和背景音效自…
