Prompt 语宙Prompt 语宙
  • 首页
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • Remaker AI
    • Free Image Splitter
    • AIGC 工具
    • Prompt 咒语生成器
  • 社区
    • 知识星球
    • 公众号
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: V-JEPA:迈向 Yann LeCun 先进机器智能(AMI)愿景的新里程碑 [译]
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • Remaker AI
    • Free Image Splitter
    • AIGC 工具
    • Prompt 咒语生成器
  • 社区
    • 知识星球
    • 公众号
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > 强化 AI 学习 > V-JEPA:迈向 Yann LeCun 先进机器智能(AMI)愿景的新里程碑 [译]
强化 AI 学习

V-JEPA:迈向 Yann LeCun 先进机器智能(AMI)愿景的新里程碑 [译]

宝玉的分享
最近更新: 2025年3月20日 下午3:26
SHARE

阅读目录
精选推荐:深入解析 Video JEPA关于掩蔽的策略高效的预测方法未来的研究方向……以及走向通用人工智能(AMI)的路程

精选推荐:

  • I-JEPA:追随 Yann LeCun 对更具人性化 AI 愿景的首个 AI 模型探索
  • FAIR 十周年庆典:十年来通过开放研究不断推动技术前沿
  • Yann LeCun、Geoffrey Hinton 和 Yoshua Bengio 荣获图灵奖
  • 今日,我们骄傲地推出 Video Joint Embedding Predictive Architecture(V-JEPA)模型,这是实现机器智能进步、让机器更深入理解世界的关键一步。
  • 这款初步的物理世界模型在检测和理解物体间复杂互动方面表现卓越。
  • 我们以负责任的开放科学态度,将此模型以 Creative Commons 非商业许可发布,以便研究人员能够深入探究。

我们人类对周遭世界的认知大多来源于观察——尤其是在生命的早期阶段。就拿牛顿的第三定律来说:甚至婴儿或是猫,在将物品从桌上推下观察其落下后,都能直观感受到“物体上抛必将下落”的道理。这种认知不需长时间的教导或阅读海量书籍就能获得。你的内部世界模型——基于对世界的心理构建的理解——帮你预测了这一切,并且极其高效。

“V-JEPA 是让机器更实际理解世界、实现更广泛推理与规划能力的一大步。”Meta 的副总裁兼首席 AI 科学家 Yann LeCun 表示,他在 2022 年首次提出了 Joint Embedding Predictive Architectures(JEPA)概念。“我们旨在打造能够像人类一样学习、通过构建内部世界模型来适应和有效规划,以完成复杂任务的先进机器智能。”

深入解析 Video JEPA

V-JEPA 是一种非生成式模型,它通过在一个抽象的表示空间内预测视频的缺失或遮蔽部分来进行学习。这个过程与我们的 图像联合嵌入预测架构 (I-JEPA) 相似,后者通过比较图像的抽象表示来分析图像,而非直接比较像素。不同于那些试图精确填补每个缺失像素的生成式方法,V-JEPA 能够忽略那些不可预测的信息,从而在训练和样本效率上实现了 1.5 至 6 倍的显著提升。

由于采用了自监督学习的方法,V-JEPA 完全依靠未标记的数据进行预训练。只有在预训练完成后,才使用标签来让模型适应特定的任务。这种架构比先前的模型更为高效,无论是在所需的标记样本数量还是在处理未标记数据的学习努力上。通过 V-JEPA,我们在这两个方面都实现了效率的大幅提升。

在 V-JEPA 的应用中,我们会屏蔽视频的大部分内容,只向模型展示极少的上下文信息。然后,我们让预测器去填补缺失的内容 —— 不是以实际像素的形式,而是以更为抽象的描述来完成这一任务。

通过预测在一个学习到的潜在空间中的时空区域被遮蔽情况,V-JEPA 训练了一个视觉编码器。
通过预测在一个学习到的潜在空间中的时空区域被遮蔽情况,V-JEPA 训练了一个视觉编码器。

关于掩蔽的策略

V-JEPA 的训练并不旨在理解某一特定类型的动作,而是通过对各种视频进行自监督训练,从而学习到关于世界运作方式的多方面知识。团队也深思熟虑地选择了掩蔽策略:如果不遮盖视频的大片区域,仅仅是随机选取一些小片段进行遮蔽,这将使学习任务过于简单,导致模型无法学习到有关世界的复杂知识。

也很重要的一点是,在大多数视频中,随时间推移,画面变化通常较为缓慢。如果我们仅在视频的某一瞬间遮盖某部分,而让模型能看到这一瞬间之前和/或之后的内容,这样的任务对模型来说太简单了,几乎不会学到什么有趣的知识。因此,研究团队采取了一种同时在空间和时间上遮盖视频某部分的方法,这迫使模型学习并深入理解场景。

高效的预测方法

通过在抽象表示空间内进行预测,模型可以集中精力理解视频中包含的高层次概念信息,而不必担心通常对完成任务无关紧要的细节。毕竟,当一个视频显示一棵树时,我们不太可能关心每一片叶子的细微动作。

我们对这个新方向感到兴奋的一个原因是,V-JEPA 是首个在“冻结评估”方面表现良好的视频模型。所谓“冻结评估”,意味着我们完成了所有自我监督的预训练工作,主要针对编码器和预测器,之后就不再对这些部分进行调整了。当我们需要适配模型去学习新技能时,我们仅需在其上添加一个轻量级的专用层或小网络进行训练,这种方式既高效又快速。

在少量样本的冻结评估中,我们将 V-JEPA 与其他视频模型在 Kinetics-400 和 Something-Something-v2 数据集上进行了对比。这是在不同比例的标记样本可用于训练注意力探针的情况下进行的:我们尝试了使用训练集的 5%,10%,或 50% 的不同设置,并在每种设置下选取三个随机分组,以确保评估结果的稳定性,为每个模型进行了九次不同的评估实验。我们在官方的 K400 和 SSv2 验证集上汇报了平均成绩和标准偏差。与其他模型相比,V-JEPA 在标签效率上更胜一筹——具体来说,减少每个类别可用的标记样本数量使得 V-JEPA 与其他基线模型之间的性能差距更加明显。
在少量样本的冻结评估中,我们将 V-JEPA 与其他视频模型在 Kinetics-400 和 Something-Something-v2 数据集上进行了对比。这是在不同比例的标记样本可用于训练注意力探针的情况下进行的:我们尝试了使用训练集的 5%,10%,或 50% 的不同设置,并在每种设置下选取三个随机分组,以确保评估结果的稳定性,为每个模型进行了九次不同的评估实验。我们在官方的 K400 和 SSv2 验证集上汇报了平均成绩和标准偏差。与其他模型相比,V-JEPA 在标签效率上更胜一筹——具体来说,减少每个类别可用的标记样本数量使得 V-JEPA 与其他基线模型之间的性能差距更加明显。

在过去,要让模型精通某个具体任务,如精确识别细小的动作,我们需要对模型进行全面的调整,更新它的每一个参数。这样做会让模型变得只擅长这一个任务,而无法应对其他类型的任务。如果我们想让模型学习新的任务,就必须重新调整模型,并为新任务定制数据。但是,通过我们的新方法 V-JEPA,正如本研究所展示的,我们能够仅通过一次预训练,不需要任何标注的数据,就能使模型适应多种不同的任务,比如动作分类、识别复杂的对象互动以及活动的具体位置。

V-JEPA 是一种新颖的自我学习方法,能够通过观察视频自行学习信息,无需改变模型的结构,就可以应用于多种图像和视频分析任务。在进行图像分类、动作识别和时间空间动作检测等任务时,V-JEPA 的表现超越了之前的方法。
V-JEPA 是一种新颖的自我学习方法,能够通过观察视频自行学习信息,无需改变模型的结构,就可以应用于多种图像和视频分析任务。在进行图像分类、动作识别和时间空间动作检测等任务时,V-JEPA 的表现超越了之前的方法。

未来的研究方向…

虽然 V-JEPA 主要处理视频的视觉内容,但将声音纳入分析框架显然是下一步的方向。我们正在探索如何将声音和图像结合起来,以实现更全面的视频理解。

作为一个示例,V-JEPA 特别擅长于识别物体间的细节互动,如区分某人是在放下笔、拿起笔还是假装放下笔。尽管目前 V-JEPA 主要适用于短时间内的动作识别,我们正致力于扩展其在更长时间范围内进行预测和规划的能力。

…以及走向通用人工智能(AMI)的路程

迄今为止,我们利用 V-JEPA 主要研究的是感知问题,即通过解析各种视频流的内容,来理解我们所处周遭世界的一些基本情况。这个联合嵌入预测架构中的预测器,实际上是一种初步的物理世界模型:它能够在你无需完全观察画面的情况下,概念性地预告发生的事情。接下来,我们计划展示如何利用这种预测器或世界模型,来进行规划或连续的决策过程。

我们已经了解到,无需强化的监督,就可以训练 JEPA 模型来观察视频,就像婴儿一样被动地学习世界,从中吸取大量有关如何理解视频上下文的知识。这种方式意味着,仅凭少量的标注数据,就能迅速掌握新的任务和识别不同动作的能力。

V-JEPA 作为一个研究型模型,我们正探索其在未来可能的多种应用。比如,我们希望 V-JEPA 提供的上下文信息,能够助力我们的具身 AI 研究以及未来为 AR 眼镜打造的上下文感知 AI 助手项目。我们坚信开放科学的重要性,并且负责任地将 V-JEPA 模型以 CC BY-NC 许可证形式发布,以便让其他研究者能够在此基础上进一步开展研究。

点击此处阅读相关论文

点击此处获取代码

如何理解关于 OpenAI Q* 的流言 [译]
利用大语言模型开发先进的推理与规划算法 [译]
大语言模型在帮助医生获取信息方面效果如何?[译]
在本地运行 Mixtral 8×7 与 LlamaIndex [译]
浅显易懂地介绍 llm.c [译]
分享
Email 复制链接 打印
Share
上一篇 探索 Sora:视频制作的魔法 [译]
下一篇 微软为 iPhone 举行的葬礼 Gemini 与 Google 的文化观 [译]
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

OpenAI GPT-4.5 系统卡
强化 AI 学习
如何像人类一样进行代码评审(第二部分)
强化 AI 学习
模型即产品(The Model is the Product)
强化 AI 学习
使用大语言模型 (LLMs) 构建产品一年后的经验总结 [译]
强化 AI 学习

相关推荐

强化 AI 学习

大语言模型推理的价格战 – 靠规模取胜?[译]

宝玉的分享
强化 AI 学习

哪些信号表明该离开公司寻找新的工作机会了… [译]

宝玉的分享
强化 AI 学习

通向通用人工智能的里程碑:评估进展的新框架 [译]

宝玉的分享
强化 AI 学习

我听过的最棒的调试故事 [译]

宝玉的分享
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

3D AI AIGC AI人像 AI创作小助手 AI工具 AI换脸 AI海报设计 AI生成视频 AI绘画 AI视频 AI设计 app图标 chatgpt DALL-E3 excel GPT meta Midjourney openai Pika prompt runway SDXL stable diffusion UI设计 专业 丛林 乐高 人像 人物 光晕 动物 吉卜力 咒语 图标设计 圣诞 壁纸 女性 奶牛 实验室 宠物 客厅 室内设计 家居 局部重绘 展台 山景 帅哥 建筑 建筑设计 影谱科技 微摄影 怪物 提示词 摄影 教程 新闻 日本排放核污水 早报 星光 枯木 植物 模特 水果 泳池 海报 海报设计 清华大学 温馨的家 游戏 游戏美术 炫光 炫彩 玻璃 白茶花 矢量插画 研究报告 破碎 科幻 穿搭 窗 美食 背景 节日 芭比 花 花卉 茶园一角 草原 荷兰奶源 表情包 赛博朋克 超现实主义 软件 运动 金毛 风景 食物 香水
Prompt 语宙Prompt 语宙
Follow US
© 2009-2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Welcome Back!

Sign in to your account

Username or Email Address
Password

忘记密码