Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Keye-VL-2.0-30B-A3B – 快手开源的自研多模态大模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Keye-VL-2.0-30B-A3B – 快手开源的自研多模态大模型
AIGC 资讯

Keye-VL-2.0-30B-A3B – 快手开源的自研多模态大模型

站外新闻
最近更新: 2026年6月7日 下午6:08
SHARE

Keye-VL-2.0-30B-A3B是什么

Keye-VL-2.0-30B-A3B是快手开源的自研多模态大模型 ,为 30B 级主力基座。模型首次将 DSA 稀疏注意力引入多模态场景,支持 256K 超长上下文,实现小时级视频的毫秒级时序推理。在 TimeLens 基准测试中超越 Gemini-2.5-Pro 和 Gemini 3 Flash,首次解锁 Code、Tool、Search 等 Agent 协作机制,让模型从观察者进化为行动者。

阅读目录
  • Keye-VL-2.0-30B-A3B是什么
  • Keye-VL-2.0-30B-A3B的主要功能
  • Keye-VL-2.0-30B-A3B的技术原理
  • 如何使用Keye-VL-2.0-30B-A3B
  • Keye-VL-2.0-30B-A3B的核心优势
  • Keye-VL-2.0-30B-A3B的项目地址
  • Keye-VL-2.0-30B-A3B的同类竞品对比
  • Keye-VL-2.0-30B-A3B的应用场景

Keye-VL-2.0-30B-A3B

Keye-VL-2.0-30B-A3B的主要功能

  • 超长视频理解:支持 256K 超长上下文,可处理小时级视频序列并实现几乎无损的深度时序推理。
  • 时序因果推理:在连续时序流动中捕捉画面背后的因果链条,实现从”看见画面”到”读懂逻辑”的跨越。
  • 毫秒级帧级定位:具备手术刀般的细粒度解析能力,可对复杂工艺流程或游戏高光进行精确到时间戳的拆解。
  • 跨模态深度融合:同时处理视觉、音频与文本信息,实现多模态间的协同理解与深度语义对齐。
  • Agent 协作执行:首次解锁代码生成、工具调用与搜索等复杂场景的系统级自主协作与任务执行能力。
  • 高噪信息提纯:在复杂场景下精准捕捉关键帧并理清动态规律,有效过滤冗余信息并保留核心内容。

Keye-VL-2.0-30B-A3B的技术原理

  • DSA 稀疏注意力机制:首次将 DeepSeek Sparse Attention 引入多模态理解,结合稀疏注意力与针对性特征聚合破解超长视觉上下文的指数级算力瓶颈。
  • 超长上下文架构:采用 256K Token 级端到端架构,实现长视频序列的连贯深度感知而无需分段截断处理。
  • 细粒度时序理解引擎:通过帧级动作边界识别、动态视觉解析与音画协同建模,实现毫秒级精确时序定位与因果推断。
  • Agent 协作框架:集成 Code Interpreter、Tool Use 与 Search 能力,构建从多模态感知到逻辑推理再到工具执行的闭环决策系统。
  • 统一多模态特征融合:将视觉、音频与文本特征映射至共享表征空间,实现跨模态信息的深度语义对齐与联合推理。

如何使用Keye-VL-2.0-30B-A3B

  • 获取模型:可通过 GitHub、Hugging Face 或 ModelScope 下载完全开源的模型权重与部署文档。
  • 硬件准备:需要配备 H800 或同等算力显卡,并使用至少两张 GPU 进行多卡张量并行推理。
  • Docker 快速部署:直接拉取官方 Docker 镜像并运行,即可一键完成环境配置与模型加载。
  • 源码安装部署:依次克隆 Keye 定制版 SGLang、DeepGEMM 和 EffectiveKernels 三个依赖仓库并完成编译安装。
  • 启动推理服务:使用 SGLang 加载模型权重,设置张量并行参数并开启远程代码信任,即可在本地启动兼容 OpenAI 协议的 API 服务。
  • 调用 API:启动后通过标准 HTTP 请求发送视频与文本指令,模型将返回结构化的长视频理解结果或 Agent 执行输出。

Keye-VL-2.0-30B-A3B的核心优势

  • DSA 首次落地多模态:首次将 DeepSeek Sparse Attention 引入多模态理解场景,从根本上破解了超长视觉上下文带来的指数级算力瓶颈,实现小时级视频的高效推理。
  • 256K 超长上下文:支持高达 256K 的 Token 级超长上下文,可对小时级视频序列进行几乎无损的端到端深度感知,无需像传统模型那样分段截断处理。
  • 毫秒级帧级定位:具备手术刀般的细粒度时序解析能力,能够对复杂工艺流程、游戏高光等场景中的每一个关键动作进行精确到时间戳的拆解与定位。
  • 时序因果推理:超越简单的画面标签识别,在连续时序流动中捕捉因果链条,实现从”看见画面”到”读懂逻辑”的跨越,例如能从”雪地车祸”画面直接推断出”跟团优于自驾”的安全策略。
  • Agent 协作机制:Keye 系列首次解锁 Code、Tool、Search 等复杂场景的系统级自主协作与执行能力,让模型从被动的”观察者”进化为主动解决任务的”行动者”。

Keye-VL-2.0-30B-A3B的项目地址

  • GitHub仓库:https://github.com/Kwai-Keye/Keye
  • HuggingFace模型库:https://huggingface.co/Kwai-Keye/Keye-VL-2.0-30B-A3B

Keye-VL-2.0-30B-A3B的同类竞品对比

对比维度 Keye-VL-2.0-30B-A3B Gemini-2.5-Pro Gemini 3 Flash
所属公司 快手(Kuaishou) Google Google
模型规模 30B 未公开(Pro 级) 未公开(Flash 级)
核心架构 DSA 稀疏注意力 + 多模态融合 闭源多模态架构 闭源多模态架构
超长上下文 256K Token(小时级视频) 长上下文 长上下文
ActivityNet-TimeLens<
视频动作定位
mIoU 58.5 mIoU 58.1 mIoU 57.0
Charades-TimeLens<
日常动作时序解析
mIoU 58.4 — mIoU 61.2
QVHighlights-TimeLens<
高光时刻提取
mIoU 70.1 — mIoU 49.5
Agent 协作能力 首次解锁<
Code / Tool / Search
支持 支持
开源情况 完全开源<
(权重+代码+文档)
闭源 闭源

Keye-VL-2.0-30B-A3B的应用场景

  • 长视频内容理解:Keye-VL-2.0-30B-A3B 可对旅行 Vlog、纪录片、教学视频等小时级长视频进行深度时序因果推理,自动生成包含装备建议、预算规划、景点推荐及安全提示的完整结构化总结。
  • 工业流程分析:该模型能够以毫秒级精度定位复杂工艺视频中的关键动作节点,将制造流程精确拆解为多个阶段并标注时间戳,适用于工艺拆解、操作规范提取与质检流程优化。
  • 电竞与体育内容生产:基于视觉张力、音画协同及叙事逻辑的深度理解,模型可精准判定电竞或体育赛事视频中的高光时刻与情绪共鸣点,实现超越简单击杀提示的智能化精彩瞬间提取。
  • Agent 自动化任务:作为 Keye 系列首次解锁的协作机制,该模型支持代码生成、工具调用与多步骤搜索的系统级自主执行,能够完成从多模态感知到逻辑推理再到工具调用的复杂闭环任务。
  • 教育与培训:在实操教学场景中,模型可对学员操作视频进行毫秒级关键动作定位与步骤拆解,为教师提供精准的教学反馈与操作纠偏依据,辅助技能评估与课程优化。
微软开源VibeVoice:实时流式TTS新突破,5亿参数实现90分钟多说话者对话音频生成
腾讯CL-bench震撼发布:AI学习能力基准测试,GPT-5.1解决率仅23.7%暴露行业瓶颈
GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型
Kairos-HomeWorld – 大晓机器人推出的全屋三维可交互世界模型
DeepSeek-OCR开源:10倍压缩97%精度,高效文档处理迎来颠覆性突破
分享
Email 复制链接 打印
Share
上一篇 Guizang Social Card Skill – 歸藏开源的小红书图文优化Skill
下一篇 美团GEO营销门户 – 美团推出的生成式引擎优化平台
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

华为盘古大模型5.5震撼发布:7180亿参数Ultra MoE领衔,五大模型重塑产业智能
AI 工具 AIGC 资讯
腾讯清华重磅开源MindOmni:强化学习驱动的多模态推理生成模型,重塑视觉AI边界
AI 工具 AIGC 资讯
联影智能发布‘元智’医疗大模型:多模态融合,一次CT扫描诊断37种疾病
AI 工具 AIGC 资讯
Dive3D重磅发布:北大x小红书联手破解文本生成3D多样性难题,SIM损失取代KL散度实现模式突破
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

VideoMaker – 浙大联合腾讯和华为推出的零样本定制视频生成框架

站外新闻
AI 工具AIGC 资讯

育碧AI队友项目Teammates:用生成式AI重新定义游戏沉浸感与玩家交互体验

站外新闻
AI队友 Teammates 游戏AI 生成式AI 育碧
AIGC 资讯

Chatbox AI – 开源的AI客户端助手,支持多种主流AI模型

站外新闻
AIGC 资讯

AgentPrune – 同济联合港中文等机构推出的多智能体通信优化框架

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.