Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Keye-VL-2.0-30B-A3B – 快手开源的自研多模态大模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Keye-VL-2.0-30B-A3B – 快手开源的自研多模态大模型
AIGC 资讯

Keye-VL-2.0-30B-A3B – 快手开源的自研多模态大模型

站外新闻
最近更新: 2026年6月7日 下午6:08
SHARE

Keye-VL-2.0-30B-A3B是什么

Keye-VL-2.0-30B-A3B是快手开源的自研多模态大模型 ,为 30B 级主力基座。模型首次将 DSA 稀疏注意力引入多模态场景,支持 256K 超长上下文,实现小时级视频的毫秒级时序推理。在 TimeLens 基准测试中超越 Gemini-2.5-Pro 和 Gemini 3 Flash,首次解锁 Code、Tool、Search 等 Agent 协作机制,让模型从观察者进化为行动者。

阅读目录
  • Keye-VL-2.0-30B-A3B是什么
  • Keye-VL-2.0-30B-A3B的主要功能
  • Keye-VL-2.0-30B-A3B的技术原理
  • 如何使用Keye-VL-2.0-30B-A3B
  • Keye-VL-2.0-30B-A3B的核心优势
  • Keye-VL-2.0-30B-A3B的项目地址
  • Keye-VL-2.0-30B-A3B的同类竞品对比
  • Keye-VL-2.0-30B-A3B的应用场景

Keye-VL-2.0-30B-A3B

Keye-VL-2.0-30B-A3B的主要功能

  • 超长视频理解:支持 256K 超长上下文,可处理小时级视频序列并实现几乎无损的深度时序推理。
  • 时序因果推理:在连续时序流动中捕捉画面背后的因果链条,实现从”看见画面”到”读懂逻辑”的跨越。
  • 毫秒级帧级定位:具备手术刀般的细粒度解析能力,可对复杂工艺流程或游戏高光进行精确到时间戳的拆解。
  • 跨模态深度融合:同时处理视觉、音频与文本信息,实现多模态间的协同理解与深度语义对齐。
  • Agent 协作执行:首次解锁代码生成、工具调用与搜索等复杂场景的系统级自主协作与任务执行能力。
  • 高噪信息提纯:在复杂场景下精准捕捉关键帧并理清动态规律,有效过滤冗余信息并保留核心内容。

Keye-VL-2.0-30B-A3B的技术原理

  • DSA 稀疏注意力机制:首次将 DeepSeek Sparse Attention 引入多模态理解,结合稀疏注意力与针对性特征聚合破解超长视觉上下文的指数级算力瓶颈。
  • 超长上下文架构:采用 256K Token 级端到端架构,实现长视频序列的连贯深度感知而无需分段截断处理。
  • 细粒度时序理解引擎:通过帧级动作边界识别、动态视觉解析与音画协同建模,实现毫秒级精确时序定位与因果推断。
  • Agent 协作框架:集成 Code Interpreter、Tool Use 与 Search 能力,构建从多模态感知到逻辑推理再到工具执行的闭环决策系统。
  • 统一多模态特征融合:将视觉、音频与文本特征映射至共享表征空间,实现跨模态信息的深度语义对齐与联合推理。

如何使用Keye-VL-2.0-30B-A3B

  • 获取模型:可通过 GitHub、Hugging Face 或 ModelScope 下载完全开源的模型权重与部署文档。
  • 硬件准备:需要配备 H800 或同等算力显卡,并使用至少两张 GPU 进行多卡张量并行推理。
  • Docker 快速部署:直接拉取官方 Docker 镜像并运行,即可一键完成环境配置与模型加载。
  • 源码安装部署:依次克隆 Keye 定制版 SGLang、DeepGEMM 和 EffectiveKernels 三个依赖仓库并完成编译安装。
  • 启动推理服务:使用 SGLang 加载模型权重,设置张量并行参数并开启远程代码信任,即可在本地启动兼容 OpenAI 协议的 API 服务。
  • 调用 API:启动后通过标准 HTTP 请求发送视频与文本指令,模型将返回结构化的长视频理解结果或 Agent 执行输出。

Keye-VL-2.0-30B-A3B的核心优势

  • DSA 首次落地多模态:首次将 DeepSeek Sparse Attention 引入多模态理解场景,从根本上破解了超长视觉上下文带来的指数级算力瓶颈,实现小时级视频的高效推理。
  • 256K 超长上下文:支持高达 256K 的 Token 级超长上下文,可对小时级视频序列进行几乎无损的端到端深度感知,无需像传统模型那样分段截断处理。
  • 毫秒级帧级定位:具备手术刀般的细粒度时序解析能力,能够对复杂工艺流程、游戏高光等场景中的每一个关键动作进行精确到时间戳的拆解与定位。
  • 时序因果推理:超越简单的画面标签识别,在连续时序流动中捕捉因果链条,实现从”看见画面”到”读懂逻辑”的跨越,例如能从”雪地车祸”画面直接推断出”跟团优于自驾”的安全策略。
  • Agent 协作机制:Keye 系列首次解锁 Code、Tool、Search 等复杂场景的系统级自主协作与执行能力,让模型从被动的”观察者”进化为主动解决任务的”行动者”。

Keye-VL-2.0-30B-A3B的项目地址

  • GitHub仓库:https://github.com/Kwai-Keye/Keye
  • HuggingFace模型库:https://huggingface.co/Kwai-Keye/Keye-VL-2.0-30B-A3B

Keye-VL-2.0-30B-A3B的同类竞品对比

对比维度 Keye-VL-2.0-30B-A3B Gemini-2.5-Pro Gemini 3 Flash
所属公司 快手(Kuaishou) Google Google
模型规模 30B 未公开(Pro 级) 未公开(Flash 级)
核心架构 DSA 稀疏注意力 + 多模态融合 闭源多模态架构 闭源多模态架构
超长上下文 256K Token(小时级视频) 长上下文 长上下文
ActivityNet-TimeLens<
视频动作定位
mIoU 58.5 mIoU 58.1 mIoU 57.0
Charades-TimeLens<
日常动作时序解析
mIoU 58.4 — mIoU 61.2
QVHighlights-TimeLens<
高光时刻提取
mIoU 70.1 — mIoU 49.5
Agent 协作能力 首次解锁<
Code / Tool / Search
支持 支持
开源情况 完全开源<
(权重+代码+文档)
闭源 闭源

Keye-VL-2.0-30B-A3B的应用场景

  • 长视频内容理解:Keye-VL-2.0-30B-A3B 可对旅行 Vlog、纪录片、教学视频等小时级长视频进行深度时序因果推理,自动生成包含装备建议、预算规划、景点推荐及安全提示的完整结构化总结。
  • 工业流程分析:该模型能够以毫秒级精度定位复杂工艺视频中的关键动作节点,将制造流程精确拆解为多个阶段并标注时间戳,适用于工艺拆解、操作规范提取与质检流程优化。
  • 电竞与体育内容生产:基于视觉张力、音画协同及叙事逻辑的深度理解,模型可精准判定电竞或体育赛事视频中的高光时刻与情绪共鸣点,实现超越简单击杀提示的智能化精彩瞬间提取。
  • Agent 自动化任务:作为 Keye 系列首次解锁的协作机制,该模型支持代码生成、工具调用与多步骤搜索的系统级自主执行,能够完成从多模态感知到逻辑推理再到工具调用的复杂闭环任务。
  • 教育与培训:在实操教学场景中,模型可对学员操作视频进行毫秒级关键动作定位与步骤拆解,为教师提供精准的教学反馈与操作纠偏依据,辅助技能评估与课程优化。
200B+参数刷新SOTA!智象未来「原生全模态」旗舰模型HiDream-O1-Image-Pro深度解析
高考公平再升级!豆包、文心一言等主流AI大模型集体宣布:高考期间禁用拍题搜题功能
支付宝联手MiniMax、阶跃星辰打造AI原生支付基建,大模型国家队领跑智能体商业化
PawBench – 阿里通义推出的通用智能体评测基准
阿里通义Fun-ASR1.5重磅发布:单模型支持30语言+方言识别,MoE架构引领ASR新纪元
分享
Email 复制链接 打印
Share
上一篇 Guizang Social Card Skill – 歸藏开源的小红书图文优化Skill
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Guizang Social Card Skill – 歸藏开源的小红书图文优化Skill
AIGC 资讯
ForgeTrain – 面壁智能联合清华等开源的大模型预训练框架
AIGC 资讯
MAI-Image-2.5 – 微软推出的旗舰级文生图模型
AIGC 资讯
Step 3.7 Flash – 阶跃星辰开源的新一代 Flash 模型
AIGC 资讯

相关推荐

AI 工具AIGC 资讯

腾讯混元3D世界模型2.0全面开源:一键文图生3D场景,兼容UE/Unity引擎,性能对标商业产品

站外新闻
3D世界模型 3D高斯溅射 AIGC 开源大模型 腾讯混元
AIGC 资讯

Ethnic Influences in Asian Human relationships

lilizhu
AI 工具AIGC 资讯

国产大模型重磅突破!昆仑万维SkyClaw-v1.0 Agent模型发布:百万上下文、多步任务执行,性能直逼顶级旗舰

站外新闻
Agent 昆仑万维 长上下文
AIGC 资讯最新趋势

微软Build大会重磅出击:自研代码AI平价替代Claude,多场景模型矩阵挑战OpenAI

站外新闻
AI模型矩阵 Azure GitHub Copilot 微软 自研大模型
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 支付宝 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.