Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: OpenVision – 加州大学开源的视觉编码器家族
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > OpenVision – 加州大学开源的视觉编码器家族
AIGC 资讯

OpenVision – 加州大学开源的视觉编码器家族

站外新闻
最近更新: 2026年6月7日 下午8:03
SHARE

OpenVision是什么

OpenVision是加州大学圣克鲁兹分校(UCSC)推出的完全开放、高效且灵活的高级视觉编码器家族,专注于多模态学习。提供从5.9M到632.1M参数的多种规模模型,适用于从边缘设备到高性能服务器的不同场景。OpenVision采用渐进式多阶段分辨率训练策略,训练效率比同类专有模型快2到3倍。在多模态基准测试中表现出色,与OpenAI的CLIP和SigLIP等模型相当。OpenVision支持8×8和16×16的可变大小patch,能灵活应对详细视觉理解或高效处理的需求。

阅读目录
  • OpenVision是什么
  • OpenVision的主要功能
  • OpenVision的技术原理
  • OpenVision的项目地址
  • OpenVision的应用场景

OpenVision

OpenVision的主要功能

  • 完全开放:数据集、训练配方和模型检查点全部公开,在Apache 2.0许可证下开源,促进了多模态研究的可重复性和透明度。
  • 模型规模多样:提供从5.9M到632.1M参数的视觉编码器,共有26种不同的模型,涵盖了从边缘设备到高性能服务器的各种部署需求。
  • 性能卓越:在多模态基准测试中,OpenVision的性能与OpenAI的CLIP和SigLIP等专有视觉编码器相当,在某些情况下超越了它们。
  • 训练效率高:通过渐进式多阶段分辨率训练策略,OpenVision在训练效率上比专有对手快2到3倍。
  • 灵活配置:支持8×8和16×16的可变大小patch,支持根据实际需求进行详细视觉理解或高效处理。

OpenVision的技术原理

  • 渐进式分辨率训练策略:OpenVision采用从低分辨率(如84×84)开始,逐步提高到高分辨率(如336×336或384×384)的训练方式。显著提高了训练效率,比CLIP和SigLIP快2到3倍,不损失下游性能。
  • 视觉编码器预训练:在预训练阶段,OpenVision的每个编码器会在三个连续的分辨率阶段进行训练。具体而言,不同变体的模型会根据其规模,在不同分辨率下进行训练,如Large、SoViT-400M和Huge变体分别在84×84、224×224,最终在336×336或384×384进行训练。预训练完成后,舍弃文本塔和解码器,仅保留视觉主干。
  • 多模态学习架构:OpenVision的模型架构主要由视觉编码器和文本编码器组成。视觉编码器负责提取图像的特征,文本编码器用于提取自然语言序列的特征。在训练过程中,模型通过图像-文本对的对比学习,最大化正样本对的相似度,最小化负样本对的相似度。
  • 优化轻量级系统和边缘计算应用:OpenVision与小型语言模型有效结合,构建低参数量的多模态模型。

OpenVision的项目地址

  • 项目官网:https://ucsc-vlaa.github.io/OpenVision/
  • Github仓库:https://github.com/UCSC-VLAA/OpenVision
  • HuggingFace模型库:https://huggingface.co/collections/UCSC-VLAA/openvision
  • arXiv技术论文:https://arxiv.org/pdf/2505.04601

OpenVision的应用场景

  • 多模态学习:OpenVision可以集成到多模态框架中,如LLaVA等,用于图像识别、视频分析和自然语言处理等任务。
  • 工业检测:OpenVision的高分辨率图像传感器和强大的处理能力适合用于工业检测,如缺陷检测、尺寸测量等。
  • 机器人视觉:通过集成高性能的图像传感器和处理芯片,OpenVision可以为机器人提供实时的视觉感知能力,支持路径规划、物体识别等任务。
  • 自动驾驶:在自动驾驶领域,OpenVision可以作为车载视觉系统,处理来自多个摄像头的图像数据,进行环境感知和决策。
  • 科研与教育:开源的特性使OpenVision成为科研人员和教育机构进行视觉计算研究和教学的理想平台。
字节跳动开源Lance 3B:仅30亿参数,一个模型同时搞定AI看图、写图、剪视频
ElevenLabs Music v2重磅更新:实现‘一曲多变’与商业版权无忧,AI音乐进入生产力时代
LDGen – 理想汽车推出的多语言文本到图像生成技术
AI颠覆开店选址!高德×钉钉悟空发布智能助手,告别‘蹲点’时代
GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
分享
Email 复制链接 打印
Share
上一篇 VLM-R1 – 浙大 Om AI Lab 推出的视觉语言模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

VLM-R1 – 浙大 Om AI Lab 推出的视觉语言模型
AIGC 资讯
StoryWeaver – 厦大和网易伏羲联合推出的统一故事可视化 AI 模型
AIGC 资讯
AutoDroid-V2 – 清华推出的移动端GUI自动化脚本代理
AIGC 资讯
PIKE-RAG – 微软亚洲研究院推出的检索增强型生成框架
AIGC 资讯

相关推荐

AIGC 资讯

AgentPrune – 同济联合港中文等机构推出的多智能体通信优化框架

站外新闻
AIGC 资讯

Goku – 港大和字节联合推出的最新视频生成模型

站外新闻
AI 工具AIGC 资讯

阿里通义重磅发布PrismAudio:全球首创分解式思维链V2A框架,0.63秒为视频智能配音

站外新闻
AIGC PrismAudio 大模型 视频生成音频 阿里通义
量子芯片科技感占位特色图
AI 工具AIGC 资讯

奔腾4惊现AI复活赛!2006年古董CPU硬扛Meta Llama 3大模型,每秒仅0.21 Token背后藏何玄机?

站外新闻
AI硬件兼容性 Llama 3 meta 奔腾4
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.