Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: OpenVision – 加州大学开源的视觉编码器家族
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > OpenVision – 加州大学开源的视觉编码器家族
AIGC 资讯

OpenVision – 加州大学开源的视觉编码器家族

站外新闻
最近更新: 2026年6月7日 下午8:03
SHARE

OpenVision是什么

OpenVision是加州大学圣克鲁兹分校(UCSC)推出的完全开放、高效且灵活的高级视觉编码器家族,专注于多模态学习。提供从5.9M到632.1M参数的多种规模模型,适用于从边缘设备到高性能服务器的不同场景。OpenVision采用渐进式多阶段分辨率训练策略,训练效率比同类专有模型快2到3倍。在多模态基准测试中表现出色,与OpenAI的CLIP和SigLIP等模型相当。OpenVision支持8×8和16×16的可变大小patch,能灵活应对详细视觉理解或高效处理的需求。

阅读目录
  • OpenVision是什么
  • OpenVision的主要功能
  • OpenVision的技术原理
  • OpenVision的项目地址
  • OpenVision的应用场景

OpenVision

OpenVision的主要功能

  • 完全开放:数据集、训练配方和模型检查点全部公开,在Apache 2.0许可证下开源,促进了多模态研究的可重复性和透明度。
  • 模型规模多样:提供从5.9M到632.1M参数的视觉编码器,共有26种不同的模型,涵盖了从边缘设备到高性能服务器的各种部署需求。
  • 性能卓越:在多模态基准测试中,OpenVision的性能与OpenAI的CLIP和SigLIP等专有视觉编码器相当,在某些情况下超越了它们。
  • 训练效率高:通过渐进式多阶段分辨率训练策略,OpenVision在训练效率上比专有对手快2到3倍。
  • 灵活配置:支持8×8和16×16的可变大小patch,支持根据实际需求进行详细视觉理解或高效处理。

OpenVision的技术原理

  • 渐进式分辨率训练策略:OpenVision采用从低分辨率(如84×84)开始,逐步提高到高分辨率(如336×336或384×384)的训练方式。显著提高了训练效率,比CLIP和SigLIP快2到3倍,不损失下游性能。
  • 视觉编码器预训练:在预训练阶段,OpenVision的每个编码器会在三个连续的分辨率阶段进行训练。具体而言,不同变体的模型会根据其规模,在不同分辨率下进行训练,如Large、SoViT-400M和Huge变体分别在84×84、224×224,最终在336×336或384×384进行训练。预训练完成后,舍弃文本塔和解码器,仅保留视觉主干。
  • 多模态学习架构:OpenVision的模型架构主要由视觉编码器和文本编码器组成。视觉编码器负责提取图像的特征,文本编码器用于提取自然语言序列的特征。在训练过程中,模型通过图像-文本对的对比学习,最大化正样本对的相似度,最小化负样本对的相似度。
  • 优化轻量级系统和边缘计算应用:OpenVision与小型语言模型有效结合,构建低参数量的多模态模型。

OpenVision的项目地址

  • 项目官网:https://ucsc-vlaa.github.io/OpenVision/
  • Github仓库:https://github.com/UCSC-VLAA/OpenVision
  • HuggingFace模型库:https://huggingface.co/collections/UCSC-VLAA/openvision
  • arXiv技术论文:https://arxiv.org/pdf/2505.04601

OpenVision的应用场景

  • 多模态学习:OpenVision可以集成到多模态框架中,如LLaVA等,用于图像识别、视频分析和自然语言处理等任务。
  • 工业检测:OpenVision的高分辨率图像传感器和强大的处理能力适合用于工业检测,如缺陷检测、尺寸测量等。
  • 机器人视觉:通过集成高性能的图像传感器和处理芯片,OpenVision可以为机器人提供实时的视觉感知能力,支持路径规划、物体识别等任务。
  • 自动驾驶:在自动驾驶领域,OpenVision可以作为车载视觉系统,处理来自多个摄像头的图像数据,进行环境感知和决策。
  • 科研与教育:开源的特性使OpenVision成为科研人员和教育机构进行视觉计算研究和教学的理想平台。
南洋理工等机构发布Sparc3D:突破3D生成瓶颈,实现高保真1024³分辨率建模
ENEL – 上海 AI Lab 推出的无编码器3D大型多模态模型
OpenAI重磅出击:ChatGPT广告管理器全面开放,中小企业低门槛入场抢占AI广告新蓝海
Kimi WebBridge深度解析:月之暗面如何用浏览器插件让AI Agent真正接管网页操作
可灵2.6重磅升级:快手AI视频生成模型实现音画同步,一键定制专属声线与复杂动作
分享
Email 复制链接 打印
Share
上一篇 VLM-R1 – 浙大 Om AI Lab 推出的视觉语言模型
下一篇 MiniMax-01 – MiniMax开源的全新系列模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

字节跳动发布SeedVR2:单步视频修复模型,以极低成本实现1080p高清画质革新
AI 工具 AIGC 资讯
北大微软联手突破:Next-Frame Diffusion实现30+FPS实时自回归视频生成,扩散模型与因果注意力新范式
AI 工具 AIGC 资讯
美团LLIA框架深度解析:实时音频驱动肖像视频生成,如何实现低延迟高保真交互?
AI 工具 AIGC 资讯
腾讯开源Hunyuan3D-2.1:工业级3D生成模型,支持PBR材质与多模态输入,1秒极速出图
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

Maestro – 开源的端到端自动化测试框架

站外新闻
AI 工具AIGC 资讯

智源研究院开源RoboBrain-X0:全球首个跨本体具身模型,零样本驱动多形态机器人

站外新闻
具身智能 智源研究院 机器人 跨本体泛化
AIGC 资讯

VoltAgent – 开源的AI Agent构建和编排框架

站外新闻
AI 工具AIGC 资讯

AutoMV: 多智能体协作开源AI系统,一键将歌曲生成节奏同步的音乐视频(附项目地址)

站外新闻
AI音乐视频生成 AutoMV 多智能体系统 开源AI工具 音画同步
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.