Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 智谱开源GLM-4.5V:106B参数视觉推理新标杆,代码复刻、视频理解多场景实测
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 智谱开源GLM-4.5V:106B参数视觉推理新标杆,代码复刻、视频理解多场景实测
AI 工具AIGC 资讯

智谱开源GLM-4.5V:106B参数视觉推理新标杆,代码复刻、视频理解多场景实测

站外新闻
最近更新: 2026年6月7日 下午8:22
GLM-4.5V 多模态大模型 开源模型 智谱AI 视觉推理模型
SHARE

💡 站外导读:随着多模态AI的浪潮席卷而来,视觉理解与推理能力正成为衡量下一代大模型智能的核心标尺。行业亟需能够深度融合文本与视觉信息、解决复杂现实场景任务的强大基座。智谱AI开源的GLM-4.5V模型应运而生,它以106B的庞大参数规模与高效的12B激活设计,在多项权威基准测试中取得领先成绩,直击开发者在前端代码生成、视频内容分析、游戏交互等具体场景中的效率与智能化痛点。

GLM-4.5V是什么

GLM-4.5V是智谱推出的最新一代视觉推理模型。模型基于106B参数规模构建,拥有12B激活能力,是目前领先的视觉语言模型(VLM)。模型在GLM-4.1V-Thinking的基础上升级而来,继承其优秀架构,结合新一代文本基座模型GLM-4.5-Air进行训练。模型在视觉理解、推理能力上表现卓越,适用网页前端复刻、grounding、图寻游戏、视频理解等场景,有望推动多模态应用的进一步发展。为帮助开发者直观体验 GLM-4.5V 的强大能力并打造专属多模态应用,团队开源了一款桌面助手应用,能实时截屏、录屏,借助 GLM-4.5V 模型处理代码辅助、视频分析、游戏解答、文档解读等多种视觉任务。

阅读目录
  • GLM-4.5V是什么
  • GLM-4.5V的主要功能
  • GLM-4.5V的技术原理
  • GLM-4.5V的性能表现
  • GLM-4.5V的项目地址
  • 如何使用GLM-4.5V
  • GLM-4.5V的API 调用价格
  • GLM-4.5V的应用场景
      • 📝 站长洞察 (Editor’s Insight)

GLM-4.5V

GLM-4.5V的主要功能

  • 视觉理解与推理:能理解和分析图像、视频等视觉内容,进行复杂的视觉推理任务,例如识别物体、场景、人物关系等。
  • 多模态交互:支持文本与视觉内容的融合处理,例如根据文本描述生成图像,或者根据图像生成文本描述。
  • 网页前端复刻:根据网页设计图生成前端代码,实现快速的网页开发。
  • 图寻游戏:支持基于图像的搜索和匹配任务,例如在复杂场景中找到特定目标。
  • 视频理解:支持分析视频内容,提取关键信息,进行视频摘要、事件检测等任务。
  • 跨模态生成:支持从视觉内容生成文本,或者从文本生成视觉内容,实现多模态内容的无缝转换。

GLM-4.5V的技术原理

  • 大规模预训练:模型基于106B参数的预训练架构,用海量的文本和视觉数据进行训练,学习语言和视觉的联合表示。
  • 视觉语言融合:采用Transformer架构,将文本和视觉特征进行融合,基于交叉注意力机制实现文本与视觉信息的交互。
  • 激活机制:模型设计12B激活参数,用在推理过程中动态激活相关的参数子集,提高计算效率和推理性能。
  • 结构继承与优化:继承GLM-4.1V-Thinking的优秀结构,结合新一代文本基座模型GLM-4.5-Air进行训练,进一步提升性能。
  • 多模态任务适配:基于微调和优化,模型能适应多种多模态任务,例如视觉问答、图像描述生成、视频理解等。

GLM-4.5V的性能表现

  • General VQA:GLM-4.5V在通用视觉问答任务中表现最佳,尤其在MMBench v1.1基准测试中得分高达88.2。
  • STEM:GLM-4.5V在科学、技术、工程和数学相关任务中同样领先,例如在MathVista测试中获得84.6的高分。
  • Long Document OCR & Chart:在处理长文档和图表的OCRBench测试中,GLM-4.5V以86.5分展现卓越的性能。
  • Visual Grounding:GLM-4.5V在视觉定位任务上表现突出,RefCOCO+loc (val)测试得分为91.3。
  • Spatial Reasoning:在空间推理能力方面,GLM-4.5V在CV-Bench测试中取得87.3分的优异成绩。
  • Coding:在编程任务中,GLM-4.5V在Design2Code基准测试中得分82.2,显示其在代码生成和理解方面的能力。
  • Video Understanding:GLM-4.5V在视频理解方面同样表现出色,在VideoMME (w/o sub)测试中得分74.6。

GLM-4.5V

GLM-4.5V的项目地址

  • GitHub仓库:https://github.com/zai-org/GLM-V/
  • HuggingFace模型库:https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102
  • 技术论文:https://github.com/zai-org/GLM-V/tree/main/resources/GLM-4.5V_technical_report.pdf
  • 桌面助手应用:https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App

如何使用GLM-4.5V

  • 注册与登录:访问 Z.ai 官网,用邮箱注册账号。完成注册后,登录账号。
  • 选择模型:在登录后,在模型选择下拉框中选择GLM-4.5V。
  • 体验功能:
    • 网页前端复刻:上传网页设计图,模型将自动生成前端代码。
    • 视觉推理:上传图像或视频,模型将进行视觉理解、物体识别、场景分析等任务。
    • 图寻游戏:上传目标图像,模型将在复杂场景中找到匹配的图像。
    • 视频理解:上传视频文件,模型将提取关键信息,生成视频摘要或事件检测结果。

GLM-4.5V的API 调用价格

  • 输入:2 元/M tokens
  • 输出:6 元/M tokens
  • 响应速度:达到 60-80 tokens/s

GLM-4.5V的应用场景

  • 网页前端复刻:上传网页设计图,模型快速生成前端代码,助力开发者高效实现网页开发。
  • 视觉问答:用户上传图像并提问,模型根据图像内容生成准确答案,可用在教育、智能客服等领域。
  • 图寻游戏:在复杂场景中快速找到目标图像,适用于安防监控、智能零售及娱乐游戏开发。
  • 视频理解:分析视频内容,提取关键信息生成摘要或检测事件,优化视频推荐、编辑及监控。
  • 图像描述生成:为上传的图像生成精准描述文本,辅助视障人士理解图像,提升社交媒体分享体验。

📝 站长洞察 (Editor’s Insight)

智谱开源GLM-4.5V,绝非一次简单的模型迭代,而是国产多模态大模型向‘全能视觉推理工具’演进的关键一步。其12B的激活参数设计,巧妙地在性能与效率间取得了平衡,预示着‘大参数、小激活’将成为未来模型部署的主流范式之一。更值得关注的是,其在Coding(Design2Code)和Long Document OCR等任务上的强势表现,表明多模态能力正从‘感知’层向复杂的‘执行与生成’层深度渗透,这将直接赋能前端开发自动化、智能办公等垂直领域的生产力革命。配套桌面助手的开源,更是降低体验门槛、构建开发者生态的聪明之举。在GPT-4o、Gemini等国际巨头环伺下,GLM-4.5V以全栈开源、性能对标、场景落地的组合拳,展现了中国AI力量在核心模型层的快速追赶与创新自信。

英伟达Polar框架开源:零门槛强化学习,AI编码智能体进化提速500%+
BEN2 – 自动从图像和视频中移除背景深度学习模型
BitCPM-CANN – 面壁智能联合清华开源的端侧大模型
PromptBase
Fuk.ai
TAGGED:GLM-4.5V多模态大模型开源模型智谱AI视觉推理模型
分享
Email 复制链接 打印
Share
上一篇 昆仑万维Matrix-Game 2.0开源:首个通用实时交互世界模型,25FPS分钟级生成,开启AI游戏与VR新范式
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

昆仑万维Matrix-Game 2.0开源:首个通用实时交互世界模型,25FPS分钟级生成,开启AI游戏与VR新范式
AI 工具 AIGC 资讯
阿里达摩院开源RynnVLA-001:VLA模型如何重塑机器人智能?
AI 工具 AIGC 资讯
阿里达摩院开源机器人上下文协议RynnRCP:打通具身智能开发全流程的关键框架
AI 工具 AIGC 资讯
RynnEC:阿里达摩院多模态具身认知大模型,从视频理解物理世界的突破
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

阿里通义千问重磅开源Qwen3.5:3970亿参数模型性能超越GPT-5.2,API价格仅为1/15,开启多模态大模型新时代

站外新闻
MoE架构 Qwen3.5 多模态AI 开源大模型 通义千问
AIGC 资讯

SANA 1.5 – 英伟联合MIT、清北等机构推出的文生图新框架

站外新闻
AI 工具

Forefront AI

remaker
AI 工具

Rocket AI

remaker
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 openai prompt RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大模型推理 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 端侧部署 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 边缘计算 通义千问 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.