Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 智谱AI开源GLM-4.1V-Thinking:9B参数模型性能超越72B,视觉语言模型迎来‘思考’时代
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 智谱AI开源GLM-4.1V-Thinking:9B参数模型性能超越72B,视觉语言模型迎来‘思考’时代
AI 工具AIGC 资讯

智谱AI开源GLM-4.1V-Thinking:9B参数模型性能超越72B,视觉语言模型迎来‘思考’时代

站外新闻
最近更新: 2026年6月7日 下午8:24
AIGC GLM-4.1V-Thinking 思维链推理 智谱AI 视觉语言模型
SHARE

💡 站外导读:在追求更大更强参数的AI竞赛中,智谱AI带来了一股‘小模型、大智能’的清流。其最新开源的GLM-4.1V-Thinking模型,参数量仅为9B级别,却在包含数学推理、文档解析在内的28项权威基准测试中,一举达成23项10B级模型最佳成绩,甚至在18项上与72B参数的顶级模型持平或超越。这不仅是技术的突破,更预示着高性能AI应用正从云端巨头走向更广泛的开发者和企业,解决了AI落地成本与性能难以兼顾的核心痛点。

GLM-4.1V-Thinking是什么

GLM-4.1V-Thinking是智谱AI推出的开源视觉语言模型,专为复杂认知任务设计,支持图像、视频、文档等多模态输入。模型在GLM-4V架构基础上引入思维链推理机制,基于课程采样强化学习策略,系统性提升跨模态因果推理能力与稳定性。模型轻量版GLM-4.1V-9B-Thinking(GLM-4.1V-9B-Base基座模型和GLM-4.1V-9B-Thinking具备深度思考和推理能力)参数量控制在10B级别,在28项权威评测中,有23项达成10B级模型最佳成绩,其中18项持平或超越参数量高达72B的Qwen-2.5-VL,展现出小体积模型的极限性能潜力。

阅读目录
  • GLM-4.1V-Thinking是什么
  • GLM-4.1V-Thinking的主要功能
  • GLM-4.1V-Thinking的技术原理
  • GLM-4.1V-Thinking的性能表现
  • GLM-4.1V-Thinking的项目地址
  • 如何使用GLM-4.1V-Thinking
  • GLM-4.1V-Thinking的应用场景
      • 📝 站长洞察 (Editor’s Insight)

GLM-4.1V-Thinking

GLM-4.1V-Thinking的主要功能

  • 图像理解:精准识别和分析图像内容,支持复杂的视觉任务,如目标检测、图像分类和视觉问答。
  • 视频处理:具备时序分析和事件逻辑建模能力,支持处理视频输入,进行视频理解、视频描述和视频问答。
  • 文档解析:支持处理文档中的图像和文本内容,支持长文档理解、图表理解和文档问答。
  • 数学与科学推理:支持复杂的数学题解、多步演绎和公式理解,能处理STEM领域的推理任务。
  • 逻辑推理:支持进行逻辑推理和因果分析,支持复杂的推理任务,如多步推理和逻辑判断。
  • 跨模态推理:合视觉和语言信息进行推理,支持图文理解、视觉问答和视觉锚定等任务。

GLM-4.1V-Thinking的技术原理

  • 架构设计:基于AIMv2Huge作为视觉编码器,处理和编码图像和视频输入。MLP适配器将视觉特征对齐到语言模型的token空间。语言解码器用GLM作为语言模型,处理多模态token并生成输出。
  • 训练方法:基于大规模的图像-文本对、学术文献和知识密集型数据进行预训练,构建强大的视觉语言基础模型。用长链推理(CoT)数据进行监督微调,提升模型的推理能力和人类对齐。基于课程采样强化学习(RLCS),动态选择最具信息量的样本进行训练,提升模型在多种任务上的性能。
  • 技术创新:引入思维链推理机制,让模型逐步思考生成详细的推理过程。基于课程采样策略,动态调整训练样本的难度,确保模型在不同阶段都能获得最有效的训练。基于2D-RoPE和3D-RoPE技术,支持任意分辨率和宽高比的图像输入,增强模型的时空理解能力。

GLM-4.1V-Thinking的性能表现

在涵盖MMStar、MMMU-Pro、ChartQAPro、OSWorld在内的28项权威评测中,该模型表现卓越,其中23项指标均达到了10B参数级别模型的顶尖水准。更令人瞩目的是,这23项成绩里,有多达18项与参数量高达72B的Qwen-2.5-VL持平甚至实现了超越。

GLM-4.1V-Thinking

GLM-4.1V-Thinking的项目地址

  • GitHub仓库:https://github.com/THUDM/GLM-4.1V-Thinking
  • HuggingFace模型库:https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d
  • arXiv技术论文:https://arxiv.org/pdf/2507.01006v1
  • 在线体验Demo:https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo

如何使用GLM-4.1V-Thinking

  • API接口:
    • 注册账号:访问智谱AI开放平台,注册账号并登录。
    • 获取API Key:在平台上创建应用,获取专属的API Key。
    • 调用API:根据API文档,使用HTTP请求调用模型接口,发送输入数据并获取模型的输出结果。例如,使用Python调用API的代码示例:
import requests
import json

# 设置API接口地址和API Key
api_url = "https://api.zhipuopen.com/v1/glm-4.1v-thinking"
api_key = "your_api_key"

# 准备输入数据
input_data = {
    "image": "image_url_or_base64_encoded_data",
    "text": "your_input_text"
}

# 设置请求头
headers = {
    "Authorization": f"Bearer {api_key}",
    "Content-Type": "application/json"
}

# 发送请求
response = requests.post(api_url, headers=headers, data=json.dumps(input_data))

# 获取结果
result = response.json()
print(result)
  • 开源模型:
    • 下载模型:访问Hugging Face,找到GLM-4.1V-Thinking模型页面,下载模型文件。
    • 加载模型:使用相应的深度学习框架(如PyTorch)加载模型。
    • 进行推理:将输入数据预处理后输入模型,获取模型的输出结果。例如,使用PyTorch加载模型并进行推理的代码示例:
from transformers import AutoModelForVision2Seq, AutoProcessor
import torch

# 加载模型和处理器
model_name = "THUDM/glm-4.1v-thinking"
model = AutoModelForVision2Seq.from_pretrained(model_name)
processor = AutoProcessor.from_pretrained(model_name)

# 准备输入数据
image_url = "image_url_or_image_path"
text = "your_input_text"
inputs = processor(images=image_url, text=text, return_tensors="pt")

# 进行推理
with torch.no_grad():
    outputs = model(**inputs)

# 获取结果
result = processor.decode(outputs.logits[0], skip_special_tokens=True)
print(result)
  • 在线体验平台:
    • 访问体验链接:访问Hugging Face平台上的GLM-4.1V-Thinking体验页面。
    • 输入数据:在网页上上传图像或输入文本。
    • 获取结果:点击“运行”按钮,等待模型处理并查看结果。

GLM-4.1V-Thinking的应用场景

  • 教育辅导:辅助学生解决数学、科学等学科的复杂问题,提供详细解题步骤和推理过程,帮助学生更好地理解和掌握知识。
  • 内容创作:结合图像和文本生成创意内容,如广告文案、社交媒体帖子、新闻报道等,提升内容创作的效率和质量。
  • 智能交互:作为智能客服或虚拟助手,理解用户的问题和需求,提供准确、及时的回答和解决方案,支持多模态输入。
  • 行业应用:在医疗、金融、工业等领域,辅助专业人员进行数据分析、报告生成、设备监控等任务,提高工作效率和准确性。
  • 娱乐与生活:为旅游提供攻略和景点介绍,为美食推荐菜品和烹饪方法,为游戏生成剧情和任务设计,丰富用户的娱乐体验。

📝 站长洞察 (Editor’s Insight)

智谱AI此次发布的GLM-4.1V-Thinking,其意义远不止于一次模型迭代。它精准地踩在了当前大模型发展的两个关键趋势上:一是从‘规模竞赛’转向‘效能比竞赛’,通过创新的课程采样强化学习(RLCS)等技术,用不到10B的参数撬动了72B级的性能,为中小企业和边缘计算场景提供了极具吸引力的选择。二是从‘感知’到‘认知’的跃迁,引入的‘思维链’机制,让模型具备了可解释的、逐步推理的能力,这是实现复杂任务自动化和构建可信AI的核心。结合其对开源生态的全面支持(从API、模型到Demo),智谱AI正在构建一个从底层技术到上层应用的完整闭环。这不仅仅是发布了一个工具,更是为AI的民主化和深度应用铺平了道路,标志着视觉语言模型正式进入了‘深度思考’的新阶段。

AIMangaStudio:开源AI漫画生成工具全解析,从脚本到分镜的一站式创作指南
阶跃星辰StepAudio 2.5 TTS发布:语境感知AI语音合成,3秒克隆音色,告别‘AI味’朗读
WriteHERE – 开源的AI长文写作框架,单次生成超长文本
Collaborative Gym – 支持人与AI代理实时交互协作的评估框架
Seed-Coder – 字节跳动开源的代码模型系列
TAGGED:AIGCGLM-4.1V-Thinking思维链推理智谱AI视觉语言模型
分享
Email 复制链接 打印
Share
上一篇 Mercury扩散语言模型深度解析:Inception Labs革新AI生成速度,实现聊天应用极致低延迟
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Mercury扩散语言模型深度解析:Inception Labs革新AI生成速度,实现聊天应用极致低延迟
AI 工具 AIGC 资讯
Step-Audio-AQAA:突破ASR/TTS瓶颈!StepFun推出端到端音频语言模型,重塑人机语音交互
AI 工具 AIGC 资讯
百度MuseSteamer多模态视频生成大模型:AI一键生成电影级音效一体化视频
AI 工具 AIGC 资讯
DeepSWE开源Agent框架发布:基于Qwen3-32B与强化学习,SWE-Bench准确率59%领跑行业
AI 工具 AIGC 资讯

相关推荐

AI 工具

CreativAI

remaker
AI 工具

Phygital+

remaker
AIGC 资讯

ViTPose – 基于 Transformer 架构的人体姿态估计模型

站外新闻
AIGC 资讯

AutoGLM沉思 – 首个免费、具备深度研究和操作能力的AI Agent

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.