Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Qwen3.7-Plus – 阿里通义推出的智能体多模态大模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Qwen3.7-Plus – 阿里通义推出的智能体多模态大模型
AIGC 资讯

Qwen3.7-Plus – 阿里通义推出的智能体多模态大模型

站外新闻
最近更新: 2026年6月7日 下午6:04
SHARE

Qwen3.7-Plus是什么

Qwen3.7-Plus 是通义千问推出的新一代多模态大模型,将视觉与语言统一为一体化智能体基座。模型能感知真实世界场景、读取屏幕并操作 GUI、基于视觉参考生成代码,支持端到端导航移动应用、结合网络知识回答视觉问题,在单一智能体循环中无缝融合 GUI 与 CLI 交互。作为全能型编码智能体与生产力助手,模型用全模态输入处理从前端原型到复杂软件工程、再到多步工作流自动化的全方位任务,且具备跨框架泛化能力。

阅读目录
  • Qwen3.7-Plus是什么
  • Qwen3.7-Plus的主要功能
  • Qwen3.7-Plus的技术原理
  • 如何使用Qwen3.7-Plus
  • Qwen3.7-Plus的核心优势
  • Qwen3.7-Plus的项目地址
  • Qwen3.7-Plus的同类竞品对比
  • Qwen3.7-Plus的应用场景

Qwen3.7-Plus

Qwen3.7-Plus的主要功能

  • 多模态交互混合智能体:统一处理图像、视频、屏幕、网页和文本输入,在 GUI/CLI/工具环境中完成复杂任务闭环。
  • 视觉智能体:结合视觉理解、代码解释器和搜索增强,解决视觉谜题、真实世界问答和复杂推理任务。
  • 视觉编程:从图像或视频生成 SVG、网页和交互式前端,实现视觉参考到代码的端到端转化。
  • GUI 智能体:理解移动端和桌面端界面,进行控件定位、任务规划和多步操作。
  • 真实世界感知与推理:覆盖真实场景、文档图表、OCR、视频和驾驶场景理解。

Qwen3.7-Plus的技术原理

  • 视觉感知与推理融合:模型在 BabyVision、MathVision、HiPhO 等高难度视觉推理基准上表现强劲,体现出对图像细节、空间关系、物理常识和多步逻辑的综合理解能力。尤其在 BabyVision 上相比前代有显著提升,说明模型在更接近人类早期视觉认知和空间推理的任务上具备更强泛化能力。
  • 视觉到代码的端到端转化:通过代码解释器集成,模型能将视觉问题转化为可计算的问题表示,自主编写并执行代码进行求解、搜索或验证。在找不同、补图块、华容道、迷宫和拼图等任务中,模型能识别图像内容,进行空间建模、路径搜索、状态推演和结果校验。
  • GUI 自动化与多步交互:模型能识别屏幕内容,定位关键 UI 元素、理解任务意图并完成多步交互操作。在 ScreenSpot Pro、OSWorld-Verified 和 AndroidWorld 上显著提升,支撑从”看懂界面”走向”操作界面”和”构建界面”。
  • 搜索增强的多模态知识问答:模型将视觉输入与外部知识检索结合,先从视觉输入中提取关键实体、场景、文字和上下文线索,通过搜索获取外部知识,综合视觉证据和检索结果给出答案。
  • 视频理解与驾驶场景感知:增强对短视频和长视频中事件、动作、时序和语义关系的处理能力,同时在 LingoQA、SURDS 和 VLADBench 等驾驶相关评测中展现出对动态场景、交通参与者和空间关系的强理解能力。

如何使用Qwen3.7-Plus

  • 访问官方平台:通过阿里云百炼或 Qwen Studio官网访问模型服务。
  • 选择模型版本:在模型市场中选择 Qwen3.7-Plus,根据需求配置调用参数。
  • 输入多模态内容:支持上传图像、视频、屏幕截图或网页链接,结合文本指令进行交互。
  • 执行任务:根据场景选择对应能力模式(Visual Agent、GUI Agent、Visual Coding 等),模型将自动完成感知、推理与执行闭环。

Qwen3.7-Plus的核心优势

  • 多模态 Agent 闭环能力:将看、想、写、做、验整合进统一智能体工作流,支撑复杂软件任务从理解到交付的端到端自动完成。
  • 跨框架泛化:无论通过 Claude Code、OpenClaw、Qwen Code 还是其他框架部署,均能保持稳定表现。
  • 视觉编程领先:在 QwenVision2Code 上得分 1772.0,接近 GPT-5.4 的 1884.0,显著领先 Claude-Opus-4.6(1518.0)和 Gemini-3.1 Pro(1632.0)。
  • GUI 操作能力强:ScreenSpot Pro 79.0、AndroidWorld 81.0,在界面理解和操作任务上处于第一梯队。
  • 长时自主运行:案例显示 Agent 可持续稳定运行 11+ 小时,累计生成代码超 10,000+ 行,触发调用超 1,000+ 次。

Qwen3.7-Plus的项目地址

  • 项目官网:https://qwen.ai/blog?id=qwen3.7-plus

Qwen3.7-Plus的同类竞品对比

对比维度 Qwen3.7-Plus GPT-5.4
定位 多模态交互混合智能体基座模型 通用多模态大模型
Vision Arena 排名 全球第5 / 中国第一 未进入前7
ScreenSpot Pro (GUI定位) 79.0 67.4
AndroidWorld (移动端操作) 81.0 未测试
QwenVision2Code (视觉编程) 1772.0 1884.0
BabyVision (视觉推理) 70.4/64.7 53.1
RealWorldQA (真实世界问答) 86.9 83.8
Terminal Bench 2.0 (终端编码) 70.3 未测试
SWE-bench 多语言 75.8 77.5
视频理解 VideoMMMU 88.0 89.5
多模态搜索 MMSearchPlus 41.4 19.7
核心优势 GUI操作、视觉推理、长时Agent闭环、跨框架泛化 视觉编程、视频理解、通用语言任务
适用场景 复杂软件工程自动化、桌面/移动端GUI操作、多模态Agent工作流 通用内容生成、视觉参考转代码、多语言翻译

Qwen3.7-Plus的应用场景

  • 智能软件开发:从需求文档生成到代码编写、测试用例创建、GUI 自动化测试、版本迭代演进的全链路 APP 开发。
  • 桌面应用复刻:自主理解原生应用 UI 布局与功能细节,生成对应源码并接入真实 API,实现高保真应用复刻。
  • 视觉内容生成:将设计参考图转化为可执行的 SVG、网页或交互式前端代码,降低从视觉到代码资产的成本。
  • 多模态知识问答:结合图像、视频与网络搜索,回答开放世界的视觉问题,如地点识别、事件背景分析、商品信息查询。
  • 自动驾驶与具身智能:理解动态驾驶场景、交通参与者和空间关系,支撑真实世界多模态智能体和 embodied 场景。
谷歌开源Androidify:用Gemini API与Jetpack Compose构建下一代AI驱动的Android应用
李飞飞团队重磅发布QuantiPhy基准:首个量化评估视觉语言模型物理推理能力的权威测试平台
苹果开源SimpleFold:轻量级AI模型革新蛋白质折叠,计算成本暴降媲美AlphaFold2
Baichuan-Audio – 百川智能开源的端到端语音交互模型
MHA2MLA – 复旦、上海AI Lab等推出优化LLM推理效率的方法
分享
Email 复制链接 打印
Share
上一篇 Bernini – 字节跳动开源的统一视频生成与编辑框架
下一篇 ControlFoley – 小米开源的可控视频音效生成模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

华为盘古大模型5.5震撼发布:7180亿参数Ultra MoE领衔,五大模型重塑产业智能
AI 工具 AIGC 资讯
腾讯清华重磅开源MindOmni:强化学习驱动的多模态推理生成模型,重塑视觉AI边界
AI 工具 AIGC 资讯
联影智能发布‘元智’医疗大模型:多模态融合,一次CT扫描诊断37种疾病
AI 工具 AIGC 资讯
Dive3D重磅发布:北大x小红书联手破解文本生成3D多样性难题,SIM损失取代KL散度实现模式突破
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

英伟达开源OpenReasoning-Nemotron:基于DeepSeek蒸馏,数学推理超越o3,本地部署全攻略

站外新闻
DeepSeek OpenReasoning-Nemotron 推理模型 本地部署 英伟达
AI 工具AIGC 资讯

中国科学院HYPIR图像复原大模型:1.7秒极速修复老照片,支持8K超高清与个性化文本引导

站外新闻
AIGC HYPIR 中国科学院 图像复原大模型 老照片修复
AIGC 资讯

GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型

站外新闻
AIGC 资讯

GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.