Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Qwen3.7-Plus – 阿里通义推出的智能体多模态大模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Qwen3.7-Plus – 阿里通义推出的智能体多模态大模型
AIGC 资讯

Qwen3.7-Plus – 阿里通义推出的智能体多模态大模型

站外新闻
最近更新: 2026年6月7日 下午6:04
SHARE

Qwen3.7-Plus是什么

Qwen3.7-Plus 是通义千问推出的新一代多模态大模型,将视觉与语言统一为一体化智能体基座。模型能感知真实世界场景、读取屏幕并操作 GUI、基于视觉参考生成代码,支持端到端导航移动应用、结合网络知识回答视觉问题,在单一智能体循环中无缝融合 GUI 与 CLI 交互。作为全能型编码智能体与生产力助手,模型用全模态输入处理从前端原型到复杂软件工程、再到多步工作流自动化的全方位任务,且具备跨框架泛化能力。

阅读目录
  • Qwen3.7-Plus是什么
  • Qwen3.7-Plus的主要功能
  • Qwen3.7-Plus的技术原理
  • 如何使用Qwen3.7-Plus
  • Qwen3.7-Plus的核心优势
  • Qwen3.7-Plus的项目地址
  • Qwen3.7-Plus的同类竞品对比
  • Qwen3.7-Plus的应用场景

Qwen3.7-Plus

Qwen3.7-Plus的主要功能

  • 多模态交互混合智能体:统一处理图像、视频、屏幕、网页和文本输入,在 GUI/CLI/工具环境中完成复杂任务闭环。
  • 视觉智能体:结合视觉理解、代码解释器和搜索增强,解决视觉谜题、真实世界问答和复杂推理任务。
  • 视觉编程:从图像或视频生成 SVG、网页和交互式前端,实现视觉参考到代码的端到端转化。
  • GUI 智能体:理解移动端和桌面端界面,进行控件定位、任务规划和多步操作。
  • 真实世界感知与推理:覆盖真实场景、文档图表、OCR、视频和驾驶场景理解。

Qwen3.7-Plus的技术原理

  • 视觉感知与推理融合:模型在 BabyVision、MathVision、HiPhO 等高难度视觉推理基准上表现强劲,体现出对图像细节、空间关系、物理常识和多步逻辑的综合理解能力。尤其在 BabyVision 上相比前代有显著提升,说明模型在更接近人类早期视觉认知和空间推理的任务上具备更强泛化能力。
  • 视觉到代码的端到端转化:通过代码解释器集成,模型能将视觉问题转化为可计算的问题表示,自主编写并执行代码进行求解、搜索或验证。在找不同、补图块、华容道、迷宫和拼图等任务中,模型能识别图像内容,进行空间建模、路径搜索、状态推演和结果校验。
  • GUI 自动化与多步交互:模型能识别屏幕内容,定位关键 UI 元素、理解任务意图并完成多步交互操作。在 ScreenSpot Pro、OSWorld-Verified 和 AndroidWorld 上显著提升,支撑从”看懂界面”走向”操作界面”和”构建界面”。
  • 搜索增强的多模态知识问答:模型将视觉输入与外部知识检索结合,先从视觉输入中提取关键实体、场景、文字和上下文线索,通过搜索获取外部知识,综合视觉证据和检索结果给出答案。
  • 视频理解与驾驶场景感知:增强对短视频和长视频中事件、动作、时序和语义关系的处理能力,同时在 LingoQA、SURDS 和 VLADBench 等驾驶相关评测中展现出对动态场景、交通参与者和空间关系的强理解能力。

如何使用Qwen3.7-Plus

  • 访问官方平台:通过阿里云百炼或 Qwen Studio官网访问模型服务。
  • 选择模型版本:在模型市场中选择 Qwen3.7-Plus,根据需求配置调用参数。
  • 输入多模态内容:支持上传图像、视频、屏幕截图或网页链接,结合文本指令进行交互。
  • 执行任务:根据场景选择对应能力模式(Visual Agent、GUI Agent、Visual Coding 等),模型将自动完成感知、推理与执行闭环。

Qwen3.7-Plus的核心优势

  • 多模态 Agent 闭环能力:将看、想、写、做、验整合进统一智能体工作流,支撑复杂软件任务从理解到交付的端到端自动完成。
  • 跨框架泛化:无论通过 Claude Code、OpenClaw、Qwen Code 还是其他框架部署,均能保持稳定表现。
  • 视觉编程领先:在 QwenVision2Code 上得分 1772.0,接近 GPT-5.4 的 1884.0,显著领先 Claude-Opus-4.6(1518.0)和 Gemini-3.1 Pro(1632.0)。
  • GUI 操作能力强:ScreenSpot Pro 79.0、AndroidWorld 81.0,在界面理解和操作任务上处于第一梯队。
  • 长时自主运行:案例显示 Agent 可持续稳定运行 11+ 小时,累计生成代码超 10,000+ 行,触发调用超 1,000+ 次。

Qwen3.7-Plus的项目地址

  • 项目官网:https://qwen.ai/blog?id=qwen3.7-plus

Qwen3.7-Plus的同类竞品对比

对比维度 Qwen3.7-Plus GPT-5.4
定位 多模态交互混合智能体基座模型 通用多模态大模型
Vision Arena 排名 全球第5 / 中国第一 未进入前7
ScreenSpot Pro (GUI定位) 79.0 67.4
AndroidWorld (移动端操作) 81.0 未测试
QwenVision2Code (视觉编程) 1772.0 1884.0
BabyVision (视觉推理) 70.4/64.7 53.1
RealWorldQA (真实世界问答) 86.9 83.8
Terminal Bench 2.0 (终端编码) 70.3 未测试
SWE-bench 多语言 75.8 77.5
视频理解 VideoMMMU 88.0 89.5
多模态搜索 MMSearchPlus 41.4 19.7
核心优势 GUI操作、视觉推理、长时Agent闭环、跨框架泛化 视觉编程、视频理解、通用语言任务
适用场景 复杂软件工程自动化、桌面/移动端GUI操作、多模态Agent工作流 通用内容生成、视觉参考转代码、多语言翻译

Qwen3.7-Plus的应用场景

  • 智能软件开发:从需求文档生成到代码编写、测试用例创建、GUI 自动化测试、版本迭代演进的全链路 APP 开发。
  • 桌面应用复刻:自主理解原生应用 UI 布局与功能细节,生成对应源码并接入真实 API,实现高保真应用复刻。
  • 视觉内容生成:将设计参考图转化为可执行的 SVG、网页或交互式前端代码,降低从视觉到代码资产的成本。
  • 多模态知识问答:结合图像、视频与网络搜索,回答开放世界的视觉问题,如地点识别、事件背景分析、商品信息查询。
  • 自动驾驶与具身智能:理解动态驾驶场景、交通参与者和空间关系,支撑真实世界多模态智能体和 embodied 场景。
颠覆性突破!全球首个多智能体AI科学家Robin 2小时完成900小时科研,登顶Nature
阶跃星辰StepAudio 2.5 TTS发布:语境感知AI语音合成,3秒克隆音色,告别‘AI味’朗读
阶跃星辰StepAudio 2.5 Realtime重磅发布:端到端实时语音大模型,实现真人级对话、千万人设自定义与行业评测全面领先
奥尔特曼最新反思:AI对白领岗位的冲击远低于预期,短期失业潮并未出现
微软优步紧急刹车!AI Token 消耗暴涨24倍,为何换不来用户体验提升?
分享
Email 复制链接 打印
Share
上一篇 Bernini – 字节跳动开源的统一视频生成与编辑框架
下一篇 ControlFoley – 小米开源的可控视频音效生成模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Cosmos 3 – 英伟达开源的全模态物理 AI 基础大模型
AIGC 资讯
Dynamic Workflows – Claude Code 推出的动态工作流
AIGC 资讯
Webwright – 微软开源的终端原生网页智能体框架
AIGC 资讯
阿里云百炼 CLI – 阿里云开源的 AI Agent 命令行工具
AIGC 资讯

相关推荐

AI 工具AIGC 资讯

腾讯混元Hy3 preview:21B激活参数达295B性能,开源MoE模型如何重新定义AI实用主义?

站外新闻
MoE 大模型 开源 混合专家模型 腾讯混元
流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

谷歌发布GEO铁拳政策:AI Overview垃圾内容将遭降权、移除甚至全网封禁

站外新闻
AI Overview AI投毒 GEO 生成式引擎优化 谷歌
量子芯片科技感占位特色图
AI 工具AIGC 资讯

xAI Grok Build:终结手动编码!Grok Build 全链路自动化编程智能体深度解析

站外新闻
AI编程智能体 Grok Build Plan Mode xAI 特斯拉FSD
AIGC 资讯

Hermes Desktop – Nous Research 推出的 Hermes 桌面端

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 支付宝 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.