Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 阿里Qwen团队重磅开源WebWorld:百万级真实网页世界模型,三大版本赋能下一代智能体
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 阿里Qwen团队重磅开源WebWorld:百万级真实网页世界模型,三大版本赋能下一代智能体
AI 工具AIGC 资讯

阿里Qwen团队重磅开源WebWorld:百万级真实网页世界模型,三大版本赋能下一代智能体

站外新闻
最近更新: 2026年5月24日 上午2:28
A11y Tree Qwen WebWorld 世界模型 智能体
SHARE

💡 站外导读:在AI智能体迈向真实世界的关键阶段,如何让模型理解复杂网页交互逻辑成为核心瓶颈。传统训练依赖真实网页环境,面临网络延迟、安全风险和数据获取困难等痛点。阿里Qwen团队发布的WebWorld系列模型,通过自回归模拟器建模和三层数据管道,构建了超百万条真实开放网页轨迹的训练集,首次实现大规模网页世界模拟,为智能体训练开辟了全新路径。

WebWorld是什么

WebWorld 是阿里巴巴 Qwen 团队开源的大规模网页世界模型系列,基于 Qwen3 底座训练,包含 8B、14B、32B 三个版本。模型通过在模拟浏览器环境中预测网页状态转移,为 Web Agent 提供高质量的训练数据与推理环境,避免真实网页训练中的网络延迟、速率限制和安全风险。模型支持 A11y Tree、HTML、XML、Markdown 及自然语言等多格式状态表示,可实现 30+ 步的长时程一致模拟,具备显式链式思考推理能力。

阅读目录
  • WebWorld是什么
  • WebWorld的主要功能
  • WebWorld的技术原理
  • 如何使用WebWorld
  • WebWorld的核心优势
  • WebWorld的项目地址
  • WebWorld的同类竞品对比
  • WebWorld的应用场景
      • 📝 站长洞察 (Editor’s Insight)

WebWorld

WebWorld的主要功能

  • 网页状态预测:给定当前页面状态(A11y Tree/HTML/XML 等)和 Agent 动作,预测下一时刻的完整页面状态,模拟真实浏览器行为。
  • 长时程多轮模拟:支持超过 30 步的连续交互模拟,保持状态一致性,适用于复杂多步骤网页任务。
  • 多格式状态表示:原生支持 A11y Tree,同时可处理 HTML、XML、Markdown 和自然语言描述,增强模型泛化能力。
  • 推理能力激活:通过两阶段课程训练,先注入大规模网页动态知识,再用少量 CoT 数据激活显式因果推理。
  • 跨领域泛化:在代码环境、GUI 桌面和游戏场景中均展现出良好的迁移能力。
  • 轨迹数据合成:可作为数据合成器,为下游 Agent 生成大规模高质量训练轨迹,提升真实任务表现。

WebWorld的技术原理

  • 自回归浏览器模拟器建模:WebWorld 将浏览器环境形式化为自回归序列生成任务,基于因果语言模型学习条件概率分布 Pθ​(st+1​∣I,ht​) ,在给定任务指令 I 和交互历史 ht​=(s0​,a0​,…,st​,at​) 的情况下,预测执行动作 at​ 后的下一页面状态 st+1​ ,通过最大似然估计在完整轨迹数据上进行端到端训练。
  • 三层层次化数据收集管道:为突破封闭环境的数据瓶颈,WebWorld 构建了可扩展的三层收集策略:第一层”随机爬取”在预训练语料对应的网站上执行随机动作,获取 43.3% 的广度数据;第二层”自主探索”部署 LLM Agent 自行生成目标并探索网站,产出 20.4% 的真实长时程轨迹;第三层”任务导向执行”基于种子任务合成多样化变体并由 Agent 执行,获得 16.1% 的高质量任务轨迹,三层合计超过 106 万条真实开放网页交互数据。
  • A11y Tree 主状态表示与多格式增强:模型用 Playwright 提取的 A11y Tree 作为主要状态表示,因其具备跨网页与 GUI 的通用性、高信息密度和 LLM 友好结构;同时通过事后转换将轨迹扩展为 HTML、XML、Markdown 等多种格式,引入自然语言页面描述,构建五维指令微调数据集,避免模型对单一表示的过拟合并防止灾难性遗忘。
  • 双层数据过滤与质量控制:数据清洗采用规则启发式与 LLM 评分相结合的双层机制:首先通过脚本验证网站可达性并过滤敏感关键词,仅保留 15.7% 的原始 URL;随后由 LLM 从可访问性、内容适宜性、交互性和工程质量四个维度评分,剔除低分站点。对于轨迹层面,进一步剪除无状态变化的无效转移,并丢弃超过 30 轮或 30K token 的超长样本,全程不引入特定模型的归纳偏置。
  • 两阶段课程训练策略
  • 训练遵循”先注入知识、后激活推理”的课程设计:第一阶段在 106 万条轨迹上进行大规模动态建模,使模型掌握广泛的网页状态转移规律;第二阶段仅使用 1000 条合成的 CoT 样本进行微调,要求模型在预测前先输出对页面结构、用户意图和状态变化的显式分析,从而将隐式推理能力外化为可解释的链式思考模式。
  • 多维评估体系 WebWorld-Bench
  • 为全面衡量模拟质量,团队构建了包含九个评估维度的内在基准:事实性评分通过 LLM 逐点判断预测状态是否正确反映动作的功能因果效应;Web Turing 评分则采用对抗式成对比较,检验模拟状态与真实网页的不可区分性,两者结合从客观正确性和主观真实感两个层面量化世界模型能力。

如何使用WebWorld

  • 环境准备:克隆仓库后执行 pip install -r requirements.txt 并解压数据包。
  • 模型加载:通过 HuggingFace 加载模型(如 Qwen/WebWorld-8B),使用 AutoModelForCausalLM 配合 trust_remote_code=True 初始化。
  • 单步预测:构造包含系统提示(声明为网页世界模型)和用户消息(初始页面状态 + 动作)的对话,调用 model.generate 预测下一页面状态。
  • 多轮模拟:首轮提供初始状态和第一个动作;后续每轮使用固定续写提示 CONTINUE_PROMPT,将上一轮预测状态作为历史,传入新动作继续生成,可循环至 30+ 轮。
  • Agent 训练:用 WebWorld 合成轨迹数据,通过 Abstract-and-Instantiate 策略生成多样化任务轨迹,对基础模型进行微调以提升下游 Agent benchmark 表现。
  • 基准评测:用 WebWorld-Bench 进行内在评估,或通过 MiniWob++、WebArena 等外在 benchmark 验证 Agent 训练效果。

WebWorld的核心优势

  • 规模领先:基于 100 万+ 真实开放网页轨迹训练,数据量达此前工作的 100 倍,覆盖电商、社交、新闻等多元领域。
  • 开源开放:模型权重与训练数据(WebWorldData)均以 Apache 2.0 协议开源,提供完整可复现的技术路线。
  • 评测体系完善:自研 WebWorld-Bench 内在基准,从事实性(Factuality)和图灵测试(Web Turing)双维度、九个细分维度全面评估模拟质量。
  • 训练效率突出:需 1000 条 CoT 样本即可激活强推理能力,证明大规模动态预训练对推理激活的高效性。
  • Agent 训练增益显著:Qwen3-8B 经 WebWorld 合成数据微调后,在 WebArena 上提升 10.9%,14B 版本接近 GPT-4o 水平。

WebWorld的项目地址

  • GitHub仓库:https://github.com/QwenLM/WebWorld
  • HuggingFace模型库:https://huggingface.co/datasets/Qwen/WebWorldData
  • arXiv技术论文:https://arxiv.org/pdf/2602.14721

WebWorld的同类竞品对比

对比维度 WebWorld WebEvolver UI-Simulator
开发团队 阿里巴巴 Qwen Team Fang et al. Wang et al.
技术路线 大规模开放网页预训练 + 两阶段课程微调 协同进化(世界模型与 Agent 交替微调) 检索增强模拟(RAG + 提示专有 LLM)
环境范围 真实开放网页(百万级域名) 封闭 benchmark 环境 封闭/受控环境
数据规模 106 万+ 真实轨迹 依赖 Agent 回传数据,规模受限 无自有训练数据,实时调用 API 生成
模型形态 开源专用世界模型(8B/14B/32B) 训练专用世界模型 提示通用 LLM 作为世界模型
长时程模拟 支持 30+ 步一致模拟 有限 有限
显式推理 CoT 激活,可解释状态转移 无显式推理 依赖基础模型的隐式推理
开源情况 Apache 2.0(模型+数据) 未开源 非开源(依赖专有 API)
核心差异 以开放网页为根基,数据驱动规模化 以协同进化闭环优化,环境受限 以检索增强定向合成,成本受 API 限制

WebWorld的应用场景

  • Web Agent 训练与评估:为自动化网页操作 Agent 提供低成本、高吞吐的模拟训练环境,替代昂贵的真实网页交互。
  • 数据增强与合成:为缺乏标注数据的网页任务生成大规模合成轨迹,用于监督微调或强化学习。
  • 推理时规划与搜索:在 Agent 执行过程中作为”世界模型”进行动作前瞻模拟,辅助选择最优动作序列。
  • 跨领域世界模型研究:其技术范式可迁移至 GUI 自动化、代码环境模拟、游戏状态预测等更广泛的数字世界建模任务。
  • 浏览器自动化测试:模拟用户交互路径,用于网页功能测试、兼容性验证和用户体验预演。

📝 站长洞察 (Editor’s Insight)

WebWorld的发布标志着世界模型从封闭游戏/模拟器向开放互联网环境的重大跃迁。其三层数据管道设计极具工程智慧——通过随机爬取、自主探索和任务导向的组合拳,巧妙突破了网页交互数据的稀缺瓶颈。更值得关注的是两阶段课程训练策略:先注入海量动态知识,再用仅千条CoT样本激活推理能力,这种‘知识先于推理’的范式或将重塑大模型训练逻辑。从产业视角看,WebWorld降低Web Agent开发门槛的意义深远,结合Apache 2.0完全开源,有望催生新一代自动化工具链。对比竞品局限于封闭环境,WebWorld在真实开放网页上的百万级轨迹规模和跨场景泛化能力,已建立起显著技术壁垒。

IntentSeek
Jochem
Varaverse
BetterPic
Artificial Art
TAGGED:A11y TreeQwenWebWorld世界模型智能体
分享
Email 复制链接 打印
Share
上一篇 告别终端Agent上下文爆炸!TACO:北航等高校开源自进化压缩框架,省Token提准确率
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

告别终端Agent上下文爆炸!TACO:北航等高校开源自进化压缩框架,省Token提准确率
AI 工具 AIGC 资讯
AI Agent开发革命!strukto-ai开源Mirage虚拟文件系统,用Bash命令统一操作S3、Gmail、GitHub等所有后端
AI 工具
Multica开源AI Agent协作平台:让Claude Code、Codex成为你的团队正式成员
AI 工具 AIGC 资讯
OpenAI官方命令行工具震撼发布:一键调用GPT-5.5,开发者效率革命已至
AI 工具 AIGC 资讯

相关推荐

AI 工具

AssemblyAI

remaker
AI 工具

Learn Prompting Pro

remaker
AI 工具

Videoleap

remaker
AI 工具AIGC 资讯

HiDream-O1-Image:智象未来开源8B像素级统一图像生成模型,性能全面超越FLUX与GPT Image

站外新闻
HiDream-O1-Image UiT架构 图像生成模型 开源AIGC 智象未来
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

3D AI AI Agent AIGC AI人像 AI工具 AI换脸 AI智能体 AI海报设计 AI生成视频 AI绘画 AI编程 AI编程工具 AI视频 AI设计 app图标 b站 chatgpt Claude Code DALL-E3 excel meta Midjourney openai Pika prompt runway SDXL Stability AI stable diffusion UI设计 世界模型 丛林 乐高 人像 人工智能 人物 办公自动化 动物 吉卜力 咒语 图像生成 图像生成模型 图标设计 壁纸 多模态大模型 大模型 大模型应用 大语言模型 女性 字节跳动 室内设计 家居 局部重绘 展台 帅哥 建筑 建筑设计 开源工具 开源平台 开源框架 开源模型 微摄影 微软 怪物 提示词 摄影 教程 新闻 日本排放核污水 早报 智能体 智象未来 水果 海报 海报设计 游戏 游戏美术 玻璃 矢量插画 破碎 科幻 穿搭 窗 美食 背景 腾讯混元 芭比 花 表情包 视频编辑 语音合成 赛博朋克 超现实主义 运动 阿里通义 阿里通义千问 风景 食物 香水
Prompt 语宙Prompt 语宙
Follow US
© 2009-2023 Prompt 语宙. Paooo.com. All Rights Reserved.