💡 站外导读:当AI从实验室走向真实商业世界,一个核心问题浮现:它能否在经济上自力更生?香港大学HKUDS团队开源的ClawWork框架,正是为回答这一问题而生。它为AI Agent设定了严苛的生存挑战:仅有10美元启动资金,必须通过完成220个覆盖44个行业的真实任务来赚取收入、支付高昂的Token成本,资金耗尽即告“破产”。这不仅是对模型能力的测试,更是对其战略决策(工作与学习权衡)和成本控制意识的极致压力测试,标志着AI评估从“能力测试”迈向“生存能力评估”的新阶段。
ClawWork是什么
ClawWork 是香港大学数据科学实验室(HKUDS)开源的 AI Agent 经济生存基准测试框架,评估大模型在真实商业环境中的”赚钱能力”。系统为每个 Agent 设定 10 美元启动资金,要求其通过完成 220 个真实职业任务(覆盖金融、医疗、制造等 44 个行业)来赚取收入、支付 Token 成本,资金耗尽即”破产”。任务报酬按质量评分结算,价值从 $82 到 $5,000 不等,迫使 Agent 在”立即工作赚钱”与”投资学习提升”之间做出战略权衡。ClawWork 支持 GPT-4o、Claude、Kimi 等多模型竞技,提供 React 实时仪表板监控生存状态,为 AI 劳动力经济研究提供了首个”用进废退”的真实压力测试环境。

ClawWork的主要功能
-
220 个真实职业任务:来自 OpenAI GDPVal 数据集,覆盖 44 个经济部门(制造、金融、医疗、政府、零售等),每个任务都对应真实世界的工作场景。
-
经济责任制:每个 Token 都需付费,收入只来自完成任务,质量由 GPT-5.2 评估(0-1 分),模拟真实商业环境中的成本控制压力。
-
工作 vs 学习权衡:Agent 每天需做出战略决策——立即工作赚钱维持生存,还是投资学习提升未来表现。
-
多模型竞技场:支持 GPT-4o、Claude、GLM、Kimi、Qwen 等主流模型同台竞技,对比经济生存能力。
-
实时仪表板:基于 React 的可视化监控系统,实时追踪余额、收入、成本和生存状态。
-
Nanobot/OpenClaw 集成:通过 ClawMode 将任何 Nanobot 网关转为经济追踪型 AI 同事,支持本地和云端部署。
ClawWork的项目地址
- GitHub仓库:https://github.com/HKUDS/ClawWork
如何使用ClawWork
-
安装依赖:克隆 GitHub 仓库后,通过
pip install -r requirements.txt安装 Python 依赖,并配置 OpenAI API 密钥用于任务质量评估。 -
配置 Agent:在配置文件中设置模型类型(GPT-4o/Claude/GLM/Kimi/Qwen 等)、初始资金(默认 $10)和每日决策策略(工作优先或学习优先)。
-
加载任务集:从 OpenAI GDPVal 数据集导入 220 个真实职业任务,或自定义添加特定行业的专业任务。
-
启动模拟:运行主程序开始经济生存模拟,Agent 将自动接收任务、执行并获取质量评分和相应报酬。
-
监控状态:通过 React 实时仪表板查看 Agent 的当前余额、累计收入、Token 成本消耗和生存天数。
-
分析结果:模拟结束后导出完整报告,包含盈利能力、任务完成质量、成本效率等关键指标,用于模型对比和策略优化。
ClawWork的应用场景
-
大模型经济能力评估:对比 GPT-4o、Claude、Kimi 等不同模型在真实商业压力下的赚钱能力和成本控制能力,为模型选型提供数据支撑。
-
Agent 商业可行性验证:测试 AI Agent 在投入实际业务前是否具备自我维持的经济生存能力,降低部署风险。
-
AI 劳动力市场研究:为经济学家提供实验环境,研究 AI Agent 在模拟劳动力市场中的行为模式、定价策略和生存法则。
-
Agent 策略优化:通过调整”工作 vs 学习”决策参数,找到最优的资源分配策略,提升 Agent 长期盈利能力。
-
企业成本效益分析:帮助企业评估引入 AI Agent 替代人工的真实成本收益,计算投资回报率。
-
教育训练场景:用于培训新一代 AI 工程师理解 Agent 经济系统设计和商业逻辑,培养具备成本意识的开发思维。
📝 站长洞察 (Editor’s Insight)
ClawWork框架的发布,标志着AI评估范式的又一次跃迁。过去我们热衷于在静态基准上比较模型的智商与知识,而ClawWork引入了动态的“经济生存”维度,将AI置于一个模拟的市场经济体中。这深刻地呼应了AI发展的两大前沿趋势:一是AI Agent从执行工具向自主经济实体的演进,其“商业价值”和“成本效益”成为落地关键;二是对AI“具身智能”的一种经济隐喻,生存压力迫使Agent发展出更贴近人类的长期规划与资源分配策略。对于产业界,它提供了一个前所未有的“沙盘”,可以预演AI替代人工的真实成本收益;对于研究界,则开辟了“AI劳动力经济学”这一全新交叉学科。ClawWork不仅是一个测试工具,更是一面镜子,映照出未来人机共生经济中,智能体必须具备的‘生存智慧’。
