Created time
Apr 7, 2026 04:11 AM
category
original
date
Apr 7, 2026
status
Published
icon
password
slug
chat-about-anthropic-killing-openclaw-business-logic
summary
如何在算力需求与成本压力之间找到平衡,以推动智能体的高效发展?
tags
AI+商业
工程实践
Agent
openclaw
type
post
最近罗福莉发了条推,引发热议。在以龙虾为代表的各类自主性 Agent 的发展越发猛烈的今天,这些问题确实非常值得拿出来讨论,也能够引发我们做 AI 应用的公司的相关思考。
几个核心takeaway:
- Anthropic 封杀第三方接入是为了止损,订阅制无法支撑低效 Agent 的算力消耗。
- OpenClaw 的上下文管理缺陷是什么?该框架在处理单个用户查询时,会拆分为多轮 API 请求。即便有缓存机制,由于其频繁携带超过 100K tokens 的长上下文进行低价值的工具调用(Tool Calls),导致算力浪费严重。在极端情况下,这会拉高整个系统的缓存失效(Cache Miss)率,影响其他用户。
- 短期内 Agent 用户会感到成本剧增,但这会迫使开发者优化上下文管理,提高缓存命中率。痛苦会转化为工程纪律。
- AI 厂商不应该盲目降价内卷。低价竞争会导致模型降级和服务不稳定,最终损害用户体验。
- Agent 的未来取决于“更高效的 Harness(框架)”与“更强大的模型”的乘法效应。
💡我的一点延展:
- Gemma4发布后的震撼表现在一定程度上代表了另一条路的可能性正逐步变为现实:使用本地模型处理简单的推理调用,以减轻云端长上下文的负担。这极有可能是接下来“本地优先的Agent”和算力优化的一个重要方向。
- 对于AI应用厂商来说,采用订阅制可能是一把双刃剑;token的使用效率也会变为一个关键的竞争力。
原文
Fuli Luo @_LuoFuli [2026-04-05]两天前,Anthropic 禁止了第三方客户端(harnesses)使用 Claude 订阅账号,这并不意外。三天前,MiMo 推出了 Token 方案——这是我投入了大量时间的设计,也是我认为在算力分配和智能体客户端开发上的严肃尝试。结合这两件事,我有一些想法:
- Claude Code 的订阅制是一个设计精美的算力分配系统。我猜它并不赚钱,甚至可能在亏损,除非他们的 API 利润高达 10 到 20 倍,但我表示怀疑。我无法精确计算第三方客户端接入带来的损失,但我近距离观察过 OpenClaw 的上下文管理——做得非常糟糕。在单次用户查询中,它会发起多轮低价值的工具调用,每次都作为独立的 API 请求,并携带长达 10 万以上 token 的上下文。即使有缓存命中,这也是极大的浪费,极端情况下还会提高其他查询的缓存未命中率。单次查询的实际请求次数比 Claude Code 自己的框架高出好几倍。换算成 API 价格,实际成本可能是订阅价格的几十倍。这不只是差距,这是个巨大的窟窿。
- 像 OpenClaw/OpenCode 这样的第三方客户端仍然可以通过 API 调用 Claude,只是不能再蹭订阅账号了。短期内,这些智能体用户会感到痛苦,成本可能直接飙升几十倍。但这种压力正是推动客户端改进上下文管理、提高提示词缓存(prompt cache)命中率、减少 token 浪费的动力。痛苦最终会转化为工程上的严谨。
- 我敦促大模型公司不要在还没搞清楚如何给编程方案定价且不亏本之前,就盲目进行价格战。低价卖 token 却对第三方客户端敞开大门,看起来对用户很友好,但其实是个陷阱——Anthropic 刚刚跳出来的那个陷阱。更深层的问题是:如果用户把精力耗在低质量的智能体客户端、极不稳定且缓慢的推理服务,以及为了降本而降级的模型上,最后发现还是办不成事——这对用户体验和留存来说不是一个健康的循环。
- 关于 MiMo 的 Token 方案——它支持第三方客户端,按 token 配额计费,逻辑与 Claude 新推出的额外用量包一致。因为我们追求的是高质量模型和服务的长期稳定交付,而不是让你冲动消费后又弃坑。
大背景是:全球算力增长跟不上智能体产生的 token 需求。真正的出路不是更便宜的 token,而是协同进化。“更节省 token 的智能体客户端” × “更强大且高效的模型”。Anthropic 的举动,无论其初衷如何,都在推动整个生态(无论是开源还是闭源)朝这个方向发展。这大概是一件好事。智能体时代不属于烧算力最多的人,而属于聪明使用算力的人。Fuli Luo @_LuoFuli [2026-04-06]一个更大的问题是:许多第三方客户端在接近上下文限制时,每隔 3 步就会压缩一次工具响应,这导致缓存命中率极低。