为什么你的AI成本随使用量上升，而他们的在下降

4 min · 2026年4月

最初发表于LinkedIn

每次你的AI代理回答一个问题，答案就消失了。下一个查询从零开始。相同的token。相同的成本。相同的延迟。

一篇新论文直接指出了这个问题：把token当作消耗品。像电力一样——用一次就没了。

作者构建了一个系统，每一个花费的token都会留下些什么。当代理研究一个话题，结果会被写回到持久化的知识库中。当它很好地回答了一个问题，那个答案会成为可复用的综合页面。当它搜索网络，发现会永久合并到实体页面中。

知识库随着每次交互增长。下一个相关话题的查询先命中wiki——检索而不是生成。检索成本比生成低10-50倍。

在对同一领域顺序查询的控制测试中，累计token使用量为47K，而标准RAG基线为305K。节省84.6%。到第四个查询，系统只需要4K token来回答一个从零开始需要28K的问题——因为之前的查询已经存储了相关知识。

30天预测比实验室结果更有趣。对于高集中度领域——研究团队、产品支持部门、处理相同案件的法律部门——到第30天token节省达到81%。中等集中度54%。即使最差的情况（分散的、低重复查询）仍然节省26%。

对企业重要的洞察：你的AI支出应该复利增长，而不是线性累积。今天花的每一个token都应该让明天更便宜。如果你的成本与使用量线性增长，你的架构缺少了回写循环。

论文将此框架为将token从运营费用重新分类为资本投资。资本支出，而非运营支出。知识库是资产。Token是建筑材料。每次查询要么建设资产，要么浪费材料。