为什么你的AI成本随使用量上升,而他们的在下降
最初发表于LinkedIn
每次你的AI代理回答一个问题,答案就消失了。下一个查询从零开始。相同的token。相同的成本。相同的延迟。
一篇新论文直接指出了这个问题:把token当作消耗品。像电力一样——用一次就没了。
作者构建了一个系统,每一个花费的token都会留下些什么。当代理研究一个话题,结果会被写回到持久化的知识库中。当它很好地回答了一个问题,那个答案会成为可复用的综合页面。当它搜索网络,发现会永久合并到实体页面中。
知识库随着每次交互增长。下一个相关话题的查询先命中wiki——检索而不是生成。检索成本比生成低10-50倍。
在对同一领域顺序查询的控制测试中,累计token使用量为47K,而标准RAG基线为305K。节省84.6%。到第四个查询,系统只需要4K token来回答一个从零开始需要28K的问题——因为之前的查询已经存储了相关知识。
30天预测比实验室结果更有趣。对于高集中度领域——研究团队、产品支持部门、处理相同案件的法律部门——到第30天token节省达到81%。中等集中度54%。即使最差的情况(分散的、低重复查询)仍然节省26%。
对企业重要的洞察:你的AI支出应该复利增长,而不是线性累积。今天花的每一个token都应该让明天更便宜。如果你的成本与使用量线性增长,你的架构缺少了回写循环。
论文将此框架为将token从运营费用重新分类为资本投资。资本支出,而非运营支出。知识库是资产。Token是建筑材料。每次查询要么建设资产,要么浪费材料。