大多数人认为改进AI代理意味着重新训练模型。这只是四个杠杆之一。

4 min · 2026年4月

大多数人认为改进AI代理意味着重新训练模型。

这只是一个杠杆。一共有四个。

Memento团队刚刚展示了一个系统：代理在完全不更新模型权重的情况下持续自我改进。代理根据哪些方法有效、哪些无效来重写自己的技能库。多步推理任务的准确率在三个周期内从65%提升到92%。在Humanity's Last Exam上，表现翻了一倍多。从5个基础技能开始，库增长到235个。没有微调。没有人工干预。

这很令人印象深刻。但更大的洞察不是论文本身，而是它揭示了大多数企业没有使用的完整优化面。

至少有四个独立的杠杆可以提升代理性能：

模型优化。 在你的领域数据上微调底层SLM。SLM飞轮。这改变了模型知道什么。

技能优化。 进化代理的行为手册——工作流、多步骤程序和决策树。这是Memento-Skills所展示的。它改变了代理如何行动，而不改变它知道什么。

提示词优化。 优化指令、系统提示和少量示例。根据生产结果A/B测试提示词。这改变了代理如何理解任务。最便宜的杠杆，通常也是最未被充分利用的。

工具优化。 改进代理选择哪些工具、何时使用它们以及如何链接它们。更好的工具路由、更智能的回退逻辑、更紧密的集成。这改变了代理能做什么。

大多数企业团队只拉动一个杠杆——通常是模型——而忽略其他三个。这就像优化了引擎但从不换轮胎、不改路线、不提升驾驶技术。

复合效应是乘法的，不是加法。每个杠杆20%的改进不会给你80%的总改进。它给你2倍或更多。因为每个杠杆放大其他杠杆：更好的模型使技能优化更有效，技能优化使工具使用更好，更好的工具使用产生更好的训练数据，反馈回下一个模型周期。

这是优化飞轮。不只是模型飞轮——一个同时触及每一层的全栈代理改进循环。

在企业AI中获胜的团队不是拥有最好模型的团队。而是同时拉动所有四个杠杆的团队。

论文: Memento-Skills: Evolving LLM Agents Through Self-Improving Skill Memory