大多数人认为改进AI代理意味着重新训练模型。这只是四个杠杆之一。
大多数人认为改进AI代理意味着重新训练模型。
这只是一个杠杆。一共有四个。
Memento团队刚刚展示了一个系统:代理在完全不更新模型权重的情况下持续自我改进。代理根据哪些方法有效、哪些无效来重写自己的技能库。多步推理任务的准确率在三个周期内从65%提升到92%。在Humanity's Last Exam上,表现翻了一倍多。从5个基础技能开始,库增长到235个。没有微调。没有人工干预。
这很令人印象深刻。但更大的洞察不是论文本身,而是它揭示了大多数企业没有使用的完整优化面。
至少有四个独立的杠杆可以提升代理性能:
模型优化。 在你的领域数据上微调底层SLM。SLM飞轮。这改变了模型知道什么。
技能优化。 进化代理的行为手册——工作流、多步骤程序和决策树。这是Memento-Skills所展示的。它改变了代理如何行动,而不改变它知道什么。
提示词优化。 优化指令、系统提示和少量示例。根据生产结果A/B测试提示词。这改变了代理如何理解任务。最便宜的杠杆,通常也是最未被充分利用的。
工具优化。 改进代理选择哪些工具、何时使用它们以及如何链接它们。更好的工具路由、更智能的回退逻辑、更紧密的集成。这改变了代理能做什么。
大多数企业团队只拉动一个杠杆——通常是模型——而忽略其他三个。这就像优化了引擎但从不换轮胎、不改路线、不提升驾驶技术。
复合效应是乘法的,不是加法。每个杠杆20%的改进不会给你80%的总改进。它给你2倍或更多。因为每个杠杆放大其他杠杆:更好的模型使技能优化更有效,技能优化使工具使用更好,更好的工具使用产生更好的训练数据,反馈回下一个模型周期。
这是优化飞轮。不只是模型飞轮——一个同时触及每一层的全栈代理改进循环。
在企业AI中获胜的团队不是拥有最好模型的团队。而是同时拉动所有四个杠杆的团队。
论文: Memento-Skills: Evolving LLM Agents Through Self-Improving Skill Memory