你跑5个代理是因为任务需要5个，还是因为你就是这么设计的？

4 min · 2026年4月

一篇新论文刚刚回答了一个每个运行AI代理的企业都应该问的问题：什么时候应该使用多个代理，什么时候应该将它们合并为一个？

答案是反直觉的。这不取决于任务。而取决于指标。

研究人员测试了技能蒸馏——将多代理系统压缩为一个具有提取技能的单个代理。在完全相同的任务上，使用完全相同的输出，蒸馏在一个指标下提高了28个百分点的准确率，而在另一个指标下降低了2个百分点。

相同的代理。相同的输出。相反的结果。唯一的变量是你如何衡量成功。

他们引入了一个叫做Metric Freedom的概念——一个0到1的分数，衡量有多少路径可以导向好结果。当指标是刚性的（F接近0），成功只有一条窄路。结构化的技能指导极其有价值。当指标是自由的（F接近1），多条路径都行得通。添加结构反而会限制代理的自然探索。

实际影响很大。

流水线排序——多代理系统中精心设计的步骤序列——在蒸馏后提供了零价值。让多代理架构复杂且昂贵的协调机制（辩论、投票、消息传递）？也是零价值。某些情况下是负值。一个多代理辩论系统产生了研究中最差的准确率，因为在错误假设上辩论会放大错误。

成本差异：单代理蒸馏系统比多代理原版便宜1.4-8×，快15×。一个任务中，多代理系统用了8-13小时。蒸馏后的单代理用了45分钟。准确率相当。

问题是：你跑5个代理是因为任务需要5个，还是因为你就是这么设计的？