文章 — 卢东旭

短文

更短、更锋利，通常从 LinkedIn 开始。

大多数AI Agent故障不是对齐问题，而是架构问题

一篇新论文将幻觉和过度自信重新定义为无限自主权的症状——并提出了一个四状态框架（SMARt）来管理Agent何时可以行动、何时不可以。

4 min · 2026年6月

专用AI Agent做不好电子表格。通用Agent可以

WorkstreamBench测试Agent处理真实财务建模任务。Claude通用网页界面69.1分，专用Excel插件60.4分。同一模型，不同包装，3.8倍差距。

3 min · 2026年5月

3B模型通过将技能内化到权重中击败了GPT-4o

SKILL0训练小模型掌握策展技能然后逐步撤除。结果：3B模型87.9%，GPT-4o 48.0%，推理成本降低5倍。

OpenAI刚创建了一家40亿美元的公司，解决大多数企业仍认为是模型问题的部署问题

OpenAI Deployment Company：40亿美元，19位投资者包括McKinsey和Bain，收购Tomoro的150名工程师。模型提供商吞噬了咨询层。

90%的企业报告AI零生产力影响。但80%已经裁员

NBER数据：90%的企业AI无可衡量生产力变化。Gartner：AI裁员与AI ROI之间零相关。裁员叙事与结果无关。

3 min · 2026年5月

SAP发布'自主企业'。50年ERP历史被AI Agent重写

SAP Sapphire 2026：200+个AI Agent，Anthropic Claude驱动HR/采购/供应链，押注治理层而非模型层是赢家。

编程Agent刚在Atari Breakout上达到理论最高分。没有神经网络，没有梯度

启发式学习使用编程Agent通过反馈循环维护和改进基于软件的策略——在不训练任何神经网络的情况下匹配Deep RL基线。

你的AI成本可能比需要的高30-40%——因为分词器

1,308个模型训练证明Chinchilla的~20 token/参数规则是错的。通用规则是~60字节/参数。

8B模型在Agent工具使用上击败235B模型。差异在于环境，不是参数

Agent-World构建2,000个真实训练环境和19,822个工具——证明环境多样性比参数规模更重要。

64%的企业在准备好之前就部署了AI Agent，现在正在为此付出代价

Monte Carlo调查260位企业领导者：63%发现未授权数据访问，36%无法回滚故障Agent，70%预计将重建已上线系统。

3 min · 2026年5月

Google重命名了Vertex AI。我曾参与最初的战略制定

Google Cloud Next 2026：Vertex AI变为Gemini Enterprise Agent Platform。A2A协议在150个组织中投产。200+模型包括Anthropic Claude。来自Google内部人士的视角。

记忆、技能和规则不是三个不同的系统，而是同一系统在不同压缩级别

新论文将Agent记忆、技能发现和规则学习统一为经验压缩谱——Level 2技能比Level 1记忆高出68.5个百分点。

DeepSeek V4: 百万token上下文，成本仅为Opus的1/21。开源差距再次缩小。

DeepSeek在GPT-5.5同一天发布V4。1.6万亿参数，百万上下文，Apache 2.0，每百万输出token $3.48。稀疏注意力将KV缓存降至V3.2的10%。

22个AI Agent框架正面对决，前12名仅相差1.4个百分点

最大规模的Agent框架系统性比较揭示：工程纪律——内存管理、重试策略、失败处理——比架构更重要。

为什么你的AI成本随使用量上升，而他们的在下降

一篇新论文展示了通过知识复利实现84.6%的token节省。核心洞察：token应该是资本投资，不是消耗品。

大多数人认为改进AI代理意味着重新训练模型。这只是四个杠杆之一。

一篇新论文展示了代理在不更新模型的情况下自我改进。但更大的洞察是大多数企业没有利用的完整优化面。

你跑5个代理是因为任务需要5个，还是因为你就是这么设计的？

一篇新论文测试了何时应该将多代理系统压缩为单个代理。答案是反直觉的：这不取决于任务，而取决于指标。

你的AI代理正在以你的身份行动。这不是比喻。

当你的Copilot代理发送邮件时，它使用的是你的身份。你的凭证。你的权限。Microsoft的Agent 365直到2026年12月才会解决这个问题。

Jensen说AGI到了。基准测试说0.26%。

Jensen Huang告诉Lex Fridman他认为AGI已经实现了。同一周，ARC-AGI-3发布。人类得分100%。最强前沿AI得分0.26%。两者都是对的。

一个AI代理刚刚在优化NVIDIA自家GPU上击败了NVIDIA自己的工程师

AVO论文给了一个编程代理CUDA文档和Blackwell B200规格的访问权限。它在7天内产出40个内核版本——性能超过cuDNN 3.5%，超过FlashAttention-4 10.5%。

你不再是工程师了。你是导演。

Andrej Karpathy从去年12月起就没敲过一行代码了。他把每天的时间都花在向代理「表达意志」上。瓶颈变了。

Jensen把OpenClaw比作Linux。没人在谈论这意味着什么。

如果代理运行时是Linux，那运行时就是商品。每家企业都会跑同一个。价值向上迁移——到智能层。

Cursor被抓了。我把它当作战略指南来读。

他们的新「自研」模型是Kimi K2.5——一个来自Moonshot AI的开源权重模型，经过RL微调。一个开发者24小时内就发现了。互联网称之为丑闻。

2 min · 2026年3月

你的AI账单在增长。你的AI护城河没有。

Midjourney跑的是自己拥有的模型。他们的推理成本每季度都在下降。你的企业跑的是Claude和GPT。你的成本随用量上升。你的护城河是零。

Knuth说了一声「震惊！」——如果你了解Knuth，你就知道这意味着什么

Donald Knuth，在世最受尊敬的计算机科学家，被Claude解决了一个他研究数周的开放问题而震惊。意义远超数学本身。

职场最不公平的优势

Andy Grove写下了管理学中最重要的一句话。2026年，这个等式悄然改变了。你的组织现在包括AI代理。

MCP vs CLI是一场错误的辩论

我们刚给了一个AI代理对staging环境的无限制CLI访问权限。安全团队是从Slack告警中得知的——而不是治理审查。

大多数企业卡在了第二阶段

你已经部署了AI。它能用。但它没有复利效应。那不是第三阶段，那是第二阶段——而大多数企业卡在了这里。

AI代理即将比外包人工更贵

我们为了替代外包劳动力而构建的技术，即将比外包劳动力更贵。一个Gartner预测，应该让每个企业AI买家警醒。

Vibe Coding将杀死Agent Builder UI

2024年，我们构建了拖拽式的代理构建器。2026年，开发者直接描述他们想要什么。配置界面的时代只持续了18个月。

关于领导力，有一个教训一直伴随着我

关于领导力，有一个教训贯穿了我的整个职业生涯。领导力不是做一件事，而是打造一个团队。

3 min · 2026年2月

Anthropic的全面胜利（暂时的）

2026年Anthropic做的所有事：200亿美元年化收入、iOS排名第一、五角大楼合同。Anthropic如何赢下这一局——以及前方的风险。

5 min · 2026年2月