← 返回

Jensen说AGI到了。基准测试说0.26%。

3 min · 2026年3月
最初发表于LinkedIn

Jensen Huang本周告诉Lex Fridman,他认为我们已经实现了AGI。

同一周,ARC-AGI-3发布了一个新的交互式基准测试。人类得分100%。最强前沿AI得分0.26%。

卖GPU的CEO说我们到了。测试它的基准说我们差得远。

两者都是对的。这才是有意思的地方。

Jensen说得对:当前模型在语言、推理和知识方面大致达到了人类高水平——而且快了几千倍。如果你对AGI的定义是"能做大部分知识工作做得和人一样好",那确实,在过去六个月的某个时刻我们越过了那条线。

ARC-AGI-3也说得对:当前模型做不了任何人类可以轻松完成的事情——新颖的空间推理、模式抽象、需要真正理解而非模式匹配的任务。如果你对AGI的定义是"能做人类能做的一切",我们还差得远。

这两个定义之间的差距,正是每个企业AI决策发生的地方。

我的整个职业生涯都在这个差距中度过。模型在定义明确、重复的任务上表现非凡——分类、提取、路由、摘要。它们在新颖推理、模糊判断和任何需要理解训练数据未覆盖的上下文时失败。

这正是SLM飞轮有效的原因。你不需要AGI。你需要一个在你特定领域世界一流的模型。

AGI辩论很精彩。但它与你这个季度应该构建什么无关。