总结 Anthropic CEO 对于 DeepSeek 的评论
Dario Amodei: On DeepSeek and Export Controls。文章为了得出 “需要加强对中国的芯片出口管制” 这个结论铺垫了许多业内信息。Anthropic 是唯一一个创始人是 AI 科研背景且还在一线做技术研究的美国前沿 AI 公司,因此 Dario 的文章和采访都很值得一看。
观点 1:DeepSeek-V3 训练成本符合行业的降本曲线
2020 年 Dario 还在 OpenAI 的时候,他的团队发过一篇论文:每年因为算法的改进就能将相同质量模型的训练成本降低
1.68x
,这还不算硬件性能的改进。他粗略预计,包含硬件的进步这个数字现在大约是4x/年
。这里的关键词是 “相同质量“。虽然技术和硬件的进步使得成本每年下降 4 倍,但大家都在全力增加投入来训练更大更智能的模型,所以给大家一种错觉模型在越来越贵。他举例,Claude-3.5-Sonnet 是在 GPT-4 之后 15 个月上线的,几乎在所有基准测试上的表现都优于 GPT-4,而 API 价格只是当时 GPT-4 的 1/10。DeepSeek-V3 的训练大致在 24 年 11/12 月,是 Claude-3.5-Sonnet 之后的 7~10 个月。
在多项测试(比如 coding)中观测到弱于 Sonnet。
Sonnet 的训练花了小几千万美元。
综上,他认为更准确的描述是:DeepSeek-V3 以低得多的训练成本(600 万美元) “差不多” 追上了美国 AI 企业 7~10 个月前的模型。V3 确实有不少创新,但前沿的 AI 企业每年也都有降本上的创新,综合时间点和模型性能,V3 并没有显著超出当前业界的降本曲线。
观点 2:DeepSeek-R1 摘取了二阶段训练的低垂果实
2024 年,在 post-training 阶段使用 RL 让模型产生推理能力已经成为业界关心的新焦点。Anthropic 也已经发现这个方式在数学和 coding 的领域已经可以增强模型的推理能力。他暗示 R1 和 OpenAI 训练 o1 的方式一致。—— 巧合的是,Mark Chen(OpenAI 首席研究官)在 X 上也说 DeepSeek 独立发现了 o1 的核心方法。
用 RL 来提升 reasoning 能力也符合 scaling law 的成本/收益对数曲线,现在正在早期阶段,效果提升非常显著。美国各家公司很快就会投入几亿到几十亿美元在第二阶段训练上,同时不影响在第一阶段训练上的增量投入。—— Mark Chen 也说 OpenAI 会在 pre-training 和 reasoning 这两条轴上把计算资源 push 到极限。
R1 是第一个公开技术报告(使用 RL 训练 R1-Zero)、公开模型、显示思维过程的(他相信 OpenAI 只是选择在 UI/API 上隐藏了具体思维过程),叠加了 V3 的降本概念,又是中国公司,在传播上获得了引爆。—— 这点 DeepSeek 是非常值得称赞的,OpenAI / Anthropic / Google 显然都在用 RL 来提升推理能力上有显著进展,但却没有公开。
观点 3:几乎在所有事情上超过所有人类的 AI 大概率在 2026~27 年实现
Dario 预言随着技术和硬件的进步,几乎在所有事情上超越所有人类的 AI 很有可能在 2026~27 年实现。无论有没有 DeepSeek 的创新都不影响这个时间点。
在此之前,所有前沿 AI 公司都会尽量加大投入,尽力扩大计算。
实现这样的 AI 需要数百万颗 Hooper 架构芯片。
一旦实现这样的 AI,AI 就能自己产生更强大的 AI,因此谁先能跨入这个零界点,谁就很有可能可以持续保持领先。