非GPU算力路线开始反攻英伟达 AI推理市场迎来变革。英伟达的“GPU帝国”在AI发展的前十年凭借其在人工智能训练领域的优势稳坐王者宝座。然而,随着行业主战场从模型训练转向模型推理,算力的焦点不再是硬件性能,而是谁能以更优的经济模型支撑海量推理需求。英伟达不再是唯一的规则制定者,而成为众多玩家中的一员。
过去的算力竞赛主要是英伟达不断提升GPU性能的过程。从H100到Blackwell,再到Vera Rubin,每一次迭代都逼近物理极限。但当AI从集中训练走向分散推理时,算力使用逻辑发生了根本变化。推理阶段比训练更频繁、更分散,也更注重能耗与成本。为训练设计的GPU在这一点上显露出天生短板。
GPU以高吞吐率著称,但推理任务往往是串行和实时的。例如ChatGPT每生成一个词,都是一次独立计算。这就像在万人体育场中只允许一个人通行,资源浪费极大。算力闲置带来的能耗与成本,成为AI公司难以承受的“推理税”。
新的硬件革命迅速展开,多种非GPU架构陆续登场,目标一致——降低推理能耗,提升单位经济性。谷歌的TPU早在2016年就已面世,通过“脉动阵列”架构,让数据在芯片内部高效流动,减少访存延迟,比GPU更符合推理需求。同样任务下,TPU的性价比可达英伟达H100的四倍以上,能耗亦能降低约六成。如今,谷歌已将TPU推向公有云,Meta、Anthropic等大客户纷纷采购,传统GPU市场的格局被撼动。