Meta、OpenAI为何扎堆AI芯片？揭秘大模型背后的算力战争

2024-01-25 15:07

上周，AI行业发生了两件大事。

1月19日，Meta首席执行官扎克伯格宣布，Meta内部正在训练下一代模型Llama 3。截至今年年底，Meta将会有近35万块H100搭建的基础设施。1月21日，有媒体爆出消息，OpenAI CEO奥特曼正在筹集数十亿美元，建立一个全球性的AI芯片工厂网络。

这两件事其实都和一个东西有关——算力。

在生成式 AI 快速爆发的时代，算力短缺是运行 AI 模型面临的主要困难，GPT-4、Gemini、Llama 2 和其他模型严重依赖 H100 GPU，但H100产能却严重受限。即使像微软、Meta 这样大型科技公司，也需要提前数年预定产能，才能获得足够的新型芯片，更不用说OpenAI了。

AI产业算力短缺的根源在于，在摩尔定律主导下，性能每18-24个月翻一番的芯片，难以满足大模型参数规模的指数级增长。用OpenAI的话说，每年训练AI模型所需算力增长幅度高达10倍。这是瓶颈，也是机会。在新兴技术的故事里，成本才是影响大模型落地。

换言之，这场以大模型为名的千亿美金级豪赌实验，最终能否将世界带到新的摩尔时代，并不仅仅是看智能水平能提升到什么程度，更取决于模型发展会不会出现类似于摩尔定律的规律。

/ 01 / AI芯片，算力计算的“高地”

上周，Meta首席执行官扎克伯格宣布，到2024年底Meta将拥有35万块H100，拥有近60万个GPU等效算力。

35万块H100，是个什么概念呢？众所周知，训练大模型往往是最花费算力的阶段。OpenAI训练GPT-4，用了大约25000块A100 GPU。作为A100的升级版，据 Lambda 测算， H100 的训练吞吐量为A100的160%。也就是说，届时Meta拥有的算力是训练GPT-4所用算力的20倍以上。

买这么多算力，扎克伯格自然也花了大价钱。目前，一块英伟达H100售价为2.5万至3万美元，按3万美元计算，意味着小扎的公司仅购买算力就需要支付约105亿美元，更不用说电费了。

而这些算力很大部分将用于训练“Llama 3”大模型。扎克伯格表示，Meta将负责任地、安全地训练未来模型的路线图。

在打算力主意的不止是小扎，还有OpenAI的奥特曼。同样是上周爆出的消息，OpenAI CEO奥特曼正在筹集数十亿美元，建立一个全球性的AI芯片工厂网络。

目前，他正在和多家潜在的大型投资者进行谈判，包括总部设在阿布扎比的G42和软银集团。根据彭博社的报道，仅在OpenAI与G42的谈判中，涉及金额就接近80亿到100亿美元。

不过与小扎准备打富裕仗不同，奥特曼亲自下场制造AI芯片，更多是一种无奈。据外媒报道，这一事件背后的原因很可能就是，OpenAI已经无「芯」训练「GPT-5」了。

此前，奥特曼表示，OpenAI已经严重受到GPU限制，不得不推迟了众多短期计划（微调、专用容量、32k上下文窗口、多模态），甚至还一度影响到了API的可靠性和速度。

除了自己造芯外，OpenAI也在尝试通过其他方式来获得更低成本的算力。去年，就有媒体爆出，OpenAI从一家名为 Rain AI 的初创公司提前订购价值 5100 万美元的“神经形态”类脑人工智能芯片，于2024年10月开始供货。

当然，有自己下场造芯的可不止OpenAI一家，甚至进度快的微软、谷歌已经将自研芯片用到大模型上了。

比如，Microsoft Azure Maia 是一款AI加速器芯片，可发挥类似英伟达GPU的功能，用于OpenAI模型等AI工作负载运行云端训练和推理。而谷歌最新的AI 芯片TPUv5e在训练、推理参数少于2000亿的大模型时，成本也低于英伟达的A100或H100。

为什么所有大家都在绞尽脑汁搞算力，现在算力又发展到了什么程度呢？

/ 02 / 英伟达，AI芯片的“王”

按照算力基础设施构成来看，包括 AI 芯片及服务器、交换机及光模块、IDC 机房及上游产业链等。其中，AI芯片是其中的“大头”，能够占到服务器成本的55-75%。

从定义上说，能运行 AI 算法的芯片都叫 AI 芯片。按技术架构，可分为CPU、GPU、FPGA、ASIC及类脑芯片。虽然都叫AI芯片，但在擅长事情和应用场景上有很大的差异。

就拿我们最熟悉的CPU和GPU来说，GPU更像是一大群工厂流水线上的工人，适合做大量的简单运算，很复杂的搞不了，但是简单的事情做得非常快，比CPU要快得多。而CPU更像是技术专家，可以做复杂的运算，比如逻辑运算、响应用户请求、网络通信等。

看上去好像CPU比GPU更牛逼，但你不妨换个角度想，即使教授再神通广大，也不能一秒钟内计算出 500 次加减法，因此对简单重复的计算来说，单单一个教授敌不过数量众多的小学生。这就是为什么GPU被大量用户AI大模型训练的原因。

在一个大模型构建和迭代过程中，需要经过大量的训练计算工作。通常来说，训练一次是几乎不可能训练成功的，存在着大量的失败和反复，此外为保证模型迭代的更快，也需要进行大量的并行训练。即便打造出第一版大模型，后续模型的持续迭代的成本无法避免。

根据此前披露的消息，GPT-4的FLOPS约为2.15e25，并利用约25000个A100 GPU进行了90到100天的训练，如果OpenAI的云计算成本按每A100小时约1美元计算，那么在这样的条件下，训练一次GPT-4的成本约为6300万美元。

但就是这样一个支撑AI发展最重要的硬件领域，却被一家公司牢牢掌握着话语权，那就是英伟达。

用两组数据可以侧面证明英伟达在GPU领域的统治力：根据 Liftr Insights 数据，2022 年数据中心 AI 加速市场中，英伟达份额达 82%。根据不久前的数据，2023年人工智能研究论文中使用的英伟达芯片比所有替代芯片的总和多19倍。

毫无疑问，英伟达是去年以来AI浪潮的最大赢家。2022年10月到现在，英伟达的股价从110美元左右上涨到近600美元，涨了500%。FactSet数据显示，此前20个季度，英伟达有19个季度的业绩都优于市场预期。

2022年底，英伟达发布了最新的GPU产品——H100。相比A100，它的效率高达3倍，但成本只有（1.5-2倍）。更重要的问题是，受限于产能紧张，H100仍然供不应求。根据外媒报道，英伟达将在2024年，把H100的产量从去年的50万张左右直接提高到150-200万张。

英伟达的成功也说明了一件事情：在大模型军备竞赛里，最后挖矿的谁能赢不知道，但买铲子的一定赚钱，且短期内有高议价权。

/ 03 / 摩尔定律，跟不上大模型进化速度

既然AI芯片这么重要，那为什么还会如此短缺？归根到底，AI芯片的性能提升仍然受限于摩尔定律，远远赶不上大模型参数的规模增长。

一些重点研究实验室报告称，公众对大语言模型的使用率达到了惊人高度。2021年3月，OpenAI宣布其GPT-3语言模型被“超过300个应用程序使用，平均每天能够生成45亿个词”，也就是说仅单个模型每分钟就能生成310万词的新内容。

在这种情况下，AI模型对算力需求的增长是惊人的。据OpenAI测算，自2012年以来，人工智能模型训练算力需求每3~4个月就翻一番，每年训练AI模型所需算力增长幅度高达10倍。

相比之下，GPU更迭效率仍然延续着摩尔定律。根据摩尔定律，芯片计算性能大约每18-24个月翻一番。从目前看，尽管H100相比A100性能有明显提升，但并没有像模型训练算力需求那样有明显数量级的增长。

在这种情况下，想要追求算力的增长，只能做更大规模的分布式训练。简单来说，就是用更多数量的机器，来满足训练所需的算力。这个方法的瓶颈在于，受网络传输的限制。目前，网络传输最大是800G，这意味着分布式训练的规模也不会无限制增长。

从种种迹象来看，巨型模型时代正在接近尾声。抛开缺少更多高质量训练数据的原因，算力硬件迭代速度和日益高涨的训练成本也是一个重要原因。根据拾象CEO李广密判断，未来几年OpenAI仅训练模型?少还得200-300亿美元，Google200-300亿美元，Anthropic100-200亿美元，算下来未来几年至少投入1000亿美元纯粹用到训练?模型。

在硬件提升有限的情况下，提高效率将成为很多大模型企业的选择。据谷歌 PaLM 的论文，在训练阶段，缺乏优化经验或堆叠过多芯片，效率可能低至 20%，目前谷歌与 OpenAI 都能达到 50% 左右。前述机构推测目前推理阶段的效率只有25%左右，提升空间巨大。

在很多人看来，大模型更像一场千亿美金级豪赌实验，有机会将人类带入新的摩尔时代。在这个过程中，除了智能水平的提升，大模型训练、推理的成本下降会不会出现类似于摩尔定律的趋势，也是一个重要的观察维度。

从过去看，一个新技术能不能真正走向大规模落地，往往不取决于技术有多强，而是成本有多低。参考移动互联网应用大规模爆发，起于从3G到4G的所带来的流量成本大幅下降。从目前看，这样的故事大概率也将在人工智能领域发生。