英伟达市值超3.6万亿，巨头开囤GPU

2024-11-11 10:55

半导体产业纵横

关注

英伟达超越苹果成为全球最值钱的公司，而市场依旧对英伟达保持乐观。

与此同时，美国科技公司的服务器集群频频曝光。年关将至，巨头们开始展示自己的AI肌肉，试图在年底给投资者们一点甜头。

就在埃隆·马斯克xAI集群首次曝光后，小扎也迫不及待在Meta的业绩发布会上表示，Llama 4背后服务器集群的实力“比我见过的任何报道中其他人正在做的（规模）要大”。这番言论无疑是对埃隆·马斯克“地表最强的AI集群”的正面回应。

在科技巨头们开启算力竞赛时代，英伟达的GPU成为巨头们的“粮草”。本文就来看看英伟达的大客户们AI的囤粮情况。

01 巨头血拼H100“前”地表最强——xAI

2023年7月14日，马斯克在个人推特账号宣布新公司定名为xAI，并于同日举行Twitter空间会议。新成立的xAI公司会与Twitter和特斯拉紧密合作，其中一个目标是打造能进行高阶逻辑推理的人工智能模型，并超越市面上其他模型。

四个月后，xAI宣布推出Grok，称此模型“最大限度地造福全人类，并将是任何人的强大的研究。”

2024年9月xAI推出Colossus 100k H100 训练集群。马斯克在 X 上称，它是“世界上最强大的人工智能训练系统。此外，它的规模将在几个月内翻一番，达到 200k（50k H200x）。”

2024年10月，埃隆·马斯克的新项目 Colossus AI超级计算机第一次被详细介绍。一则视频展示了其包含10万台GPU集群的内部结构。Colossus 的基本构建模块是 Supermicro 液冷机架。它由 8 台 4U 服务器组成，每台服务器配备 8 个 NVIDIA H100，每台机架总共有 64 个 GPU。8 台这样的 GPU 服务器加上一台Supermicro 冷却液分配单元（CDU）和相关硬件构成了一个 GPU 计算机架。每个HGX H100之间都夹有1U歧管，为服务器提供所需的液体冷却。每个机架底部还有另一个Supermicro 4U单元，配备的是冗余泵系统和机架监控系统。

Meta：购买35万个H100

正如前文所说，在Colossus AI计算机视频流出后，埃隆·马斯克的“死对头”扎克伯格在Meta的业绩发布会上表示自己家的GPU比目前公开的数量都多。

年初，扎克伯格在Instagram上发表文章称，计划在今年年底前向芯片设计商英伟达购买35万个H100 GPU芯片。Meta首席科学家杨立昆（Yann LeCun）上个月在旧金山举行的一次活动中强调了GPU对于构建通用人工智能（AGI）的重要性。他说：“如果你认为AGI时代正在到来，你就必须购买更多的GPU。这是一场人工智能战争，而英伟达正在提供武器。”

据业内人士介绍，每个英伟达H100芯片售价为25000至30000美元。那么购买35万个H100的成本在87．5亿之间到105亿美元之间。如果按照每个服务器配备8个GPU的数据估算，Meta将建造超过4．3万台服务器；目前市场配备一台服务器的价格在27万美金左右，那么2024年Meta的在服务器的设备成本大概是118亿美元。此外，还要配备相应的存储、网络、供电、厂房等等其他设施；从成本结构来看（按服务器设备成本占比30％估算），如果Meta在2024年购买的35万个H100全部按时到货，且投入使用，那么Meta为H100搭建的数据中心投资预计超过350亿美元（还不包括后续运营成本）。显然扎克伯格希望用35万个H100芯片为Meta的Llama 4 带来更强的推理能力和更快的速度。

据估算10万个H100的算力峰值可以飙升到198／99 FP8／FP16 ExaFLOPS。来源：semianalysis，半导体产业纵横调研

微软：2023年最大买主

根据Omdia Research的分析，2023年英伟达的H100大多供应给了大型云服务商。该机构估计，2023年H100最大的买家就是微软和Meta，预计为15万个。

来到2024年，微软将AI芯片的囤货目标提到了180 万块，且将主要来自英伟达。business inside表示，到 2027 财年，微软预计将在 GPU 和数据中心上花费约 1000 亿美元。微软的AI芯片目标显然不全是H100，但这样的数字也足以见得微软对英伟达的“高需求”。

亚马逊＆谷歌：一边买，一边造

相对于本文提到的其他三家公司，亚马逊和谷歌在购买GPU采购上相对低调。

事实上亚马逊在2023年7月就已经宣布推出基于H100 GPU的虚拟机实例EC2 P5。P5 实例可以组合成称为 UltraScale 的 GPU 集群，提供高达 20 百亿亿次浮点运算的总体性能。每个 UltraScale 集群中可扩展多达 20，000 个 H100 GPU。用户可以部署可扩展到数十亿或数万亿个参数的 ML 模型。

同样在2023年，谷歌也推出了承载26，000 个英伟达H100 GPU 的 A3 超级计算机。A3 最大可提供 26 ExaFlops 的处理能力，可显著减少训练大型机器学习模型的所需时间与成本。若用在 AI 推理，A3 的成效更为显著，若以 A2 的运算效能为基准，A3 领先幅度可达到 30 倍。

作为云巨头，亚马逊和谷歌为何在H100的采购上有如此大的数量差距？

一个重要原因是，这两家巨头都在“悄悄”发力自研芯片。

亚马逊开发的AI专用芯片包括Inferentia和Trainium。据亚马逊方面表示，在亚马逊的促销日期间，该公司部署了80000个AI芯片实施云计算，以应对其平台上活动的激增。此外，AWS计算和网络副总裁戴维·布朗（David Brown）透露：“在某些情况下，该芯片性能相较英伟达可提高40％至50％，因此其成本应该是使用英伟达运行相同型号的一半。”

谷歌TPU 是定制设计的 AI 加速器，针对大型 AI 模型的训练和推理进行了优化。它们非常适合各种使用场景，例如聊天机器人、代码生成、媒体内容生成、合成语音、视觉服务、推荐引擎、个性化模型等等。Cloud TPU 能够针对各种 AI 工作负载（涵盖训练、微调和推理）进行经济高效的扩缩。Cloud TPU 提供了多种功能，可加速领先 AI 框架（包括 PyTorch、JAX 和 TensorFlow）上的工作负载。通过 Google Kubernetes Engine （GKE）中的 Cloud TPU 集成，无缝编排大规模 AI 工作负载。利用动态工作负载调度程序同时安排所有需要的加速器，从而提高工作负载的可伸缩性。寻求最简单的 AI 模型开发方法的客户还可以在全托管式 AI 平台 Vertex AI 中利用 Cloud TPU。

02 背后赢家英伟达

英伟达在2023年为H100定下的销售目标是2024年出货150万至200万台。

根据英伟达财报，2024年第二季度营收实现翻倍，其中四个大客户的采购占比占英伟达300亿美元营业额的46％。出于竞争原因，对四家客户的身份进行匿名处理。在英伟达公布备受期待的季度投资者报告时提交的10－Q监管申报文件显示，四家客户贡献的营业额约为138亿美元。时长猜测。四家人工智能巨头可能就在亚马逊、Meta、微软、Alphabet、OpenAI或特斯拉＋xAI之间产生。

微软、Alphabet（谷歌母公司）、亚马逊和Meta，四家公司第三季度在数据中心设备和其他固定资产上总共投入了590亿美元，创下了季度纪录。这意味着英伟达有望在本季度也交出一张漂亮的答卷。

除了以上巨头，苹果、OpenAI、中国互联网大厂都是英伟达的重要买家，基于这样的背景。华尔街分析师对英伟达的看法非常乐观，机构追踪的75位分析师中有67位将该股评为“买入”。他们还在继续提高预期，根据汇编的数据，过去三个月，他们对明年的利润预测提高了约10％。

2024年11月8日，英伟达市值突破3．6万亿美元，刷新了美股历史。在11月份，英伟达股价已经累计上涨了12％，2024年年初至今，该公司市值已经增长了两倍。

2024年11月8日英伟达市值

03 AI改变芯片市场

11月1日，标普道琼斯指数公司公布，将英伟达纳入道琼斯工业平均指数，取代道指目前的芯片业成分股英特尔。这次调整标志着人工智能和高性能计算的重要性日益增强。英伟达作为AI GPU的领先供应商，能够吸引更多投资者关注新兴技术，传统的半导体公司则面临较大压力，尤其是在数据处理、AI模型训练等高增长领域。

当然，这样的调整更说明AI正在引导市场投资风向。

上周巨头业绩后，各家投行陆续上调了明年整体资本开支。大摩从2700亿美金上调到3000亿美金。3000亿美金，作为对比先后完成6次登月的阿波罗登月计划共花费239．15亿美元；3000亿美金的数字可以在2023年非洲国家GDP排名中位列第4，仅低于埃及（3939亿美元）、南非（3777亿美元）、尼日利亚（3749亿美元）。

在人们感慨英伟达时代来临的时候，或许应该意识到AI时代真的来了。

AI成就了英伟达，AI时代并不会只属于英伟达。凯文凯利在《5000天后的世界》中预测：在未来的50年里，AI将成为可以与自动化和产业革命相提并论的，不，应该是影响更为深远的趋势。

一个新时代，将会由一个新玩家建造。