GPU缺口45万片？中国大模型产业链有新动向

很难想象，一个只有两三百人的会议，来了国内“百模大战”中的几十家企业。他们为何而来？

文｜赵艳秋

编｜牛慧

8与24日，在北京东三环一家酒店中举办的一场发布会现场，来了国内“百模大战”中过半的企业。

全场的气氛有些焦虑，一些与会者见面时的问候语变成了“你家的GPU服务器到货了没有？”

今年上半年，全球新发布的大模型约有400个；截至7月，中国发布的10亿参数以上的大模型有79个。Gartner在其最新2023年新兴技术成熟度曲线，将生成式AI置于过高期望的顶峰，大模型赛道的热潮，也导致AI算力现在变得异常稀缺，而GPU芯片大厂英伟达的营收和市值都创造了新高。

“我们判断现在英伟达H800的缺口在45万片。”一位与会互联网算力平台负责人说，业界整体面临算力从哪来的问题。

更进一步说，Gartner预计生成式AI将在未来两到五年带来变革性好处，不少大模型企业出于自身业务长期的发展，正在体系化考虑大模型业务，比如，思考自建算力集群，产业链也开始要解决更多大模型系统化发展带来的挑战。

中美大模型或将走向不同“分野”

很难想象，一个只有两三百人的会议，来了几十家大模型企业。

此前有业界人士称，中国将与美国一样，未来只有几个大厂有能力做大模型，其他企业都将在大模型上做应用开发，但显然每家来参会的企业都怀抱希望，想要一搏。

“我们的模型开源后，大约有150家企业客户将它用到了实际生产中，但其实可能这只是登记在册的，实际数量已远远超过了这个数。”百川智能技术联合创始人陈炜鹏说。百川是由王小川等创立的大模型企业，今年4月进入该赛道，时机并不算早，但获得了市场的良性反馈。他们准备在Q4发布更大的500亿参数的模型。

快手在8月刚刚宣布自研大模型“快意”，一位与会人士称，正在加紧探索应用场景。

“其实，今天我们只是在生成式AI的起点。”浪潮信息高级副总裁刘军告诉数智前线，“我认为还没有到定义中国大模型格局的阶段。”

浪潮信息高级副总裁刘军

他的理由是，生成式AI未来的前景实在是太广阔了。而从技术角度看，以十年的维度，今天GPT4的能力还是一个小娃娃，未来有多远，人们能到多高的山，现在都还是未知。包括一些组织正在研究新算法要去颠覆大模型“鼻祖”Transformer，美国至今也在对大模型进行疯狂投资，这些都是行业内值得关注的动向。

不得不承认，从应用角度看，当下大模型在中美的普及程度不太一样。ChatGPT在美国已成为很多人工作不可或缺的助手，写代码、写文档、做翻译、写邮件，不少人每天都在用，也有很多人在持续使用文生图的Stable Diffusion、Midjourney。

在国内，一些先行企业在做大模型的落地尝试。上海仪电旗下数科公司南洋万邦智能物联部经理曾佑轩告诉数智前线，从他们做的项目来看，主要是内部员工的AI助手、知识管理两大方向。目前AI助手的费用已做到每月每人10元。

但一位与会互联网人士对此不以为然，他认为上述用户体量还是太小。他们的App有数亿用户，对大模型的落地“胃口”显然更大。“你看ChatGPT有几亿用户。”他说。

大家认为，普及上的差距，核心原因是大模型的性能差距。从各大模型企业释放的信息来看，今年底，国内基础大模型有望赶上GPT3.5的水平。“我们设想中国有10个达到GPT4、GPT5这样能力的大模型，运用前景跟今天就会完全不一样。”业内资深人士说。

刘军认为，客观来看，一方面国内在基础大模型上和Open AI之间存在较大差距，确实需要做提升；另一方面，中国公司在应用上毫无疑问具备特别强的创新能力。这两者结合起来，中国在生成式AI上会有一个非常好也不一样的前景。“美国现在的格局，并不意味着就是中国未来的格局。”

大模型的追赶，需要数据、算法和算力上的保障，算力目前是一个突出问题。

大模型能力的提升和其训练投入的算力当量正相关。简单说，算力当量就是模型参数量乘以训练的token数。根据公开资料分析，GPT-4、PaLM-2等模型的算力当量已达到GPT-3的数十倍，相当于上万颗领先的英伟达Hopper架构GPU组成的AI集群，训练超过1 个月的时间。实际情况是大家可能找不到这样的算力，这是国内大模型企业面临的一大挑战。

一位与会创业者对数智前线说，他看到业界正在研发各类XPU芯片，早有“百芯大战”之说。未来AI算力将走向百花齐放，尤其是谁将在ChatGPT之后，面向大模型训练开发出专门的芯片。到那时，GPU将不再通吃天下。

不过，快手异构计算负责人刘凌志称，他们看到新的AI芯片落地用起来，基本上在两三年之后。

为了加快多元化芯片的落地，8月，浪潮信息发布了《开放加速规范AI服务器设计指南》，“百芯”公司可参考规范，将服务器适配周期从原来将近一年时间缩短到三分之一。这里的核心问题是，英伟达最抢手的GPU采用了NVLink高速互联协议，但这是一种私有协议。为解决其他芯片高速协同工作，国际开放组织OCP制定了开放加速计算规范，目前浪潮信息是最核心的牵头者和推动者。

在8月北京举办的OCP大会上，数智前线看到了采用燧原AI加速芯片的服务器。有业者告诉数智前线，多元算力局面将在2024年底到来。

不过，为了解决大模型的快速推进和算力稀缺之间的矛盾，业界需要做的还要更多。

硬件企业向上，软件企业向下

当下算力的矛盾，不仅是芯片问题，也有如何从系统角度把芯片用起来的问题。

“很多人认为，只要买了很多GPU，就可以搭建超大规模的训练集群，这是很大的误区。”商汤联合创始人陈宇恒曾告诉数智前线，他深刻体会到构筑AI计算集群去训练大模型的不易，称之为“工程的奇迹”。试想，把几千、几万块GPU连接起来，实现非常高的并行效率，还要保障长时间无故障运行，确实不容易。

浪潮信息人工智能与高性能应用软件部AI架构师Owen ZHU在拜访一家海外大型科技企业时，企业的IT总监告诉他：“Al集群就像一台动力强劲的法拉利，但目前为止我们还没有很好的掌握如何驾驭它。”这家企业有很长一段时间都在用公有云，当他们要创建自己的AI集群时，发现自己已丧失了面对最新硬件设备构建集群、优化运维的能力。

“我们每个创业公司都会考虑自建集群，但基本决策都还没有下。”一家与会的大模型创业人士告诉数智前线，他称想自建的原因是目前整个行业的算力都很紧张，使用云服务有很大的不确定性，长期来看成本也较贵，因为原来云可以超卖，但现在训练大模型，为了追求集群的性能，不允许云厂商超卖，这导致用云的成本比自建要高。而目前没做决策的原因，是自建的复杂性。

金山办公技术总监熊龙飞观察，他们的一些用户出于数据安全和隐私，对私有化部署已提出强烈需求。“当前，我们做的主要还是公有云方案，后面要进行私有化部署的迁移，不仅需要尺寸更小的模型，也要更强的本地算力集群。”

Owen ZHU观察，企业在智算场景下，建设本地集群的需求越来越明显，但从目前的情况看，绝大多数用户在如何用好这些算力上，或多或少都遇到一些问题。

基于这些用户的需求，8月24日，浪潮信息正式发布大模型智算软件栈OGAI (Open GenAI Infra) “元脑生智”，这是一套全栈软件，面向生成式AI开发与应用场景，涉及从集群系统环境部署到算力调度保障再到大模型开发管理。

“现在市面上没有公开、标准化的东西，我们就把自己从2021年起做大模型的工程经验、服务客户的经验，转化成工具和流程。”Owen ZHU说。

这看上去有些跨界，毕竟浪潮信息以算力和基础设施为主。但实际上，人工智能产业链上，跨界动作愈发频繁，业界有着“软件企业向下，硬件企业向上”的现象。

各大互联网企业不仅开发各类大模型，做模型商店，还向下做芯片，做人工智能算力大底座。

GPU大厂英伟达CEO黄仁勋在今年一个大学演讲中称，“调动公司各方力量来推进人工智能”。英伟达估计，这项工作在过去十年间已花费了超过 300 亿美元，使英伟达不仅是一家芯片供应商，还建立起一支训练大模型的人工智能团队，开发了CUDA 之外的多层关键软件，目的是为程序员节省劳动力。

“人工智能是对计算方式的重新发明。”黄仁勋进一步解释，“我们从头开始构建一切，从处理器一直到最终。”

此前，浪潮信息也已开始人工智能的相关布局，在2021年9月，发布了参数量为2457亿的大语言模型“源1.0”，成为国内首个推出大语言模型的“硬件”企业，时间与互联网企业如阿里等不相上下。

在被问及浪潮信息的定位时，刘军回应，开发大模型的核心出发点，还是研究大模型对于算力系统的需求特点，但他也随即补充，“我们越来越不认为自己是个硬件厂商，如何能把硬件这个生意转化成更大的生产力，我们必须去理解客户的应用需求和痛点，这也要求浪潮信息不仅仅是硬件，我们在系统、软件、算法上都有非常强的团队和能力。”

在人工智能赛道，中美企业当下处于狂跑构筑大模型、创造新应用的关键时期，很多角色在加速转变，因为客户需求复杂，单一角色的价值越来越低，越做越难。这就好像混乱的“战国时代”，没有说分工在哪一层，有跨界，有垂直整合，有些乱序，说不上谁对谁错，大家都在尝试。

公有云之外的一套工具链

为什么浪潮信息会选择此时推出大模型智算软件栈OGAI？一位资深人士告诉数智前线，在公有云上跑通大模型后，不少企业开始考虑自建集群，而一些企业抢购的GPU，将陆续在下半年和明年上半年到达客户现场。

此前，互联网大厂都提供了相应的工具链，但都在自家云平台上提供服务。浪潮信息的大模型智算软件栈OGAI“元脑生智”，则针对本地化或私有化部署，并且可以在用户的不同平台上“嫁接”使用，不要求一定基于浪潮信息的“源”大模型或该公司的某一平台。

大模型智算软件栈OGAI分为五层，各层对应不同的应用场景，每层间是解耦的，用户需要哪些工具，就可以调用哪些。Owen ZHU看到，在大型智算中心的建设场景中，基本会使用从L0到L4的全栈软件服务，企业也可选择其中的某一些工具链。

在这五层中，与其他工具链形成差异化的主要是L1和L2层。

L1层PODsys提供了集群部署的系统化工具。有趣的是，这一层是开源软件组成的。Owen ZHU称，这符合不少有互联网精神的企业，使用开源组件的需求。在诸多开源工具中如何选用、如何配置、如何快速组合，浪潮信息将自己之前的实践公开出来。这些软件可从PODsys.ai网站下载，免费使用。

L2层则是商业化调度平台AIStation，它的一些功能将与L1层PODsys形成承接。刘军介绍，商业化和开源之间的区别在于生产效率。

比如，在PODsys里也有两个开源的调度器，是免费使用的，而商业版本则能自动识别各种节点、设备的故障，把它从计算资源池里剔除出去，加入新的可用计算资源。同时，如果产生了断点，它能从最新断点自动化加载回来继续往前计算。

这是断点续训功能，大模型训练时间通常从几周到几个月，出现设备失效后，不能让跑了几十天的作业又重头再来，断点续训的设置和保护，对客户是一个极大的保护。目前，市面上的开源版本不提供这些功能，用户可以根据需求来选择。

L3大模型训练层和L4层多模型纳管层，提供的功能类似互联网企业的工具链，但OGAI是为企业提供本地化和私有化部署的。值得关注的是L4层，未来，浪潮信息将通过它的元脑生态，参与到大模型企业的商业通道中。

经历了这些年人工智能的演进后，刘军称，今天我们仍处于大模型的起点，除了人工智能的三要素——更好的数据、更有创意的算法和更好的算力之外，他希望再加两个，即更好的工程和更好的生态，逐步将大模型的飞轮跑起来。

发表评论