GPT算力估算：中小企业也能突围

I、GPT的训练算力需求

GPT是一种基于人工智能的对话模型，它的训练需要大量的计算资源。那么，我们来看看GPT的训练算力需求吧。

根据OpenAI的训练集群规模，我们可以进行一些线性估算。使用22台8卡服务器，就可以完成GPT-6B模型的训练，大约需要1-4周的时间。而标准大小的GPT-175B模型，大约需要375-625台8卡A100服务器进行训练。如果可以等待一个月的话，150-200台8卡服务器也足够了。总的来说，GPT的训练过程需要消耗约35000个GPU的资源。

那么，我们可以通过一些不同的方式来验证GPT的训练资源需求。

首先，根据Azure超算资源的上限，我们可以得出在Azure平台上，CPU与GPU的数量比接近1:2。而GPU的数量为1万块V100，而不是国内一些误传的A100。考虑到超算还要同时进行其他模型的训练，因此GPU的占用率不会达到100%。所以，如果换算到A100的话，大约需要3000-5000块GPU进行训练，耗时两周。

其次，根据NVIDIA联合发布的论文，他们给出了训练时间的经验公式，利用并行技术将GPU算力的利用率提升到52%。按照这个公式，训练175B的GPT-3模型需要34天，使用了1024块A100 GPU。这个数据与前面的估算基本一致。

还有，根据Google在两年前发表的论文，当时训练175B GPT-3模型大约需要1万块V100 GPU，耗时两周。考虑到A100的算力进步和有效算力使用率提升，大约需要使用35238个GPU（A100）。

需要注意的是，以上的估算并未将一些优化技巧，比如并行训练方法和使用FP16或TF16等，考虑在内。但总体来说，随着规模的增加，算力的利用率会降低。所以，对于创业企业而言，考虑使用6B模型可能更为合适，只需要22台8卡GPU服务器，而硬件购置成本相当于1-2年的云服务训练成本。如果使用存算一体技术的训练卡，可能只需要1-4台就足够了。此外，根据OpenAI的论文，GPT/InstructGPT-1.3B的效果都好于GPT-3 175B的效果，所以未来GPT的算力私有化也不是问题。

除了GPU，还有DSA和存算一体技术等其他技术也可以有效提高算力并降低成本。对于具体的请求量和qps问题，可以根据实际情况进行考虑。

II、小八卦

另外，有网友对我给出的估算提出了质疑，并提供了另一个参考。我们来对比一下本文和经济账的测算情况。

首先，参照文以TPUv4成本作为基准，而不是GPU。据我了解，139.8万美元的训练成本是基于TPUv4的云服务成本。但是根据Google的信息，在相同的训练规模下，TPU的成本大约只有同时期GPU的1/5~1/4。而GPT使用的是Azura云上的GPU，而不是Google自产自销的TPU。所以，这个成本的依据可能不适合大部分非Google客户。

其次，参照文引用的成本数据来自2020年，而现在已经是2023年了。根据摩尔定律，硬件成本大约每18个月降低一半。所以，参照文中的一些数据可能需要进行调整。

最后，参照文的作者是一位投资人，他的数据来自于2020年的一篇论文。但是这位投资人在整理数据时没有做2020年到2023年和TPU到GPU成本的调整。

总的来说，参照文中的估算和我们的估算相当一致。所以，我们对GPT的训练算力需求可以有一定的信心。

总结回顾

GPT的训练算力需求是一个重要的考虑因素。根据我们的估算，中小企业也有机会进入GPT的模型领域。通过合理的选择模型和优化算力利用率，中小企业可以降低训练成本，与大公司展开竞争。GPT的算力私有化也是可行的，并且可以根据自身需求进行定制化训练。总之，GPT领域中，中小公司也能够崭露头角，取得成功。

感谢您的阅读！

文章版权归作者所有，未经允许请勿转载。

THE END