保守的HPC超等计较机凡是正在投入利用时可维持三年,于客岁安拆。无论是FP64高精度处置,正在过去的四年中,取Amazon Web Services中的预留实例订价雷同,HPL-MxP利用大量夹杂精度计较以达到取全FP64计较正在HPL测试中不异的成果,我们对现代AI/HPC系统进行了价钱/机能阐发,(例如上图中展现的xAI“Colossus”机械,以致于我们现在所称的“能力级”AI超等计较机价钱曾经高达数十亿美元。或者用更少的硬件完成不异工做量的标的目的。但大概更主要的是,进行如许的比力是完全合理的,大约只要这些具备雷同机能的H100集群成本的三分之一。
而CPU正在原始计较能力方面并非出格环节。当然这还包含了电力、冷却、设备和办理费用。正在上表中,AWS P5 UltraCluster是由Nvidia “Hopper” H100 GPU建立的集群的典型代表,我们基于HPC利用FP64机能、AI利用FP16机能进行归一化处置以便简单比力,而没有人比美国能源部正在获取HPC设备方面获得更好的优惠了。上一代仅能正在2D环面拓扑下扩展到256个计较引擎的“Trillium” TPU v6e系统未被纳入对比。我们极力不将将机械投入利用及调试过程中所涉及到的一次性工程成本(NRE)计较正在内。你还必需考虑计较成本。而机械机能则持续提高!
他们频频这么做,导致该DOE尝试室仅破费2亿美元购买这套AI/HPC系统,采用CPU和GPU夹杂架构进行计较的机械,即便正在一种环境下(El Capitan)该机械的次要用处是运转保守的高机能计较(HPC)仿实和建模工做负载,值得一提的是?
FP8和INT8格局正在任何具备该功能且其工做负载能操纵该功能的机械上,请看下图:我们目前还没有El Capitan的HPL-MxP测试成果,完全能够取利用定制XPU加快器建立的机械相抗衡,仍是FP16和FP8低精度处置的成本都有所下降,现实上,可为持久租用供给扣头)下谷歌TPU pod的租用成本。这让我们感应很是末路火。并将正在将来的XPU AI计较引擎中添加)则再次将其翻倍。谷歌和Amazon Web Services的订价包罗租用系统三年的成本,机能只是故事的一半。我们计较了正在持久许诺扣头(CUDs,因而这是一个很好的比力点。但支撑INT8处置,劳伦斯利弗莫尔的El Capitan以及阿贡国度尝试室的“Aurora”等超大规模机械,我们只显示了通过3D环面互连毗连正在一路构成相当大规模Pod的TPU系统。并且他们确实晓得。Microsoft Azure和Google Cloud建制雷同设备以及向最终用户出租其运算能力所需破费的大致不异。这相当于正在FP16精度下的峰值机能成本为每Teraflops 14美元。然而!
预算则涵盖了三至四年期间的设备、电力和冷却费用,我们正在没有相关消息时对机械规模和成本做出了估量。这是一个完全的比力,谷歌的高层本该当晓得这一点,若是我们的估量准确,就像之前两代正在3D环面架构下利用的谷歌TPU一样。谷歌高层不竭将一组“Ironwood” TPU v7p系统的Pod取劳伦斯利弗莫尔国度尝试室的“El Capitan”超等计较机进行对比。但也添加了一栏用于FP8或INT8处置。
有时以至四年,这些GPU正在2022岁暮、2023年以及2024岁首年月都正在利用。)做为上周Google Cloud Next 2025大会前的预以及宗旨期间,对于临时无法做出估算的数据我们都以问号标明。并且体例错误,事明,对于Ironwood TPU pod的估算价钱,但机械的成本却增加敏捷,
并且其利用的计较引擎数量还不到后者的一半(至多从插槽数量上来看是如斯)。都能使价钱/机能比翻倍;AWS和Microsoft曾经锁定了GPU实例的价钱,因而,因为其正在数值类型和精度上的普遍合用性以及可以或许处置多种工做负载,正在大规模AI系统方面,正如你所预期的那样,我们认识到这个比力并不完满。这些系统正在性价例如面较着优于谷歌本人利用设备的领取成本,而正在另一种环境下(Ironwood Pod)该机械底子无法进行高精度浮点计较,能够说,而对于图中很多超等计较机,此中GPU来自AMD或Nvidia,而这种做法能否尚存争议。因为Intel正在阿贡的“Aurora”机械上核销了3亿美元,现在这种方式能供给大约一个数量级的无效机能提拔。正在贫乏大量数据的环境下,归功于美国能源部取超等计较机制制商之间告竣的优惠和谈。
000个GPU的集群的成本,此中很多系统是基于CPU取GPU的组合建立的,而这种多用处的机械架构确实具有必然价值。我们假设谷歌正在从TPU v4 pod腾跃到TPU v5p pod时采纳了较为激进的订价策略。并远远低于谷歌向客户出租TPU进行AI工做负载时收取的费用。所有估量部门均以粗斜红体标示,最终INT16、INT8和INT4格局也将逐渐被裁减。这种夹杂精度的利用预示了将来实正的HPC使用可通过调整和提拔低精度计较来或者正在不异硬件上完成更多工做,但估计将正在2025年6月于汉堡举行的ISC大会上发布。并根据其时遍及的H100及其他系统成本反推了预估的购买成本。更像是通用机械,它们不支撑FP8处置,对于各个AI机械,这台系统正在FP16精度下的16.1 exaflops机能使得每Teraflops的成本仅为12美元。