Tesla创办人、同时也是社群服务X董事长Elon Musk宣布xAI建构的超大型GPU丛集已投入GROK 3的模型训练,xAI的超大型丛集由高达10万个使用液冷的NVIDIA H100 GPU构成,是目前全球最大规模的RDMA单一GPU丛集。在xAI的丛集投入服务后,xAI预计于2024年12月推出以该套系统建构的GROK 3模型,Elon Musk指称届时将会是全球最先进的AI模型。
Nice work by @xAI team, @X team, @Nvidia & supporting companies getting Memphis Supercluster training started at ~4:20am local time.
— Elon Musk (@elonmusk) July 22, 2024
With 100k liquid-cooled H100s on a single RDMA fabric, it’s the most powerful AI training cluster in the world!
▲可能由於xAI需要的GPU数量相当庞大、加上成本考量因素,故选择H100而非记忆体增量的H200
原本xAI是向Oricle租赁云服务进行GROK的模型训练,不过xAI最后打算自行持有超级电脑;然而比较意外的是Elon Musk选择的GPU以目前NVIDIA的产品蓝图有些尴尬,因为NVIDIA正陆续出货具有更高容量且更高频宽的NVIDIA H200,同时NVIDIA挺快就会在2024年底至2025年初开始提供新一代Blackwell架构的B200 GPU,主要的原因恐怕与Elon Musk所需的GPU数量相当惊人,若要一次到位NVIDIA可能也难以在第一时間供应如此大量的新产品,同时Elon Musk对於价格也相当精打细算,故选择已经问是一段时間的H100。
发表评论 取消回复