Elon Musk宣布以10万个液冷NVIDIA H100建构的超级丛集投入xAI的GROK 3模型训练

200 阅读 0 评论 0 点赞

Tesla创办人、同时也是社群服务X董事长Elon Musk宣布xAI建构的超大型GPU丛集已投入GROK 3的模型训练，xAI的超大型丛集由高达10万个使用液冷的NVIDIA H100 GPU构成，是目前全球最大规模的RDMA单一GPU丛集。在xAI的丛集投入服务后，xAI预计于2024年12月推出以该套系统建构的GROK 3模型，Elon Musk指称届时将会是全球最先进的AI模型。

Nice work by @xAI team, @X team, @Nvidia & supporting companies getting Memphis Supercluster training started at ~4:20am local time.

With 100k liquid-cooled H100s on a single RDMA fabric, it’s the most powerful AI training cluster in the world!
— Elon Musk (@elonmusk) July 22, 2024

▲可能由於xAI需要的GPU数量相当庞大、加上成本考量因素，故选择H100而非记忆体增量的H200

原本xAI是向Oricle租赁云服务进行GROK的模型训练，不过xAI最后打算自行持有超级电脑；然而比较意外的是Elon Musk选择的GPU以目前NVIDIA的产品蓝图有些尴尬，因为NVIDIA正陆续出货具有更高容量且更高频宽的NVIDIA H200，同时NVIDIA挺快就会在2024年底至2025年初开始提供新一代Blackwell架构的B200 GPU，主要的原因恐怕与Elon Musk所需的GPU数量相当惊人，若要一次到位NVIDIA可能也难以在第一时間供应如此大量的新产品，同时Elon Musk对於价格也相当精打细算，故选择已经问是一段时間的H100。

点赞(0) 打赏

本文分类：好选综合
本文标签：无
浏览次数：200 次浏览
发布日期：2024-07-24 16:01:30
本文链接：http://www.hhbnx.com/haoxuanzonghe/35759.html

Elon Musk宣布以10万个液冷NVIDIA H100建构的超级丛集投入xAI的GROK 3模型训练

评论列表共有 0 条评论

发表评论取消回复

Elon Musk宣布以10万个液冷NVIDIA H100建构的超级丛集投入xAI的GROK 3模型训练

final A6000入耳式耳机评测，将A8000精髓化为更好驱动、更亲民且轻盈的次旗舰

金士顿FURY Renegade DDR5 RGB 24GB x 2 CUDIMM记忆体评测，稳定、高相容的高效能记忆体

Noyhing Ear(open)开放式真无线耳机评测，舒适、自然的开放聆听体验

中嘉宽频 SoundBox 开箱评测：体现北欧美学设计～整合 B & O 音响的剧院级影音串流盒之选！

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复