马斯克烧几十亿美元造最大超算中心，10万块H100训练Grok追赶GPT-4o

2024-05-27 阅读 44 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

目前最大GPU集群

这个「超级计算工厂」一旦完工，规模将至少是当前最大GPU集群的4倍。

比如Meta官网在3月发布的数据显示，他们当时推出了2个包含2.4万个H100 GPU的集群用于Llama 3的训练。

马斯克烧几十亿美元造最大超算中心，10万块H100训练Grok追赶GPT-4o

虽然英伟达已经宣布今年下半年开始生产并交付全新架构Blackwell的B100 GPU，但马斯克目前的计划还是采购H100。

为什么不用最新型号的芯片，反而要大批量购入快要淘汰的型号？这其中的原因，老黄本人向我们解释过——「在今天的AI竞争里，时间很重要」。

英伟达会每一年更新一代产品，而如果你想等我的下一个产品，那么你就丢失了训练的时间和先发优势。

下一个达到里程碑的公司会宣布一个突破性的AI，而接下来的第二名只在它上面提升0.3%。你要选择做哪一种？

这就是为什么一直做技术领先的公司很重要，你的客户会在你上面建设并且相信你会一直领先。这里面时间很重要。

这就是为什么我的客户现在依然疯狂的在建设Hopper系统。时间就是一切。下一个里程碑马上就来。

然而，即使一切顺利，「超级计算工厂」在马斯克的「个人负责」下按时交付，这个集群到了明年秋天是否仍然有规模优势，也是一个未知数。

扎克伯格今年1月曾经在Instagram上发帖，称Meta到今年底将再部署35万个H100，加上之前的算力总共相当于60万个H100，但他并未提及单个集群的芯片数量。

马斯克烧几十亿美元造最大超算中心，10万块H100训练Grok追赶GPT-4o

但这个数字没过半年就几乎翻了一番，5月初Llama 3发布前，有消息称Meta已从英伟达额外购买了50万块GPU，总数达到 100 万块，零售价值达300亿美元。

同时，微软的目标是到年底拥有180万个 GPU，OpenAI甚至更加激进，希望为最新的AI模型使用1000万个GPU。这两家公司也在讨论开发一个价值1000亿美元的超级计算机，包含数百万个英伟达GPU。

马斯克烧几十亿美元造最大超算中心，10万块H100训练Grok追赶GPT-4o

这场算力之战，最后谁会胜出呢？

马斯克烧几十亿美元造最大超算中心，10万块H100训练Grok追赶GPT-4o

应该是英伟达吧。

而且不仅仅是H100，英伟达CFO Colette Kress曾经提到过一份Blackwell旗舰芯片的优先客户名单，包括OpenAI、亚马逊、谷歌、xAI等等。

即将投产的B100，以及英伟达之后将要一年一更的芯片，将会源源不断地进入科技巨头们的超算中心，帮助他们完成算力的升级迭代。

芯片短缺，电也不够

马斯克在谈到特斯拉的算力问题时也补充说，虽然迄今为止芯片短缺是AI发展的一大制约因素，但电力供应在未来一两年将至关重要，甚至会取代芯片成为最大的限制因素。

包括新建的这家「超级计算工厂」的选址，最需要考虑的因素也是电力供应。一个拥有10万GPU的数据中心可能需要100兆瓦的专用电力。

要提供这种量级的电力，xAI总部办公室所在的旧金山湾区显然不是理想的选择。为了降低成本，数据中心往往建在电力更便宜且供应更充足的偏远地区。

例如，微软和OpenAI除了计划那个耗资千亿美元的超算，也正在威斯康星州建造大型数据中心，建设成本约为100亿美元；亚马逊云服务的数据中心则选址在亚利桑那州。

「超级计算工厂」一个非常可能的选址，是特斯拉总部，德克萨斯州奥斯汀市。

去年特斯拉宣布建造的Dojo就部署在了这里。这台超算基于定制芯片，帮助训练AI自动驾驶软件，也可以用于向外界提供云服务。

第一台Dojo运行在1万个GPU上，建造成本约为3亿美元。马斯克4月表示，特斯拉目前共有3.5万个GPU用于训练自动驾驶系统。

马斯克烧几十亿美元造最大超算中心，10万块H100训练Grok追赶GPT-4o

在数据中心进行模型训练是一个极其耗电的过程。据估计，训练GPT-3的耗电量为1287兆瓦时，大约相当于130个美国家庭每年消耗的电量。

注意到AI电力问题的CEO不止马斯克一人，Sam Altman本人曾向初创公司Helion Energy投资3.75 亿美元，这家公司旨在利用核聚变提供一种更环保、更低成本的 AI 数据中心运行方式。

马斯克则没有押注在核聚变技术上，他认为，AI公司很快将开始争夺降压变压器（step down transformer），可以将高压电流转换为电网可用的电力，「从公用电网获得的电力（例如 300 千伏）降至 1 伏以下是一个巨大的下降」。

芯片之后，AI行业需要「transformers for Transformers」。

参考资料：

https://www.theinformation.com/articles/musk-plans-xai-supercomputer-dubbed-gigafactory-of-compute?rc=epv9gi

https://www.inc.com/ben-sherry/elon-musk-touts-nvidia-dominance-predicts-a-giant-leap-in-ai-power.html

https://finance.yahoo.com/news/jensen-huang-elon-musk-openai-182851783.html?guccounter=1

文章来自于微信公众号 “新智元”，作者 “新智元”

芝大论文证明GPT-4选股准确率高达60%，人类股票分析师要下岗？AI大牛质疑数据污染

关联网址

关联标签

#AI #AI模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3737 用户在看

AI写作网站自动的生成文章可以用吗？

302 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

267 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

240 用户在看

马斯克烧几十亿美元造最大超算中心，10万块H100训练Grok追赶GPT-4o

目前最大GPU集群

芯片短缺，电也不够

芝大论文证明GPT-4选股准确率高达60%，人类股票分析师要下岗？AI大牛质疑数据污染

AI初创集体跳槽OpenAI，Ilya出走后安全团队重整旗鼓！

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3737 用户在看

AI写作网站自动的生成文章可以用吗？

302 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

267 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

240 用户在看

马斯克烧几十亿美元造最大超算中心，10万块H100训练Grok追赶GPT-4o

目前最大GPU集群

芯片短缺，电也不够

芝大论文证明GPT-4选股准确率高达60%，人类股票分析师要下岗？AI大牛质疑数据污染

AI初创集体跳槽OpenAI，Ilya出走后安全团队重整旗鼓！

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿