造出比盘子还大的AI芯片，这家估值300亿元的硅谷公司要挑战英伟达丨焦点分析

2024-06-29 阅读 24 收藏 0 评论 0 限时评论得现金

粉丝 0 文章 6432 收藏 0

如何把芯片做得比盘子还大？

众所周知，英伟达GPU原本是图形处理器，擅长并行处理多个简单计算，因为训练AI也需要同时对所有数据样本执行相同的操作，GPU后来也用于训练AI。

不过，GPU毕竟不是专为AI设计的芯片——GPU需要用PCIe的方式连接电子组件，在组件之间传输数据，这限制了芯片的大小、连接类型，甚至通信标准。此外，服务器机箱的标准又限制了冷却功率，冷却功率限制了芯片的功耗，功耗又限制了训练AI模型的速度。

在层层的限制之下，若要将训练速度提高上百倍，需要从根本上重新思考处理器之外的更多方面，包括系统架构、核心设计、内存架构、通信结构、芯片 I/O、电源和冷却基础设施、系统 I/O、编译器、软件工具链等等。

这也是为什么Cerebras公司的全称是Cerebras Systems——该公司考虑的是直接颠覆掉英伟达过往的既定思路，重新设计一整个AI芯片系统。从产品上看，Cerebras的 AI芯片最大的特点是，不仅芯片大，配套的散热系统也是前所未有地大。

不过，一味把芯片做得比盘子还大，这是噱头还是实力？Cerebras的技术路径有什么优缺点？

目前，世界上绝大部分芯片是将晶圆切割成多块，再封装成小块的芯片。以英伟达的抢手货H100为例，一张12英寸的晶圆，光刻机可以刻出86块左右的核心逻辑芯片。

而Cerebras是将一整块晶圆做成芯片，直接把光刻机刻出的80多块晶片拼在一起，去掉边角料，晶片之间连接成一块大芯片。因此，Cererbras的芯片也称为“晶圆级引擎”。

Cerebras选择将晶片直接原地放在晶圆之内连起来，能让晶片之间直接连接通信，而非GPU那样要在不同块GPU之间通过数据导线来通信，加快了芯片核心之间的通信速度。

如此一来，便达到强大的计算性能。据Cerebras官网信息，WSE-3芯片的单个处理器上就有90万个AI核心，是英伟达H100的52倍；片上内存达到44GB，是H100的880 倍。

造出比盘子还大的AI芯片，这家估值300亿元的硅谷公司要挑战英伟达丨焦点分析

Cerebras将一整块晶圆上的晶片连接一起。图源：HPC Wire

在GPU这类传统构架中，存储是共享的，每一个计算核心没有专门的存储空间，存储空间的数据吞吐能力容易跟不上计算单元的需求量。

打个比方：当水池子大，但是水管小时，水管吞吐容易出现不及时的问题，导致池子里的水（算力）就会被闲置，来回搬运数据也会耗时、耗功率。

Cerebras的技术优势在于，通过重新设计计算核心的结构，给每个计算核心配备了带宽足够大甚至有冗余的存储单元，如此实现了分布式的存储和计算（不同于GPU中计算单元共享存储单元）。相当于，每个核心都是一个单独工作的工人。

据Cerebras官网信息，在WSE-3芯片上，片上存储的总带宽达到21PB/s，互联网络总带宽达到214PB/s，这样就没有数据搬运时带宽不足的问题。

Cerebras的芯片被美国能源部下属的阿贡国家实验室采用，自2020年以来一直用于COVID-19研究和癌症肿瘤研究。据HPC Wire报道，在用Cerebras芯片训练模型来预测癌症药物反应中，与 GPU 基线相比，在 Cerebras芯片上实现了数百倍的加速。

不过，这样力大砖飞的芯片设计，看起来很美好，但也有自己的弱点。

第一是良率低。以英伟达H100芯片为例，即使是台积电这样的业内翘楚，4nm制程芯片达到80%良率已经是顶尖。考虑到80%的良率以及切割损耗，一张12寸晶圆上刻出的86块左右的晶片，最后达到良率的晶片是65块左右。

显然，Cerebras想让一整块晶圆上切割出的80多块晶片都能用，但难度也会高很多。对于主流芯片来说，一整张晶圆上的一小块晶片做失败了，其他晶片还能用。但对Cererbras这样的芯片来说，难道一张晶圆上任何一个晶片有缺陷，一整张晶圆都要放弃吗？

Cerebras的解决方式是，当一个晶片出现有缺陷的计算核心时，会让AI软件在运行时绕过有缺陷的计算核心，而是用冗余的计算核心。

Cerebras宣称，通过这种利用冗余来绕过缺陷的设计，其WSE 2芯片实现了100% 的良率。这也是为什么Cerebras的高管强调，“冗余是你的朋友（Redundancy is Your Friend）。”

造出比盘子还大的AI芯片，这家估值300亿元的硅谷公司要挑战英伟达丨焦点分析

Cerebras高管在公开演讲中强调“冗余是你的朋友”。图源：Cerebras Systems Youtube频道

第二个弱点是，需要庞大的散热系统。当芯片的面积增加，有更多的电流流过晶体管，半导体电阻自然会产生更多的热量。如果热量过高，还会分解芯片及其表面的小部件。英伟达的Blackwell GPU数据中心中，都需要巨型的冷却系统。而Cerebras的巨无霸芯片，更是需要重新设计一套庞大的的散热系统。

Cerebras服务器的散热系统像一个庞大的怪物：几根硕大的黄铜管都是用来连接水泵来散热的。管道、泵、风扇和热交换器等要占用大量空间。

尽管芯片本身只有 21.6平方厘米，且非常薄，但外壳散热系统需要占据标准机架约三分之一的体积。专门的散热系统也意味着，部署芯片需要额外的配套成本。

因此，Cerebras虽然把芯片做得比盘子还大，确实在技术上力大砖飞，但是部署所需的整体成本不一定具有性价比，这种创新的路径还需后续经过市场验证。

隐藏着Sam Altman的造芯野心

英伟达芯片帝国之外，AI芯片的技术路径众多，Cererbras力大出奇迹的路线还是看点，市场上也已经用钱给他们投票。

目前，这家公司已融资7.2亿美元，估值约为42亿到50亿美元，其中，最大的个人投资者之一是OpenAI的首席执行官Sam Altman。据报道，Sam Altman参与了Cerebras 的8000万美元D轮融资。

毕竟，Sam Altman曾宣称要花7万亿美元造AI芯片（虽然后来他澄清这不仅仅是造芯片的费用，而是围绕芯片的房产、数据中心电力、芯片制造等的总体费用）。Sam Altman多次前往中东，与包括阿联酋政府在内的投资者进行谈判，寻求募资，计划提高世界芯片制造能力。

在Sam Altman和他所投资的Cerebras芯片公司之间，还与一个中东公司G42关系密切。G42是位于阿联酋首都阿布扎比的科技巨头，开发人工智能技术，同时对外投资。Sam Altman的中东之旅常常会拜访G42，OpenAI也在2023年10月与G42签订了合作协议。

G42与Cerebras一直合作密切。G42是Cerebras的客户、投资者、技术合作者：2023年7月，G42签约向Cerebras投资9 亿美元，Cerebras为这家阿联酋公司G42在美国建造九台人工智能超级计算机；2023 年 8 月，Cerebras和G42的子公司共同推出了大型语言模型Jais。

G42与中国也有渊源。其创始人肖鹏在中国出生，曾在美国接受教育，后来放弃美国国籍，成为阿联酋公民。 G42的基金在过去两三年投资了很多中国科技公司，包括字节跳动。但今年2月，受美国政府施压，G42撤出此前在华的所有投资。

不过，Sam Altman的造芯布局远不止于Cerebras，而是更加宏大。

第一是与芯片大厂合作，特别是英伟达GPU之外的大厂——不把鸡蛋放在一个篮子里。去年12月，AMD推出AI芯片MI300X，OpenAI就下了订单。此外，OpenAI表示在其一款名为 Triton 的软件产品中支持 AMD GPU。

对外投资也是重头戏。早在2018年，Altman就个人投资了一家名为Rain AI的AI芯片初创公司，自掏腰包100万美元。Rain AI采取的AI芯片路径是NPU（神经处理单元或类脑芯片）。 2019年，OpenAI签署了一份意向书，斥资5100万美元购买Rain的芯片。

除了对外投资，Sam Altman对于OpenAI的自研芯片也一手抓。6月9日，消息称，OpenAI大力从谷歌TPU团队挖角人才，来发展自研芯片。OpenAI计划将目前仅有数人的芯片团队扩展至数十人，且几乎所有新招募的研究人员均为谷歌TPU团队的现任或前任成员。

Altman的造芯野心不仅于此，他甚至想创建一个新的芯片项目「Tigris」——横跨几大洲，联合阿联酋的G42和日本软银等公司，拉拢台积电、三星和英特尔等顶级芯片制造商，建成覆盖全球的制造工厂网络。

据报道，早在Sam Altman去年11月戏剧性地被OpenAI解雇之前几周，他就前往中东募资，已与软银集团公司、沙特阿拉伯公共投资基金（PIF）、穆巴达拉投资公司等公司就这些合资企业进行了谈判，寻求数百亿美元的资金。

Cerebras这家略显小众的技术路线的公司上市，既是对英伟达GPU护城河的一个挑战，也是Sam Altman在英伟达GPU垄断之外建立新的AI芯片格局的一步。

文章来源于“王沁”

谷歌最强开源模型Gemma 2发布，270亿参数奇袭Llama 3，单张A100可全精度推理

关联网址

关联标签

#AI #AI模型 #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3633 用户在看

AI写作网站自动的生成文章可以用吗？

218 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

161 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

132 用户在看

造出比盘子还大的AI芯片，这家估值300亿元的硅谷公司要挑战英伟达丨焦点分析

如何把芯片做得比盘子还大？

隐藏着Sam Altman的造芯野心

谷歌最强开源模型Gemma 2发布，270亿参数奇袭Llama 3，单张A100可全精度推理

真的有人能在推理环节替代英伟达吗？

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3633 用户在看

AI写作网站自动的生成文章可以用吗？

218 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

161 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

132 用户在看

造出比盘子还大的AI芯片，这家估值300亿元的硅谷公司要挑战英伟达丨焦点分析

如何把芯片做得比盘子还大？

隐藏着Sam Altman的造芯野心

谷歌最强开源模型Gemma 2发布，270亿参数奇袭Llama 3，单张A100可全精度推理

真的有人能在推理环节替代英伟达吗？

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿