GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

2024-08-28 阅读 37 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

推理很慢，英伟达GPU也不中用？

为什么LLM的响应，就像拨号上网加载网页一样，一个字一个字慢慢地吐出？

关键原因所在，大模型自身的顺序特性，以及需要大量的GPU内存和带宽。

由于GPU的内存带宽限制，如今推理速度为每秒几十个token，而不是数千个。

更进一步说，大模型每个生成的单词，都必须通过整个模型进行处理，即所有参数必须从内存投入到计算中。

GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

而每生成一个单词，就需要一次处理，以此循环往复。

也就是，生成100个单词需要100次处理，因为「下一词」的预测，皆需要依赖前一个单词，而且这个过程无法并行。

那么，想要每秒生成100个单词，就需要所有模型参数，每秒投入计算100次。

由此，这对GPU内存带宽提出了高要求。

GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

以社区流行的Llama3.1-70B模型为例。

模型有700亿参数，每个参数是16位，需要2字节的存储，那整个模型便需要140GB的内存。

想要模型输出一个token，那700亿参数必须从内存，移动到计算核心，以执行前向推理计算。

由于GPU只有约200MB的片上内存，模型无法存储在芯片。

因此，每次生成的token输出时，需将整个占用140GB内存的模型，完整传输到计算中。

GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

再细算下来，为了实现10 token/s，则需要10*140=1.4 TB/s的内存带宽。

那么，一个H100有3.3 TB/s的内存带宽，足以支持这种缓慢的推理。

而若要实现即时推理，需要达到1000 token/s或140 TB/s，这远远超过任何GPU服务器/系统内存带宽。

或许，你想到了一种「暴力」解决方案，将多个GPU串联搭建DGX系统。

这完全是大错特错，更多的处理器只会增加系统的吞吐量（给出更长响应），并不会加速单个查询的响应时间。

自研世界最大芯片，打破推理想象

那么，Cerebras如何打破这一困局呢？

一直以来，这家公司就致力于打造世界上最大芯片，希望将整个模型存储在一个晶片上，以此来解决内存带宽瓶颈。

凭借独特的晶圆设计，WSE-3单个芯片上便集成了44GB SRAM，具备21 PB/s的内存带宽。

单个芯片拥有如此大内存，便消除了对外部内存的需求，以及将外部内存连接到计算的慢速通道。

GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

总的来说，WSE-3的总内存带宽为21PB/s，是H100的7000倍。

它是唯一一款同时具有PB级计算和PB级内存带宽的AI芯片，使其成为高速推理的近乎理想设计。

GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

Cerebras推理不仅速度超快，而且吞吐量巨大。

与小型AI芯片相比，芯片上内存多了约200倍，支持从1-100的批大小，使其在大规模部署时，具有极高的成本效益。

GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

正是有了如此强大的芯片，Cerebras Inference的快速推理得以实现。

它的出现，是为了实现数十亿到万亿参数模型的推理。

如果模型参数超过单个晶圆的内存容量时，研究人员将在「层边界」将其拆分，并映射到多个CS-3系统上。

20B模型适合单个CS-3，而70B模型则至少需要4个这样的系统。

官方表示，未来几周，将会测试更大参数版本的模型，比如Llama3-405B、Mistral Large。

GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

16位精度，不做取舍

推理速率高，并非在模型权重上，做了取舍。

业界中，一些公司试图将模型权重精度，从16位减少到8位，来克服内存带宽的瓶颈。

这样方法，通常会造成模型精度损失，也就是响应结果的准确性、可靠性不如以前。

Cerebras Inference之所以强就强在了，速率和原始权重，皆要顾及。

GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

正如开篇所述，他们采用了原始16位权重运行了Llama3.1 8B和70B。

通过评估，16位模型准确率比8位模型，高出多达5%。尤其是在，多轮对话、数学和推理任务中表现更好。

最优性价比，百万token免费送

目前，Cerebras Inference可通过聊天平台，以及API访问，任何一个人可随时体验。

GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

体验传送门：https://cerebras.ai/blog/introducing-cerebras-inference-ai-at-instant-speed

基于熟悉的OpenAI Chat Completions格式，开发者只需更换API密钥即可集成强大的推理功能。

GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

Cerebras Inference API提供最佳的性能、速度、精度和成本组合。

它是唯一能即时运行Llama3.1-70B的方案，可实现450 token/s，同样使用的是原始16位模型权重。

在此，Cerebras送上大福利，每天为开发者们提供100万个免费token。对于大规模部署，其定价只是H100云的一小部分。

GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

首次推出时，Cerebras提供了Llama3.1 8B和70B模型，而且有能力每天为开发者和企业，提供数千亿token。

接下来几周，他们将增加对更大模型的支持，如Llama3 405B、Mistral Large 2。

GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

有开发者问道，你们提供的rpm（每分钟请求次数）和tpm（每分钟处理token数）是多少？

GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

Cerebras提供了一张针对Llama 3.1 8B和70B模型完整的请求/token处理数的图。

GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

快速推理，不只为速度

最后，让我们来聊聊，为什么快速推理非常重要？

通常，LLM会即刻输出自己的全部想法，而不考虑最佳答案。而诸如scaffolding（脚手架）这类的新技术，则如同一个深思熟虑的智能体，会在作出决定前探索不同的可能解决方案。

这种「先思考后发言」的方式在代码生成等严苛任务中，可以带来超过10倍的性能提升，从根本上提升了AI模型的智能，且无需额外训练。

但这些技术在运行时，需要多达100倍的token。

因此可见，如果我们能大幅缩短处理时间，那么就可以实现更为复杂的AI工作流程，进而实时增强LLM的智能。

速度爆表，但上下文只有8K

虽然在价格和延迟上，Cerebras都不是最低的。

但极致的速度，确实为Cerebras带来了极致的速度-价格和速度-延迟比。

不过，值得注意的是，在Cerebras上跑的Llama 3.1，上下文只有8k……

相比之下，其他平台都是128K。

具体数据如下：

Llama 3.1 70B

GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

Llama 3.1 8B

GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

文章来源于“新智元”

GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

关联网址

关联标签

#AI #AI模型 #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3664 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

159 用户在看

GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

推理很慢，英伟达GPU也不中用？

自研世界最大芯片，打破推理想象

16位精度，不做取舍

最优性价比，百万token免费送

快速推理，不只为速度

速度爆表，但上下文只有8K

Llama 3.1 70B

Llama 3.1 8B

GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

KDD 2024大奖出炉！孟瑜获杰出博士论文奖，时间检验奖颁给微软亚研院

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3664 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

159 用户在看

GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

推理很慢，英伟达GPU也不中用？

自研世界最大芯片，打破推理想象

16位精度，不做取舍

最优性价比，百万token免费送

快速推理，不只为速度

速度爆表，但上下文只有8K

Llama 3.1 70B

Llama 3.1 8B

GPT-5降临，代号猎户座？OpenAI疑用草莓训练，数学推理暴涨超越所有模型

KDD 2024大奖出炉！孟瑜获杰出博士论文奖，时间检验奖颁给微软亚研院

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿