真的有人能在推理环节替代英伟达吗？

2024-06-29 阅读 49 收藏 0 评论 0 限时评论得现金

粉丝 0 文章 6432 收藏 0

热门

在中文互联网上，英伟达每天都在被颠覆。绝大部分自媒体和短视频达人都讨厌英伟达，包括周鸿祎在内。他们千方百计地指出，某种替代品（不管是不是国产）的性能指标已经超过英伟达A100或H100，后者即将沦为资本市场历史上最大的泡沫云云。尤其是在B站、小红书这样的平台，“英伟达将迅速被替代”可以被视为一致观点，反对这个观点的人将遭到群嘲。

其实，海外互联网同样如此。昨天还有AI行业的朋友给我分享了一份自称“性能大幅超过英伟达”的美国芯片厂商的自我介绍（是当笑话看的）。几个月前，芯片创业公司Groq发布了自称性能大幅超越英伟达的推理芯片，引发了一定的市场关注度。不同之处在于，海外网友稍微讲一点常识，知道英伟达在训练领域的壁垒实在太高、牢不可破，所以他们主要从推理环节入手：可以针对大模型推理开发某种高度特化的“推理专用卡”，在性能或性价比上超越英伟达，而且已经有人做到了。这些观点经常被翻译为中文，不过翻译者经常有意地把其中的海外芯片创业公司的名字偷换成A股上市公司（或某家非上市公司），从而达到不可告人的目的。

遗憾的是，至少在现在，以及可见的未来，英伟达在推理方面的壁垒仍然十分牢固。或许它在推理方面的壁垒不如训练方面那么高，但只要竞争对手攻不破，就没什么区别。对于绝大部分大模型开发商以及云计算厂商而言，AI算力建设只能以英伟达为核心（买不到的情况除外），不论是训练还是推理算力。在展开分析这个问题前，让我们先简明回顾一下训练和推理的区别：

训练，就是指创造和升级AI模型（包括但不限于大语言模型）的过程。训练环节涉及海量的数据，耗时极长，对算力的并发性需求极高，往往要一次动用几千张到上万张规模的显卡集群。专门为训练做过优化的显卡俗称“大卡”，其最典型的例子是英伟达A100、H100和B100。
推理，就是利用现有大模型解决用户需求的过程。我们每向ChatGPT提一次问题，就启动了一次推理流程。单次推理处理的数据规模往往较小，因此对算力硬件的要求不如训练那么高。英伟达专门为推理做过优化的显卡俗称“中卡”，例如A20、L40；一些高端消费级显卡（俗称“小卡”），例如RTX3和4系列，也可以用于推理。

英伟达的竞争对手，从AMD到英特尔，从Groq到华为，每天都在异口同声地陈述同一个观点：推理的门槛没有硬件那么高，英伟达赖以生存的CUDA软件生态以及显卡互联技术在推理端的作用有限，所以在推理端替代英伟达完全可行。事实又是如何？关键要看企业客户，包括OpenAI这样的大模型开发商以及亚马逊、微软这样的云计算平台商怎么看——毕竟是它们的技术团队和采购人员做出了显卡采购的决定，而不是社交媒体网友。如果我们仔细分析一下主要科技企业今年以来的显卡采购决策，就会惊讶地发现，事实与英伟达的竞争对手所鼓吹的完全相反：

AMD和英特尔的“AI加速卡”（其实就是推理卡）卖得都不怎么样。其中，AMD的旗舰产品Instinct MI300的单季度销售额不足10亿美元，2024年全年的目标也仅仅是卖出40亿美元；英特尔的旗舰产品Gaudi 3就更惨了，2024年全年的销售目标不足10亿美元。把这两家的AI硬件销售额加起来，恐怕都只有英伟达“中卡”销量的一个零头。在2024年一季度财报发布会上，苏妈承认AMD的推理卡目前不存在供给瓶颈，客户可以随时提货；隔壁的英伟达几乎所有产品线则都处于紧缺状态。换句话说，大部分客户宁可等上一两个季度，也宁可买英伟达而不是AMD的产品。

与此同时，在硅谷出现了一个新的趋势：尽可能多地采购“大卡”，把推理和训练一起交给“大卡”去做。例如，OpenAI将使用较新的H200承担GPT-4o的推理任务；苹果通过鸿海采购了数万张H100，估计主要将用于推理工作；Meta计划在2024年之内新增35万张H100，其中很大一部分将用于推理；亚马逊采购的首批3万多张GB200“超级芯片”显然将同时用于训练和推理。这充分说明，所谓“英伟达在推理方面的护城河不深”的说法是何等荒谬！如果上述说法是真的，那么除非大厂钱多烧得慌，否则完全没有必要采购单价极高、供应非常紧张的英伟达“大卡”承担推理任务。当然，这些大厂也会采购一点点AMD或英特尔的产品作为补充，每次都会引发后两者的欢呼雀跃，恨不得让全世界都知道。

为什么硅谷大厂要花更多的钱去采购专为训练优化的“大卡”承担推理任务？这既是出于技术考虑，也是出于综合成本考虑。简而言之：

“大卡”的显存更大、显存带宽更高，适合运行参数规模巨大的大模型。目前主流大模型的参数规模均已突破万亿，而消费者使用的一般是“蒸馏”过的、几十亿到几百亿参数的精简版模型。“中卡”“小卡”足以运行这些精简版模型，但大型企业客户可能需要运行万亿规模参数的超级模型，那就非用“大卡”不可了。
“大卡”的爆发性输出能力更高、延迟较低，适合执行高度时效性的推理任务，例如自动驾驶、国防军工、金融交易等场景。最近流行的“超长文本推理”，对显存的要求较高，“大卡”处理起来也更得心应手。
在AI算力中心当中统一使用“大卡”，有助于降低硬件复杂度，实现较高的算力弹性和通用性。像OpenAI这样的公司，一年之中有几个月处于训练期，在此期间可以把自家“大卡”全部用于训练以保证速度，租用外部算力满足推理需求；训练间歇期则可以少租外部算力，让自家“大卡”转而从事推理。
“大卡”，尤其是B100/B200这种新款产品，最先应用了英伟达的最新技术，从而有利于后续升级和再利用。哪怕几年之后技术突飞猛进，旧款“大卡”退下来还可以做别的工作，而旧款“中卡”“小卡”可能就没有价值了。

上述四条原因，前两条是技术上的，后两条则是成本和管理上的。就像我的一位从事AI技术工作多年的朋友所说：“其实是经济性让大家投票选择了英伟达，这就是市场的力量。”由于上面是在英伟达自家的不同产品线之间做类比，我甚至都没有提到CUDA软件生态——过去十八年，全球上百万开发者为CUDA积累了太多的开发工具和代码，AMD的ROCm根本无法与之匹敌，英特尔就更是不值一提了。

真的有人能在推理环节替代英伟达吗？

现在假设有一种推理卡，不知道为什么竟能实现远高于英伟达的性能（可能是上帝显灵），而且竟能克服缺乏CUDA生态的麻烦（这次上帝得多受累一点），并且纸面价格显著低于英伟达（这一点极难做到），它也不一定能打败英伟达。客户首先要考虑通用性：专门为大语言模型推理“特化”的芯片，大概率无法拿来执行任何其他任务，从而带来了更高的机会成本。英伟达是“通用计算GPU”概念的提出者，“通用”概念就意味着灵活性和弹性。远的不说，最近几年我们就能看到许多鲜活的案例：

2021-2022年，为了进一步训练内容推荐算法，以符合欧盟消费者隐私要求，以及支持新推出的Reels短视频功能，Meta（原名Facebook）采购了大量英伟达“大卡”；当然其中一部分也是为“元宇宙”研发准备的。Meta还成为了2022年发布的H100显卡早期最重要的客户之一。ChatGPT横空出世之后，Meta立即将手头的算力资源投入生成式AI研发，迅速成为全球开源大模型领域的第一平台。扎克伯格本人亦承认，生成式AI浪潮来的时机很巧，Meta非常幸运——其实他更应该感谢英伟达显卡的通用性和普适性。

2019年前后，中国的“云游戏”产业处于井喷阶段，资本市场对其有很高预期。包括阿里、腾讯和电信运营商在内的云计算大厂纷纷采购了大批英伟达RTX显卡（初期主要是Turing架构，后来亦有Ampere架构）组建刀片服务器。虽然云游戏在国内没火起来，但是高端RTX显卡具备张量核心(Tensor Core)，从而拥有一定的推理能力。在美国芯片法案的阴影之下，国内厂商采购推理卡越来越困难，当年积累的“云游戏卡”扮演了雪中送炭的角色；尽管它们的推理效率肯定比不上L40等“中卡”，但有总比没有好。

（附带说一句，为什么英伟达的消费级显卡也装备了Tensor Core? 因为它对于光线追踪技术的实现扮演着不可或缺的角色，而光线追踪能够大幅提升游戏画面的感染力。显卡处理游戏内部光影效果的方式，与处理大模型数据的方式，在硬件和数学层面是互通的。人类如果没有强大的游戏产业，就很难建设强大的人工智能产业。）

我们不知道生成式AI产业的下一步走向是什么：Transformer架构（现在所有大语言模型的基础）诞生至今才七年多，第一个百亿参数的大模型诞生至今才不到五年。就像许多学者指出的一样，生成式AI有可能并不是实现通用人工智能(AGI)的必由之路。但是无论如何，有一点是确定的：未来的世界需要大量算力，尤其是并行的、以多核GPU为基础的算力。当生成式AI浪潮突然降临之时，许多科技大厂都把自家的英伟达显卡从自动驾驶、推荐算法训练、图形渲染等任务迅速转移到了大模型相关任务；这进一步加深了它们对英伟达的信任和依赖。

此时此刻，全球科技巨头用于扩张算力的资本开支，普遍达到了每年几百亿美元的水平；坊间甚至传闻微软打算在一年之内耗资1000亿美元建设新的数据中心。花了这么多的钱，它们肯定不希望自己买到的算力仅能用于非常狭窄的领域，不管其纸面性能好坏、价格高低。所以那些高度特化的推理卡，注定只能在巨头的算力军备竞赛当中扮演次要角色；AMD能扮演的角色可以更重要一点，但离英伟达这个主角还是差得很远。

就在本文撰写的过程中，我的另一位从事AI行业多年的朋友告诉我：“我们最近开始采购另一家公司的显示芯片了。它的硬件规格是合格的，但是软件适配是大问题，需要踩很多的坑。英伟达的CUDA开发团队应该比硬件设计团队的规模要大得多，它的发布会上几乎全是软件生态工具，例如GPU虚拟化、一键部署。缺少了英伟达的软件生态，我们就要自己雇人去实现这些能力。生态就是成本！没有生态就要产生额外的开发成本。”当然，鉴于国内现在越来越难买到英伟达的数据中心级显卡，厂商只能硬着头皮承担成本；在有选择的情况下，它们几乎不会有动力这样做。

至于五年、十年乃至二十年后呢？那就是另一个问题了。通用计算GPU这个概念诞生至今也只有十八年，NVLink技术也只有十年历史。在长期，一切都是可以改变的，但是一切改变只能来自勤奋耕耘和咬定青山不放松的精神。请记住，2013年，当黄仁勋操着半生不熟的普通话在北京国家会议中心的舞台上说“请给我一个机会介绍英伟达”的时候，他已经到处推销自己的通用计算理念长达七年了；而他还要再等待整整九年，才能看到一切开花结果。当时嘲笑他的人，和现在认为可以轻易替代他的人，很可能是同一批人。

文章来源于“互联网怪盗团”，作者“怪盗团团长裴培”

真的有人能在推理环节替代英伟达吗？

造出比盘子还大的AI芯片，这家估值300亿元的硅谷公司要挑战英伟达丨焦点分析

关联网址

关联标签

#AI #AI技术 #AI模型 #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3732 用户在看

AI写作网站自动的生成文章可以用吗？

297 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

263 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

235 用户在看

真的有人能在推理环节替代英伟达吗？

造出比盘子还大的AI芯片，这家估值300亿元的硅谷公司要挑战英伟达丨焦点分析

我们需要怎样的大模型？

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3732 用户在看

AI写作网站自动的生成文章可以用吗？

297 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

263 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

235 用户在看

真的有人能在推理环节替代英伟达吗？

造出比盘子还大的AI芯片，这家估值300亿元的硅谷公司要挑战英伟达丨焦点分析

我们需要怎样的大模型？

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿