近日,一家叫etched的AI芯片公司宣布推出Transformer架构模型专用的ASIC芯片——Sohu,他们的模拟结果显示这款芯片每美元性能是传统GPU的140倍。
与新芯片同时宣布的是它获得Primary Venture Partners和Positive Sum Ventures共同领投1.2亿美元A轮融资的消息,参与本轮融资的还包括Peter Thiel、GitHub首席执行官Thomas Dohmke、Cruise的联合创始人Kyle Vogt、Quora的联合创始人Charlie Cheever以及Replit首席执行官Amjad Masad。
在2023年6月,我们报道了etched获得540万美元种子轮融资的消息,此轮融资由Primary Venture Partners领投,前Ebay首席执行官Devin Wenig等跟投。
etched由两位哈佛辍学生Gavin Uberti(前OctoML和Xnor.AI员工)和Chris Zhu创立,联合创始人还包括Robert Wachen和前Cypress Semiconductor CTO Mark Ross,目前公司拥有35名员工,新资金将用于芯片流片。
01 专注Transformer,推理速度比H100快20倍
随着生成式AI的崛起,OpenAI和Anthropic等公司固然获得了大笔融资,但最大的获益者却似乎是英伟达,它占据了AI芯片市场70%到90%的市场份额,Meta、AWS和微软等科技巨头正在花费数十亿美元购买英伟达的GPU。
但是尽管在英伟达2024年的发布会上,黄仁勋宣布英伟达AI芯片的算力在过去8年里实现了1000倍的增长,但是在过去四年,芯片每单位面积的计算能力(TFLOPS)几乎没有变化,无论是NVIDIA的B200、AMD的MI300、英特尔的Gaudi 3还是亚马逊的Trainium2,它们增加AI芯片算力的放大都是将多个芯片die拼在一起,让芯片变得更大。
目前AI模型想要变得更强,主要的办法就是借助Scaling Law让模型的尺寸变得更大,在数据方面,这不太是个问题,因为AI合成数据训练AI模型的技术已经被验证。但是尺寸更大的模型代表更高的AI计算成本,未来一个AI数据中心的成本有可能超过一个小国家的GDP,AI的计算成本问题成为AI能力继续发展的关键瓶颈。
etched的创始人们认为下一步要从本质上提升AI芯片的性能,方法就是专用化。事实上,这个方法也已是业内的一个共识,无论是Google的TPU还是亚马逊的Trainium2都走的这个路线,还包括AI芯片初创公司Perceive以及Groq。当然也还有我们此前介绍过的D-Matrix。
只不过etched走的更极端,它抛弃了其他的一些主流AI模型架构,例如CNN,DNN,以及AlphaFold 2,或是Stable Diffusion 2,而是专注于目前最主流,采用量最多的Transformer,而在训练和推理这两种计算中,它又选择了未来使用量更大的推理。
芯片性能比英伟达下一代芯片快一个数量级,能耗低一个数量级
Etched的主要产品是名为Sohu的AI推理加速芯片,这款芯片在硬件层面集成了Transformer架构,它还支持树搜索编码,能并行比较数百个响应,并实现多重推测解码,能够实时生成新内容。Sohu芯片拥有144GB的HBM3e显存,采用台积电的4纳米工艺制造,拥有非常低的能耗。
etched的CEO Uberti表示:“在运行文本、图像和视频等基于Transformer的模型时,Sohu的速度和成本比英伟达下一代Blackwell GB200 GPU速度快一个数量级,成本低一个数量级。”
经过etched的内部实测,一台拥有8个Sohu芯片的服务器每秒可以处理超过500,000个Llama 70B tokens,算力相当于160个H100 GPU。
它的每个芯片只有一个核心,可以支持100万亿参数模型,支持专家混合(MoE)和各种Transformer的变体。
由于Sohu只能运行一种算法,大多数控制流逻辑可以被移除,从而允许其拥有更多的数学单元。因此,Sohu的FLOPS利用率超过90%(相比之下,GPU的TRT-LLM约为30%)。
etched如何在芯片上放入比GPU更多的FLOPS?目前最先进的NVIDIA H200没有稀疏性时拥有989 TFLOPS的FP16/BF16计算能力,而将在2025年推出的GB200仅增加了25%的计算能力(每个芯片1250 TFLOPS)。
由于大多数GPU的芯片面积用于可编程性,只有3.3%的H100 GPU晶体管用于矩阵乘法,这是因为英伟达为了兼容其他模型而做的一个刻意的设计决定。而专门针对Transformer得芯片可以放入更多的计算单元,无需降低精度或稀疏性。进而由于Sohu有着高利用率的大量计算能力,它可以在不受内存带宽限制的情况下运行巨大的吞吐量,不用太担心内存容量。
Sohu Developer Cloud云服务即将推出
在GPU和TPU上,处理任意的CUDA和PyTorch代码需要一个极其复杂的编译器。第三方AI芯片(AMD、英特尔、AWS等)厂商在软件上花费了数十亿美元,但效果甚微。
对于etched的Sohu芯片,它因为只需要处理Transformer的计算,所以只需要为Transformer编写软件。它们的软件从驱动程序到内核再到服务栈都为Transformer打造,而且在未来即将开源,能够方便商业客户在自己的业务中部署。
etched的创始人Uberti在媒体采访中透露,公司已经获得不具名客户的“数千万美元”硬件订单,而且即将推出Sohu Developer Cloud,客户可以通过在线云平台的方式,方便地使用etched的芯片算力,这将推动公司获得更多销售收入。
02 基于ASIC的AI芯片,适合中国市场
相比X86的CPU,以及英伟达的GPU这类通用芯片,etched选择的ASIC芯片路线本身就具有高性能,低成本,低功耗,小尺寸和高安全性的优点。
etched选择ASIC技术路线,并且专注的选择做Transformer专用芯片,在商业策略上下的“赌注”不可谓不大,但是对于一家创业公司来说,这样的专注却是正确的选择。因为如果没有看准市场以后的差异化竞争,在与众多巨头竞争的“战斗”中,创业公司很难有胜算。
即便如此,面对英伟达,包括谷歌、AMD和亚马逊,etched也只是有机会,因为此前已经有多家AI芯片公司挑战过又失败,其中不乏Mythic和Graphcore等本身也很优秀的公司。
由于中国面临的国际市场环境,相对更为开放的ASIC路线AI芯片成为了一个很现实也很必须的技术路线。目前国内已经有华为,寒武纪,阿里,地平线等数家实力强大的公司在这个领域耕耘。
而且相比于手机或者汽车等端侧芯片,无论是AI训练芯片还是推理芯片,当它在数据中心里运行时,能耗和散热固然是一个需要考虑的问题,但是却不是一个不可解决的问题。自然,芯片的制程也不再是一个卡脖子的问题。
目前的AI浪潮仍然处于早期,AI芯片和AI基础设施远未成熟,而随着模型尺寸的扩大,模型模态(图像,视频)的多样化,对AI计算的需求也远未饱和。
我们期待着具有足够创新力的团队打造出足够优秀的AI芯片,支持AI模型和AI应用的发展,无论这个团队来自大厂还是科研院所。
本文来自微信公众号“阿尔法公社”(ID:alphastartups),作者:阿尔法公社
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则