从架构、工艺到能效表现，全面了解LLM硬件加速，这篇综述就够了

2024-09-20 阅读 32 收藏 0 评论 0 限时评论得现金

粉丝 0 文章 6432 收藏 0

FPGA 加速器

在这一部分中，作者以 A-T 编号的方式列举了有关 FPGA 的研究，可谓调查的非常详细。每项研究都用简短的几句话概括，阅读起来简单又清晰。举例来说：

FTRANS 。2020 年，Li 等人提出了一种硬件加速框架 FTRANS，旨在加速基于 Transformer 的大规模语言表示。FTRANS 显著提高了速度和能效，超越了 CPU 和 GPU 实现，在一系列比较后显示 FTRANS 比其他方案快 81 倍，能效高 9 倍，特别是与使用 VCU118 (16nm) 的 GPU 处理器 RTX5000 相比。该加速器的性能速率为 170 GOP，能效率为 6.8 GOP/W。

多头注意力。2020 年，Lu 等人提出了一种基于 FPGA 的架构，用于加速 Transformer 网络中计算最密集的部分。在他们的工作中，他们为两个关键组件提出了一种新型硬件加速器，即多头注意力 (MHA) ResBlock 和位置前馈网络 (FFN) ResBlock，它们是 Transformer 中最复杂的两个层。所提出的框架是在 Xilinx FPGA 上实现的。根据性能评估，与 V100 GPU 相比，所提出的设计实现了 14.6 倍的加速。

FPGA NPE。2021 年，Khan 等人提出了一种用于语言模型的 FPGA 加速器，称为 NPE。NPE 的能源效率比 CPU（i7-8700k）高约 4 倍，比 GPU（RTX 5000）高约 6 倍。

除此以外，文中还介绍了 ViA 、 FPGA DFX 、 FPGA OPU 等研究，这里就不再详细介绍了。

基于 CPU 和 GPU 的加速器

TurboTransformer。2021 年，Jiarui Fang 和 Yang Yu 推出了 TurboTransformers 加速器，这是一种在 GPU 上专为 Transformer 模型打造的技术。TurboTransformers 在可变长度输入的延迟和性能方面优于 PyTorch 和 ONNXRuntime，速度提高了 2.8 倍。

Jaewan Choi。2022 年，研究员 Jaewan Choi 发表了题为「Accelerating Transformer Networks through Rewiring of Softmax Layers」的研究，文中提出了一种加速 Transformer 网络中 Softmax 层的方法。该研究引入了一种重新布线技术来加速 Transformer 网络中的 Softmax 层，随着 Transformer 模型处理更长的序列以提高准确率，这项技术变得越来越重要。所提出的技术将 Softmax 层划分为多个子层，更改数据访问模式，然后将分解的 Softmax 子层与后续和前面的过程合并。该方法分别将 BERT、GPT-Neo、BigBird 和 Longformer 在当前 GPU 上的推理速度加快了 1.25 倍、1.12 倍、1.57 倍和 1.65 倍，显著减少了片外内存流量。

SoftMax。2022 年，Choi 等人提出了一种通过重组 Softmax 层加速 Transformer 网络的新框架。Softmax 层将注意力矩阵的元素归一化为 0 到 1 之间的值。此操作沿注意力矩阵的行向量进行。根据分析，缩放点积注意力 (SDA) 块中的 softmax 层分别使用了 BERT、GPT-Neo、BigBird 和 Longformer 总执行时间的 36%、18%、40% 和 42%。Softmax 重组通过显著减少片外内存流量，在 A100 GPU 上对 BERT、GPT-Neo、BigBird 和 Longformer 进行推理时实现了高达 1.25 倍、1.12 倍、1.57 倍和 1.65 倍的加速。

此外，论文还介绍了 LightSeq2 、 LLMA 、 vLLMs 等研究。

ASIC 加速器

A3。2020 年，Hma 等人提出了一项关于 Transformer 网络加速的早期研究，称为 A3 。不过，研究人员所提出的方案尚未在 FPGA 上实现。基于性能评估，与 Intel Gold 6128 CPU 实现相比，所提出的方案可实现高达 7 倍的加速，与 CPU 实现相比，能效可提高 11 倍。

ELSA。2021 年，Ham 等人提出了一种用于加速 Transformer 网络的硬件 – 软件协同设计方法，称为 Elsa 。ELSA 大大减少了自注意力操作中的计算浪费。

SpAtten。2021 年，Want 等人提出了一种用于大型语言模型加速的框架 Spatten。SpAtten 采用新颖的 NLP 加速方案，以减少计算和内存访问。SpAtten 分别比 GPU（TITAN Xp）和 Xeon CPU 实现了 162 倍和 347 倍的加速。在能源效率方面，与 GPU 和 CPU 相比，SpAtten 实现了 1193 倍和 4059 倍的节能。

在这部分，作者还列举了加速 transformer 网络的新方法 Sanger、用于提高自然语言处理中 transformer 模型效率的 AccelTran 等多项研究。

内存硬件加速器

ATT。2020 年，Guo 等人提出了一种基于注意力的加速器加速方法，称为 ATT，该方法基于电阻性 RAM。根据性能评估，ATT 与 NVIDIA GTX 1080 Ti GPU 相比，可以实现 202 倍的加速。

ReTransformer。2020 年，Yang 等人提出了一种用于加速 Transformer 的内存框架，称为 ReTransformer。ReTransformer 是一种基于 ReRAM 的内存架构，用于加速 Transformer，它不仅使用基于 ReRAM 的内存架构加速 Transformer 的缩放点积注意力，而且还通过使用提出的矩阵分解技术避免写入中间结果来消除一些数据依赖性。性能评估表明，与 GPU 相比，ReTransformer 可以实现高达 23.21 倍的加速，而相应的整体功率降低了 1086 倍。

iMCAT。2021 年，Laguna 等人提出了一种用于加速长句 Transformer 网络的新型内存架构，称为 iMCAT。该框架结合使用 XBar 和 CAM 来加速 Transformer 网络。性能评估表明，对于长度为 4098 的序列，这种方法实现了 200 倍的加速和 41 倍的性能改进。

除此以外，该章节还介绍了 iMCAT 、 TransPIM 、 iMTransformer 等研究。