700亿参数Llama 2训练加速195%！训练/微调/推理全流程方案开源，0代码一站解决

2024-10-25 阅读 56 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

Llama 2训练加速195%

Meta开源的LLaMA系列大模型进一步激发了打造类ChatGPT的热情，并由此衍生出了诸多项目和应用。

700亿参数Llama 2训练加速195%！训练/微调/推理全流程方案开源，0代码一站解决

最新的7B~70B Llama 2大模型，则进一步提高了语言模型的基础能力。

但由于Llama 2的预训练预料大部分来自英文通用知识，而仅用微调能够提升和注入的领域知识和多语言能力也相对有限。

此外，高质量的专业知识和数据集通常被视为各个行业和公司的核心资产，仅能以私有化形式保存。

因此，以低成本预训练/继续预训练/微调Llama 2系列大模型，结合高质量私有化业务数据积累，帮助业务降本增效是众多行业与企业的迫切需求与瓶颈。

但Llama 2大模型仅发布了原始模型权重与推理脚本，不支持训练/微调，也未提供数据集。

针对上述空白与需求，Colossal-AI开源了针对Llama 2的全流程方案，并具备高可扩展性，支持从70亿到700亿参数的模型，从8卡到512卡都可保持良好的性能。

在使用8卡训练/微调Llama 2 7B时，Colossal-AI能达到约54%的硬件利用率（MFU），处于业界领先水平。

对于预训练任务，以使用512张A100 40GB预训练Llama 2 70B为例，DeepSpeed ZeRO3策略因显存不足而无法启动，仅能通过速度衰减较大的ZeRO3-offload策略启动。

相比之下，Colossal-AI则因卓越的系统优化和扩展性，仍能保持良好性能，训练提速195%。

700亿参数Llama 2训练加速195%！训练/微调/推理全流程方案开源，0代码一站解决

Colossal-AI Llama 2训练/微调方案的高性能来源于新的异构内存管理系统Gemini和高性能算子（包括Flash Attention 2）等系统优化。

新Gemini提供了高可扩展性，高鲁棒性，高易用性的接口。其Checkpoint格式与HuggingFace完全兼容，减小了使用和转换成本。其对于切分、offload等的设置更加灵活且易用，能够覆盖更多硬件配置下的Llama 2训练/微调任务。仅需数行代码即可使用：

from colossalai.booster import Booster
from colossalai.booster.plugin import GeminiPlugin
plugin = GeminiPlugin()
booster = Booster(plugin=plugin)
model, optimizer, train_dataloader, criterion = booster.boost(model, optimizer, train_dataloader, criterion)

ShardFormer多维细粒度并行

虽然对于主流硬件条件和大多数模型，Colossal-AI的新Gemini已经能够提供良好的性能。但是对于一些极端硬件条件，或者是特殊模型，可能仍然需要多维并行的细粒度优化。

现有其他方案通常需要分布式系统资深专家，手动对代码进行大规模重构和调优，Colossal-AI的ShardFormer提供了开箱即用的多维并行和算子优化的能力，仅需数行代码即可使用，在单机/大规模集群上都能提供良好的性能。

from colossalai.booster import Booster
from colossalai.booster.plugin import HybridParallelPlugin
from transformers.models.llama import LlamaForCausalLM, LlamaConfig
plugin = HybridParallelPlugin(tp_size=2, pp_size=2, num_microbatches=4, zero_stage=1)
booster = Booster(plugin=plugin)
model = LlamaForCausalLM(LlamaConfig())
model, optimizer, train_dataloader, criterion = booster.boost(model, optimizer, train_dataloader, criterion)

Colossal-AI ShardFormer支持包括LLaMA 1/2、BLOOM、OPT、T5、GPT-2、BERT、GLM在内的主流开源模型，也可以直接使用Huggingface/transformers模型导入，Checkpoint格式也与HuggingFace完全兼容，对比Megatron-LM等需重写大量代码的方案，大大提升了易用性。

700亿参数Llama 2训练加速195%！训练/微调/推理全流程方案开源，0代码一站解决

对于并行策略，已支持以下多种并行方式：张量并行、流水线并行、序列并行、数据并行、Zero数据并行等，并可将多种并行方式组合使用，只需通过简单的配置命令，即可适配各种复杂的硬件环境/模型。同时，其内置了各种高性能算子，免去了繁琐的兼容/配置过程。其中包括：

Flash attention 2
Memory efficient attention (xformers)
Fused Normalization Layer
JIT kernels

云平台大模型一站式解决

为了进一步提升开发和部署效率，Colossal-AI团队还将上述系统优势与算力结合，提供Colossal-AI云平台，提供廉价算力和开箱即用的AI主流应用，包括对话大模型，多模态模型，生物医药等，现已开启内测。

700亿参数Llama 2训练加速195%！训练/微调/推理全流程方案开源，0代码一站解决

通过屏蔽大模型底层的分布式并行计算、内存、通信管理与优化等，AI开发者可以继续专注于AI模型与算法设计，以更低成本更快速度完成AI大模型助力业务降本增效。

700亿参数Llama 2训练加速195%！训练/微调/推理全流程方案开源，0代码一站解决

用户只需要上传相关数据，即可无代码训练个性化私有模型，并将训练好的模型一键部署。相关的应用都经过Colossal-AI团队精心优化，得益于算法和系统的双面优化，能大大降低模型训练以及部署的成本。

Colossal-AI云平台：platform.luchentech.com

Colossal-AI开源地址：https://github.com/hpcaitech/ColossalAI

文章转载自公众号“新智元”

技术社区Stack Overflow推出AI功能，论坛里的5800万个问题和回答将成为AI知识库

关联网址

关联标签

#AI #AI模型 #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3732 用户在看

AI写作网站自动的生成文章可以用吗？

298 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

263 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

235 用户在看

700亿参数Llama 2训练加速195%！训练/微调/推理全流程方案开源，0代码一站解决

Llama 2训练加速195%

云平台大模型一站式解决

技术社区Stack Overflow推出AI功能，论坛里的5800万个问题和回答将成为AI知识库

利用树莓派芯片和摄像头，就可以实现在空气中AI绘图了

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3732 用户在看

AI写作网站自动的生成文章可以用吗？

298 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

263 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

235 用户在看

700亿参数Llama 2训练加速195%！训练/微调/推理全流程方案开源，0代码一站解决

Llama 2训练加速195%

云平台大模型一站式解决

技术社区Stack Overflow推出AI功能，论坛里的5800万个问题和回答将成为AI知识库

利用树莓派芯片和摄像头，就可以实现在空气中AI绘图了

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿