换掉Transformer，7B开源模型立刻登顶！任意长序列都能处理

2024-08-13 阅读 12 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

全球首个开源SSLM

在性能上，Falcon Mamba 7B全方位超越一众开源模型。

换掉Transformer，7B开源模型立刻登顶！任意长序列都能处理

它基于第一代Mamba。

Mamba是一种状态空间模型（SSM，State Space Model）。它结合了RNN和CNN的特点，通过引入一种选择机制，它允许模型根据当前的输入有选择地传播或忘记信息，从而提高处理文本信息的效率。

同时，它设计了一种硬件感知的并行算法，以递归模式运行，避免了GPU内存层级之间IO访问，提高计算效率。

最后它还简化了架构，将SSM架构和Transformer中的MLP块结合为单一的块。

从Transformer换到Mamba，能够让Falcon模型可以处理任意长序列，但无需增加内存。尤其适合单个A10 24GB GPU。

研究还讨论了两种不同的处理序列方法。

并行预填充方法适用于GPU并行处理，对内存需求较高；顺序填充方法适用于SSM模型，可以处理任意长度序列，从而不会受到内存限制。

换掉Transformer，7B开源模型立刻登顶！任意长序列都能处理

为了确保大规模训练稳定，Falcon Mamba模型使用了额外的RMS标准化层。

RMS标准化层能够简化LayerNorm的计算过程，可减少计算量。

模型使用了5500GT数据训练，这些数据主要来自RefedWeb数据集以及公开数据。训练过程基本匀速，在训练后期增加了一小部分高质量策划数据，这有助于模型在最后阶段的优化。

在H100上，批大小为1、提示词长度为1-130k生成token的测试中，Falcon Mamba能够在生成新token时保持稳定的吞吐量，这意味着它的性能不受文本长度影响，可以稳定处理长序列，不会出现性能下降情况。

换掉Transformer，7B开源模型立刻登顶！任意长序列都能处理

Falcon Mamba支持多种Hugging Face API，包括AutoModelForCausalLM、pipline。

还推出了一个指令调优版本，通过额外50亿个token进行微调，可以让模型准确性更高。

在Hugging Face、GitHub上都可访问最新模型~

参考链接：

https://huggingface.co/blog/falconmamba#hardware-performance

文章来自于微信公众号量子位作者明敏

最强AI程序员砸饭碗：84秒跑通代码，像人一样思考！团队仅5人

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

2824 用户在看

AI写作网站自动的生成文章可以用吗？

137 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

74 用户在看

“如何选择最佳AI写作工具？这些秘诀一定要知道！”

63 用户在看

换掉Transformer，7B开源模型立刻登顶！任意长序列都能处理

全球首个开源SSLM

最强AI程序员砸饭碗：84秒跑通代码，像人一样思考！团队仅5人

尴尬！ChatGPT官宣新模型，评论区翻车了…

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

2824 用户在看

AI写作网站自动的生成文章可以用吗？

137 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

74 用户在看

“如何选择最佳AI写作工具？这些秘诀一定要知道！”

63 用户在看

换掉Transformer，7B开源模型立刻登顶！任意长序列都能处理

全球首个开源SSLM

最强AI程序员砸饭碗：84秒跑通代码，像人一样思考！团队仅5人

尴尬！ChatGPT官宣新模型，评论区翻车了…

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿