开源大模型王座易主，谷歌Gemma杀入场，笔记本可跑，可商用

2024-02-22 阅读 46 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

Gemma 技术细节

总体来说，Gemma 是一个轻量级的 SOTA 开放模型系列，在语言理解、推理和安全方面表现出了强劲的性能。

开源大模型王座易主，谷歌Gemma杀入场，笔记本可跑，可商用

技术报告链接：https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf

谷歌发布了两个版本的 Gemma 模型，分别是20 亿参数和 70 亿参数，并提供了预训练以及针对对话、指令遵循、有用性和安全性微调的 checkpoint。其中70 亿参数的模型用于 GPU 和 TPU 上的高效部署和开发，20 亿参数的模型用于 CPU 和端侧应用程序。不同的尺寸满足不同的计算限制、应用程序和开发人员要求。

Gemma在 18 个基于文本的任务中的 11 个上优于相似参数规模的开放模型，例如问答、常识推理、数学和科学、编码等任务。

下图 1 为 Gemma（7B）与 LLaMA 2（7B）、LLaMA 2（13B）和 Mistral（7B）在问答、推理、数学和科学、编码等任务上的性能比较。可以看到，Gemma（7B）表现出了优势（除了在问答任务上弱于 LLaMA 2（13B））。

开源大模型王座易主，谷歌Gemma杀入场，笔记本可跑，可商用

接下来看 Gemma 的模型架构、训练基础设施、预训练和微调方法。

模型架构

Gemma 模型架构基于 Transformer 解码器，表 1 总结了该架构的核心参数。模型训练的上下文长度为 8192 个 token。

此外，谷歌还在原始 transformer 论文的基础上进行了改进，改进的部分包括：

多查询注意力：7B 模型使用多头注意力，而 2B 检查点使用多查询注意力；

RoPE 嵌入：Gemma 在每一层中使用旋转位置嵌入，而不是使用绝对位置嵌入；此外，Gemma 还在输入和输出之间共享嵌入，以减少模型大小；

GeGLU 激活：标准 ReLU 非线性被 GeGLU 激活函数取代；

Normalizer Location：Gemma 对每个 transformer 子层的输入和输出进行归一化，这与仅对其中一个或另一个进行归一化的标准做法有所不同，RMSNorm 作为归一化层。

开源大模型王座易主，谷歌Gemma杀入场，笔记本可跑，可商用

训练基础设施

谷歌使用了自研 AI 芯片 TPUv5e 来训练 Gemma 模型：TPUv5e 部署在由 256 个芯片组成的 pod 中，配置成由 16 x 16 个芯片组成的二维环形。

对于 7B 模型，谷歌在 16 个 pod（共计 4096 个 TPUv5e）上训练模型。他们通过 2 个 pod 对 2B 模型进行预训练，总计 512 TPUv5e。在一个 pod 中，谷歌对 7B 模型使用 16 路模型分片和 16 路数据复制。对于 2B 模型，只需使用 256 路数据复制。优化器状态使用类似 ZeRO-3 的技术进一步分片。在 pod 之外，谷歌使用了 Pathways 方法通过数据中心网络执行数据复制还原。

预训练

Gemma 2B 和 7B 分别在来自网络文档、数学和代码的 2T 和 6T 主要英语数据上进行训练。与 Gemini 不同的是，这些模型不是多模态的，也不是为了在多语言任务中获得最先进的性能而训练的。

为了兼容，谷歌使用了 Gemini 的 SentencePiece tokenizer 子集（Kudo 和 Richardson，2018 年）。它可以分割数字，不删除多余的空白，并遵循（Chowdhery 等人，2022 年）和（Gemini 团队，2023 年）所使用的技术，对未知 token 进行字节级编码。词汇量为 256k 个 token。

指令调优

谷歌通过在仅文本、仅英语合成和人类生成的 prompt 响应对的混合数据上进行监督微调（SFT），以及利用在仅英语标记的偏好数据和基于一系列高质量 prompt 的策略上训练的奖励模型进行人类反馈强化学习（RLHF），对 Gemma 2B 和 Gemma 7B 模型进行微调。

实验发现，监督微调和 RLHF 这两个阶段对于提高下游自动评估和模型输出的人类偏好评估性能都非常重要。

监督微调

谷歌根据基于 LM 的并行评估结果来选择自己的混合数据，以进行监督微调。给定一组留出的（heldout） prompt，谷歌从测试模型中生成响应，并从基线模型中生成相同 prompt 的响应，并要求规模更大的高性能模型来表达这两个响应之间的偏好。

谷歌还构建不同的 prompt 集来突出特定的能力，例如指令遵循、真实性、创造性和安全性等。谷歌使用了不同的自动化 LM「judges」，它们采用了多种技术，比如思维链提示（chain-of-thought prompting）、对齐人类偏好等。

格式化

指令调优模型使用特定的格式化器进行训练，该格式化器在训练和推理时使用额外的信息来标注所有指令调优示例。这样做有以下两个目的，1）指示对话中的角色，比如用户角色；2）描述对话轮次，尤其是在多轮对话中。为了实现这两个目的，谷歌在分词器（tokenizer）中保留了特殊的控制 token。

下表 3 为相关格式化控制 token，表 4 为对话示例。

开源大模型王座易主，谷歌Gemma杀入场，笔记本可跑，可商用

人类反馈强化学习（RLHF）

谷歌使用 RLHF 对监督微调模型进一步微调，不仅从人类评分者那里收集了偏好对，还在 Bradley-Terry 模型下训练了奖励函数，这类似于 Gemini。该策略经过训练，使用一个具有针对初始调优模型的 Kullback–Leibler 正则化项的 REINFORCE 变体，对该奖励函数进行优化。

与监督微调（SFT）阶段一样，为了进行超参数调优，并额外减轻奖励黑客行为，谷歌依赖高容量模型作为自动评估器，并计算与基线模型的比较结果。

评估

谷歌通过人类偏好、自动基准和记忆等指标，在广泛的领域对 Gemma 进行了全面的评估。

人类偏好评估

除了在经过微调的模型上运行标准学术基准之外，谷歌对最终发布的候选模型进行了人类评估研究，以便与 Mistral v0.2 7B Instruct 模型进行比较。

与 Mistral v0.2 7B Instruct 相比，Gemma 7B IT 的正胜率为 51.7%，Gemma 2B IT 的胜率为 41.6%。在测试基本安全协议的约 400 条 prompt 中，Gemma 7B IT 的胜率为 58%，而 Gemma 2B IT 的胜率为 56.5%。表 5 中报告了相应的数字。

开源大模型王座易主，谷歌Gemma杀入场，笔记本可跑，可商用

自动基准评估

谷歌还在一系列学术基准上将 Gemma 2B 和 7B 模型与几个外部开源 LLM 进行了比较，如表 6 所示：

在 MMLU 上，Gemma 7B 的表现优于相同或较小规模的所有开源模型，还优于几个较大的模型，包括 LLaMA2 13B。

开源大模型王座易主，谷歌Gemma杀入场，笔记本可跑，可商用

然而，基准作者对人类专家表现的评估结果是 89.8%， Gemini Ultra 是第一个超过这一阈值的模型，可以看到Gemma仍有很大的改进空间，以达到Gemini和人类水平的性能。

但 Gemma 模型在数学和编码基准测试中表现比较突出。在数学任务上，Gemma 模型在 GSM8K 和更难的 MATH 基准上的表现超过其他模型至少 10 分。同样，它们在 HumanEval 上的表现比其他开源模型至少高出 6 分。Gemma 在 MBPP 上的表现甚至超过了经过代码微调的 CodeLLaMA-7B 模型（CodeLLaMA 得分为 41.4%，而 Gemma 7B 得分为 44.4%）。

记忆评估

谷歌使用 Anil 等人采用的方法测试 Gemma 的记忆能力，具体而言，他们从每个语料库中采样 10000 个文档，并使用前 50 个 token 作为模型的 prompt。在此过程中，谷歌主要关注精准记忆，如果模型生成的后续 50 个 token 与文本中的真实后续文本完全匹配，则将该文本分类为已记忆。图 2 将评估结果与同等规模的 PaLM 和 PaLM 2 模型进行了比较，结果如下所示。

开源大模型王座易主，谷歌Gemma杀入场，笔记本可跑，可商用

隐私数据

对大模型来说，隐私数据被记住的可能性是一件非常值得关注的事情。为了使 Gemma 预训练模型安全可靠，谷歌使用自动方法从训练集中过滤掉某些隐私信息和其他敏感数据。

为了识别可能出现的隐私数据，谷歌使用 Google Cloud 数据丢失防护 (DLP) 工具。该工具根据隐私数据的类别（例如姓名、电子邮件等）输出三个严重级别。谷歌将最高严重性分类为「敏感（sensitive）」，其余两个分类为「隐私（personal）」，然后测量有多少存储的输出包含敏感或个人数据。

如下图 3 所示，谷歌没有观察到存储敏感数据的情况，但确实发现 Gemma 模型会记住一些上述分类为潜在「隐私」的数据。值得注意的是，研究中使用的工具可能存在许多误报（因为其只匹配模式而不考虑上下文），这意味着实验结果可能高估了已识别的隐私数据量。

开源大模型王座易主，谷歌Gemma杀入场，笔记本可跑，可商用

在记忆数据量方面，如下图 4 所示，谷歌观察到大约会多出 50% 的数据被记住，并且在数据集的每个不同子类别中几乎是一致的。

开源大模型王座易主，谷歌Gemma杀入场，笔记本可跑，可商用

最后，谷歌还通过标准化 AI 安全基准评估了 Gemma 的安全性，结果如下表 8 所示。

开源大模型王座易主，谷歌Gemma杀入场，笔记本可跑，可商用

参考链接：

https://www.theverge.com/2024/2/21/24078610/google-gemma-gemini-small-ai-model-open-source

文章来自于微信公众号 “机器之心”（ID：almosthuman2014），作者 “机器之心”

大模型时代，现代BI的底层已经被颠覆了？

关联网址

关联标签

#AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3699 用户在看

AI写作网站自动的生成文章可以用吗？

273 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

201 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

195 用户在看

开源大模型王座易主，谷歌Gemma杀入场，笔记本可跑，可商用

Gemma 技术细节

评估

大模型时代，现代BI的底层已经被颠覆了？

All in AI后，AI手机成了2024年的关键词？

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3699 用户在看

AI写作网站自动的生成文章可以用吗？

273 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

201 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

195 用户在看

开源大模型王座易主，谷歌Gemma杀入场，笔记本可跑，可商用

Gemma 技术细节

评估

大模型时代，现代BI的底层已经被颠覆了？

All in AI后，AI手机成了2024年的关键词？

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿