苹果为什么要用「小模型」？

2024-07-02 阅读 30 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

Keep Small

苹果为什么要用「小模型」？

苹果基础模型概览

预训练

苹果的基础模型是在AXLearn框架上训练的。

苹果为什么要用「小模型」？

AXLearn是苹果在2023年发布的一个开源项目，它建立在JAX和XLA之上，使苹果能够在各种训练硬件和云平台上以高效率和可扩展性训练模型，包括TPU、云端和本地GPU。

苹果结合使用数据并行、张量并行、序列并行和完全分片数据并行（FSDP）来沿数据、模型和序列长度等多个维度扩展训练。

苹果使用网络爬虫AppleBot来收集公开可用的数据，——如果Web发布者不希望自己的内容被Apple Intelligence用于训练，苹果也提供了各种粒度的控制方案。

苹果为什么要用「小模型」？

苹果表示，在训练基础模型时，从不使用用户的私人个人数据或用户交互，并且苹果应用过滤器来删除互联网上公开的个人身份信息（比如社会保险和信用卡号）。

除了过滤之外，苹果还通过数据提取、重复数据删除和基于模型的分类器的应用，以识别高质量的文档。

后处理

众所周知，数据质量对于模型的成功至关重要。

苹果在训练管道中使用混合数据策略，结合人工注释和合成数据，并执行彻底的数据管理和过滤程序。

苹果在后处理阶段开发了两种新颖的算法：

1. 拒绝抽样微调算法（rejection sampling fine-tuning algorithm）；

2. 基于人类反馈的强化学习（RLHF）算法，采用镜像下降策略优化和留一法优势估计器（leave-one-out advantage estimator）。

苹果为什么要用「小模型」？

这两种算法可以显著提高模型的指令遵循质量。

优化

除了确保生成模型具有强大功能外，苹果还使用了一系列创新技术在设备上和私有云上对其进行优化，以提高速度和效率。

设备端模型和服务器模型都使用分组查询注意力（grouped-query-attention），来优化其推理性能。

苹果为什么要用「小模型」？

苹果使用共享的输入和输出词汇表，来降低内存需求和推理成本，保证了共享嵌入张量的映射没有重复。

设备端模型使用49K的词汇大小，而服务器模型使用100K的词汇大小。

对于设备端推理，苹果使用low-bit palletization，来满足必要的内存、功耗和性能要求。

苹果为什么要用「小模型」？

为了保持模型质量，苹果开发了一个使用LoRA适配器的新框架，混合使用2比特和4比特的配置策略（平均每个权重3.5比特），以实现与未压缩模型相同的精度。

此外，苹果还使用交互式模型延迟和功耗分析工具Talaria来更好地指导每个操作的比特率选择。

苹果为什么要用「小模型」？

利用激活量化和嵌入量化，可以在苹果的神经引擎上实现高效的键值缓存（KV cache）更新。

通过上面的这些优化，iPhone 15 Pro能够达到约0.6毫秒的延迟，以及每秒30个token的生成速率。

适配器

苹果的基础模型针对用户的日常活动进行了微调，可以动态地专注于手头的任务。

做法是将小型神经网络作为模块（适配器，adapter），插入到预训练模型的各个层中，以实现针对特定任务的微调。

苹果为什么要用「小模型」？

此外，苹果调整了注意力矩阵、注意力投影矩阵和前馈网络中的全连接层，以适应Transformer架构的的解码层。

通过仅微调适配器层，基本预训练模型的原始参数保持不变，从而保留模型的一般知识，同时又能支持特定任务。

Apple Intelligence包含一组广泛的适配器，这是扩展基础模型功能的有效方法。

苹果为什么要用「小模型」？

苹果使用16位表示适配器参数的值，对于30亿个参数的设备模型，16级适配器的参数通常需要10兆字节。

适配器模型可以动态加载、临时缓存在内存中并进行交换，保证了操作系统的响应能力。

性能评估

因为用户体验是最高优先级，所以在对模型进行基准测试时，苹果专注于人工评估。

摘要

苹果的训练数据基于从更大的服务器模型生成的合成摘要，并通过拒绝抽样策略进行过滤，仅保留高质量的摘要。

为了评估特定于产品的摘要，这里使用一组750个响应，针对每个用例进行了仔细抽样。

评估数据集涵盖了苹果的产品功能在生产中可能面临的各种输入，包括不同内容类型和长度的单个文档和堆叠文档的分层组合。

另外，评估摘要功能也要考虑到一些固有风险，比如，模型偶尔会忽略掉一些重要的细节。

苹果为什么要用「小模型」？

根据评分者在五个维度上的打分，摘要被分类为好、中、差。

实验结果表明，与同类模型相比，带有适配器的模型可以生成更好的摘要。

并且在超过99%的针对性对抗性示例中，摘要适配器并没有放大敏感内容。

基础功能

对于设备端和服务器模型的一般功能，苹果利用一套全面的真实世界提示来评估通用模型的功能。

这些提示在不同的难度级别上各不相同，涵盖头脑风暴、分类、封闭式问答、编码、提取、数学推理、开放式问答、重写、安全、总结和写作等主要类别。

将苹果的模型与开源模型（Phi-3、Gemma、Mistral、DBRX）和类似规模的商业模型（GPT-3.5-Turbo、GPT-4-Turbo）进行比较。

苹果为什么要用「小模型」？

实验表明，与大多数竞品相比，苹果的模型更受人工评分师的青睐。

苹果的3B设备端模型性能优于Phi-3-mini、Mistral-7B和Gemma-7B等大型模型；而苹果的服务器模型也要优于DBRX-Instruct、Mixtral-8x22B和GPT-3.5-Turbo，同时效率更高。

安全性

苹果使用一组不同的对抗性提示来测试模型在有害内容、敏感主题和事实性方面的表现。

测量每个模型的违规率，同样采用人工评估：

苹果为什么要用「小模型」？

上图显示了在安全提示方面与竞品的PK。人工评分员发现苹果的回答更安全、更有帮助。

指令遵循

为了进一步评估模型，苹果还使用指令跟踪评估（IFEval）基准测试来比较同类模型的能力。

苹果为什么要用「小模型」？

结果表明，苹果的设备端和服务器模型都比同等规模的开源和商业模型更好地遵循详细说明。

最后是根据内部总结和作文基准评估模型的写作能力，包括各种写作说明，这些结果不涉及用于特定功能的适配器。

苹果为什么要用「小模型」？

参考资料：

https://machinelearning.apple.com/research/introducing-apple-foundation-models

文章来自于微信公众号“新智元”，作者 “alan”

多模态能力全球TOP3，来自中国从容大模型

关联网址

关联标签

#AI #AI模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3664 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

158 用户在看

苹果为什么要用「小模型」？

Keep Small

预训练

后处理

优化

适配器

性能评估

摘要

基础功能

安全性

指令遵循

多模态能力全球TOP3，来自中国从容大模型

34位大厂高管转战AI，字节成创业“大本营”，最看好Agent、垂直大模型方向

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3664 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

185 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

158 用户在看

苹果为什么要用「小模型」？

Keep Small

预训练

后处理

优化

适配器

性能评估

摘要

基础功能

安全性

指令遵循

多模态能力全球TOP3，来自中国从容大模型

34位大厂高管转战AI，字节成创业“大本营”，最看好Agent、垂直大模型方向

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿