力压70B Llama 3，Gemma 2成最强开源模型！大佬质疑用榜单prompt微调引全网热议

2024-07-02 阅读 63 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

局部滑动窗口和全局注意力

Gemma 2交替使用局部滑动窗口和全局注意力，滑动窗口大小设置为4096 token，而全局注意力层的设置为8192 token。

这种方法在正确捕捉文本细节的同时，又能保持对上下文和全局的正确理解。

知识蒸馏

能够训练出有竞争力性能的9B和27B模型，成功的知识蒸馏过程估计是最为重要的环节。

传统训练大语言模型的方法主要是根据之前的token，预测下一个token，需要大量的数据进行训练。

但是，人类的学习过程并不依赖走量的知识输入。比如，一位学生由于阅读原著的需要学习一门外语，他并不需要看遍所有的书籍，只需要以一本书为纲，通过理解后融会贯通。

而知识蒸馏法与人的学习过程更加类似。一个小模型向另一个已经进行过预训练的大模型学习，通过这种方式助产小模型对于token的预测。

站在老师模型的肩膀上，学生模型能用较少的训练数据、更少的参数量提升性能。

力压70B Llama 3，Gemma 2成最强开源模型！大佬质疑用榜单prompt微调引全网热议

用LMSYS数据微调，引AI2研究员质疑

开源模型界终于在Llama之后迎来了Gemma 2这个最新的扛把子选手，就在大家忙着兴奋的同时，Allen AI的研究员Nathan Lambert冷静地在技术报告中发现了华点：

微调数据的来源包括LMSYS的聊天数据集！

似乎是预想到了可能的质疑，论文中特意强调只使用了prompt，把答案剔出去了。

力压70B Llama 3，Gemma 2成最强开源模型！大佬质疑用榜单prompt微调引全网热议

Lambert依旧不认可这种行为。他发了一篇推特，疑惑的语气中带着一丝嘲讽：为了在竞技场上刷分数，你们谷歌团队挺有想象力的。

力压70B Llama 3，Gemma 2成最强开源模型！大佬质疑用榜单prompt微调引全网热议

这位Nathan Lambert其实算是LLM领域比较资深的专业人士，他博士毕业于UC伯克利大学，在DeepMind和FAIR都有实习经历。

力压70B Llama 3，Gemma 2成最强开源模型！大佬质疑用榜单prompt微调引全网热议

针对Lambert的质疑，LMSYS随后回复了一篇意义不明的超长推特，似乎透露出了为谷歌辩护的隐晦立场。

力压70B Llama 3，Gemma 2成最强开源模型！大佬质疑用榜单prompt微调引全网热议

推特全文如下：

从一开始，Chatbot Arena的使命就是通过人类偏好来解决LLM的评估问题。

通过开放我们的数据集和论文，我们希望社区能研究真实世界的prompt，并利用这些数据改进模型（就像ImageNet的训练集一样）。

我们相信，通过实时和新鲜的用户投票，Arena比静态基准测试如MMLU更不容易过拟合。

现在，有些人可能对以下两个方面存在质疑——（1）prompt重复的程度和（ 2）数据分布。这正是我们开放数据和论文研究的原因。

我们的Llama-3博客文章显示，经过去重之后，大约10%的重复对结果的影响很小。此外，论文还包括对prompt分布的主题建模，展现了跨语言的多样化使用案例。

展望未来，我们计划深入了解数据的新鲜度和分布。也欢迎大家用新任务来挑战模型，研究我们的100万prompt和偏好数据，或者加入我们的Kaggle挑战。

这有些让人摸不着头脑，既说「用数据改进模型是受欢迎的」，又说「我们开放数据和论文是为了回应质疑」。

发帖的Lambert也同样被搞糊涂了，他进一步阐明了自己的立场。

「感觉我们讨论的不是同一件事，我的观点依旧成立。很可能有更多的人也在这样做，但我们并不知道。」

力压70B Llama 3，Gemma 2成最强开源模型！大佬质疑用榜单prompt微调引全网热议

LMSYS最新回复的内容更加让人内心复杂——

「对不起，虽然我贴上了你的推特，但不是在特意回复你。」

力压70B Llama 3，Gemma 2成最强开源模型！大佬质疑用榜单prompt微调引全网热议

对于微调应不应该使用LMSYS数据这个问题，评论区的网友也吵得热火朝天。

有些人觉得Lambert的质疑毫无道理。毕竟LMSYS公开了数据集，用来做微调有什么不可以的？而且只使用了prompt，答案是教师模型生成的。

力压70B Llama 3，Gemma 2成最强开源模型！大佬质疑用榜单prompt微调引全网热议

毕竟大家都在看LMSYS的聊天机器人Arena的分数，如果大家都不用这个数据才比较出乎意料。

力压70B Llama 3，Gemma 2成最强开源模型！大佬质疑用榜单prompt微调引全网热议

这个立场得到了大部分人的认同。虽然谷歌是为数不多的坦诚，敢把用了LMSYS数据这件事写进论文，但他们绝对不是第一个使用这些数据的人。

「我打赌GPT-4o和Llama 3也这么干了。」

力压70B Llama 3，Gemma 2成最强开源模型！大佬质疑用榜单prompt微调引全网热议

毕竟在一段时间内，LMSYS竞技场曾经是唯一可信的基准测试。

力压70B Llama 3，Gemma 2成最强开源模型！大佬质疑用榜单prompt微调引全网热议

而这也正是Lambert所担心的——LMSYS是业界为数不多的得到大多数人认可的基准测试，如果大家再用它的数据微调甚至训练，岂不很快又会失去公信力？

更糟糕的情况是，不是每一个模型都像Gemma 2这样会承认这件事。

不少观点比较中肯的网友也点出了这一点。

「我相信这会降低Arena的信噪比。」

力压70B Llama 3，Gemma 2成最强开源模型！大佬质疑用榜单prompt微调引全网热议

看来在基准测试领域，重复的历史总在不断上演，而那个金句也总是适用——

「当一个衡量标准成为目标时，它就不再是一个好的衡量标准了。」

力压70B Llama 3，Gemma 2成最强开源模型！大佬质疑用榜单prompt微调引全网热议

文章来源于“新智元”，作者“新智元”

Gen-3开放内测，网友实测demo惊人！魔都时装秀一绝，却依旧不懂物理世界

关联网址

关联标签

#AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

力压70B Llama 3，Gemma 2成最强开源模型！大佬质疑用榜单prompt微调引全网热议

局部滑动窗口和全局注意力

知识蒸馏

Gen-3开放内测，网友实测demo惊人！魔都时装秀一绝，却依旧不懂物理世界

《奇点更近了》作者再预言：2045年，智能将扩展到100万倍

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

力压70B Llama 3，Gemma 2成最强开源模型！大佬质疑用榜单prompt微调引全网热议

局部滑动窗口和全局注意力

知识蒸馏

Gen-3开放内测，网友实测demo惊人！魔都时装秀一绝，却依旧不懂物理世界

《奇点更近了》作者再预言：2045年，智能将扩展到100万倍

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿