贾扬清：大模型尺寸正在重走CNN的老路；马斯克：在特斯拉也是这样

2024-08-01 阅读 44 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

展开说说

贾扬清的感慨，要从只在最强王座上短暂待了一天的LLaMA 3.1说起。

那是首次实现“最强开源模型=最强模型”，不出意外，万众瞩目。

However，贾扬清在这个时候提出了一个观点：

“但我认为，行业会因小型垂直模型而真正蓬勃发展。”

至于啥是小型垂直模型，贾扬清也说得很清楚，比如以Patrouns AI的Iynx（该公司的幻觉检测模型，在幻觉任务上超过GPT-4o）为代表的那些很棒的中小模型。

贾扬清：大模型尺寸正在重走CNN的老路；马斯克：在特斯拉也是这样

贾扬清表示，就个人喜好而言，他本人是非常喜欢千亿参数模型的。

但现实情况里，他观察留意到，7B-70B参数规模之间的大模型，大家用起来更顺手：

它们更容易托管，不需要巨大的流量即可盈利；
只要提出明确的问题，就能得到质量还不错的输出——与和之前的一些看法相反。

与此同时，他听说OpenAI最新的、速度很快的模型也开始变得比“最先进的”大模型尺寸更小。

贾扬清：大模型尺寸正在重走CNN的老路；马斯克：在特斯拉也是这样

“如果我的理解是正确的，那么这绝对表明了行业趋势。”贾扬清直接表明了自己的观点，“即在现实世界中，使用适用的、具有成本效益、且仍然强大的模型。”

于是乎，贾扬清简单梳理了CNN的发展历程。

首先，是CNN的崛起时代。

以AlexNet（2012）为起点，开启了大约三年的模型规模增长时期。

2014年出现的VGGNet就是一个性能和规模都非常强大的模型。

其次，是缩小规模时期。

2015年，GoogleNet把模型大小从“GB”缩小到了“MB”级别，即缩小了100倍；但模型性能并没有因此骤减，反而保持了不错的性能。

遵循类似趋势的还有2015年面世的SqueezeNet模型等。

然后的一段时间，发展重点在追求平衡。

后续研究，如ResNet（2015）、ResNeXT（2016）等，都保持了一个适中的模型规模。

值得注意的是，模型规模的控制并没有带来计算量的减少——其实，大伙儿都愿意投入更多的计算资源，寻求一种“同等参数但更高效”的状态。

紧接着就是CNN在端侧起舞的一段时期。

举个例子，MobileNet是谷歌在2017年推出的一项有趣的工作。

有趣就有趣在它占用的资源超级少，但是性能却非常优异。

就在上周，还有人跟贾扬清提到：“Wow～我们现在还在用MobileNet，因为它可以在设备上运行，而且在出色的特征嵌入泛化（Feature Embedding Generality）。”

最后，贾扬清借用了来源于Ghimire等人的《A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration》里的一张图：

贾扬清：大模型尺寸正在重走CNN的老路；马斯克：在特斯拉也是这样

并再一次发出自己的疑问：

大模型尺寸，会遵循与CNN时代相同的趋势来发展吗？

网友怎么看？

其实GPT-4o mini这样走在大模型发展道路上“不大反小”的例子不在少数。

当上述几位表达出这样的观点后，立马有人点头如捣蒜，还拿出了一些别的类似例子，证明他们看到了相同的趋势。

有人立马跟上：

我这儿有个新的正面例子！Gemma-2就是把27B参数大小的模型知识蒸馏成更小的版本。

贾扬清：大模型尺寸正在重走CNN的老路；马斯克：在特斯拉也是这样

还有网友表示，开发更大的模型，意味着能给后续几代更小、更垂直的模型的训练“上强度”。

这个迭代过程最终会产生所谓的“完美训练集”。

这样一来，较小的大模型在特定领域，能与现在参数巨大的大模型一样聪明，甚至更聪明。

一言以蔽之，模型必须先变大，然后才能变小。

贾扬清：大模型尺寸正在重走CNN的老路；马斯克：在特斯拉也是这样

大多数讨论此观点的人，还是对这个趋势比较认同，有人直言“这是一件好事，比‘我的模型比你的模型大’参数竞赛更实用和有用。”

但是，当然了！

翻遍网络评论区，也有人发出不同的声音。

比如下面这位朋友就在贾扬清推文底下留言：

Mistral Large（背后公司Mistral AI）、LLaMA 3.1（背后公司Meta）和OpenAI，持有最强竞争力模型的公司，目前可能都正在训练更大的模型。

我没发现有“更小型号模型搞定技术突破”的趋势哟。

贾扬清：大模型尺寸正在重走CNN的老路；马斯克：在特斯拉也是这样

面对这个问题，贾扬清倒也及时回复了。

他是这么说的：“没错！我说大模型尺寸可能在走CNN的老路，绝对不意味着号召大家停止训练更大的模型。”

他进一步解释道，这么说的本意是，随着技术（包括CNN和大模型）落地实践越来越广，大家已经开始越来越关注性价比更高的模型了。”

贾扬清：大模型尺寸正在重走CNN的老路；马斯克：在特斯拉也是这样

所以，或许更高效的小·大模型，能够重新定义AI的“智能”，挑战“越大越好”的假设。

你赞同这个观点不？

文章来源于“量子位”，作者“关注前沿科技”

21岁天才少年创业AI硬件一夜爆火：710元换一个挂在脖子上的AI朋友

关联网址

关联标签

#AI #大模型 #技术突破

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3733 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

264 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

贾扬清：大模型尺寸正在重走CNN的老路；马斯克：在特斯拉也是这样

展开说说

网友怎么看？

21岁天才少年创业AI硬件一夜爆火：710元换一个挂在脖子上的AI朋友

马斯克旗下XAI或将收购人工智能初创公司Character.AI

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3733 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

264 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

238 用户在看

贾扬清：大模型尺寸正在重走CNN的老路；马斯克：在特斯拉也是这样

展开说说

网友怎么看？

21岁天才少年创业AI硬件一夜爆火：710元换一个挂在脖子上的AI朋友

马斯克旗下XAI或将收购人工智能初创公司Character.AI

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿