兆级长文本，已是一线大模型机构标配能力丨上海AI Lab林达华

2024-03-25 阅读 26 收藏 0 评论 0 限时评论得现金

粉丝 0 文章 6432 收藏 0

模型架构：从追求参数到追求更高效的Scale

Transformer架构对计算资源的消耗巨大。

前几日的黄仁勋与Transformer七子路边对话中，Transformer作者AIdan Gomez语气坚定，“世界需要比Transformer更好的东西（the world needs something better than Transformers）”。

业界已经开始从追求参数，过渡转换为追求更高效的规模。

其中，MoE值得关注，业界同时在探索Mamba模型等，以低复杂度的注意力架构更高效地处理上下文。

兆级长文本，已是一线大模型机构标配能力丨上海AI Lab林达华

训练数据：从追求数量到寻求规模化构造高质量数据的路径

训练数据包括三要素：

规模、质量、多样性。

在规模方面，早在ChatGPT之前，DeepMind等研究报告已指出训练数据要和模型参数同步增长。

而训练数据的质量对模型水平影响很大，低质量数据对模型可能产生破坏性影响。增强数据的知识密度，能带来更高的训练效率。

此外，好的数据集是非常多样化的，均衡分布在充分大的语义空间中。

互联网语料数据的分布极不均匀，存在大量低水平重复的语言模式，可能带来模型能力的塌缩，“10%的带有重复模式的数据注入到训练集里，有可能会使得模型降级到原来1/2的体量。”

合理的resampling（重采样）策略能大幅度降低其负面影响。因此，业界也在从追求训练数据数量，过渡向到寻求规模化构建高质量数据。

兆级长文本，已是一线大模型机构标配能力丨上海AI Lab林达华

多模态：多模态融合将成为重要趋势，技术探索仍在路上

多模态融合将成为重要技术趋势，但技术探索仍在路上。

相比语言，多模态模型的训练多了一个重要维度，即图像和视频的分辨率对多模态模型最终的性能表现有重要影响。

如果使用非常高的分辨率进行多模态的训练和推理，模型能够得到巨大提升，但高分辨率会带来高计算成本。

“如何在高分辨率和合理计算成本之间取得最佳平衡，这为架构研究带来了很大的创新空间。”

兆级长文本，已是一线大模型机构标配能力丨上海AI Lab林达华

智能体：大模型应用的重要形态，但需要核心基础能力的支撑

要让大模型真正进入到应用的场景和生产的场景的时候，它需要跟系统、跟场景、跟里面所有的事情互动。因此，需要给大模型装上手脚，然后就能不断地发出指令做出反馈，这就是一个智能体，这就是场景应用价值的系统。

智能体并不是一个简单的流程化过程。

它需要建立在一个非常坚实的基础模型上，具有很强的指令跟随能力、理解能力、反思能力和执行能力。如果这些能力都不具备，其实串接在一起仍然不然获得你所理想中的那种智能体的能力。

这里面是实验室把智能体具像化，智能体不一定是机器人，它可以是各种软件系统。

兆级长文本，已是一线大模型机构标配能力丨上海AI Lab林达华

计算环境：云侧还在指数式成长，端侧即将迎来黄金增长期

芯片进入到后摩尔定律时代，未来算力会变成体量的拓展，越来越多的芯片连接在一起，建成越来越大的计算中心，支撑对通用人工智能的追求。

最终瓶颈不再是芯片，而是能源。

现在，小规格的大语言模型已具备较强性能水平和实用可能性，优秀的模型越做越小，可以进入到手机直接运行。

林达华表示，随着端侧算力快速增长，端侧即将迎来黄金增长期，云端协同将成为未来重要趋势，由云侧计算建立天花板，端侧计算将支撑用户使用大规模放量。

兆级长文本，已是一线大模型机构标配能力丨上海AI Lab林达华

国内外差距：和GPT-4真正差距是推理能力

国内前列的模型在主客观表现上都超过了GPT-3.5。

但同时需注意，国内大模型与GPT-4的真正差距在于推理能力。

林达华称，特别是随着推理难度的提升，GPT-4和其他模型，重量级模型和轻量级模型逐渐拉开差距。相比常识推理、演绎推理，归纳推理是差距最大的类型。

兆级长文本，已是一线大模型机构标配能力丨上海AI Lab林达华

One More Thing

在对谈中，林达华还表达了对国内大模型落地的看法。

观国内当下的最大的优势，是应用场景非常非常多。

如果有套生态，能够让大家用大模型去探索在哪些地方能用，哪些地方不能用，在应用上的探索速度和体量可能更快。

不过，他同时表示：

不能因为我们在应用落地上的繁花似锦，就掩盖我们去思考另一个问题——归于最终，还是要提升创新能力和原创水平。

本文来源于公众号阿拉上海，作者衡宇

词曲创作只需几秒，「AI作曲家」Suno引爆音乐圈，第一手体验和攻略来了

关联网址

关联标签

#AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3634 用户在看

AI写作网站自动的生成文章可以用吗？

220 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

162 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

133 用户在看

兆级长文本，已是一线大模型机构标配能力丨上海AI Lab林达华

模型架构：从追求参数到追求更高效的Scale

训练数据：从追求数量到寻求规模化构造高质量数据的路径

多模态：多模态融合将成为重要趋势，技术探索仍在路上

智能体：大模型应用的重要形态，但需要核心基础能力的支撑

计算环境：云侧还在指数式成长，端侧即将迎来黄金增长期

国内外差距：和GPT-4真正差距是推理能力

One More Thing

本文来源于公众号阿拉上海，作者衡宇

词曲创作只需几秒，「AI作曲家」Suno引爆音乐圈，第一手体验和攻略来了

模型合并就进化，直接拿下SOTA！Transformer作者创业新成果火了

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3634 用户在看

AI写作网站自动的生成文章可以用吗？

220 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

162 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

133 用户在看

兆级长文本，已是一线大模型机构标配能力丨上海AI Lab林达华

模型架构：从追求参数到追求更高效的Scale

训练数据：从追求数量到寻求规模化构造高质量数据的路径

多模态：多模态融合将成为重要趋势，技术探索仍在路上

智能体：大模型应用的重要形态，但需要核心基础能力的支撑

计算环境：云侧还在指数式成长，端侧即将迎来黄金增长期

国内外差距：和GPT-4真正差距是推理能力

One More Thing

本文来源于公众号阿拉上海，作者衡宇

词曲创作只需几秒，「AI作曲家」Suno引爆音乐圈，第一手体验和攻略来了

模型合并就进化，直接拿下SOTA！Transformer作者创业新成果火了

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿