谁在成为大模型的“AI运营”？

2024-01-12 阅读 37 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

01 大模型的“关键一道门”，应该如何推开？

“我们现在是把一些大模型的数据标注交给外包团队。”这是在9月份和一位金融方向的IT负责人交流中他和我们的讲述，主要面向方向是基于线下网点的客服和营销。

如何把数据“挪移”到大模型中来？在当下的大模型潮流里，数据标注和训练几乎是所有大模型企业必须经历的一个环节。

数据标注，对其固有的标签是对数据进行知识型标注，在过去多年的发展里其更多的以拖、拉、勾、画等方式存在包括自动驾驶等需要大量数据标注的行业，从业人员画像较为复杂，标注任务相较简单。

谁在成为大模型的“AI运营”？

但如今的大模型标注不同。“我们替换了两个标注团队，最终才经过训练，有了不错的门店服务和引导效果。”上述负责人告诉产业家。

更具体的情况是，其采用的是国内某互联网大厂的开源模型，基于开源的框架进行自己模型的搭建，整体进度较快，但在数据训练环节，时间却被大大放缓。

他表示，最开始选择的外包团队也是市面上的某标注企业，但从最开始提出需求到最后的效果验收，不仅时间较长，而且最终的准确率也不高；而第二次选择的团队尽管同样花费时间长，但最终效果还算满意。

这正在成为越来越多企业的缩影。即伴随着国内底层大模型的逐步低门槛化，越来越多的挑战已然不聚焦在模型算法本身，更多的在于数据，也就是如何把模型从“可用变得好用”。

实际上，做好大模型的数据标注不是一件容易的事情。

首先从数据本身而言，和之前的标注相比，大模型需要的数据量级更大，而且数据结构更为复合，除了单个数据标签之外，不少大模型的训练需要用到合成数据（即用AI产生的数据），这也就意味着数据本身的标注模型和标注方法与之前不再相同。

此外，在单纯的标注环节，相较于过往的托拉拽的客观标注，现在的更多标注需要人工的主动判断和主动干预，如排序、改写、生成等，而在更专业具体的问题上，甚至需要专业的人士来接入，配合整体标注规则的建立和部分问题的拆解训练。

更有标注人员团队上的不同，如果说之前固有的标注需要的仅是简单的质检和轻微干预，那么如今在如今大模型的标注人员团队建设上，需要对团队进行定向的培训，其中更包括不同专业知识以及安全合规等多方面能力的学习。

在过去的一段时间里，市面上的大模型企业有不少都采取自建标注栈的模式，即专门招聘人员成立标注团队，同时研发自身的标注工具，但一个更为真实的现状是：由于缺乏固有的标注体系和流程积累，在数据工具层面和人员层面始终存在短板，不论是标注，还是中间的模型训练、评估环节，效果始终无法达到最好。

具体来看，即相较于数据存储侧的向量数据库等更加适配大模型的产品，在数据训练和应用侧市面上大模型企业大部分采取的是传统的标注工具和标注方法，因而带来的是巨大的人力和精力投入，同时也对应的是不够高效的训练方法。

这种短板也更在影响着大模型的实际落地。

即伴随着产业和应用成为大模型的主战场，对特定产业或场景数据的标注和训练也更在成为大模型落地的必行之道，但由于固有的标注方法和标注工具存在限制，一定程度上延缓了大模型能力的成型和在实际场景的应用落地。

大模型的“关键一道门”，应该怎么迈？

02 如何做好“AI运营”？

“优质的大模型的数据标注更像是一套成型的AI数据运营。”一位相关人士表示。

以百度智能云为例，其目前对外提供的是一系列围绕大模型全生命开发周期的数据服务，其中包括预训练、监督微调、RLHF、评估等，其覆盖了大模型中数据训练的方方面面，不论是前期的数据标注还是微调等等。

这一系列的数据标注工作恰似大模型的“AI数据运营”。据了解，在百度智能云的交付过程中，其部分项目会寻找代码、教育、法律、等领域专业人员，一起进行需求的规则制定和数据训练，进而保证数据的真实性和准确性。

此外，在标注工具侧，和其它大模型厂商不同的是，百度智能云也更研发了自身专有的大模型标注平台工具，针对不同场景、不同需要以及不同的数据量可以按照不同的方式进行训练，比如其可覆盖大语言模型、多模态大模型及代码等专项标注场景多种数据标注需求。

同时，结合辅助标注算法可以全流程助力标注师提升标注质量和效率。而在标注能力之外，其也具备着更为灵活的项目管理机制，可以更好地适配严苛的交付周期及复杂多变的标注规则，进而满足不同赛道企业的大模型训练需求。

据了解，尽管目前市面上的大模型厂商会在内部进行自我模型的AI训练，但效果往往没办法达到最好，最终还是会找到像百度智能云这样的拥有专门标注工具的企业进行训练标注。

被优化的大模型训练模块还不仅于工具，更在团队。比如在标注人员团队培训上，百度智能云在海口建设了全国首个大模型数据标注基地，常驻数百名数据标注师，本科学历达到100%，覆盖汉语言文学、计算机、法学等学科专业。

在服务过程中，除了固有的一体化的模型训练能力，对不少大模型企业而言，其还有部分专项能力的需求，比如安全能力的强化。

谁在成为大模型的“AI运营”？

“大模型的输入是可控的，但是输出是不可控的，甚至很多时候会因为幻觉等原因，有不良或者不合规的信息出现。”一位国内头部AI大模型负责人告诉我们。这也造成了对大模型训练而言，安全必须是其中要核心把控的指标，而百度智能云基于自身的“AI数据运营”能力，则是可以帮助企业的大模型迅速强化这项专有能力。

实际上，百度智能云的模式也恰在成为国内大模型训练的最先进路径缩影。即不论是在预训练，还是中间的监督微调，抑或是后期的模型评估优化等，更为高效的方式恰是这种“AI-native”的标注模式。

而基于百度智能云这套“AI-native”的标注模式，企业恰等同于装备了一个足够专业的“AI数据运营”工具箱，其可以帮助企业实现从大模型数据到效果的整体运作。这其中不仅有被“刷新”的数据标注团队，也更囊括了一系列包括从预训练到模型评估，再到能力强化等全部流程在内的大模型训练闭环，进而更高效、更低成本地构建好自身可用、安全的大模型。

03 从模型到应用：数据在产业要如何表达？

在能更快更好地训练出大模型之外，数据训练的下一步是什么？实际上，更为真实的答案是：应用和场景。

诚然如此。如果说第一阶段的挑战更多的在模型参数量级，即在一定范围内模型本身伴随着数据量越发凸显的能力，那么在当下的阶段，更大的竞争点则是来自于实际场景的应用和业务表达。这种表达或在金融，或在工业制造，或在教育、电商等等。

就当下而言，产业或场景大模型的最大难点不是算力和算法，而更大的卡点恰是数据表达。

谁在成为大模型的“AI运营”？

相较于通用大模型的训练，这种基于特定场景的训练对标注能力的要求更高。即在大量的数据中，其不仅包含无数结构化、非结构化的数据，更对参与的人员团队有足够专业的要求，此外，在特定的行业数据服务上，其对于具体的流程模型也更有特殊的要求。

此外，给数据服务带来难度的不仅是场景，更有如今讨论日渐增多的应用。即随着如今越来越多的AI应用，如Agent、文生图软件等被推出，往往更需要在通用大模型能力的基础上收束某项或者某些方面的特有能力，将其加持到软件内部，对应到数据服务侧则是在应用需求之上的某些专项能力的强化和不断评估训练。

也更可以说，大模型的数据训练和标注，正在伴随着产业模型和AI应用时代的到来进入深水区。

这也恰是百度智能云等深耕过数据服务行业的企业价值。伴随着大模型载体的到来，它们正基于自己对数据的多年理解和沉淀，成为推动数据到业务表达的最核心力量。

从幕后走到台前，从数据标注到数据运营，从初始的模型训练到细致的模型调优，肉眼可见的是，如百度智能云这样具备数据资源整合和强大研发能力的科技巨头企业，正重塑着行业市场格局。而伴随着大模型向深水区的延展，它们的价值也更在愈发凸显。

文章来自于微信公众号 “产业家”（ID：chanyejiawang)，作者 “产业媒体”

谁在成为大模型的“AI运营”？

为大模型恶补数学，上交开源MathPile语料库，95亿tokens，还可商用

关联网址

关联标签

#AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

谁在成为大模型的“AI运营”？

01 大模型的“关键一道门”，应该如何推开？

02 如何做好“AI运营”？

03 从模型到应用：数据在产业要如何表达？

为大模型恶补数学，上交开源MathPile语料库，95亿tokens，还可商用

网红已经开始用AI克隆自己赚钱了

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

谁在成为大模型的“AI运营”？

01 大模型的“关键一道门”，应该如何推开？

02 如何做好“AI运营”？

03 从模型到应用：数据在产业要如何表达？

为大模型恶补数学，上交开源MathPile语料库，95亿tokens，还可商用

网红已经开始用AI克隆自己赚钱了

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿