最近一段时间,人们在热衷于给大模型「考试」。
不论是适用于机器的 Benchmark 跑分,还是人类的高考题,在一次次横向测评中,技术的发展进度被不断量化。对比中取得了好成绩的 AI,一时会受到人们的热捧。
然而在现实世界这个「考场」上,很多时候不存在所谓的标准答案,AI 会遭遇各种训练中未曾遇见的情况。更进一步,大模型的应用也要面临是否有用的灵魂拷问。对于技术快速发展的大模型来说,实际落地的效果,才是评判能力最重要的一环。
在云南澜沧县,人们正在使用基于文心智能体平台创建的「农民院士智能体」,根据朱有勇院士的指导,开展旱地农业。
全新的智能代码助手文心快码,百度 80% 工程师都在深度使用,其中代码采纳率已达到 46%。
就连古老的甲骨文也已经被 AI 焕活,变得能与我们对话。点击甲骨文,还可以看到大模型生成的释义。
这一切,都是昨天百度 WAVE SUMMIT 深度学习开发者大会上的最新技术展示。百度,正在「实用性」这条道路上日夜狂奔。
文心大模型,进入 Turbo 时代
两个月前,文心大模型 4.0 工具版刚刚发布,今天又发布了文心大模型 4.0 Turbo。
昨天,文心大模型上线了最新的 4.0 Turbo。基于今年 4 月上线的文心大模型 4.0,再次实现了提升。新版本的速度更快、效果更好,目前文心一言的网页版、APP 陆续上线,供开发者使用的 API 也已上线。
感受一下 4.0 Turbo 的速度,直接和文心大模型 4.0 进行对比 :
输出的内容有所不同,质量都不错,不过速度上的差异非常明显,Turbo 太快了。
我们第一时间测试了网页上的 Turbo 版。看起来大模型能够感知到近期发生的新闻,生成答案的速度比我们看文字的速度要快很多,而且整理出来的答案逻辑清晰,最后也附带了引用链接。
有新一代深度学习平台飞桨给 4.0 Turbo 作技术底座,百度提升了大模型训练数据的体量,优化了数据的分布和质量,进而不断迭代训练算法。在此基础上,有监督精调、人类反馈的强化学习、提示词工程等调优技术持续进步;文心大模型独有的知识增强、检索增强和对话增强技术也有了改进。
智能体能力在文心 4.0 Turbo 上也有了增强。在强大的基础模型之上,进一步进行思考增强训练,提升了智能体理解、规划、反思和进化等能力。现在大模型的 Agent 能够做到可靠执行、自我进化,并一定程度上可以将思考过程白盒化。通过智能体,AI 能够像人一样思考和行动,调用工具自主完成复杂任务,还能在环境中持续学习,自主进化。
目前,文心大模型系列已经拥有文心轻量级、文心 3.5、文心 4.0、文心 4.0 Turbo 等多种不同性能体量的模型,以及大模型智能体技术,面向开发者,覆盖了大多数场景。
其中,文心轻量级模型适合解决确定场景的问题,具备出色的性能和成本表现;文心 3.5 具有良好的通用性,适用于日常信息处理和文本生成任务;文心 4.0 模型规模更大、能力更强,具备更强的理解能力、逻辑推理能力与更丰富的知识,提供专业且深入的帮助;文心 4.0 工具版则基于智能体技术,善于综合运用多种工具和数据,按要求完成非常复杂的任务。
而新发布的文心大模型 4.0 Turbo 既可以实现很好的效果,速度也更快。
大模型能力,不再浮于代码之上
应用落地是大模型的发展趋势,通过不断实践,大模型可以找到技术精进的新方向。
在 WAVE SUMMIT 上,我们看到大模型能力不再浮于代码之上,而是能以「农民院士智能体」、「体育大模型」这样接地气的方式,成为了很多行业上有意义的工具,在实际应用中创造出了前所未有的价值。
在云南省澜沧拉祜族自治县,由于土地贫瘠、自然灾害频发,水稻种植曾经是一件非常困难的事情。2015 年,中国工程院朱有勇院士及团队走进大山开展科技扶贫。朱院士团队在当地教学旱地优质稻等作物的特有种植知识。在朱院士的努力下,当地农民学到了相关种植技术,作物种植水平有了质的提升。
然而,作物种植过程可能会遇到各种各样具体的农业生产问题,如果能够随时随地询问朱院士种植问题,当地农民在旱地优质稻等作物的种植上会做得更好。
在人工智能时代,这个问题就由 AI 解决了。
在 WAVE SUMMIT 上,百度展示了中国工程院朱有勇院士及团队与百度共同打造的首个农业智能体 ——「农民院士智能体」。它基于文心智能体平台创建,学习了朱有勇院士的研究成果以及相关的农业知识。农民能够随时随地向智能体提问农业生产问题,获得专业、详尽的解答。
这个智能体在网页端、App,以及小度智能设备上都可以使用。我们发现,在文心一言 APP 中,打开「农民院士智能体」功能,就可以询问关于作物种植的具体问题,并得到专业回答:
「朱院士就在我的手机里,同他本人一模一样」,「我们问什么,他就答什么,就像他坐在我旁边一样」,澜沧拉祜族自治县竹塘乡云山村村民这样评价「农民院士智能体」。
「农民院士智能体」已然成为当地村民有力的知识助手。这让我们看到了大模型在专业领域的实际应用价值,赋能各行各业的愿景在此刻得到了具象化。可以预见的是,掌握专业知识的智能体将成为合格的知识助手。
AI 也可以帮运动员获得更好的成绩。百度与上海体育大学探索体育科技,基于先进 AI 大模型,融合大量体育专业知识,构建了「上体体育大模型」,实现了很多运动项目上辅助训练、技战术分析、实时反馈分析,数据采集、姿态分析,再到媒体传播等一系列能力。
这样的 AI 应用目前已经覆盖了游泳、田径、体操、蹦床、攀岩等多支国家队,支持了重大赛事准备时的训练。参加巴黎奥运会的部分运动员就获得了 AI 的帮助。此外,体育大模型也已经在全民健身领域发挥了作用。
在很多公司还在卷基准测试、跑分排名的时候,百度给出的是更具说服力的数字:文心一言累计用户规模已达 3 亿,日调用次数也达到了 5 亿,用户日均提问量在过去半年时间里增长了 78%,提问平均长度提升了 89%。
在文心一言上,人们使用大模型产品的兴趣正在增加:在一些场景上的需求得到满足之后,人们很快寻找到了更多场景;从刚开始简单的一问一答查询问题,已变成了设置复杂的规则,提供示例,再要求大模型完成更复杂的任务。
在开发者一侧,文心大模型的星河共创计划,已经构建了 55 万个 AI 原生应用,超过 1000 个大模型工具,集合了超过 1000B 高质量的稀疏数据。
当然,它释放的价值,还可以直接帮助构建工程师,体现在代码编程上。
开发,正加快提速
百度的智能代码助手 Comate 现在有了一个中文名「文心快码」。作为一个智能 IDE 插件,它支持 19 款主流 IDE,100 多种编程语言。
百度副总裁陈洋表示,在大模型的支持下,文心快码可以续写已有代码,利用自然语言指令生成代码,也可以根据注释写代码,在代码的基础上生成注释,或利用私域知识进行模型增强和精调。
昨天发布的文心快码 2.5 版本实现了对开发过程的全流程覆盖,实现了知识增强,在企业级安全方面也有了巨大提升。
名字叫快码,「快」主要体现在三个方面:开发速度快、业务迭代快、企业落地快。
为什么开发速度快了这么多?这背后是 AI 对研发知识的深刻理解和应用。数百位技术专家的经验,融合了十亿级的研发知识,最终形成了一个开发超级助手,其生成代码的生成准确率高达 80%。
据介绍,百度内部使用文心快码之后,工程师在单位时间内提交代码的数量提升了 35%。
更进一步,整个开发流程也被加速了。它可以在提需求的时候帮你想,研发的时候帮你写,测试和发布时帮你改,甚至根据企业内部的规范提醒产品经理,并不断检测代码中的安全漏洞。在百度内部,文心快码落地后,业务迭代的速度端到端整体提升了 14%。
最后,这一套工具可以不断推广到更多企业中去。文心代码可以提供整套最佳业务实践和流程。百度的上万工程师,80% 都在深度使用文心快码,是国内使用智能代码助手规模最大的团队。而在外部,喜马拉雅经过一个季度就实现了全面落地,代码的采纳率达到了 44%。
这样的代码采用率,可能比一些人类程序员还高。据介绍,文心快码落地的客户还有很多,包括三菱电梯、软通动力、吉利汽车等等,超过上万家企业,覆盖千行百业。
逐浪的飞桨
我们知道,文心大模型能够持续快速进化,一直得益于百度从芯片到框架,支撑模型和应用的全栈布局。其中,飞桨深度学习平台的联合优化起到了大作用。
在 WAVE SUMMIT 上,百度发布了新一代 AI 框架 —— 飞桨框架 3.0,目前已经面向开发者开放。
在新版设计上,百度充分考虑了目前大模型发展的趋势,以及异构多芯片的硬件体系。新版本的框架使用时对于大模型训练推理拥有一体化能力,强调大模型训练开发中的自动并行能力,实现了编译器的自动优化,简化了开发调优的过程,并完成了大模型的多硬件适配。
为了实现上述技术优势,首先从训推一体的需求出发,在底层设计了高扩展中间表示 PIR,构建了高效灵活的 Pass 机制,使开发成本降低了 58%,并让飞桨模型库 84% 的模型推理加速超 10%。
众所周知,大模型混合并行的开发是非常复杂,涉及混合并行、通信、调度策略。为简化这项工作,百度研发了自动并行能力,为代码的开发做更好的封装,做到全局的静态优化,并使性能上限得到进一步的提升。借助飞桨的动静统一自动并行能力,不同参数模型的训练性能均可得到提升,提升幅度可达 20%。
对于 AI 框架来说,性能优化是重要属性。结合编译器的设计,飞桨可以大幅简化优化过程。在前端做好相应的编译器表示,在后端把前端的表示转化为底层的表示,以对接硬件,实现自动优化代码。通过编译器来做算子的自动融合,执行速度会比算子调用提升 4 倍,比手动融合提升 14%。通过这一系列编译性能的优化,在生成式模型的推理上,无论是语言模型还是扩散模型,推理性能都有非常显著的提升,提升幅度可达 30%。
在大模型的设计过程中,训推一体非常重要。像飞桨可以自动把动态图转化为静态图,训练的压缩推理得到了无缝衔接。通过调用高性能算子,RLHF 的训练加速可以达到 2.1 倍。此外,量化过程可以复用分布式策略,使量化效率提升 3.8 倍。
通过 30 多个接口,飞桨可以全面支持大模型的训练和推理。硬件厂商只需要对基础算子进行适配即可接入,大幅减少了工作量。此外,它还在软硬件协同优化方面下功夫,更好地实现了协同的性能优化。
飞桨平台对于大模型具有重要意义,很多文心大模型的能力是与飞桨联合优化才能实现的。这就好像船和桨的关系。
在基础的计算优化方面,飞桨在模型的训练上实现了块状稀疏掩码注意力计算、存算最优平衡的精细化重计算,在分布式扩展中实现了灵活批次虚拟流水并行、多模型结构混合并行。此外,还进行了跟硬件的通信联合优化。
在推理方面,通过高性能分段矩阵与多流加速计算让 LoRA 获得了集约化的部署,以得到更极致的推理效率。同精度下,LoRA 的推理性能可以提升 33.3%。量化后性能可以提升 113.3%,且支持的 LoRA 个数达到 6 倍。
飞桨还实现了异构多芯的混合部署,可以进行动态调度,把不同请求分配到不同性能的芯片上,以最大化资源利用的效率。
一组数字:1465 万开发者、37 万家企事业单位、 95 万个模型,这就是飞桨文心构建的生态一瞥。
从算力、框架、模型到实践,这套国内首个大模型全链路生态支持体系,在这场全球大模型竞赛中不断发挥着作用。别人努力的终点,只是百度的起点。
通用人工智能,曙光已现
2024 年即将过半,「百模大战」也已进行了一年多,行业发展到哪了?接下来又会往哪卷?
在昨天的大会上,百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰从两个视角解读 AGI 发展:技术通用性、能力全面性。
首先是技术的通用性。人工智能技术经历几十年发展,到了大模型时代,一套架构和技术已经可以解决各种问题。除了算法,模型也变得更加通用和统一。不同任务、语言、场景还是各种模态,都可以用同样的基础模型搞定。
以自然语言处理为例,以前有分词、句法分析、语义匹配、机器翻译、问答、对话等等很多子方向,现在一个大语言模型就可以解决绝大多数任务;语言方面,大模型既可以解决单语言的问题,也可以跨语言,不仅学习了人类的自然语言,也学习了人工定义的形式语言,架起了从思考到执行的桥梁;同时,大模型也可以实现多模态的统一建模,广泛赋能各行各业应用等。总体上,人工智能技术的通用性越来越强。
然后是能力的全面性。理解、生成、逻辑、记忆是人工智能的四项基础能力,创作、解题、代码、规划、决策等人工智能的典型能力,基本上都是这四项基础能力的综合运用。这四项能力越强,越接近通用人工智能。
不过,想要用这通用的技术,去实现全面的能力,并不是所有人都能玩得转的。
由于大模型对于人才、算力、数据的高要求,在高烈度的竞争下,技术竞赛的格局正在变得逐渐清晰。从创业公司到各家大厂,领跑梯队已经领先出一个身位。
更进一步,真正构建出完善 AI 技术体系的玩家需要直面应用场景,打造出能够推动生产力的实际应用。而相比发展技术,技术落地所面临的挑战或许更多更大。
两周前,微软 Copilot GPTs 即将停服的消息引发了业内关注:仅仅开放 3 个月,这一拥有众多用户的技术应用就因为「公司战略调整」而宣布退休。究其原因,针对场景不明确,缺乏商业回报都是可能的因素。
最近又有媒体报道称,OpenAI 通过出售 GPT-4 等大模型能力获得的收入,已经超过了它背靠的微软在同类业务中的收入。
不论大模型技术如何先进,每 token 的成本如何降低,即使出自顶尖的科技巨头,无法拥抱场景生态的 AI 应用仍将被快速淘汰。即使是微软这样的公司,也面临着挑战。
而拥抱场景,或许正是国内科技公司所擅长的事。
看到如今文心一言的发展和落地,我们已经可以说,2019 年第一届 Wave Summit 上喊出的「AI 进入工业化大生产阶段」,已经一步步走向了现实。随着大模型进入产业爆发期,通用人工智能正在加速到来。
文章来自于微信公众号“机器之心”,作者 “机器之心”
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则