小米大模型：不搞军备竞赛

2023-11-12 阅读 26 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

态度：不搞军备竞赛

基于GPT-3.5的ChatGPT是2022年11月30日发布的，其实第二天小米内部就有好多人注册了账号在用，我们当时就觉得这肯定是一个跨时代的事件，做过多年AI的我们都深刻感受到，ChatGPT的很多结果超出了我们的预期。

在用的过程中我们也不断总结。后来我们觉得这不只是做AI的人关注的事情，可能对所有的行业、部门都会产生影响。大模型一定是未来的趋势，它会极大地改变我们的产品和业务。

当时我们就做了一些内部布道的工作，向全公司发起推广，在总经理例会上以及各种场合去宣传，呼吁大家都要用大模型，甚至在公司内部也建立了大模型的机器人，把ChatGPT接过来，我们在公司内部还整理了很多文档，指导大家怎么使用。

我们内部还成立了一个讨论组，共享一些使用经验，猜一猜这个技术可能在哪个地方带来颠覆。但当时还仅限于一个技术层面的探讨，刚开始还没有决定要做。等到春节左右，有人觉得至少要动手去做了，这个风暴来了，我们做技术的肯定不能置身事外，如果不入局就会在竞争当中处于不利的位置，于是我们也开始做一些准备工作。

等当面跟雷总（雷军）汇报时，他马上拍板说，“你们赶紧做。”所以，我们大模型团队成立正式官宣是4月份，但实际上早就已经开始筹备了，随后我们就全力拥抱深入其中去做相关的研发。

小米大模型：不搞军备竞赛

当真正决定自研的时候，我们是从这几个方面考虑的。

第一，小米是一个应用场景非常多的公司，在这些场景里怎么通过大模型，提高产品体验，提高公司内部的运营效率，完善从感知到认知再到决策的智能体验，是我们考虑的事情。小米跟做通用大模型的公司定位不太一样，他们是做完给别人用，但我们更多要考虑小米的场景。从小爱同学到未来的汽车再到操作系统和机器人，都是能和大模型结合的重要场景。

第二，正是因为小米有场景的驱动，所以我们在做大模型的时候不会纯技术考量，也不是要去比赛，或做个中国的OpenAI，我们不搞军备竞赛，这不是我们做大模型的出发点，我们一开始就得考虑大模型跟公司的场景怎么结合。

第三，小米是一家技术立业的公司，公司的技术研发投入很大，有很多自己的技术创新，同时也对业界出现的新技术保持高度敏感。对于有希望的新技术，你至少要跟上，再想办法和场景高度融合，做出自己的优势和特色。

雷总对大模型业务参与非常多，我们团队有几个专门讨论大模型的群聊，雷总就在群里。有信息及时在群里共享，有问题直接在群里解释汇报。我们的周报、月报甚至日报他也会直接看。他对技术的敏感度非常高，也非常看好大模型，所以他时刻都在关注我们的进展，这也使我们有些压力。但关于投入，雷总大力支持，不设上限。

落地：从小到大逐步迭代

确定好自己的定位，我们的路线比较清楚：一边研发探索，一边结合小米的场景。我们确信，不是要用一个大模型覆盖所有业务场景，所以跟业内很多公司一样，我们采取了从小到大渐进式开发的过程。

我们的第一个模型是13亿的小规模模型。一开始选择参数规模比较小的模型，是因为想避免大的犯错，因为越大模型的训练，其成本也越高。我们选择先用小规模模型做一些蹚坑的工作，把其中经历的一些问题都解决了，再做大参数规模的模型。其实训练更大的模型通常都会遇到一些新的问题，但是至少一些老的问题能够先解决，这是一个比较务实的做法。

自研大模型首要的挑战，就是如何快速找到对的人， 又组合成紧密的团队，大家分工明确地共同为一个目标努力。

小米对人工智能的投入比较早，在2016年AlphaGo出来之后，雷总就开始大力投入AI，最开始是视觉团队，后来逐渐拓展到AI的各个领域。整个公司我们有3000多人在做AI相关的研发工作，我们团队也有非常丰富的AI工程化经验。

我们AI实验室之前有一个人机对话团队，做过28亿的对话模型，虽然它是只用于对话的专用模型，但内部测试的效果非常不错。另外，我们还有非常专业的数据处理团队和AI训练优化团队。我们就直接把这些有基础的人，抽调过来直接组成了一支新的团队，直接上手就开始做自研大模型了。

小米AI实验室在视觉、声学语音、NLP、知识图谱、机器学习等方向，都有技术积累，从算法预研到工程落地具备很强的闭环能力。比如，手机、汽车、音箱、可穿戴等很多智能硬件上的很多AI算法，我们从头到尾都做过，所以这支抽调而成的团队同时具备算法、数据、工程、产品、测试等大模型建设需要的能力，冷启动时间非常短，很快就能进入快车道。

具体地，我们在组建队伍的时候，NLP团队是最直接相关的，原来的对话大模型也出自该团队。我们还把知识图谱构建的团队抽调一部分过来完成大模型的数据工作，他们对数据的敏感性，对数据的理解，对数据的工具和算法的掌握，都非常强；大模型的工程组，我们是从机器学习的架构团队调过来的，此前他们专门做系统优化的工作，比如怎么有效调用GPU，怎么去做分布式机器学习训练，经验都非常丰富。

13亿的模型训练完了之后，我们会跟开源开放的模型做一些对比，虽然跟千亿的模型相比还是有各方面的差距，但是经过微调后在某些任务上还是有一些优势的。我也多次表达过13亿的模型有它自己的生存的空间，我们更关注和场景的适配。目前这个模型已经在小爱同学中上线了。实际的数据表明，在特定场景下，13亿的模型不仅效率上优于更大的模型，效果上也毫不逊色。

截至目前，小米已经有13亿、60亿两个参数规模的大模型在集团内开源。这几个模型随着输入数据的不断更新，也都在不断迭代。我们还有更大的模型正在紧锣密鼓地开发中，希望能给用户带来更好的体验。

挑战：如何把大模型放到设备里？

小米的设备非常多，我们希望把很多功能能做到汽车、手机、智能音箱或其他设备上。总而言之，我们一直以来都有强烈的端侧需求，大模型来了也不例外。当然，把大模型做到端侧挑战还是非常大的。

小米大模型：不搞军备竞赛

第一，这里似乎有个悖论。模型太大了端侧根本就放不进去跑不起来，但是模型太小了可能效果又不行。这就很考验团队对模型的理解，包括怎么对大模型做量化、蒸馏、压缩，还要保证模型的效果，还要满足硬件的各种约束，甚至包括硬件产品的理解，都要求有很强的认知能力。

第二，对于硬件端包括芯片端，也提出新的要求和挑战。一方面，现有的硬件框架下可能对大模型的支持并不完善。另一方面，需求的驱动要求我们在现有条件下就要将大模型在端侧跑通。这里面的挑战非常大，需要一个综合的解决方案。

端侧大模型确实有不少好处。一个最显而易见的好处是可以充分保护用户的隐私，用户和大模型的交互数据不会上传。再比如说，一种最极端的情况就是在没有网络的情况下，端侧大模型带来的用户体验差异会非常明显，云上的大模型没网是无法工作的，但端侧就可以。与此同时，一部分应用如果通过云侧要传输的数据量比较大，在实时性上可能就不如在端侧强，端侧响应可能会更及时。此外，如果云侧的需求量特别大之后，要维持成本肯定需要用户付费，这也是很常见的商业模式。但是如果集成到端上，用户的成本可能就没有那么高，用户也就更愿意用。

虽然大模型端侧落地的挑战很大，但是好在我们在端侧落地方面有长时间的积累。比如我们视觉团队做过很多手机拍照的算法，都是要求在端侧实现的。手机拍照现在分辨率越来越高，要对图像进行处理，处理效率要高，用户感觉不到卡顿，而且还不能发热，这些都是一系列的严格条件，我们有长期的技术落地经验。

此外，在语音和语言处理上，小米也有一些端侧的经验，比如原来在比较小的设备上实现了全离线的机器翻译，参数也达到亿级了，后来离线的机器翻译模型也被放到小米旗舰机上。

目前，小米和芯片公司也在合作，共同推动端侧大模型的落地。

未来：多模态

经历过语言大模型的开发，我们其实已经把底层的坑都蹚过了，我们有能力去做更大参数的模型，但具体要不要做千亿或者万亿的大模型，更多还是从投入产出比的角度去考虑，也看跟场景的结合还有没有需求，如果我们已经把很多场景处理得非常好，我们就不需要投更大的成本去做，我们不以军备竞赛为目标，这个不是我们的目标。

人车家全生态是小米全新升级的未来战略，未来的智能生活中包含很多的场景，大模型可能越来越会成为一个基础设施的东西，来支撑上面的智能服务。大模型对上下文的理解，对情景的理解都更深了，不管它在手机上还是其他设备上，都能够随时随地了解你所在的场景，给用户提供下一步的可能性。

小米的优势是多设备场景的综合感知，因此小米大模型输入的不只是文字，而是它感知到的环境和场景。我相信未来的多模态大模型肯定不只是视觉的，声音的，还会有其他模态，这也正好符合小米人车家万物互联的场景，我们输入了更多的信息，也会帮用户更好地理解这个环境，做后面的事情，比如对机器人的控制，对车的控制，甚至是分布式联动，去满足用户的想象。

大模型也成为一个数据接收中心，它接收的信息远比现有的学术界的研究还要多，当然这个信息融合还有难度，但是小米可以在各种设备去输出，它们之间都是相通的。小米澎湃OS已经把互联互通做好了，我们能够借用多种设备的联动，协同感知，协同决策，做一些更有意思的事情，帮用户生活体验更好，更方便。

大模型火了，安全隐私问题也成为大家关注的话题。小米刚成立不久，就成立了安全隐私委员会，因为小米是一个手机设备厂商，对安全隐私非常关注，小米所有的项目都要经过隐私委员会的审批才能够立项，在训练和应用大模型的过程中，我们会严格按照安全隐私保护的相关法律法规来进行处理。

关于未来，小米内部相信大模型肯定会不断向前发展，在多模态模型还没有出来之前，我们就立项了多模态大模型，在今年年初还通过北京市自然科学基金-小米创新联合基金设立了《面向图文理解和生成的多模态大模型构建与评价》的课题，我们相信这一定是未来重要的发展方向。

当然，基于大模型，目前还没有出现杀手级的应用，这需要一个尝试、探索的过程，接下来一定会出现一系列的应用让大模型落地。此外，端云结合的框架也一定是未来的趋势。小米愿意置身其中，并积极探索。

本文来自微信公众号“中国企业家杂志”（ID：iceo-com-cn），作者：赵东山

Stable Diffusion母公司Stability AI 获得英特尔 5000 万美元融资

关联网址

关联标签

#AI #大模型 #文心一言

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3633 用户在看

AI写作网站自动的生成文章可以用吗？

218 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

161 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

132 用户在看

小米大模型：不搞军备竞赛

态度：不搞军备竞赛

落地：从小到大逐步迭代

挑战：如何把大模型放到设备里？

未来：多模态

Stable Diffusion母公司Stability AI 获得英特尔 5000 万美元融资

OpenAI引发创作狂欢：覆盖洗衣修车算命，2000+ GPT分身上线

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3633 用户在看

AI写作网站自动的生成文章可以用吗？

218 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

161 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

132 用户在看

小米大模型：不搞军备竞赛

态度：不搞军备竞赛

落地：从小到大逐步迭代

挑战：如何把大模型放到设备里？

未来：多模态

Stable Diffusion母公司Stability AI 获得英特尔 5000 万美元融资

OpenAI引发创作狂欢：覆盖洗衣修车算命，2000+ GPT分身上线

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿