今天,Moonshot AI 带着首个支持输入 20 万汉字的智能助手产品Kimi Chat 与大家见面了。
据我们所知,这是目前全球市场上能够产品化使用的大模型服务中所能支持的最长上下文输入长度,标志着 Moonshot AI 在“长文本”这一重要技术上取得了世界领先水平。
为什么说大模型的“长文本”能力很重要?
因为从技术视角看,参数量决定了大模型支持多复杂的“计算”,而能够接收多少文本输入(即长文本技术)则决定了大模型有多大的“内存”,两者共同决定模型的应用效果。支持更长的上下文意味着大模型拥有更大的“内存”,从而使得大模型的应用更加深入和广泛:比如通过多篇财报进行市场分析、处理超长的法务合同、快速梳理多篇文章或多个网页的关键信息、基于长篇小说设定进行角色扮演等等,都可以在超长文本技术的加持下,成为我们工作和生活的一部分。
相比当前市面上以英文为基础训练的大模型服务,Kimi Chat 具备较强的多语言能力。例如,Kimi Chat在中文上具备显著优势,实际使用效果能够支持约 20 万汉字的上下文,2.5 倍于 Anthropic 公司的 Claude-100k(实测约8万字),8 倍于 OpenAI 公司的 GPT-4-32k(实测约2.5万字)。
同时,Kimi Chat 通过创新的网络结构和工程优化,在千亿参数下实现了无损的长程注意力机制,不依赖于滑动窗口、降采样、小模型等对性能损害较大的“捷径”方案。
目前,Kimi Chat 已开放内测。
访问 https://www.moonshot.cn 或扫描下方二维码,即可加入内测计划。
大模型输入长度受限带来的应用困境
在我们看来,当前大模型输入长度普遍较低的现状对其技术落地产生了极大制约。例如:
- 目前大火的虚拟角色场景中,由于长文本能力不足,虚拟角色会轻易忘记重要信息,例如在 Character AI 的社区中用户经常抱怨“因为角色在多轮对话后忘记了自己的身份,所以不得不重新开启新的对话”。
- 对于大模型开发者来说,输入 prompt 长度的限制约束了大模型应用的场景和能力的发挥,比如基于大模型开发剧本杀类游戏时,往往需要将数万字甚至超过十万字的剧情设定以及游戏规则作为 prompt 加入应用,如果模型输入长度不够,则只能削减规则和设定,从而无法达到预期游戏效果。
- 在另一个大模型应用的主要方向——Agent 中,由于 Agent 运行需要自动进行多轮规划和决策,且每次行动都需要参考历史记忆信息才能完成,这会带来了模型输入的快速增加,同时也意味着不能处理更长上下文的模型将因为无法全面准确的基于历史信息进行新的规划和决策从而降低 Agent 运行成功的概率。
- 在使用大模型作为工作助理完成任务的过程中,几乎每个深度用户都遇到过输入长度超出限制的情况。尤其是律师、分析师、咨询师等职业的用户,由于常常需要分析处理较长的文本内容,使用大模型时受挫的情况发生频率极高。
而上述所有的问题在大模型拥有足够长的上下文输入后都将会迎刃而解。
长文本打开大模型应用的新世界
那么拥有超长上下文输入后的大模型会有怎样的表现?下面一起来看一些 Kimi Chat 实际使用的例子:
公众号的长文直接交给 Kimi Chat ,让它帮你快速总结分析:
新鲜出炉的英伟达财报,交给 Kimi Chat,快速完成关键信息分析:
出差发票太多?全部拖进 Kimi Chat,快速整理成需要的信息:
发现了新的算法论文时,Kimi Chat 能够直接帮你根据论文复现代码:
只需要一个网址,就可以在 Kimi Chat 中和自己喜欢的原神角色聊天:
输入整本《月亮与六便士》,让 Kimi Chat 和你一起阅读,帮助你更好的理解和运用书本中的知识:
通过上述例子,我们可以看到,当模型可以处理的上下文变得更长后,大模型的能力能够覆盖到更多使用场景,真正在人们的工作、生活、学习中发挥作用,而且由于可以直接基于全文理解进行问答和信息处理,大模型生成的“幻觉”问题也可以得到很大程度的解决。
不走捷径,解决算法和工程的双重挑战
其实长文本技术的开发,存在一些对效果损害很大的“捷径”,主要包含以下几个方面:
- “金鱼”模型,特点是容易“健忘”。通过滑动窗口等方式主动抛弃上文,只保留对最新输入的注意力机制。模型无法对全文进行完整理解,无法处理跨文档的比较和长文本的综合理解(例如,无法从一篇 10 万字的用户访谈录音转写中提取最有价值的 10 个观点)。
- “蜜蜂”模型,特点是只关注局部,忽略整体。通过对上下文的降采样或者RAG(检索增强的生成),只保留对部分输入的注意力机制。模型同样无法对全文进行完整理解(例如,无法从50个简历中对候选人的画像进行归纳和总结)。
- “蝌蚪”模型,特点是模型能力尚未发育完整。通过减少参数量(例如减少到百亿参数)来提升上下文长度,这种方法会降低模型本身的能力,虽然能支持更长上下文,但是大量任务无法胜任。
我们相信,走这些捷径无法达到理想的产品化效果。为了真正做出可用、好用的产品,就应该直面挑战。
具体来看。训练层面,想训练得到一个支持足够长上下文能力的模型,不可避免地要面对如下困难:
- 如何让模型能在几十万的上下文窗口中,准确的 Attend 到所需要的内容,不降低其原有的基础能力?已有的类似滑动窗口和长度外推等技术对模型性能的损害比较大,在很多场景下无法实现真正的上下文。
- 在千亿参数级别训练长上下文模型,带来了更高的算力需求和极严重的显存压力,传统的 3D 并行方案已经难以无法满足训练需求。
- 缺乏充足的高质量长序列数据,如何提供更多的有效数据给模型训练?
推理层面,在获得了支持超长上下文的模型后,如何让模型能服务众多用户,同样要面临艰巨挑战:
- Transformer 模型中自注意力机制(Self Attention)的计算量会随着上下文长度的增加呈平方级增长,比如上下文增加32倍时,计算量实际会增长1000倍,这意味着如果只是用朴素的方式实现,用户需要等待极其长的时间才能获得反馈。
- 超长上下文导致显存需求进一步增长:以 1750 亿参数的 GPT-3为例,目前最高单机配置( 80 GiB * 8 )最多只能支持 64k 上下文长度的推理,超长文本对显存的要求可见一斑。
- 极大的显存带宽压力:英伟达A800 或 H800的显存带宽高达 2-3 TiB/s,但面对如此长的上下文,朴素方法的生成速度只能达到 2~5 tokens/s,使用的体验极其卡顿。
在过去半年多的时间里,Moonshot AI 的技术团队进行了极致的算法和工程优化,克服上述重重困难,终于完成了大内存模型的产品化,带来了首个支持20万字输入的千亿参数LLM产品。
关于 Moonshot AI
Moonshot AI 创立于 2023 年 3 月,致力于寻求将能源转化为智能的最优解,通过产品与用户共创智能。创始团队核心成员参与了 Google Gemini、Google Bard、盘古NLP、悟道等多个大模型的研发,多项核心技术被Google PaLM、Meta LLaMa、Stable Diffusion等主流产品采用。Moonshot AI 融资超2亿美元。
文章来自微信公众号 “Moonshot AI”,作者 Moonshot AI
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则