AI企业疯狂“卷”文本

2024-04-22 阅读 47 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

为什么是长文本

长文本进入大众视野，始于今年3月初，当时月之暗面旗下的Kimi爆火，特色就是长文本。

与市场上其他大模型产品相比，Kimi的区别是，它鼓励用户先发进去一个文档或链接，用户可以根据文档或链接中的内容展开问答。

月之暗面公司相关负责人告诉记者，这是公司成立之初就定下的策略：“既然要做，总要做点不一样的。”月之暗面公司创始人杨植麟在此前的采访中也多次提到，长文本是实现通用人工智能（AGI）的第一步。

月之暗面于去年3月成立，Kimi于去年10月上线，可以上传的文档最多是20万字。3月18日，Kimi宣布已支持200万字上下文输入。对比来看，目前文心一言的文本上限约2.8万字，OpenAI（美国大模型公司）需要付费的GPT-4Turbo（OpenAI最新一代产品），上下文窗口为12.8万tokens（约50万个汉字）。

Kimi鼓励用户上传文档和链接，直观体现长文本能力，让用户有直接感知，进而引发讨论。这些与其他大模型产品不一样的地方，让Kimi迅速出圈。随后其他大模型公司跟进长文本赛道。

在Kimi出圈之前，今年Sora（OpenAI旗下文生视频大模型产品）也火爆一时。为什么国内大模型公司没有卷Sora所代表的文生视频，却在3月卷起了长文本？

“因为Sora难啊。”庄明浩说。

一位大模型公司技术人士告诉记者，长文本在技术层面难度并不算高，需要的算力不像预训练那么多，所以很多公司都能负担得起。并且，国外大模型公司已经“卷”过了一轮长文本，长文本的核心技术在开源层面做得比较好，并没有技术封锁。

“如果一个国内的大模型公司做不了长文本，我们可能会认为他们的技术不过硬。”该技术人士说。

既然并无技术难度，为何360、百度、阿里此前并未推出长文本功能，而是在Kimi推出之后突然跟上。对于此现象，记者曾向360和阿里通义千问方面进行了解，但未获得回复。不过，通义千问此前提到，其长文档处理能力，是通义千问模型能力持续提升、模型功能反复打磨的结果。

记者询问了其他几家大模型公司对于长文本功能的上线规划，他们都提到，自己的产品有长文本能力。对于是否会上线上百万长文本的问题，他们没有回答。

谁在用长文本

华东一家电子公司技术负责人最近一直在用AI大模型的长文本功能，每天能用几十次。

去年10月，经同行推荐，上述技术负责人接触到Kimi的长文本功能。在电子行业，经常会有专业性很强，且长达几万字以上的文档需要处理，文档中有复杂的数据格式，阅读费时费力。之前他主要使用ChatGPT帮忙阅读文档，ChatGPT免费版支持的最长文档是4kb（4千字节，约2000个汉字），他不得不把长文档拆分成很多小段，使用感受并不好。国外另一款产品Claude3（美国人工智能初创公司Anthropic的大模型产品）支持几万字长文本，但每天免费次数只有20次。

Kimi支持20万字上下文阅读，目前正在内测200万字的上下文功能。上述技术负责人的感受是，长文本的确很有用。之前做技术研究时，遇到其他领域的问题，他经常需要问公司同事。现在他把公司内部文档扔进对话框，就能立刻得出准确答案。“它能准确、高效地总结出完整的核心思想。”上述技术负责人说，对于电子行业，内容完整很重要，非长文本产品实现不了。

经常使用长文本后，他很感慨，以前还是把AI的能力想小了，“你不能只把AI当做简单的聊天工具，那样就太大材小用了。它真的能在工作、生活中帮到你，能在各行各业中应用。”

通义千问方面称，长文本能力是金融、法律、科研、医疗、教育等领域专业人士的刚需。这些人士可通过通义千问快速读研报、分析财报、读科研论文、研判案情、读医疗报告、解读法律条文、分析考试成绩、总结深度文章。“长文本的价值不容小觑。”AI上市公司创新奇智首席技术官张发恩带领产研团队研发了面向行业的垂类大模型。他最近也在关注大模型长文本技术，并坚信它是一个非常有用的技术。如果要充分挖掘大模型的潜力，用户需输入充足的信息，在这方面，长文本技术的引入显得尤为关键。

他也提到，大模型长文本的技术原理不算复杂，但想做好很难。常见的现象是，用户输入长文本，并针对输入的内容进行了提问，但做得不好的大模型会遗漏关键信息，导致回答质量不高。

真假与争议

多家公司宣布上线长文本后，一些质疑的声音也出现了。质疑者认为后来者上线的并不是真正的长文本技术，而是RAG技术。RAG是一种被称为检索增强生成的技术，这种技术可以从文档中搜索出相关内容，并把这些内容给到大模型做推理。

月之暗面公司相关负责人向记者强调，与其他公司的产品不同，Kimi的长文本是无损压缩技术的长上下文，RAG是有损压缩技术。他举例说，比如读一本100万字的书，Kimi的长文本技术会逐字逐句挨个读，读完100万字再归纳总结做分析。RAG技术可能只读了这本书每一页的第一行，就去归纳总结做分析。在最终呈现的效果上，无损压缩技术输出的内容更真实、全面、有效。

“如果是真正的无损压缩技术，现在应该没有公司愿意给用户免费使用500万字或1000万字的长文本。”上述相关负责人说，1000万字长文本情景下，发布一个简单的对话任务，半天时间才能收到结果，机器推理成本也翻了几十倍。

另一方面，文本长度是不是越长越好，目前也并没有形成共识。“去年大模型公司都在卷参数，从千亿卷到万亿，意义并不大。”庄明浩称，今年大模型开卷的文本长度，可能也没有太大意义，“谁会经常把1000万字的文本喂给大模型？”

上述电子公司技术负责人告诉记者，他不准备使用有1000万字长文本的产品，现在的200万字足够满足工作需求了。

张发恩觉得，长文本可以卷，但卷的视野可以从文本拓展到多模态内容。长文本的真正含义应该是Long Context Window（长上下文窗口）。今年2月，在Sora发布的同一天，谷歌发布了最新一代多模态大模型Gemini1.5Pro，它能把一段几分钟长度的图书馆书架的视频放进对话框，并整理视频中出现的所有图书的名字。张发恩认为，这也是Long Context Window的能力，值得重视。

他也提醒说，长文本只是大模型的一个技术特色，除了长文本之外，大模型还有高效训练、多模态、模型压缩、安全伦理等多方面的问题需要研究，“今天大家盯着长文本是好事，但也不能忘了其他，做好大模型需要多面开花。”

本文来自微信公众号：经济观察报（ID：eeo-com-cn），作者：任晓宁

AI企业疯狂“卷”文本

号称超越 GPT-4 的大模型们，有多少靠的是“抄袭”

关联网址

关联标签

#AI #大模型 #文心一言

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3737 用户在看

AI写作网站自动的生成文章可以用吗？

302 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

267 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

240 用户在看

AI企业疯狂“卷”文本

为什么是长文本

谁在用长文本

真假与争议

号称超越 GPT-4 的大模型们，有多少靠的是“抄袭”

谷歌全面整合AI力量背后：DeepMind浮沉史

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3737 用户在看

AI写作网站自动的生成文章可以用吗？

302 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

267 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

240 用户在看

AI企业疯狂“卷”文本

为什么是长文本

谁在用长文本

真假与争议

号称超越 GPT-4 的大模型们，有多少靠的是“抄袭”

谷歌全面整合AI力量背后：DeepMind浮沉史

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿