大模型的混合部署,未来一段时间大概率依旧将是主流方案。
随着WWDC24的临近,目前已经有iOS 18的相关信息开始陆续曝光。因此有观点认为,苹果方面或将在此次活动中公开更多AI落地的相关信息,其中就可能会包括引入OpenAI的相关服务等。但也有业内人士表示,苹果需要加快软件迭代的速度,目前在AI方面与第三方厂商的合作可能仅仅只是权宜之计,最终势必还是会采用自研方案,将大模型深度赋能硬件产品。
在如今大模型落地智能手机的进程中,业内一直有观点认为苹果的推进过程相对缓慢,并称其过于依赖端侧算力的原因是由于重视用户隐私安全的策略所致。此外目前还有传言称,苹果方面或计划让所有的AI功能都运行在端侧,且支持离线使用。
事实上,大模型的能力通常取决于参数规模,目前头部厂商的大模型最高已拥有万亿级别的规模,同时也有各类轻量化产品可供选择。但对于智能手机这样的产品而言,即便是参数规模有所缩水,在运行方面仍存在一定的困难,其中大模型对于内存消耗的需求就是关键因素之一。
众所周知的是,苹果方面一直以来对于增加旗下硬件产品的内存、特别是iPhone的内存不太“热衷”。在如今安卓阵营内存容量不断攀升的情况下,iPhone 15系列中标准版6GB和Pro版8GB的内存显然就有些“另类”了。
除了内存容量的制约之外,现款机型iPhone 15系列其实也能运行端侧大模型,但在AI算力方面可能就很难满足需求了,为此苹果方面也进行了一系列研发,以确保大模型的推理速度。其中在优化内存管理措施上,利用窗口化(Windowing)以及行列捆绑(Row-Column Bundling)两项技术就是他们的应对策略之一,以实现最小化数据传输和最大化内存吞吐量。据相关论文显示,这套方案能够让小内存的设备也能运行一定规模的大模型,并在CPU和GPU上分别比传统方式提速4-5倍和20-25倍。
但这种策略显然只能解决了当下的燃眉之急,随着端侧大模型参数规模的不断增长,解决其体积方面的问题也同样重要。为此苹果还创建了一套新的机制,在将大模型压缩到更小体积的同时,还降低其对于性能的影响,例如用一定的延迟和约4%的性能损失为代价,将谷歌Bert模型缩小到1.2MB、体积降低15倍。
如今在智能手机厂商在大模型落地的进程中,存在着三种主流方案,分别是大模型体积压缩、优化内存管理,以及直接增加内存。其实这些方式从本质上来说各有千秋,并没有绝对的好坏之分。而从苹果的相关策略不难发现,在实际使用中厂商也并没有拘泥,而是通常会采取“组合拳”来推进。此外值得一提的是,苹果可能也在探索增加内存的方式,此前就曾有传言称iPhone 16系列或将增加内存容量。
相比苹果现阶段的“缄默”,安卓厂商在推动大模型落地方面就显得更加“激进”,而且同样也采用了多种方式并行的解决方案。目前大模型体积压缩的应用最为广泛,诸多厂商采取了量化、剪枝及蒸馏等方式,例如通过INT4量化技术能够将内存占用大幅降低70%、综合性能指标仅降低0.7%,这不仅拉低了对于大内存的依赖,还为更多参数的端侧大模型落地打下了基础。
需要注意的是,即使是通过一系列相关技术来压缩大模型的体积,其目前在智能手机上依然对于内存容量带来了不小的压力。以现阶段在端侧部署较为普遍的70亿参数规模大模型为例,vivo AI解决方案中心总监谢伟钦就曾表示,运转这类大模型需要至少4GB内存,再加上后台保活App和运行系统及应用所需,12GB内存甚至都不太够,后续随着130亿参数端侧大模型的落地,对内存的需求势必将会进一步提高。
不过安卓手机近年来一直在推进更大内存的普及,部分厂商甚至喊出了普及16GB的目标。
虽然从某种程度来说,直接增加内存这种方式最为简单,但其与技术、市场等因素的牵涉也并不少。一方面,相关机构、厂商均认为AI手机对于内存的需求在不断增长,此前美光CEO就曾在财报电话会议中指出,AI手机的内存容量预计将增长50%-100%。在如今内存价格已经大幅上涨的背景下,这对于相关供应链厂商而言无异于“躺赚”,自然更有动力推动智能手机配备更大容量的内存。
另一方面,当前内存容量其实并非制约大模型落地智能手机的关键,内存带宽同样也非常关键。有厂商为此也正在积极推进LPDDR6标准,与目前的LPDDR5相比,其带宽提升了约54%、可达12.8Gbps,更高的LPDDR6X还将进一步提升至17Gbps。
在这一轮大模型落地智能手机的进程中,有一个核心问题尤其值得关注,那就是为什么一众厂商都十分看重端侧大模型?其实这个问题的答案非常简单,那就就是能够节约后续成本。
按照目前的趋势,大模型的落地俨然已经是一项长期消耗成本、且暂时还无法停下的趋势,无论是服务器消耗的电力、相关研发等都需要持续的投入。算法交易公司Deep Trading就曾指出,ChatGPT4以1.8亿用户基数和每人100Ktoken/天计算,每日成本就高达88.2万美元。
此前vivo副总裁周围也曾透露,vivo大模型单次云端对话的成本约为0.012-0.015元,以2.5亿日活用户和每人10次/天的需求计算,每日成本也高达数千万元。毫无疑问,这样的成本支出如果始终没有回报,最终势必将会压倒厂商,因此付费使用几乎才是惟一的出路。
在这样的背景下,增强端侧大模型就将能够在一定程度上减少厂商在成本方面的压力,因此现阶段相关厂商大多采取的也是端侧+云端混合部署来实现。值得一提的是,这种混合部署不仅会节省厂商的成本,用户同样会因此获益。不过至少在现阶段,厂商要需要解决的难题是先培养用户的付费习惯,以及使用云端大模型的延迟等问题。
随着相关技术的不断进步,整个智能手机行都在积极探索大模型落地的最佳方案,目前大模型的混合部署策略大概率将会成为未来一段时间的主流方案。但随着后续端侧大模型的性能和表现不断完善,智能手机的AI功能也或将会在成本和使用体验方面找到新的平衡点。
文章来源于“三易生活”,作者“三易菌”
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则