如何优化端侧系统性能,让无数消费者用得起,用得好?
过去一年,我们 见证了 ChatGPT 引爆生成式 AI 。 既然 可以在云端花近百亿人民币创建一个万亿参数 的模型,那么, 如何让无数消费者使用它呢? 作为全球最大的科技硬件博览会,塞进大模型的终端设备 成为本届 CES 一大亮点。
一、AI PC 之热
生成式人工智能(AI)在个人电脑(PC)领域的应用成为新一轮角力之处,芯片领域竞争也在白热化。英伟达、AMD、英特尔和高通均在本次博览会上展示了其在集成 AI 技术方面的最新进展,这些技术旨在提升个人电脑的性能和用户体验,特别是在生成式 AI 上。
英伟达按惯例发布了面向游戏玩家的 40 系显卡的 Super 版本和 AI Workbench 工具包。英伟达称,在 AI 工作负载方面,新发布的 GeForce RTX 4080 SUPER 生成视频的速度比 RTX 3080 Ti 快 1.5 倍以上,生成图像的速度比 RTX 3080 Ti 快 1.7 倍以上。
AI 特性也成为高通新款 PC 处理器骁龙 X Elite 的最大卖点。这款芯片专为处理 AI 任务而设计,如摘要邮件、撰写文本和生成图像。这标志着高通在 AI 集成计算技术方面的一大步,也预示着 AI 技术在未来个人电脑和笔记本电脑中的广泛应用。
AMD 推出了 Radeon RX 7600 XT 显卡和 Ryzen 8000G 系列桌面处理器,这是首次在 x86 桌面处理器中集成 AI 神经处理单元(NPU)。这一技术使 AMD 处理器能够更有效地处理 AI 任务,提升了多种应用的性能。
在此之前,英特尔已经在 2023 年 12 月发布了集成 NPU 的新品“酷睿 Ultra ”,直指 AI PC 市场。由于搭载了可处理 AI 大模型的 M3 系列芯片,苹果已经推出的 Mac 系列 PC 已经具备 AI PC 特征。
除了芯片方案,本届展会上一款名为 Rabbit R1 的硬件设备因其独特的实现方式受到广泛关注。Rabbit R1 可以根据用户语音指令自动操作 Spotify、Uber、DoorDash 等应用,从而无缝完成音乐播放、聊天、叫车、叫外卖、购物等日常任务。
这也是迄今为止对未来“手机”最清晰的愿景展示。它没有显示应用程序,也不连接到应用程序 api,仅需“按住说话”即可与之交互——基于“大型操作模型”( Large Action Model )的操作系统 Rabbit OS 听懂命令后会自动触发常见网页、应用程序,完成任务。
Rabbit R1 综合使用了语音识别模型、Large Language Model Agent(大型语言模型智能体)和语音合成模型。这种多模型集成的方式让 Rabbit R1 更加智能,为用户提供的功能体验也更为丰富。
二、一个超级 AI 应用的优化策略
虽然 Rabbit R1 更像是一个带有传统 Text-to-Speech(TTS)的 Automatic Speech Recognition( ASR ) + LLM 智能体(Agent)的硬 件实现 demo,有可能在未来几个月里被更为强大的苹果手机迅速覆盖,但多模型集成的实现方式反映出一种趋势:要想给终端用户带来变革性体验,依靠单一模 型并不够。未来用户更倾向于使用集成了多个 AI 模型的设备来完成一个完整的功能,而不是依赖单一的模型。
比如,在个人电脑上运行单一的 LLaMA 语言模型,并不能很好地体现出本地运行 LLaMA 模型相对于需要联网的 ChatGPT 等服务的优势。单一 LLaMA 模型虽然在语言处理方面表现出色,但缺乏与其他 AI 模型结合使用的复杂功能,很难提供 全面的 AI 体验。
HippoML 最新推出的一个超级 AI 应用 PrivateCanvas 也反映出类似的思考。 通过将多个大热的前沿 AI 模型组合成一个功能更为强大的超级应用 PrivateCanvas,用户在本地英伟达、苹果 GPU 上就能使用 PromptLLM、SDXL、SDXL inpaint、SDXL LCM、SD LCM、SAM、MI- GAN 和 RealERS – GAN 等尖端模型进行创作 。
这些功能不仅覆盖了从生成详细的提示到创作全高清图片的多个方面,还包括精准编辑和擦除混乱物体等高级功能,并且能以最低的硬件需求体验到顶级性能。
privateCanvas功能与Midjourney、LeonardoAI、Playground AI 和 DALL-E 3的比较。
实时创建案例
手动删除生成图像中的文本
自动检测删除对象
自动对象检测和编辑
在任何图像上放大 4 倍不过,实现多个 AI 模型协同工作,对 AI 系统设计也提出了更高的要求。在 AI PC 硬件环境中,资源相对于数据中心来说更加有限。例如,即使是顶级的 RTX 显卡,其显存也仅有 24GB,远低于数据中心服务器的 GPU。因此,针对这种硬件资源限制,对模型进行优化变得尤为重要。PrivateCanvas 支持所有 SOTA 模型最低硬件需求,只需要千元低端的 RTX 3060 显卡。
同时,不同 AI 模型间的切换速度对用户体验有着关键性的影响。 快速而无缝的模型切换是保证良好用户体验的关键,尤其是在处理复杂任务或进行多任务操作时。 在设计 AI PC 系统时,开发者必须考虑如何在有限的硬件资源下实现高效的模型优化和快速的模型切换, 以提供流畅和高效的 用户体验。
在 HippoML GPU 推理引擎 架构 支持下, PrivateCanvas 将 SDXL 处理加速到惊人的速度,超过了 CoreML 和其他专用加速包。 每个 PrivateCanvas 模型都能直接在苹果或者英伟达 GPU 上运行。 而 对于用户来说,集多功能于一体的超级应用比单一模型应用更具价值,尤其是在其本地 GPU 运行速度超过大多数数据中心 GPU 的情况下。
闪电般的速度
当今的生成式 AI 应用不仅需要速度,还需要智能模型优化和高效计算,以提供突破性的体验。 英伟达副总裁 Ian Buck 曾表示,HippoML 的未来方法将增强 NVIDIA Tensor Core GPU 的功能,同时保持最小的占用空间,帮助将下一代生成式 AI 应用程序推向市场,无论用户的处理能力在哪里。
PrivateCanvas 软件架构使用了他们为数据中心 GPU 推理设计的相同多层模型缓存系统,使得 PrivateCanvas 即使在内存较少的设备上也能正常工作。
不过,目前像 PrivateCanvas 这样对硬件进行极致优化,并将多个 AI 模型组合成功能更为强大的应用的案例还相对较少。 本届 CES 上出现了不少硬件加速方案,但软件的发展明显落后。 新 GPU 和 AI 专用芯片在性能上有所提升,但它们的基本工作原理和应用场景仍然没有根本性变化。 游戏显卡已经被广泛用于 AI 模型的训练和执行,这一点在本次展会上并没有太大改变。 例如,英伟达展示的 Windows 版本的 TensorRT-LLM 和 Stable Diffusion 案例,除了执行速度更快,在本质上和使用 PyTorch 运行 WebUI 没有区别。
让用户在 RTX 3090 上运行 PrivateCanvas 后端,在 iPad 上运行 PrivateCanvas UI,使用 Apple Pencil 进行创作,只是迈向未来的第一步。 HippoML 希望未来用户可以 更自由地 处理语音、视频、语言、图像和每个 AI 服务,无需依赖任何单一的集中式在线服务。
HippoML 成立 2023 年 1 月,旨在用一种更务实的方式来解决 GPU AI 计算问题,使生成式 AI 无处不在。公司创始团队来自 Meta,包括两位华人 Bing Xu、Hao Lu。Bing Xu,公司的联合创始人兼 CEO,创业之前曾在 Meta 内部领导开发了开源框架 AITemplate,使 GPU 效率提升了 8 倍。加入 Meta 之前,他曾在 OctoML(MLops deploying)和苹果从事训练效率解决方案研发。
三、求解落地
由于算力消耗巨大,直到今天还没有哪个云端大模型能够盈利。行业人士认为,未来应是端侧、云端分工干活儿的模式,而 AI PC 的逻辑正是通过让用户在终端上进行更多的处理,大幅消减云计算成本。 同时,网络大模型知道用户的一切隐私(比如电话、护照身份证、电话、住址等)非常可怕, 未来也应该让经过云端训练的 AI 模型运行于 PC,在分析个人环境下输入的数据、提供定制化服务的同时,保障个人隐私与安全。
尽管本届 CES 上相关进展不断,AIPC 领域目前仍处于初级阶段,也没有太多惊喜。多名终端行业人士坦言,行业还在探索未来应用。求解未来落地路线,除了芯片硬件还需要优化算力,软件上也要不断探索模型的压缩和量化以及推理算法的改进,使得同样效果条件下的算力需求降低。
如果未来超级应用集成的大模型越来越多,应用也变得越来越复杂,这些都将对专注于生成 AI 的硬件设备(比如 Rabbit RI )提出更大挑战。HippoML 认为,软硬件模型一体设计将成为提升用户体验的关键因素。
参考链接:
https://blog.hippoml.com/super-ai-creativity-app-run-with-local-gpu-on-mac-windows-linux-early-access-388a4bf20a26
文章来自于微信公众号 “机器之能”(ID:almosthuman2017),作者 “SIA”
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则