苹果公司最新的机器学习研究可以让为 Apple Intelligence 创建模型的速度更快,它想出了一种技术,在使用 Nvidia GPU 时,生成令牌的速度几乎提高了三倍。
为提供基于人工智能功能的工具和应用程序(如 Apple Intelligence)创建大型语言模型(LLM)的问题之一,就是首先在生成 LLM 时效率低下。为机器学习训练模型是一个资源密集型的缓慢过程,通常需要购买更多的硬件和承担更多的能源成本来应对。
2024 年早些时候,苹果公司发布并开源了 Recurrent Drafter,即 ReDrafter,这是一种提高训练性能的投机解码方法。它使用了一个 RNN(递归神经网络)草稿模型,将波束搜索与动态树关注相结合,用于预测和验证来自多条路径的草稿令牌。与典型的自动回归令牌生成技术相比,这将 LLM 令牌生成速度提高了 3.5 倍。
在苹果公司机器学习研究网站的一篇文章中,苹果公司解释说,除了使用苹果硅的现有工作外,它并没有止步于此。本周三发布的新报告详细介绍了该团队如何将研究成果应用于 ReDrafter 的创建,使其能够与 Nvidia GPU 配合使用,为生产做好准备。
Nvidia GPU 经常被用于 LLM 生成的服务器中,但高性能硬件往往需要付出高昂的成本。多 GPU 服务器仅硬件成本就超过 25 万美元的情况并不少见,更不用说所需的基础设施或其他相关成本了。
Apple 与 Nvidia 合作,将 ReDrafter 集成到 Nvidia TensorRT-LLM 推理加速框架中。由于 ReDrafter 使用了其他推测解码方法没有使用的运算符,因此 Nvidia 必须添加额外的元素才能使其工作。
通过整合,在工作中使用 Nvidia GPU 的 ML 开发人员现在可以在使用 TensorRT-LLM 进行生产时使用ReDrafter的加速令牌生成功能,而不仅仅是那些使用苹果Silicon的开发人员。
在 Nvidia GPU 上对一个数百亿参数的生产模型进行基准测试后,结果是贪婪编码每秒生成令牌的速度提高了2.7倍。简而言之,用户可以期待从基于云的查询中获得更快的结果,而公司可以在花费更少的情况下提供更多的服务。
在 Nvidia 关于该主题的技术博客中,这家显卡生产商表示,此次合作使 TensorRT-LLM “更强大、更灵活,使LLM社区能够创新更复杂的模型并轻松部署它们。”
该报告发布之前,苹果公司公开证实,它正在调查使用亚马逊的 Trainium2 芯片训练模型用于苹果智能功能的可能性。当时,苹果预计使用该芯片进行预训练的效率将比现有硬件提高 50%。