苹果与英伟达合作将人工智能模型制作速度提高了两倍-电脑志

苹果公司最新的机器学习研究可以让为 Apple Intelligence 创建模型的速度更快，它想出了一种技术，在使用 Nvidia GPU 时，生成令牌的速度几乎提高了三倍。

为提供基于人工智能功能的工具和应用程序（如 Apple Intelligence）创建大型语言模型（LLM）的问题之一，就是首先在生成 LLM 时效率低下。为机器学习训练模型是一个资源密集型的缓慢过程，通常需要购买更多的硬件和承担更多的能源成本来应对。

苹果与英伟达合作将人工智能模型制作速度提高了两倍

2024 年早些时候，苹果公司发布并开源了 Recurrent Drafter，即 ReDrafter，这是一种提高训练性能的投机解码方法。它使用了一个 RNN（递归神经网络）草稿模型，将波束搜索与动态树关注相结合，用于预测和验证来自多条路径的草稿令牌。与典型的自动回归令牌生成技术相比，这将 LLM 令牌生成速度提高了 3.5 倍。

在苹果公司机器学习研究网站的一篇文章中，苹果公司解释说，除了使用苹果硅的现有工作外，它并没有止步于此。本周三发布的新报告详细介绍了该团队如何将研究成果应用于 ReDrafter 的创建，使其能够与 Nvidia GPU 配合使用，为生产做好准备。

Nvidia GPU 经常被用于 LLM 生成的服务器中，但高性能硬件往往需要付出高昂的成本。多 GPU 服务器仅硬件成本就超过 25 万美元的情况并不少见，更不用说所需的基础设施或其他相关成本了。

供应链监测员预测 - 搭载 M3 芯片的 MacBook 将于 2024 年面世

Apple 与 Nvidia 合作，将 ReDrafter 集成到 Nvidia TensorRT-LLM 推理加速框架中。由于 ReDrafter 使用了其他推测解码方法没有使用的运算符，因此 Nvidia 必须添加额外的元素才能使其工作。

通过整合，在工作中使用 Nvidia GPU 的 ML 开发人员现在可以在使用 TensorRT-LLM 进行生产时使用ReDrafter的加速令牌生成功能，而不仅仅是那些使用苹果Silicon的开发人员。

在 Nvidia GPU 上对一个数百亿参数的生产模型进行基准测试后，结果是贪婪编码每秒生成令牌的速度提高了2.7倍。简而言之，用户可以期待从基于云的查询中获得更快的结果，而公司可以在花费更少的情况下提供更多的服务。

在 Nvidia 关于该主题的技术博客中，这家显卡生产商表示，此次合作使 TensorRT-LLM “更强大、更灵活，使LLM社区能够创新更复杂的模型并轻松部署它们。”

该报告发布之前，苹果公司公开证实，它正在调查使用亚马逊的 Trainium2 芯片训练模型用于苹果智能功能的可能性。当时，苹果预计使用该芯片进行预训练的效率将比现有硬件提高 50%。

苹果或将在2023 WWDC上发布15寸MacBook Air

本文由 King 发布在电脑志，转载此文请保持文章完整性，并请附上文章来源（电脑志）及本页链接。
原文链接：https://www.pcsofter.com/news/109586.html