英特尔今天宣布为最近发布的 PyTorch 2.5 做出贡献,扩大了对英特尔 GPU 的支持。PyTorch 2.5 现可更广泛地兼容各种英特尔 GPU,包括英特尔弧独立显卡、内置英特尔弧显卡的英特尔酷睿处理器以及英特尔数据中心 GPU Max 系列。
随着支持范围的扩大,希望在英特尔酷睿至尊 AI PC 上微调、运行推理和实验 PyTorch 模型的开发人员可以使用 Windows、Linux 和 Windows Subsystem for Linux 的预览版和夜间二进制版本直接安装 PyTorch。这样,在基于 PyTorch 的人工智能开发中就可以更轻松地使用基于英特尔 GPU 的系统。
英特尔对 PyTorch 2.5 的主要贡献包括:
- 扩展 PyTorch 硬件后端支持矩阵,以涵盖英特尔数据中心和客户端 GPU。
- 实施 SYCL 内核,增强 Aten 运算符在英特尔 GPU 上的覆盖范围和执行能力,提升 PyTorch 急迫模式下的性能。
- 增强 torch.compile 的英特尔 GPU 后端,提高各种深度学习工作负载的推理和训练性能。
英特尔还强调,PyTorch 2.5 包含针对最新英特尔数据中心 CPU 的改进和新功能。通过英特尔高级矩阵扩展(Intel Advanced Matrix Extensions),急迫模式和 TorchInductor 现在都支持和优化了 FP16 数据类型,从而提高了在最新英特尔数据中心 CPU(包括全新英特尔至强 6 处理器)上的推理能力。此外,TorchInductor 的 C++ 后端现在可在 Windows 上使用,从而增强了使用 Windows 的人工智能开发人员的开发体验。
英特尔对 PyTorch 2.5 的贡献表明,他们致力于推动人工智能开发,并为开发人员提供强大的工具和优化的硬件。
除英特尔的贡献外,PyTorch 2.5 版本还包括用于 SDPA 的全新 CuDNN 后端,提高了在 H100 和更新 GPU 上的运行速度。此外,torch.compile 中的区域编译功能允许用户一次性编译重复的 nn.Module(例如 LLM 中的转换层),从而减少了冷启动时间,避免了重新编译。
完整的发布说明可在此处获取: