英特尔发布 PyTorch 2.5：支持更多显卡-电脑志

英特尔今天宣布为最近发布的 PyTorch 2.5 做出贡献，扩大了对英特尔 GPU 的支持。PyTorch 2.5 现可更广泛地兼容各种英特尔 GPU，包括英特尔弧独立显卡、内置英特尔弧显卡的英特尔酷睿处理器以及英特尔数据中心 GPU Max 系列。

随着支持范围的扩大，希望在英特尔酷睿至尊 AI PC 上微调、运行推理和实验 PyTorch 模型的开发人员可以使用 Windows、Linux 和 Windows Subsystem for Linux 的预览版和夜间二进制版本直接安装 PyTorch。这样，在基于 PyTorch 的人工智能开发中就可以更轻松地使用基于英特尔 GPU 的系统。

英特尔对 PyTorch 2.5 的主要贡献包括：

扩展 PyTorch 硬件后端支持矩阵，以涵盖英特尔数据中心和客户端 GPU。
实施 SYCL 内核，增强 Aten 运算符在英特尔 GPU 上的覆盖范围和执行能力，提升 PyTorch 急迫模式下的性能。
增强 torch.compile 的英特尔 GPU 后端，提高各种深度学习工作负载的推理和训练性能。

英特尔还强调，PyTorch 2.5 包含针对最新英特尔数据中心 CPU 的改进和新功能。通过英特尔高级矩阵扩展（Intel Advanced Matrix Extensions），急迫模式和 TorchInductor 现在都支持和优化了 FP16 数据类型，从而提高了在最新英特尔数据中心 CPU（包括全新英特尔至强 6 处理器）上的推理能力。此外，TorchInductor 的 C++ 后端现在可在 Windows 上使用，从而增强了使用 Windows 的人工智能开发人员的开发体验。

[WIN] Notepad++ v8.6.4 便携版

英特尔对 PyTorch 2.5 的贡献表明，他们致力于推动人工智能开发，并为开发人员提供强大的工具和优化的硬件。

除英特尔的贡献外，PyTorch 2.5 版本还包括用于 SDPA 的全新 CuDNN 后端，提高了在 H100 和更新 GPU 上的运行速度。此外，torch.compile 中的区域编译功能允许用户一次性编译重复的 nn.Module（例如 LLM 中的转换层），从而减少了冷启动时间，避免了重新编译。

完整的发布说明可在此处获取：