十年前,谷歌就开始以张量处理单元(TPU)的名义开发定制的人工智能加速器。今年年初,谷歌发布了第六代 TPU Trillium,其性能和效率均优于前代产品。今天,谷歌宣布面向谷歌云客户全面推出 Trillium TPU。谷歌今天还透露,它使用 Trillium TPU 来训练新的 Gemini 2.0。
Nvidia 的 GPU 在人工智能工作负载方面深受开发人员的欢迎,这不仅是因为它们的硬件能力,还因为它们的软件支持。为了让 Trillium TPU 在人工智能开发者中流行起来,谷歌对其软件层进行了多项改进。它优化了 XLA 编译器以及 JAX、PyTorch 和 TensorFlow 等人工智能框架,使开发人员能够在人工智能训练、调整和服务方面实现性价比。
与上一代 TPU 相比,Trillium 有以下改进:
- 训练性能提高 4 倍以上
- 推理吞吐量提高达 3 倍
- 能效提高 67%
- 单芯片峰值计算性能大幅提升 4.7 倍
- 高带宽内存 (HBM) 容量翻倍
- 芯片间互连 (ICI) 带宽增加一倍
- 在单个 Jupiter 网络结构中使用 100K Trillium 芯片
- 每美元的训练性能最多可提高 2.5 倍,每美元的推理性能最多可提高 1.4 倍
谷歌还宣称,Trillium TPU 在部署 12 个由 3072 个芯片组成的 pod 时,可实现 99% 的扩展效率,在部署 24 个由 6144 个芯片组成的 pod 时,可实现 94% 的扩展效率,从而预培训 gpt3-175b。
Trillium 现已在北美(美东地区)、欧洲(美西地区)和亚洲(东北地区)上市。对于评估,Trillium 的起价为每芯片小时 2.7000 美元。如果承诺使用 1 年和 3 年,则起价分别为每芯片小时 1.8900 美元和 1.2200 美元。
Trillium能够扩展到数十万芯片,并改进了软件支持,代表着谷歌在云人工智能基础设施市场的重大飞跃。