早在今年3月,英伟达就发布了全新的英伟达Blackwell平台,该平台在大型语言模型训练方面的成本和能耗比上一代平台降低了25倍。预计包括亚马逊网络服务、戴尔科技、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉和 xAI 在内的主要云提供商和领先的人工智能初创公司都将在 Blackwell 上市后采用该平台。
由于设计缺陷,Blackwell 平台的发布被推迟了长达三个月。最近,微软在 X 上分享说,它已经收到了英伟达 GB200 Blackwell 芯片,并正在利用英伟达的 Infiniband 网络和闭环液冷技术为新芯片优化服务器。
微软 Azure 是第一个运行 @nvidia Blackwell 系统的云,该系统配备了 GB200 驱动的人工智能服务器。我们利用 Infiniband 网络和创新的闭环液冷技术,在每一层都进行了优化,以支持世界上最先进的人工智能模型。在 MS Ignite 上了解更多信息。
微软首席执行官萨蒂亚-纳德拉(Satya Nadella)也在社交平台上发布了有关 GB200 部署的消息:
我们与英伟达™(NVIDIA®)的长期合作和深度创新将继续引领行业发展,为最复杂的人工智能工作负载提供动力。https://t.co/qaEoSv8dm5
英伟达最近还向 OpenAI 团队发送了 DGX B200 的首批工程构建:
看看我们家门口出现了什么。
感谢 @nvidia 将首批工程构建的 DGX B200 送到我们办公室。
考虑到英伟达 Blackwell 平台的潜在客户众多,微软和 OpenAI 成为首批受惠者也就顺理成章了。这是因为,与谷歌和 AWS 等其他主要云提供商不同,它们完全依赖英伟达来进行人工智能训练。谷歌利用自己的张量处理单元(TPU)进行大部分模型训练,甚至向云客户提供 TPU 资源。同样,AWS 也开发了自己的芯片用于训练和推理。相比之下,微软和 OpenAI 对英伟达的完全依赖可能使它们成为英伟达最大的客户。
微软预计将在11月举行的 Ignite 大会上分享英伟达 GB200 部署的更多细节。凭借令人印象深刻的性能和效率提升,Blackwell 可能会成为大型语言模型训练的首选解决方案,从而进一步巩固英伟达在人工智能硬件市场的主导地位。