在硬件方面,英伟达已经是生成式人工智能领域的佼佼者。它的 GPU 为微软、OpenAI 等公司的数据中心提供动力,用于运行必应聊天、ChatGPT 等人工智能服务。今天,英伟达发布了一款新的软件工具,旨在提升本地 Windows PC 上大型语言模型(LLM)的性能。
英伟达在一篇博文中宣布,其 TensorRT-LLM 开源库(之前发布用于数据中心)现在可用于 Windows PC。TensorRT-LLM 的最大特点是,如果 Windows PC 配备了英伟达 GeForce RTX GPU,则 LLM 在 Windows PC 上的运行速度可提高四倍。
英伟达在帖子中介绍了 TensorRT-LLM 为开发人员和最终用户带来的好处:
在批量较大的情况下,这种加速功能可显著改善更复杂的 LLM 使用体验,例如同时输出多个唯一自动完成结果的写作和编码助手。其结果是加快了性能,提高了质量,让用户可以选择最好的结果。
这篇博文展示了一个 TensorRT-LLM 工作原理的示例。它向标准 LLaMa 2 LLM 提出了一个问题:英伟达 ACE 如何生成情绪反应?
然而,当 LLM 与向量库或向量数据库配对后,再问同样的问题时,它不仅能生成准确的答案,而且 TensorRT-LLM 库还能生成更快的响应。TensorRT-LLM 将很快在英伟达开发者网站上发布。
英伟达还在今天新发布的 GeForce 驱动程序更新中添加了一些基于人工智能的功能。其中包括新的 1.5 版 RTX 视频超级分辨率功能,该功能可在观看在线视频时实现更好的升频和更少的压缩效果。此外,它还为 Stable Diffusion Web UI 添加了 TensorRT AI 加速功能,让使用 GeForce RTX GPU 的用户可以比平时更快地从 AI 艺术创作者那里获得图像。