早在 5 月份发布 GPT-4o 时,OpenAI 就宣布了新的高级语音功能,该功能可在 232 毫秒内响应音频输入,平均响应时间为 320 毫秒,与人类在典型对话中的响应时间相似。经过几个月的延迟,OpenAI 于 9 月份开始向美国的 ChatGPT Plus 和 ChatGPT Team 用户推出高级语音模式。
最近,OpenAI 将 ChatGPT 高级语音模式的推广范围扩大到了欧盟用户。欧盟、瑞士、冰岛、挪威和列支敦士登的所有 ChatGPT Plus 和 Team 用户现在都可以使用 ChatGPT 高级语音模式。要使用高级语音模式功能,用户需要从支持地区的谷歌应用商店(Google Play Store)和苹果应用商店(Apple App Store)下载最新版本的 ChatGPT 应用程序。
OpenAI 最近还宣布了 MacOS 和 Windows 上 ChatGPT 桌面应用程序的高级语音模式。需要注意的是,即使是在桌面上,OpenAI 对高级语音功能的使用也有每日限制。ChatGPT 应用程序会在当天剩余 15 分钟高级语音使用时通知您。
最近几周,OpenAI 对 “高级语音” 模式进行了多项改进,包括支持五种新语音(Arbor、Maple、Sol、Spruce 和 Vale),用户可以设置自定义指令并要求它记住对话内容以供日后参考,以及改进整体对话速度、流畅度和支持的外语口音。
在 DevDay 2024 上,OpenAI 发布了实时 API,允许开发人员创建自己的语音体验,类似于 ChatGPT 的高级语音模式。Realtime API 文本输入令牌的价格为每 100 万个 5 美元,输出令牌为每 100 万个 20 美元。音频输入的价格为每 100 万个代币 100 美元,输出为每 100 万个代币 200 美元。
随着高级语音功能的扩展和实时 API 的推出,OpenAI 在对话式人工智能领域取得了长足的进步,为实现更具交互性和可访问性的人工智能体验铺平了道路。