OpenAI 发布下一代音频模型，为语音代理提供动力-电脑志

最近几个月，OpenAI 发布了几款新工具，包括 Operator、Deep Research、Computer-Using Agents 和 Responses API，重点关注基于文本的代理。今天，OpenAI 在 API 中发布了新的语音到文本和文本到语音音频模型，使开发人员能够创建比以往任何时候都更加强大、可定制和富有表现力的语音代理。

OpenAI 发布下一代音频模型，为语音代理提供动力

与 OpenAI 现有的 Whisper 模型相比，OpenAI 的新语音到文本模型 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 在单词错误率、语言识别和准确性方面都有显著提高。这些进步是通过强化学习和使用多样化的高质量音频数据集进行广泛的中期训练实现的。

OpenAI 声称，这些新的音频模型可以更好地理解语音的细微差别，减少错误识别，并提高转录的可靠性，即使在输入音频涉及口音、嘈杂环境和不同语速的情况下也是如此。

gpt-4o-mini-tts 是最新的文本到语音模型，具有更好的可转向性。开发人员现在可以指示模型如何表达文本内容。不过，就目前而言，文本到语音模型仅限于人工预设语音。

OpenAI 发布下一代音频模型，为语音代理提供动力

OpenAI 新功能：可以用电脑预订航班或编写代码

gpt-4o-transcribe 模型的成本为每百万音频输入 Tokens/6 美元，每百万文本输入 Tokens/2.50 美元，每百万文本输出 Tokens/10 美元。gpt-4o-mini-transcribe 的成本为每百万音频输入 Tokens/3 美元，每百万文本输入 Tokens/1.25 美元，每百万文本输出 Tokens/5 美元。最后，gpt-4o-mini-tts 的费用为每百万文本输入 Tokens/0.60 美元，每百万音频输出 Tokens/12 美元。这样算下来，每分钟的成本如下：