OpenAI 发布下一代音频模型,为语音代理提供动力

微信扫一扫,分享到朋友圈

OpenAI 发布下一代音频模型,为语音代理提供动力

最近几个月,OpenAI 发布了几款新工具,包括 Operator、Deep Research、Computer-Using Agents 和 Responses API,重点关注基于文本的代理。今天,OpenAI 在 API 中发布了新的语音到文本和文本到语音音频模型,使开发人员能够创建比以往任何时候都更加强大、可定制和富有表现力的语音代理。

OpenAI 发布下一代音频模型,为语音代理提供动力

与 OpenAI 现有的 Whisper 模型相比,OpenAI 的新语音到文本模型 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 在单词错误率、语言识别和准确性方面都有显著提高。这些进步是通过强化学习和使用多样化的高质量音频数据集进行广泛的中期训练实现的。

OpenAI 声称,这些新的音频模型可以更好地理解语音的细微差别,减少错误识别,并提高转录的可靠性,即使在输入音频涉及口音、嘈杂环境和不同语速的情况下也是如此。

gpt-4o-mini-tts 是最新的文本到语音模型,具有更好的可转向性。开发人员现在可以指示模型如何表达文本内容。不过,就目前而言,文本到语音模型仅限于人工预设语音。

OpenAI 发布下一代音频模型,为语音代理提供动力

gpt-4o-transcribe 模型的成本为每百万音频输入 Tokens/6 美元,每百万文本输入 Tokens/2.50 美元,每百万文本输出 Tokens/10 美元。gpt-4o-mini-transcribe 的成本为每百万音频输入 Tokens/3 美元,每百万文本输入 Tokens/1.25 美元,每百万文本输出 Tokens/5 美元。最后,gpt-4o-mini-tts 的费用为每百万文本输入 Tokens/0.60 美元,每百万音频输出 Tokens/12 美元。这样算下来,每分钟的成本如下:

  • GPT-4O-转录:~0.6 美分/分钟
  • GPT-4O-mini-transcribe:~0.3 美分/分钟
  • GPT-4O-Mini-TTS:~1.5 美分/分钟

OpenAI 团队就这些新的音频模型撰文如下:

展望未来,我们计划继续投资,提高音频模型的智能性和准确性,并探索如何让开发者能够在符合我们安全标准的情况下,引入自己的自定义语音,打造更加个性化的体验。

这些新的音频模型现在可以通过 API 提供给所有开发者。OpenAI 还宣布了与 Agents SDK 的集成,允许开发人员轻松构建语音代理。对于低延迟的语音到语音体验,OpenAI 建议使用实时 API。

上一篇

苹果每年在 Apple TV+ 上的损失超过 10 亿美元

下一篇

Windows 11 Beta Build 22635.5097 发布 [附更新说明]

你也可能喜欢

评论已经被关闭。

插入图片

公众号

公众号
关注我们

排行榜

返回顶部