Azure AI Speech 服务允许开发人员构建支持自然语音的语音功能、多语种、生成式 AI 应用程序。Azure AI Speech 服务中新的文本到语音头像功能可以将简单的文本转换为逼真的人以自然的声音说话的视频。开发人员可以使用作为该服务一部分的任何预建头像,也可以创建自己的自定义头像。
今天,微软宣布全面推出文本到语音化身(Text to Speech Avatar)服务。这项新功能使开发人员能够为其用户创建个性化和吸引人的内容。这项服务的输出视频分辨率为 1920 x 1080,每秒 25 帧(FPS)。
Azure Speech 文本转语音 “头像” 具有以下功能:
- 通过 Azure AI 文本转语音技术,将文字转换成逼真的人声数字视频,并发出自然的声音。
- 提供一系列预建头像。
- 化身的声音由 Azure AI 文本转语音技术生成。
- 使用批量合成 API 异步或实时合成文本到语音的头像视频。
- 在 Speech Studio 中提供内容创建工具,无需编码即可创建视频内容。
- 通过 Speech Studio 中的实时聊天头像工具实现实时头像对话。
文字转语音 “头像” 服务的定价有点复杂。不出所料,收费将基于视频输出的长度,并按秒计费。此外,作为文本到语音头像服务解决方案一部分的文本到语音、语音到文本、Azure OpenAI 或其他 Azure 服务将单独收费。此外,该服务现在可在以下 Azure 地区使用: 东南亚、北欧、西欧、瑞典中部、美国中南部和美国西部 2。
有关文本到语音 “头像” 服务的更多信息,请访问此处: