Microsoft 宣布,OpenAI Whisper 模型已经正式登录 Azure OpenAI 服务和 Azure AI Speech 语音服务。
OpenAI Whisper 模型是一种神经网络,专注于执行语音识别和翻译任务,该模型使用来自互联网的大量多样化音频和文本数据进行训练,涵盖 57 种语言。它采用了一种基于 Transformer 编码器-解码器架构的简单端到端方法,能够生成具有增强可读性和精确短语级时间戳的转录。
现在有两种主要方式来构建基于 OpenAI Whisper 模型的应用程序:
1. Azure OpenAI 服务中的 OpenAI Whisper 模型
OpenAI 已经提供了 Whisper API。开发者现在可以通过更新的 Azure OpenAI 服务,使用相同的 OpenAI Whisper API 来实现各种功能和特性,包括转录和翻译能力。Whisper 模型的 REST API 用于转录和翻译,使用方法可以在 Azure OpenAI 服务门户中找到。
2.Azure AI Speech 中的 OpenAI Whisper 模型
Azure AI Speech 用户可以通过更新的 Azure AI Speech 批量转录 API 使用 OpenAI Whisper 模型。集成 Whisper 的 Azure AI Speech 保留了现有功能,如异步处理、说话人分离、定制化和支持更大文件大小等特性。更多详情请访问这里。
- 大文件支持:Azure AI Speech 现在支持高达 1GB 的文件大小,同时还能够批处理多达 1000 个文件,这进一步增强了 Whisper 转录功能。
- 精准时间戳:使用 Azure AI Speech,识别结果包括单词级别的时间戳,能够准确确定每个单词在音频中的位置。
- 说话人分离:这是 Azure AI Speech 的另一个强大功能,它可以识别音频文件中的个体发言者并标记他们的语音片段。该功能能够区分不同的说话者,实现准确的发言转录,并创建更具组织结构的音频文件转录。
- 自定义和微调(即将推出):Azure Speech 中的 Custom Speech 功能将允许使用用户自己的数据对 Whisper 进行微调,以提高识别准确性和一致性。
最新评论
????
要通过微软云端中转,你可以先试试 onedrive 你能不能用……
涨见识了,还是Lol LTSC版本强大
发不了图片