文件语音识别

最近更新时间:2023-07-11 16:18:24 前往 Coding 编辑

导出文档

1. 接口描述

接口请求域名:winner-api.neunit.com:18053

接口请求路径: POST /cloud/asr/v1/file

本接口服务对时长5小时以内的录音文件进行识别,支持同步,异步,回调等方式返回识别结果。

  • 支持 wav、mp3、aac、pcm 等音频格式。
  • 支持语音 URL 和本地语音文件两种请求方式。语音 URL 的音频时长不能长于5小时,文件大小不超过1GB。本地语音文件调用不能大于5MB。
  • 支持回调或轮询的方式获取结果,结果获取请参考 录音文件识别结果查询

2. 输入参数

以下请求参数列表仅列出了接口请求参数。

参数名称必选类型描述
source_typeInteger语音数据来源。0:语音 URL;1:语音数据。
receive_typeInteger接收类型。0:同步等待;1:异步查询结果,默认同步。
urlString语音的URL地址,需要公网环境浏览器可下载。当 source_type 值为 0 时须填写该字段,为 1 时不需要填写。注意:请确保录音文件时长在5个小时之内,否则可能识别失败。请保证文件的下载速度,否则可能下载失败。
dataString语音数据 base64 编码,当 source_type 值为1时必须填写,为0可不写。音频数据要小于5MB。
callback_urlString回调 URL,用户自行搭建的用于接收识别结果的服务URL。
customization_idString自学习模型 id。如设置了该参数,将生效对应的自学习模型。
speaker_diarizationInteger是否开启对话分离,0:不开启;1:开启,默认为 0。
alignInteger是否启用词级别时间戳,0:不启用;1:启用,默认为 0。
languageString语言,中文:zh;英文:en,默认为 zh。

3. 输出参数

参数名称类型描述
ridString本次请求唯一 id。
codeInteger状态码,成功为 0,错误为其他值。
msgString状态信息,成功为 OK,错误为其他信息。
dataObject返回数据,成功状态下有值,具体结构见下文。

data 参数结构

参数名称类型描述
resultArray of result识别结果,ReceiveType 值为 0 时有值,具体结构见下文。
task_idString任务 id,ReceiveType 值为 1 时有值。

result 参数结构

参数名称类型描述
textString文本内容。
startFloat识别结果开始时间。
endFloat识别结果结束时间。
speaker_noString说话人标识,开启对话分离有值。
wordsArray of word识别结果单词,启用词级时间戳有值,具体结构见下文。

word 参数结构

参数名称类型描述
wordString词文本。
startFloat词在音频中的开始时间。
endFloat词在音频中的结束时间。

4. 示例

示例1 通过语音Url来调用接口

用户通过语音Url的方式异步返回转换结果,请求录音识别服务。

输入示例

POST / HTTP/1.1
Host: host
Content-Type: application/json
Path: /cloud/asr/v1/file

{
  "source_type": 0,
  "receive_type": 1,
  "url": "http://xxx/test.wav",
  "data": "",
  "callback_url": ""
}

输出示例

{
    "rid": "ab8a260e-3ffe-598a-bbcb-32324bb760d3",
    "code": 0,
    "msg": "OK",
    "data": {
      "task_id": "xxx"
    }
}

5. 开发者资源

SDK

云 API 提供了配套的开发工具集(SDK),支持多种编程语言,能更方便的调用 API。

6. 错误码

以下仅列出了接口业务逻辑相关的错误码,其他错误码详见 公共错误码

错误码描述
10101001音频文件 url 获取失败。
10101002参数 url 不能为空。
10101003参数 data 不能为空。
10101004参数 data 解析失败。
10101005asr 转译失败,请稍后重试。