文件语音识别
最近更新时间:2023-07-11 16:18:24 前往 Coding 编辑 导出文档
1. 接口描述
接口请求域名:winner-api.neunit.com:18053
接口请求路径: POST /cloud/asr/v1/file
本接口服务对时长5小时以内的录音文件进行识别,支持同步,异步,回调等方式返回识别结果。
- 支持 wav、mp3、aac、pcm 等音频格式。
- 支持语音 URL 和本地语音文件两种请求方式。语音 URL 的音频时长不能长于5小时,文件大小不超过1GB。本地语音文件调用不能大于5MB。
- 支持回调或轮询的方式获取结果,结果获取请参考 录音文件识别结果查询。
2. 输入参数
以下请求参数列表仅列出了接口请求参数。
参数名称 | 必选 | 类型 | 描述 |
---|---|---|---|
source_type | 是 | Integer | 语音数据来源。0:语音 URL;1:语音数据。 |
receive_type | 否 | Integer | 接收类型。0:同步等待;1:异步查询结果,默认同步。 |
url | 否 | String | 语音的URL地址,需要公网环境浏览器可下载。当 source_type 值为 0 时须填写该字段,为 1 时不需要填写。注意:请确保录音文件时长在5个小时之内,否则可能识别失败。请保证文件的下载速度,否则可能下载失败。 |
data | 否 | String | 语音数据 base64 编码,当 source_type 值为1时必须填写,为0可不写。音频数据要小于5MB。 |
callback_url | 否 | String | 回调 URL,用户自行搭建的用于接收识别结果的服务URL。 |
customization_id | 否 | String | 自学习模型 id。如设置了该参数,将生效对应的自学习模型。 |
speaker_diarization | 否 | Integer | 是否开启对话分离,0:不开启;1:开启,默认为 0。 |
align | 否 | Integer | 是否启用词级别时间戳,0:不启用;1:启用,默认为 0。 |
language | 否 | String | 语言,中文:zh;英文:en,默认为 zh。 |
3. 输出参数
参数名称 | 类型 | 描述 |
---|---|---|
rid | String | 本次请求唯一 id。 |
code | Integer | 状态码,成功为 0,错误为其他值。 |
msg | String | 状态信息,成功为 OK,错误为其他信息。 |
data | Object | 返回数据,成功状态下有值,具体结构见下文。 |
data 参数结构
参数名称 | 类型 | 描述 |
---|---|---|
result | Array of result | 识别结果,ReceiveType 值为 0 时有值,具体结构见下文。 |
task_id | String | 任务 id,ReceiveType 值为 1 时有值。 |
result 参数结构
参数名称 | 类型 | 描述 |
---|---|---|
text | String | 文本内容。 |
start | Float | 识别结果开始时间。 |
end | Float | 识别结果结束时间。 |
speaker_no | String | 说话人标识,开启对话分离有值。 |
words | Array of word | 识别结果单词,启用词级时间戳有值,具体结构见下文。 |
word 参数结构
参数名称 | 类型 | 描述 |
---|---|---|
word | String | 词文本。 |
start | Float | 词在音频中的开始时间。 |
end | Float | 词在音频中的结束时间。 |
4. 示例
示例1 通过语音Url来调用接口
用户通过语音Url的方式异步返回转换结果,请求录音识别服务。
输入示例
POST / HTTP/1.1
Host: host
Content-Type: application/json
Path: /cloud/asr/v1/file
{
"source_type": 0,
"receive_type": 1,
"url": "http://xxx/test.wav",
"data": "",
"callback_url": ""
}
输出示例
{
"rid": "ab8a260e-3ffe-598a-bbcb-32324bb760d3",
"code": 0,
"msg": "OK",
"data": {
"task_id": "xxx"
}
}
5. 开发者资源
SDK
云 API 提供了配套的开发工具集(SDK),支持多种编程语言,能更方便的调用 API。
6. 错误码
以下仅列出了接口业务逻辑相关的错误码,其他错误码详见 公共错误码。
错误码 | 描述 |
---|---|
10101001 | 音频文件 url 获取失败。 |
10101002 | 参数 url 不能为空。 |
10101003 | 参数 data 不能为空。 |
10101004 | 参数 data 解析失败。 |
10101005 | asr 转译失败,请稍后重试。 |