文件语音识别

最近更新时间：2023-07-11 16:18:24 前往 Coding 编辑

导出文档

1. 接口描述

接口请求域名：winner-api.neunit.com:18053

接口请求路径： POST /cloud/asr/v1/file

本接口服务对时长5小时以内的录音文件进行识别，支持同步，异步，回调等方式返回识别结果。

支持 wav、mp3、aac、pcm 等音频格式。
支持语音 URL 和本地语音文件两种请求方式。语音 URL 的音频时长不能长于5小时，文件大小不超过1GB。本地语音文件调用不能大于5MB。
支持回调或轮询的方式获取结果，结果获取请参考录音文件识别结果查询。

2. 输入参数

以下请求参数列表仅列出了接口请求参数。

参数名称	必选	类型	描述
source_type	是	Integer	语音数据来源。0：语音 URL；1：语音数据。
receive_type	否	Integer	接收类型。0：同步等待；1：异步查询结果，默认同步。
url	否	String	语音的URL地址，需要公网环境浏览器可下载。当 source_type 值为 0 时须填写该字段，为 1 时不需要填写。注意：请确保录音文件时长在5个小时之内，否则可能识别失败。请保证文件的下载速度，否则可能下载失败。
data	否	String	语音数据 base64 编码，当 source_type 值为1时必须填写，为0可不写。音频数据要小于5MB。
callback_url	否	String	回调 URL，用户自行搭建的用于接收识别结果的服务URL。
customization_id	否	String	自学习模型 id。如设置了该参数，将生效对应的自学习模型。
speaker_diarization	否	Integer	是否开启对话分离，0：不开启；1：开启，默认为 0。
align	否	Integer	是否启用词级别时间戳，0：不启用；1：启用，默认为 0。
language	否	String	语言，中文：zh；英文：en，默认为 zh。

3. 输出参数

参数名称	类型	描述
rid	String	本次请求唯一 id。
code	Integer	状态码，成功为 0，错误为其他值。
msg	String	状态信息，成功为 OK，错误为其他信息。
data	Object	返回数据，成功状态下有值，具体结构见下文。

data 参数结构

参数名称	类型	描述
result	Array of result	识别结果，ReceiveType 值为 0 时有值，具体结构见下文。
task_id	String	任务 id，ReceiveType 值为 1 时有值。

result 参数结构

参数名称	类型	描述
text	String	文本内容。
start	Float	识别结果开始时间。
end	Float	识别结果结束时间。
speaker_no	String	说话人标识，开启对话分离有值。
words	Array of word	识别结果单词，启用词级时间戳有值，具体结构见下文。

word 参数结构

参数名称	类型	描述
word	String	词文本。
start	Float	词在音频中的开始时间。
end	Float	词在音频中的结束时间。

4. 示例

示例1 通过语音Url来调用接口

用户通过语音Url的方式异步返回转换结果，请求录音识别服务。

输入示例

POST / HTTP/1.1
Host: host
Content-Type: application/json
Path: /cloud/asr/v1/file

{
  "source_type": 0,
  "receive_type": 1,
  "url": "http://xxx/test.wav",
  "data": "",
  "callback_url": ""
}

输出示例

{
    "rid": "ab8a260e-3ffe-598a-bbcb-32324bb760d3",
    "code": 0,
    "msg": "OK",
    "data": {
      "task_id": "xxx"
    }
}

5. 开发者资源

SDK

云 API 提供了配套的开发工具集（SDK），支持多种编程语言，能更方便的调用 API。

Neunit Cloud SDK for Go

6. 错误码

以下仅列出了接口业务逻辑相关的错误码，其他错误码详见公共错误码。

错误码	描述
10101001	音频文件 url 获取失败。
10101002	参数 url 不能为空。
10101003	参数 data 不能为空。
10101004	参数 data 解析失败。
10101005	asr 转译失败，请稍后重试。