长文本语音合成

最近更新时间:2023-08-17 14:53:47 前往 Coding 编辑

导出文档

1. 接口描述

接口请求域名:winner-api.neunit.com:18053

接口请求路径: POST /cloud/tts/v1/create_tts_task

本接口服务对10万字符以内的文本进行语音合成,异步返回音频结果。满足一次性合成较长文本的客户需求,如阅读播报、新闻媒体等场景。

  • 支持音频格式:wav
  • 支持回调或轮询的方式获取结果,结果获取请参考 长文本语音合成结果查询
  • 提交长文本语音合成请求后,合成结果在30分钟内完成,音频文件在服务端可保存24小时。

长文本语音合成支持 SSML,语法详见 SSML 标记语言,使用时需满足如下使用规范:

  • 使用 SSML 标签,需置于 speak 闭合标签内部;
  • 合成文本可包含多组speak 闭合标签,且无数量限制
  • 每个speak 闭合标签内部,宇符数不超过 100 字(标签宇符本身不计算在内)

2. 输入参数

以下请求参数列表仅列出了接口请求参数。

参数名称必选类型描述
textString合成语音的源文本,按UTF-8编码统一计算,最多支持10万字符
voice_typeInteger音色(默认1 1 默认音色 1001 客服女声 1002 新闻女声 2001 客服男声 2002 新闻男声)
speedFloat语速 区间0.25~3,默认语速为1
volumeInteger音量 区间0~10,默认音量为0
callback_urlString回调 URL,用户自行搭建的用于接收合成结果的服务URL。如果用户使用轮询方式获取合成结果,则无需提交该参数。

3. 输出参数

参数名称类型描述
task_idString任务ID

4. 示例

示例1 长文本语音合成请求

请求长文本语音合成请求接口,不设置回调URL,异步使用长文本语音合成结果查询接口查询结果。

输入示例

POST / HTTP/1.1
Host: winner-api.neunit.com:18053
Content-Type: application/json
path:  /cloud/tts/v1/create_tts_task

{
    "text": "字符串",
    "voice_type": 0,
    "speed": 1,
    "volume": 0,
    "callback_url": ""
}

输出示例

{
    "code": 0,
    "msg": "OK",
    "rid": "ab8a260e-3ffe-598a-bbcb-32324bb760d3",
    "data": {
        "task_id": "gz-53c9e73a-d8ec-4792-bc9e-e982115623a5"
    }
}

5. 开发者资源

SDK

云 API 提供了配套的开发工具集(SDK),支持多种编程语言,能更方便的调用 API。

6. 错误码

以下仅列出了接口业务逻辑相关的错误码,其他错误码详见 公共错误码

错误码描述
10103001tts 转译失败,请稍后重试。
10103002字符超过限制。