基础语音合成

最近更新时间：2023-08-17 14:53:47 前往 Coding 编辑

1. 接口描述

接口请求域名：winner-api.neunit.com:18053

接口请求路径： POST /cloud/tts/v1/text_to_voice

新联云语音合成技术（TTS）可以将任意文本转化为语音，实现让机器和应用张口说话。TTS技术可以应用到很多场景，比如，移动APP语音播报新闻；智能设备语音提醒；依靠网上现有节目或少量录音，快速合成明星语音，降低邀约成本；支持车载导航语音合成的个性化语音播报。

基础合成支持 SSML，语法详见 SSML 标记语言，使用时需满足如下使用规范：

使用 SSML 标签，需置于 speak 闭合标签内部；
合成文本可包含多组speak 闭合标签，且无数量限制
每个speak 闭合标签内部，宇符数不超过 100 字(标签宇符本身不计算在内)

2. 输入参数

以下请求参数列表仅列出了接口请求参数。

参数名称	必选	类型	描述
text	是	String	合成语音的源文本，按UTF-8编码统一计算。中文或英文最大支持100个字符。
session_id	是	String	一次请求对应一个SessionId，会原样返回，建议传入类似于uuid的字符串防止重复。
voice_type	否	Integer	音色(默认1 1 默认音色 1001 客服女声 1002 新闻女声 2001 客服男声 2002 新闻男声)
speed	否	Float	语速区间0.25~3，默认语速为1
volume	否	Integer	音量区间0~10，默认音量为0

3. 输出参数

参数名称	类型	描述
audio	String	base64编码的wav音频数据
session_id	String	一次请求对应一个SessionId

4. 示例

示例1 返回女声音频数据

通过设置voice_type字段，返回女声音频数据。

输入示例

POST / HTTP/1.1
Host: host
Content-Type: application/json
path: /cloud/tts/v1/text_to_voice

{
    "text": "你好",
    "voice_type": 1,
    "speed": 1,
    "volume": 0,
    "session_id": "session-1234"
}

输出示例

{
    "code": 0,
    "msg": "OK",
    "rid": "ab8a260e-3ffe-598a-bbcb-32324bb760d3",
    "data": {
        "audio": "UklGRlR/AABXQVZFZm10IBAAAAABAAEAgD4AAAB9AAACABAAZGF0YSx9AAD+////AQD//wAAAAAAAAIAAQADAAMABgAEAAYABQAGAAUABwAIAAgACQAAE......AAgACAAEAAgADAAIAAwACAAQAAwACAAIAAgADAAMAAgACAAIAAwABAAAAAAAAAAAAAAD/////AAAAAAAA//8AAP///v/9//7//v///////v8AAP///////wAA/////wAA/////wAAAAAAAAAAAAAAAAAAAAAAAAAA",
        "session_id": "session-1234"
    }
}

5. 开发者资源

SDK

云 API 提供了配套的开发工具集（SDK），支持多种编程语言，能更方便的调用 API。

Neunit Cloud SDK for Go

6. 错误码

以下仅列出了接口业务逻辑相关的错误码，其他错误码详见公共错误码。

错误码	描述
10103001	tts 转译失败，请稍后重试。