基础语音合成
最近更新时间:2023-08-17 14:53:47 前往 Coding 编辑 导出文档
1. 接口描述
接口请求域名:winner-api.neunit.com:18053
接口请求路径: POST /cloud/tts/v1/text_to_voice
新联云语音合成技术(TTS)可以将任意文本转化为语音,实现让机器和应用张口说话。TTS技术可以应用到很多场景,比如,移动APP语音播报新闻;智能设备语音提醒;依靠网上现有节目或少量录音,快速合成明星语音,降低邀约成本;支持车载导航语音合成的个性化语音播报。
基础合成支持 SSML,语法详见 SSML 标记语言,使用时需满足如下使用规范:
- 使用 SSML 标签,需置于 speak 闭合标签内部;
- 合成文本可包含多组speak 闭合标签,且无数量限制
- 每个speak 闭合标签内部,宇符数不超过 100 字(标签宇符本身不计算在内)
2. 输入参数
以下请求参数列表仅列出了接口请求参数。
参数名称 | 必选 | 类型 | 描述 |
---|---|---|---|
text | 是 | String | 合成语音的源文本,按UTF-8编码统一计算。中文或英文最大支持100个字符。 |
session_id | 是 | String | 一次请求对应一个SessionId,会原样返回,建议传入类似于uuid的字符串防止重复。 |
voice_type | 否 | Integer | 音色(默认1 1 默认音色 1001 客服女声 1002 新闻女声 2001 客服男声 2002 新闻男声) |
speed | 否 | Float | 语速 区间0.25~3,默认语速为1 |
volume | 否 | Integer | 音量 区间0~10,默认音量为0 |
3. 输出参数
参数名称 | 类型 | 描述 |
---|---|---|
audio | String | base64编码的wav音频数据 |
session_id | String | 一次请求对应一个SessionId |
4. 示例
示例1 返回女声音频数据
通过设置voice_type字段,返回女声音频数据。
输入示例
POST / HTTP/1.1
Host: host
Content-Type: application/json
path: /cloud/tts/v1/text_to_voice
{
"text": "你好",
"voice_type": 1,
"speed": 1,
"volume": 0,
"session_id": "session-1234"
}
输出示例
{
"code": 0,
"msg": "OK",
"rid": "ab8a260e-3ffe-598a-bbcb-32324bb760d3",
"data": {
"audio": "UklGRlR/AABXQVZFZm10IBAAAAABAAEAgD4AAAB9AAACABAAZGF0YSx9AAD+////AQD//wAAAAAAAAIAAQADAAMABgAEAAYABQAGAAUABwAIAAgACQAAE......AAgACAAEAAgADAAIAAwACAAQAAwACAAIAAgADAAMAAgACAAIAAwABAAAAAAAAAAAAAAD/////AAAAAAAA//8AAP///v/9//7//v///////v8AAP///////wAA/////wAA/////wAAAAAAAAAAAAAAAAAAAAAAAAAA",
"session_id": "session-1234"
}
}
5. 开发者资源
SDK
云 API 提供了配套的开发工具集(SDK),支持多种编程语言,能更方便的调用 API。
6. 错误码
以下仅列出了接口业务逻辑相关的错误码,其他错误码详见 公共错误码。
错误码 | 描述 |
---|---|
10103001 | tts 转译失败,请稍后重试。 |