雙向流式API-支持復刻(多音色)
說明
Hi,您好,歡迎使用有道智云雙向流式API-支持復刻(多音色)接口服務。
本文檔主要針對需要集成HTTP API的技術開發(fā)工程師,詳細描述雙向流式API-支持復刻(多音色)相關的技術內(nèi)容。
如果您有與我們商務合作的需求,可以通過以下方式聯(lián)系我們:
商務郵箱: AIcloud_Business@corp.youdao.com
如果您對文檔內(nèi)容有任何疑問,可以通過以下幾種方式聯(lián)系我們:
客服QQ:1906538062
智云翻譯技術交流QQ 3群: 807539209
智云翻譯技術交流QQ 4群: 936752411
聯(lián)系郵箱: zhiyun@corp.youdao.com
溫馨提示:
- 本文檔主要針對開發(fā)人員,接入測試前需要獲取應用ID和應用密鑰;如果您還沒有,請按照 新手指南 獲取。
- 平臺向每個賬戶贈送50元的體驗金,供用戶集成前測試所用。
接口說明
雙向流式API為用戶提供文本轉(zhuǎn)語音能力,支持多語種、支持WebSocket協(xié)議流式調(diào)用。
接口調(diào)用參數(shù)
雙向流式API調(diào)用地址:
wss://openapi.youdao.com/duplex_stream_tts/stream_tts
接口調(diào)用
認證階段
參數(shù)名 |
類型 |
是否必填 |
描述 |
示例 |
appKey |
String |
是 |
已申請的應用ID |
ID |
salt |
String |
是 |
UUID |
uuid,唯一通用識別碼,確保請求唯一性即可 |
curtime |
String |
是 |
時間戳(秒) |
TimeStamp |
signType |
String |
是 |
數(shù)字簽名類型 |
固定v3 |
sign |
String |
是 |
加密數(shù)字簽名。 |
sha256 |
q |
String |
是 |
調(diào)用類型 |
推薦為curtime |
簽名sign生成方法如下: signType=v3; sign=sha256(appKey+q+salt+curtime+應用密鑰)。
通信階段
- 發(fā)送
text
message :json格式
參數(shù)名 |
類型 |
是否必填 |
描述 |
text |
String |
是 |
要合成的文本,長度不能超過2000字符 |
voiceName |
String |
是 |
合成使用的音色名 |
userVoice |
String |
否 |
指定克隆音色音頻文件地址,是否必傳參考下方支持的音色 ,要求是可下載的地址,音頻格式可以是wav /mp3 ,建議3-7s |
userVoiceText |
String |
否 |
指定克隆音色音頻的文本,是否必傳參考下方支持的音色 |
format |
String |
否 |
目標音頻格式。支持mp3, wav,不填則默認為mp3 |
sampleRate |
Integer |
否 |
目標采樣率,可選范圍視具體音色而定,不填已模型默認音色為準,具體參考下方支持的音色 |
speed |
Double |
否 |
目標語速,范圍為[0.5, 2],不填則默認為1 |
volume |
Double |
否 |
目標音量,范圍為[0.5,10],不填則默認為1 |
pitch |
Double |
否 |
目標聲調(diào),范圍為[0.5,1.5],不填則默認為1 |
lang |
String |
否 |
語種,支持中文:zh-CHS 、 英文:en ,默認zh-CHS |
stream |
Boolean |
否 |
客戶端推送文本的方式是否為流式,默認false 。 為true 表示服務端會持續(xù)接收客戶端結果,等待時機進行處理并返回。 為false 表示一旦接收到客戶端消息就會處理并返回。 |
end |
Boolean |
否 |
表示客戶端流式推送文本的最后一個包,只有stream=true 才生效,默認true |
示例
{
"text": "再見。",
"voiceName": "ONE_WORD_CHUNK_WAVE",
"lang": "zh-CHS",
"userVoice": "https://speech-custom-tts.nos-jd.163yun.com/test/test.mp3",
"userVoiceText": "你好",
"stream": true,
"end": true
}
返回結果
{
// 錯誤碼
"code": 0,
// 當前這句話是否處理完成,0-沒有完成,1-完成
"finish": 1,
// 每一個回復消息的唯一標識
"messageId": "ade0af68-9003-4440-b4b8-7749f36679a5",
// 錯誤消息
"msg": "SUCCESS",
// 本次請求的唯一標識,如果是流式輸入的場景(stream=true),在收集輸入的過程中,requestId都是一樣的,用于查問題
"requestId": "2b12ec51-61fe-4279-91a6-f236a83a8065",
// 處理結果
"result": {
// 音頻類型
"format": "mp3",
// 采樣率
"sampleRate": 16000,
// 處理的輸入文本
"text": "再見。",
// 音頻base64編碼
"voice": "音頻base64xxxx"
},
// 整個ws的id
"sessionId": "47e31f68-c641-390e-4fa8-2e5774ef6115"
}
支持的音色
voiceName |
描述 |
是否必傳克隆音頻 |
采樣率 |
默認采樣率 |
ONE_WORD_CHUNK_WAVE |
音色克隆 |
是 |
8000、16000、24000、44100、48000 |
16000 |
交互形式
]
錯誤代碼列表
錯誤碼 |
錯誤描述 |
101 |
缺少必填的參數(shù),首先確保必填參數(shù)齊全,然后,確認參數(shù)書寫是否正確。 |
102 |
不支持的語言類型 |
103 |
翻譯文本過長 |
104 |
不支持的API類型 |
105 |
不支持的簽名類型 |
106 |
不支持的響應類型 |
107 |
不支持的傳輸加密類型 |
108 |
應用ID無效,注冊賬號,登錄后臺創(chuàng)建應用和實例并完成綁定,可獲得應用ID和應用密鑰等信息 |
109 |
batchLog格式不正確 |
110 |
無相關服務的有效實例,應用沒有綁定服務。注:某些服務的結果發(fā)音需要tts,需要在控制臺創(chuàng)建語音合成綁定應用后方能使用。 |
111 |
開發(fā)者賬號無效 |
112 |
請求服務無效 |
113 |
q不能為空 |
114 |
不支持的圖片傳輸方式 |
115 |
語音包異常:不存在或者已刪除或者不屬于當前devId |
116 |
referenceSynthesisId已存在 |
201 |
解密失敗,可能為DES,BASE64,URLDecode的錯誤 |
202 |
簽名檢驗失敗 |
203 |
訪問IP地址不在可訪問IP列表 |
205 |
請求的接口與應用的平臺類型不一致,確保接入方式(Android SDK、IOS SDK、API)與創(chuàng)建的應用平臺類型一致。 |
206 |
因為時間戳無效導致簽名校驗失敗 |
207 |
重放請求 |
303 |
服務端的其它異常 |
401 |
賬戶已經(jīng)欠費停 |
402 |
offlinesdk不可用 |
403 |
無權限 |
404 |
資源不存在 |
405 |
auth服務不可用 |
411 |
訪問頻率受限,請稍后訪問 |
412 |
超過最大翻譯字符數(shù) |
110000 |
簽名錯誤 |
110101 |
缺少合成文本 |
110101 |
缺少音色名 |
110101 |
語種錯誤 |
110102 |
音色名錯誤 |
110102 |
合成格式錯誤 |
110102 |
采樣率錯誤 |
110102 |
語速取值錯誤 |
110102 |
音量取值錯誤 |
110102 |
聲調(diào)取值錯誤 |
110102 |
情感取值錯誤 |
110103 |
合成文本長度超出限制 |