文本系列

图像系列

语音系列

视频系列

平台系列

创建文本转语音请求

生成文本转语音的音频数据

POST

https://api.openapi.cn/v1/audio/speech

认证参数

Authorization

string

header

必填

使用以下格式进行身份验证：Bearer <YOUR API KEY>

请求体

application/json

model

string

必填

对应的模型名称。为了更好地提升服务质量，我们将对本服务提供的模型进行定期变更，包括但不限于模型上下线、模型服务能力调整等，在可行的情况下，我们将通过公告、消息推送等适当方式通知您相关变更。

input

string

必填

对于自然语言指令，在自然语言描述前添加特殊结束标记"<|endofprompt|>"。这些描述涵盖情感、说话速度、角色扮演和方言等方面。对于详细指令，在文本标记之间插入音高爆发，使用"[laughter]"和"[breath]"等标记。此外，我们将音高特征标记应用于短语；例如：Can you say it with a happy emotion? <|endofprompt|> Today is really happy, Spring Festival is coming! I'm so happy, Spring Festival is coming! [laughter] [breath]。

voice

string

必填

可用的语音选项

response_format

string

可选

音频输出格式。支持的格式有mp3、opus、wav、pcm

sample_rate

number

可选

控制输出采样率。不同视频输出类型的默认值和支持值如下：opus：支持48000 Hz。wav、pcm：支持8000、16000、24000、32000、44100 Hz，默认为44100 Hz。mp3：支持32000、44100 Hz，默认为44100 Hz。

stream

boolean

可选

是否流式传输

speed

number

可选

生成音频的速度。从0.25到4.0中选择一个值。默认为1.0。

gain

number

可选

音量增益调整

响应体

上传参考音频

上传用户提供的声音风格，可以是base64编码或文件格式

参考音频列表获取

获取用户定义的语音风格列表

请求示例

curl -X POST "https://api.example.com/audio/speech" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "FunAudioLLM/CosyVoice2-0.5B",
    "input": "Can you say it with a happy emotion? <|endofprompt|>I'm so happy, Spring Festival is coming!",
    "voice": "FunAudioLLM/CosyVoice2-0.5B:alex",
    "response_format": "mp3",
    "speed": 1,
    "stream": true
  }'

响应示例

// 二进制音频数据