logo

创建文本转语音请求

生成文本转语音的音频数据
POST
https://api.openapi.cn/v1/audio/speech

认证参数

Authorization
string
header
必填
使用以下格式进行身份验证:Bearer <YOUR API KEY>

请求体

application/json
model
string
必填
对应的模型名称。为了更好地提升服务质量,我们将对本服务提供的模型进行定期变更,包括但不限于模型上下线、模型服务能力调整等,在可行的情况下,我们将通过公告、消息推送等适当方式通知您相关变更。
input
string
必填
对于自然语言指令,在自然语言描述前添加特殊结束标记"<|endofprompt|>"。这些描述涵盖情感、说话速度、角色扮演和方言等方面。对于详细指令,在文本标记之间插入音高爆发,使用"[laughter]"和"[breath]"等标记。此外,我们将音高特征标记应用于短语;例如:Can you say it with a happy emotion? <|endofprompt|> Today is really happy, Spring Festival is coming! I'm so happy, Spring Festival is coming! [laughter] [breath]。
voice
string
必填
可用的语音选项
response_format
string
可选
音频输出格式。支持的格式有mp3、opus、wav、pcm
sample_rate
number
可选
控制输出采样率。不同视频输出类型的默认值和支持值如下:opus:支持48000 Hz。wav、pcm:支持8000、16000、24000、32000、44100 Hz,默认为44100 Hz。mp3:支持32000、44100 Hz,默认为44100 Hz。
stream
boolean
可选
是否流式传输
speed
number
可选
生成音频的速度。从0.25到4.0中选择一个值。默认为1.0。
gain
number
可选
音量增益调整

响应体


请求示例
curl -X POST "https://api.example.com/audio/speech" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "FunAudioLLM/CosyVoice2-0.5B",
    "input": "Can you say it with a happy emotion? <|endofprompt|>I'm so happy, Spring Festival is coming!",
    "voice": "FunAudioLLM/CosyVoice2-0.5B:alex",
    "response_format": "mp3",
    "speed": 1,
    "stream": true
  }'
响应示例
// 二进制音频数据