模型问题
常见模型问题及解决方案汇总
1. 模型输出乱码
目前看到部分模型在不设置参数的情况下,容易出现乱码,遇到上述情况,可以尝试设置temperature,top_k,top_p,frequency_penalty这些参数。
对应的 payload 修改为如下形式,不同语言酌情调整:
payload = {
"model": "Qwen/Qwen2.5-Math-72B-Instruct",
"messages": [
{
"role": "user",
"content": "1+1=?",
}
],
"max_tokens": 200, # 按需添加
"temperature": 0.7, # 按需添加
"top_k": 50, # 按需添加
"top_p": 0.7, # 按需添加
"frequency_penalty": 0 # 按需添加
}
2. 关于max_tokens说明
平台提供的LLM模型中,max_tokens限制如下:
max_tokens 限制为 16384 的模型
- deepseek-ai/DeepSeek-R1
- Pro/deepseek-ai/DeepSeek-R1
- Qwen/QVQ-72B-Preview
- deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
- deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
- deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
- deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
- Pro/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
- Pro/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
max_tokens 限制为 8192 的模型
- Qwen/QwQ-32B-Preview
max_tokens 限制为 4096 的模型
- 除上述提到的其他LLM模型
如有特殊需求,请点击布尔算力OpenAPI线上需求收集表反馈。
3. 关于context_length说明
不同的LLM模型,context_length是有差别的,具体可以在模型广场上搜索对应的模型,查看模型具体信息。
4. 关于 DeepSeek-R1 和 DeepSeek-V3 模型调用返回 429 说明
未实名用户
- 每天仅能访问 100次
- 如果当天访问次数超过 100次,将收到 429 错误,并提示 "Details: RPD limit reached. Could only send 100 requests per day without real name verification"
- 可以通过实名解锁更高的 Rate Limit
实名用户
- 拥有更高的 Rate Limit,具体值参考模型广场
- 如果访问次数超过这些限制,也会收到 429 错误
5. Pro 和非 Pro 模型的区别
对于部分模型,平台同时提供免费版和收费版:
- 免费版按原名称命名
- 收费版在名称前加上"Pro/"以示区分
- 免费版的 Rate Limits 固定,收费版的 Rate Limits 可变,具体规则请参考:Rate Limits
对于 DeepSeek R1 和 DeepSeek V3 模型:
- 平台根据支付方式的不同要求区分命名
- Pro 版仅支持充值余额支付
- 非 Pro 版支持赠费余额和充值余额支付
6. 语音模型中的音色要求
不同语音模型对用户自定义音色的要求如下:
- cosyvoice2:上传音色必须小于30s
- GPT-SoVITS:上传音色须在3~10s
- fishaudio:没有特殊限制
为保证生成语音效果,建议用户上传音色满足以下条件:
- 时间8~10s左右
- 发音吐字清晰
- 没有杂音/背景音
7. 模型输出截断问题
API请求时的输出截断问题排查
- max_tokens设置
- max_token设置到合适值
- 输出大于max_token的情况下会被截断
- deepseek R1系列的max_token最大可设置为16384
- 设置流式输出请求
- 非流式请求时,输出内容比较长的情况下容易出现504超时
- 设置客户端超时时间
- 把客户端超时时间设置大一些
- 防止未输出完成就达到客户端超时时间被截断
第三方客户端请求的输出截断问题排查
- CherryStdio 默认的 max_tokens 是 4096
- 用户可以通过设置,打开"开启消息长度限制"的开关
- 将max_token设置到合适值
如遇其他问题,请点击布尔算力OpenAPI线上需求收集表反馈。