复刻音色

复刻音色，本 API 可以基于之前上传的 WAV、MP3文件，复制一个新的音色，用于 TTS 生成音频，或者用于 Realtime 实时语音对话。

请求地址

POST https://api.stepfun.com/v1/audio/voices

请求参数

model string required
需要使用的模型名称，可选项有step-tts-2 、step-tts-mini 和 step-tts-vivid, step-audio-2。
text string optional
音频源文件对应的文本内容，如不传递，则调用系统 ASR 进行解析；为保证效果，建议传入。
file_id string required
用于复刻音色的音频源文件的 File ID。File ID 可以通过上传文件获取，上传时，purpose 必须为 storage，支持文件格式为 mp3, wav。音频的时长范围应在 5 ~ 10 秒内;
sample_text string optional
用于生成试听音频的文本（最多支持 50 个字）。

请求响应

id string
音色 ID，可用于后续的音频生成。
object string
文件类型，固定为 audio.voice
duplicated boolean
是否重复请求。如果用户二次消费，则新增此字段，告诉用户已经创建过了。
sample_text string
试听音频对应的文本
sample_audio string
试听音频的 base64 格式内容，格式为 wav 格式，可转换成文件后播放。

示例


curl -L 'https://api.stepfun.com/v1/audio/voices' \
-H 'Content-Type: application/json' \
-H "Authorization: Bearer $STEP_API_KEY" \
-d '{
    "file_id":"file-Ckyl3cV09A",
    "model":"step-tts-mini",
    "text":"智能阶跃，十倍每一个人的可能",
    "sample_text":"今天天气不错"
}'

Last updated on 2026年2月25日

语音合成语音转写