跳转到主要内容
复刻试听接口,本 API 可以基于用户上传的参考音频(WAV、MP3),生成对应的试听音频,用于快速验证音色效果。该接口不会创建正式音色资产,仅用于预览效果。

请求地址

POST https://api.stepfun.com/v1/audio/voices/preview
Step Plan 场景请使用 POST https://api.stepfun.com/step_plan/v1/audio/voices/preview

请求参数

  • model string required
    复刻使用的模型,支持 step-tts-2step-tts-ministepaudio-2.5-tts
  • file_id string required
    参考音频文件 ID。通过 上传文件 接口获取,上传时 purpose 必须为 storage。
  • text string optional
    参考音频对应文本。不传则自动走 ASR 识别;为保证效果,建议传入。
  • sample_text string required
    试听文本,长度建议限制在 50 字以内。
  • response_format string optional
    返回的音频格式,支持 wavmp3flacopuspcm,默认为 mp3 格式。
  • speed float optional
    语速,取值范围为 0.5~2,默认值 1.0。0.5 表示 0.5 倍速。
  • volume float optional
    音量,取值范围为 0.1~2.0,默认值 1.0。0.1 表示缩小至 10% 音量;2.0 表示扩大至 200% 音量。
  • voice_label object optional
    音色标签,使用自定义音色时需要传入。language、emotion 和 style 三个字段同时只能有一个字段有值,暂不支持多个组合。
    • language string optional
      语言,支持 粤语四川话日语 三个选项。
    • emotion string optional
      情绪,支持 高兴生气 等最多 11 个选项,不同模型的支持情况可参考音色标签
    • style string optional
      支持最多 17 种语速或演绎风格,不同模型的支持情况可参考音色标签
⚠️ 注意:stepaudio-2.5-tts 模型不支持该字段,若传入 voice_label 参数会报错。若使用 stepaudio-2.5-tts 模型,请直接使用 instruction 字段或文本内的 () 提示词来控制情绪与风格。
  • instruction string optional
    全局自然语言指导。仅在使用 stepaudio-2.5-tts 模型时生效,其他模型若传入该参数会报错。用于设定整段音频的全局情绪基调、角色人设等。最大长度限制为 200 个字符。
  • sample_rate integer optional
    采样率,支持 8000、16000、22050、24000、48000 五个选项。默认值为 24000。采样率越高,音质越好,但文件体积也会更大。
  • pronunciation_map object array optional
    定义某个文字或符号注音或发音替换规则。在中文文本中,声调用数字表示:一声为 1,二声为 2,三声为 3,四声为 4,轻声为 5。
    • tone string required
      具体发音映射规则,以“/”隔开,示例:["绯闻/fei1闻","扁舟/偏舟","嫉妒/ji2妒"]
  • markdown_filter bool optional
    是否启用 Markdown 过滤。

请求响应

  • sample_text string
    试听音频对应的文本。
  • sample_audio string
    试听音频的 base64 格式内容,格式为 WAV,可转换成文件后播放。
  • request_id string
    本次请求的唯一标识。

示例

curl -L 'https://api.stepfun.com/v1/audio/voices/preview' \
-H 'Content-Type: application/json' \
-H "Authorization: Bearer $STEP_API_KEY" \
-d '{
    "file_id": "file-Ckyl3cV09A",
    "model": "stepaudio-2.5-tts",
    "text": "智能阶跃,十倍每一个人的可能",
    "sample_text": "今天天气不错",
    "instruction": "语气温柔,语速偏慢"
}'