请求地址
POST https://api.stepfun.com/v1/audio/voices/preview
Step Plan 场景请使用
POST https://api.stepfun.com/step_plan/v1/audio/voices/preview请求参数
-
modelstringrequired
复刻使用的模型,支持step-tts-2、step-tts-mini和stepaudio-2.5-tts。 -
file_idstringrequired
参考音频文件 ID。通过 上传文件 接口获取,上传时 purpose 必须为 storage。 -
textstringoptional
参考音频对应文本。不传则自动走 ASR 识别;为保证效果,建议传入。 -
sample_textstringrequired
试听文本,长度建议限制在 50 字以内。 -
response_formatstringoptional
返回的音频格式,支持wav、mp3、flac、opus、pcm,默认为mp3格式。 -
speedfloatoptional
语速,取值范围为 0.5~2,默认值 1.0。0.5 表示 0.5 倍速。 -
volumefloatoptional
音量,取值范围为 0.1~2.0,默认值 1.0。0.1 表示缩小至 10% 音量;2.0 表示扩大至 200% 音量。 -
voice_labelobjectoptional
音色标签,使用自定义音色时需要传入。language、emotion 和 style 三个字段同时只能有一个字段有值,暂不支持多个组合。
-
instructionstringoptional
全局自然语言指导。仅在使用stepaudio-2.5-tts模型时生效,其他模型若传入该参数会报错。用于设定整段音频的全局情绪基调、角色人设等。最大长度限制为 200 个字符。 -
sample_rateintegeroptional
采样率,支持 8000、16000、22050、24000、48000 五个选项。默认值为 24000。采样率越高,音质越好,但文件体积也会更大。 -
pronunciation_mapobject arrayoptional
定义某个文字或符号注音或发音替换规则。在中文文本中,声调用数字表示:一声为 1,二声为 2,三声为 3,四声为 4,轻声为 5。tonestringrequired
具体发音映射规则,以“/”隔开,示例:["绯闻/fei1闻","扁舟/偏舟","嫉妒/ji2妒"]。
-
markdown_filterbooloptional
是否启用 Markdown 过滤。
请求响应
-
sample_textstring
试听音频对应的文本。 -
sample_audiostring
试听音频的 base64 格式内容,格式为 WAV,可转换成文件后播放。 -
request_idstring
本次请求的唯一标识。
示例
- curl