生成音频

生成音频，此 API 可以使用 TTS 模型生成音频。

请求地址

POST https://api.stepfun.com/v1/audio/speech

请求参数

model string required
需要使用的模型名称，当前仅支持step-tts-mini
input string required
要生成的文本，最大长度为 1000 个字符
voice string required
生成时使用的音色信息，支持官方音色和开发者自生成音色。
response_format string optional
返回的音频格式，支持 wav,mp3,flac,opus. 默认为 mp3 格式
speed float optional
语速，取值范围为 0.5~2，默认值 1.0。0.5 表示 0.5 倍速。
volume float optional
音频，取值范围为 0.1~2.0，默认值 1.0。0.1 表示缩小至 10% 音量；2.0 表示扩大至 200%音量

请求响应

音频文件

示例

from pathlib import Path
from openai import OpenAI
 
speech_file_path = Path(__file__).parent / "step-tts.mp3"
 
client = OpenAI(
  api_key="STEP_API_KEY",
  base_url="https://api.stepfun.com/v1"
)
response = client.audio.speech.create(
  model="step-tts-mini",
  voice="cixingnansheng",
  input="智能阶跃，十倍每个人的可能."
)
response.stream_to_file(speech_file_path)

图生图复刻音色