/step_plan/v1/... 路径前缀,域名固定为 https://api.stepfun.com。
前置条件
支持的模型
| 类别 | 模型 | 说明 |
|---|---|---|
| 实时语音对话 | stepaudio-2.5-realtime | 端到端实时语音对话模型,承接 StepAudio 2.5 TTS 表现力,支持音色复刻、人设定制与极低延迟交互 |
| 语音对话 | stepaudio-2.5-chat | 端到端对话大模型,文本输入、文本返回,支持千万人设完全自定义与高情商副语言感知 |
| 语音合成 | stepaudio-2.5-tts | 基于语境理解的新一代 Contextual TTS,支持全局语境 + 文中语境双档控制,生成具有呼吸感、轻重主次、情绪弧线的真人级表达 |
| 语音识别 | stepaudio-2.5-asr | 新一代流式 ASR 模型,4B MTP 架构,面向准实时转写场景,在低延迟下保持高识别准确率 |
实时语音对话
WebSocket 双向实时语音
语音对话
端到端对话补全(文本返回)
语音合成 (TTS)
非流式 / WebSocket 流式 / 音色试听 / 音色复刻
语音识别 (ASR)
HTTP + SSE 流式返回识别文本
实时语音对话
接口路径
| 能力 | 请求方式 | Step Plan 路径 |
|---|---|---|
| 双向实时语音 | WebSocket | wss://api.stepfun.com/step_plan/v1/realtime |
接口参数与开放平台完全一致,详见 双向实时语音 接口文档。
计费说明
计费逻辑与开放平台一致,最终按开放平台实际计费金额折算为 Step Plan 总额度消耗。具体单价请参考 定价与限速。示例
- Python (WebSocket)
语音对话
接口路径
| 能力 | 请求方式 | Step Plan 路径 |
|---|---|---|
| 文本对话补全 | POST | https://api.stepfun.com/step_plan/v1/chat/completions |
接口参数与开放平台完全一致,详见 对话补全(Chat Completion) 接口文档。
stepaudio-2.5-chat 仅支持 text 模态,modalities 不应包含 audio。计费说明
计费逻辑与开放平台一致,最终按开放平台实际计费金额折算为 Step Plan 总额度消耗。具体单价请参考 定价与限速。示例
- curl
- Python (OpenAI SDK)
语音合成
接口路径
| 能力 | 请求方式 | Step Plan 路径 |
|---|---|---|
| 非流式语音合成 | POST | https://api.stepfun.com/step_plan/v1/audio/speech |
| 流式语音合成 | WebSocket | wss://api.stepfun.com/step_plan/v1/realtime/audio |
| 音色试听 | POST | https://api.stepfun.com/step_plan/v1/audio/voices/preview |
| 音色复刻 | POST | https://api.stepfun.com/step_plan/v1/audio/voices |
计费说明
计费逻辑与开放平台一致,最终按开放平台实际计费金额折算为 Step Plan 总额度消耗。具体单价请参考 定价与限速。示例
- curl
- Python (OpenAI SDK)
- Python (WebSocket 流式)
语音识别
接口路径
| 能力 | 请求方式 | Step Plan 路径 |
|---|---|---|
| 语音识别(流式返回文本) | POST | https://api.stepfun.com/step_plan/v1/audio/asr/sse |
接口参数与开放平台完全一致,详见 语音识别(流式返回文本) 接口文档。
能力限制
当前stepaudio-2.5-asr 在 Step Plan 下仅支持 HTTP + SSE 调用方式,与开放平台一致——该模型本身不提供 WebSocket 接口。
计费说明
计费逻辑与开放平台一致,最终按开放平台实际计费金额折算为 Step Plan 总额度消耗。具体单价请参考 定价与限速。示例
- curl