StepAudio 2.5 TTS

真正具有声音表演能力的语音合成模型，首次将语境理解能力引入语音生成全流程。通过 Global Context（全局语境）+ Inline Context（文中语境）双档控制，搭配 Zero-shot 音色复刻，让 AI 不是念文本，而是演文本。

在线 Demo

访问官方 demo page，快速感受模型效果。

体验中心

在阶跃星辰开放平台直接体验完整产品功能。

API 快速开始

查看最小可运行的 curl / WebSocket 调用示例。

关键信息

模型类型

Contextual TTS
基于语境理解的文本转语音

单次输入上限

1000 字符

instruction 上限

200 字符
全局语境自然语言指导

核心能力

🎭 双档语境控制

Global Context 定调整段基调，Inline Context 用 () 括号逐句精控情绪、停顿、气息。自然语言描述替代标签匹配，支持「克制的悲伤，不哭腔，轻轻发颤」这类复合意图。

🎨 Zero-shot 音色复刻

只需 3s 参考音频即可进行音色复刻，且完整继承全局 / 文中语境控制能力，不受固定音库和预设角色的限制。

🎙️ 字字有戏，开口无 AI 味

停顿、重音、节奏、语气转折等韵律维度全面提升，底层人声品质升级，告别传统 TTS 的”塑料感”与”AI 味”。

API 端点

非流式语音合成

POST /v1/audio/speech
一次性合成完整音频文件，音质首选。

流式语音合成

WebSocket /v1/realtime/audio
低时延流式返回，适合对话与实时播放场景。

复刻试听

POST /v1/audio/voices/preview
快速预览参考音频合成效果，不创建正式音色资产。

定价

计费项	单价
基于语境理解的文本转语音	5.8 元 / 万字符
语音复刻 / 生成	9.9 元 / 音色（试听接口仅收合成费用；正式复刻成功立即收费）

查看完整定价详情 →

快速上手

模型最重要的两个能力入口：instruction 参数定义整段表达基调（全局语境），input / text 中用圆括号 () 插入句内指令定义局部细节（文中语境）。括号内的内容仅作为指令处理，不会被直接朗读。

非流式 (curl)
流式 (WebSocket)
复刻试听 (curl)

curl https://api.stepfun.com/v1/audio/speech \
  -H "Authorization: Bearer $STEP_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "stepaudio-2.5-tts",
    "voice": "cixingnansheng",
    "input": "（压低声音）喂……你看我手机。（短促吸气）是不是我眼花了？（强装镇定）……算了，肯定是诈骗短信。",
    "instruction": "声音极度紧绷，像在拼命压住快要失控的狂喜；语速快而断续，带明显的压抑感"
  }' \
  --output step-tts-contextual.mp3

instruction 定义整段语境，input 中括号内文本作为内联指令；模型会把情绪、停顿、气声和潜台词一起合成出来。

连接地址：

wss://api.stepfun.com/v1/realtime/audio?model=stepaudio-2.5-tts

建连后发送 tts.create 创建会话，并附带全局 instruction：

{
  "type": "tts.create",
  "data": {
    "session_id": "01956e7388477cfcbdc3aaabf364bc70",
    "voice_id": "cixingnansheng",
    "response_format": "wav",
    "sample_rate": 24000,
    "instruction": "语气冰冷，压迫感强，语速偏慢"
  }
}

随后通过 tts.text.delta 发送带内联指令的文本：

{
  "type": "tts.text.delta",
  "data": {
    "session_id": "01956e7388477cfcbdc3aaabf364bc70",
    "text": "（激动）今天的天气真不错，我想去学习阶跃星辰的大模型技术！"
  }
}

curl https://api.stepfun.com/v1/audio/voices/preview \
  -H "Authorization: Bearer $STEP_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "stepaudio-2.5-tts",
    "file_id": "file-Ckyl3cV09A",
    "text": "智能阶跃，十倍每一个人的可能",
    "sample_text": "今天天气不错",
    "instruction": "语气温柔，语速偏慢"
  }'

该接口仅生成试听音频，不创建正式音色资产。

语音大模型总览

返回语音大模型概览页，查看所有 TTS / ASR 模型。

完整定价详情

查看语音 / 文本 / 图像等全部模型的计费规则。

音色列表

查看官方提供的音色及参数说明。

Demo 与体验中心

在线快速体验 StepAudio 2.5 TTS 的完整能力。

开始使用

模型列表

定价计费

条款与协议

在线 Demo

体验中心

API 快速开始

关键信息

模型类型

单次输入上限

instruction 上限

核心能力

🎭 双档语境控制

🎨 Zero-shot 音色复刻

🎙️ 字字有戏，开口无 AI 味

API 端点

非流式语音合成

流式语音合成

复刻试听

定价

快速上手

相关资源

语音大模型总览

完整定价详情

音色列表

Demo 与体验中心

开始使用

模型列表

定价计费

条款与协议

在线 Demo

体验中心

API 快速开始

​关键信息

模型类型

单次输入上限

instruction 上限

​核心能力

🎭 双档语境控制

🎨 Zero-shot 音色复刻

🎙️ 字字有戏，开口无 AI 味

​API 端点

非流式语音合成

流式语音合成

复刻试听

​定价

​快速上手

​相关资源

语音大模型总览

完整定价详情

音色列表

Demo 与体验中心

关键信息

核心能力

API 端点

定价

快速上手

相关资源