跳转到主要内容
真正具有声音表演能力的语音合成模型,首次将语境理解能力引入语音生成全流程。通过 Global Context(全局语境)+ Inline Context(文中语境)双档控制,搭配 Zero-shot 音色复刻,让 AI 不是念文本,而是演文本。

在线 Demo

访问官方 demo page,快速感受模型效果。

体验中心

在阶跃星辰开放平台直接体验完整产品功能。

API 快速开始

查看最小可运行的 curl / WebSocket 调用示例。

关键信息

模型类型

Contextual TTS
基于语境理解的文本转语音

单次输入上限

1000 字符

instruction 上限

200 字符
全局语境自然语言指导

核心能力

🎭 双档语境控制

Global Context 定调整段基调,Inline Context 用 () 括号逐句精控情绪、停顿、气息。自然语言描述替代标签匹配,支持「克制的悲伤,不哭腔,轻轻发颤」这类复合意图。

🎨 Zero-shot 音色复刻

只需 3s 参考音频即可进行音色复刻,且完整继承全局 / 文中语境控制能力,不受固定音库和预设角色的限制。

🎙️ 字字有戏,开口无 AI 味

停顿、重音、节奏、语气转折等韵律维度全面提升,底层人声品质升级,告别传统 TTS 的”塑料感”与”AI 味”。

API 端点

非流式语音合成

POST /v1/audio/speech
一次性合成完整音频文件,音质首选。

流式语音合成

WebSocket /v1/realtime/audio
低时延流式返回,适合对话与实时播放场景。

复刻试听

POST /v1/audio/voices/preview
快速预览参考音频合成效果,不创建正式音色资产。

定价

计费项单价
基于语境理解的文本转语音5.8 元 / 万字符
语音复刻 / 生成9.9 元 / 音色(试听接口仅收合成费用;正式复刻成功立即收费)
查看完整定价详情 →

快速上手

模型最重要的两个能力入口:instruction 参数定义整段表达基调(全局语境),input / text 中用圆括号 () 插入句内指令定义局部细节(文中语境)。括号内的内容仅作为指令处理,不会被直接朗读
curl https://api.stepfun.com/v1/audio/speech \
  -H "Authorization: Bearer $STEP_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "stepaudio-2.5-tts",
    "voice": "cixingnansheng",
    "input": "(压低声音)喂……你看我手机。(短促吸气)是不是我眼花了?(强装镇定)……算了,肯定是诈骗短信。",
    "instruction": "声音极度紧绷,像在拼命压住快要失控的狂喜;语速快而断续,带明显的压抑感"
  }' \
  --output step-tts-contextual.mp3
instruction 定义整段语境,input 中括号内文本作为内联指令;模型会把情绪、停顿、气声和潜台词一起合成出来。

相关资源

语音大模型总览

返回语音大模型概览页,查看所有 TTS / ASR 模型。

完整定价详情

查看语音 / 文本 / 图像等全部模型的计费规则。

音色列表

查看官方提供的音色及参数说明。

Demo 与体验中心

在线快速体验 StepAudio 2.5 TTS 的完整能力。