在线 Demo
访问官方 demo page,快速感受模型效果。
体验中心
在阶跃星辰开放平台直接体验完整产品功能。
API 快速开始
查看最小可运行的 curl / WebSocket 调用示例。
关键信息
模型类型
Contextual TTS
基于语境理解的文本转语音
基于语境理解的文本转语音
单次输入上限
1000 字符
instruction 上限
200 字符
全局语境自然语言指导
全局语境自然语言指导
核心能力
🎭 双档语境控制
Global Context 定调整段基调,Inline Context 用
() 括号逐句精控情绪、停顿、气息。自然语言描述替代标签匹配,支持「克制的悲伤,不哭腔,轻轻发颤」这类复合意图。🎨 Zero-shot 音色复刻
只需 3s 参考音频即可进行音色复刻,且完整继承全局 / 文中语境控制能力,不受固定音库和预设角色的限制。
🎙️ 字字有戏,开口无 AI 味
停顿、重音、节奏、语气转折等韵律维度全面提升,底层人声品质升级,告别传统 TTS 的”塑料感”与”AI 味”。
API 端点
非流式语音合成
POST /v1/audio/speech一次性合成完整音频文件,音质首选。
流式语音合成
WebSocket /v1/realtime/audio低时延流式返回,适合对话与实时播放场景。
复刻试听
POST /v1/audio/voices/preview快速预览参考音频合成效果,不创建正式音色资产。
定价
| 计费项 | 单价 |
|---|---|
| 基于语境理解的文本转语音 | 5.8 元 / 万字符 |
| 语音复刻 / 生成 | 9.9 元 / 音色(试听接口仅收合成费用;正式复刻成功立即收费) |
快速上手
模型最重要的两个能力入口:instruction 参数定义整段表达基调(全局语境),input / text 中用圆括号 () 插入句内指令定义局部细节(文中语境)。括号内的内容仅作为指令处理,不会被直接朗读。
- 非流式 (curl)
- 流式 (WebSocket)
- 复刻试听 (curl)
instruction 定义整段语境,input 中括号内文本作为内联指令;模型会把情绪、停顿、气声和潜台词一起合成出来。相关资源
语音大模型总览
返回语音大模型概览页,查看所有 TTS / ASR 模型。
完整定价详情
查看语音 / 文本 / 图像等全部模型的计费规则。
音色列表
查看官方提供的音色及参数说明。
Demo 与体验中心
在线快速体验 StepAudio 2.5 TTS 的完整能力。