语音大模型

模型简介

阶跃语音系列模型基于先进的语音合成与理解技术，提供从文字到语音的高保真生成能力，覆盖配音、语音助手、智能硬件、直播带货等多种语音交互场景。

step-tts-2（阶跃语音合成 2.0）

Step-TTS-mini 的升级版：极简高效设计摒弃传统 speaker/emotion 嵌入模块，通过纯 NTP 实现端到端语音生成，大幅降低系统复杂度。支持 step-tts-mini 全部音色、情绪、风格、语种，并在其基础上，进一步强化情绪与风格的可控度、情绪表现力 和音色复刻效果。

核心提升

11 种情绪 17种风格 3种语言精准可控，情绪饱满，韵律自然，表现力强：
- 内置 11 种情绪与 17 种风格控制，覆盖从温柔甜美到严肃豪爽的多样化表达。语气、韵律与停连更贴近真人情绪起伏。
- 完美适配需要情绪张力的配音与对话。
- 支持粤语、四川话、日语。
10s 音频，精准复刻，0成本支持全部情绪风格控制：
- 仅需约 10 秒参考音频，即可精准复刻音色，并零成本激活全部情绪与风格控制；
- 适合需要用复刻后的音色 + 多情绪播报的场景，如短视频配音、情感陪聊、营销播报等。
音色复刻支持口音精准还原：
- 领先的 LLM-based 架构，相较同类产品，可提供对说话人口音细节更精准的复刻效果。
- 为 直播带货 场景提供更加真实、自然的语音交互体验，有效提升观众沉浸感和信任度。让虚拟主播或智能话术如同真人般亲切生动，显著降低用户听觉疲劳，助力转化率提升。

step-tts-mini

强大的文本转语音模型，以高情绪表现力和风格可控性为亮点。

11 种情绪、7种风格、3种语言可控：内置 9 种情绪与 13 种风格控制；支持粤语、四川话、日语。
10s 音频，精准复刻，0成本支持全部情绪风格控制：仅需约 10 秒参考音频，即可精准复刻音色，并零成本激活全部情绪与风格控制。复刻相似度业界领先。

step-tts-vivid

音色极具真人感，在外呼场景下，几乎难以与真人区分。
核心优势

真人拟真度：音色质感与细节刻画逼真，适合对“听起来像真人”有硬性要求的业务；
6 种情绪、4种风格、3种语言可控：内置 6 种情绪与 4 种风格控制；支持粤语、四川话、日语。

step-asr

阶跃自动语音识别模型，支持实时与离线识别，具备高准确率与低延迟。

特点：

支持中英文及多种方言；
可应用于语音转写、会议记录、客服质检、语音搜索等场景。

step-asr-1.1

阶跃自动语音识别模型，适用于音频文件识别场景。

特点：

可应用于语音转写、会议记录、客服质检、语音搜索等场景。

step-asr-1.1-stream

阶跃自动语音识别模型，适用于流式语音识别场景。

特点：

适用于实时语音输入与流式文本返回场景。

使用限制

单次请求支持的最大字符数：tts 模型单次最多支持输入 1000 个字符。
输出格式：支持支持 wav、mp3、flac、opus，默认为 mp3 格式。

模型快速入门

音频合成开发指南