模型概览
阶跃语音系列模型基于先进的语音合成与理解技术,提供从文字到语音的高保真生成能力,覆盖配音、语音助手、智能硬件、直播带货等多种语音交互场景。模型列表
StepAudio 2.5 TTS
Contextual TTS,真正具有声音表演能力的语音合成模型。首次将语境理解能力引入语音生成全流程,让 AI 不是念文本,而是演文本。支持通过自然语言描述实现全局语境定调与句中细腻控制,生成具有呼吸感、轻重主次、情绪弧线的真人级表达。核心提升
- 双档语境控制,人人都是配音导演:
- 通过 Global Context(全局语境)+ Inline Context(文中语境)双档控制,既能为整段内容定调氛围和人物关系,也能逐句精控每个字词如何演绎。
- 告别传统标签匹配,用自然语言描述你想要的声音表达。情绪、风格、场景、说话状态,模型都能理解并精准执行。
- 支持「克制的悲伤,不哭腔,轻轻发颤」「试探着撒娇,不是很黏,带一点嘴硬」这类复杂、混合、有层次的表达意图,实现更开放、更连续、也更贴近真实语境的情绪控制。
- Zero-shot Clone 全音色可控,百变音色随心复刻:
- 只需 3s 参考音频即可进行音色复刻,且完整继承全局 / 文中语境控制能力,不受固定音库和预设角色的限制。
- 字字有戏,句句真实,开口没有 AI 味:
- 在停顿、重音、节奏、语气转折等韵律维度上全面提升,合成语音有呼吸感、有轻重主次、有情绪起伏。
- 底层人声品质升级,输出的声音更通透、更具拟人感,没有传统语音合成常见的”塑料感”和”AI 味”。
适配场景
有声书、短剧配音、广告旁白、情感叙事、内容二创等多种对语音表现力有高要求的场景。step-tts-2(阶跃语音合成 2.0)
Step-TTS-mini 的升级版:极简高效设计摒弃传统 speaker/emotion 嵌入模块,通过纯 NTP 实现端到端语音生成,大幅降低系统复杂度。 支持 step-tts-mini 全部音色、情绪、风格、语种,并在其基础上,进一步强化情绪与风格的可控度、情绪表现力 和音色复刻效果。核心提升
- 11 种情绪 17种风格 3种语言精准可控,情绪饱满,韵律自然,表现力强:
- 内置 11 种情绪 与 17 种风格 控制,覆盖从温柔甜美到严肃豪爽的多样化表达。语气、韵律与停连更贴近真人情绪起伏。
- 完美适配需要情绪张力的配音与对话。
- 支持粤语、四川话、日语。
- 10s 音频,精准复刻,0成本支持全部情绪风格控制:
- 仅需约 10 秒参考音频,即可精准复刻音色,并零成本激活全部情绪与风格控制;
- 适合需要用复刻后的音色 + 多情绪播报的场景,如短视频配音、情感陪聊、营销播报等。
- 音色复刻支持口音精准还原:
- 领先的 LLM-based 架构,相较同类产品,可提供对说话人口音细节更精准的复刻效果。
- 为 直播带货 场景提供更加真实、自然的语音交互体验,有效提升观众沉浸感和信任度。让虚拟主播或智能话术如同真人般亲切生动,显著降低用户听觉疲劳,助力转化率提升。
step-tts-mini
强大的文本转语音模型,以高情绪表现力和风格可控性为亮点。- 11 种情绪、7种风格、3种语言可控:内置 9 种情绪 与 13 种风格 控制;支持粤语、四川话、日语。
- 10s 音频,精准复刻,0成本支持全部情绪风格控制:仅需约 10 秒参考音频,即可精准复刻音色,并零成本激活全部情绪与风格控制。复刻相似度业界领先。
step-asr
阶跃自动语音识别模型,支持实时与离线识别,具备高准确率与低延迟。 特点:- 支持中英文及多种方言;
- 可应用于语音转写、会议记录、客服质检、语音搜索等场景。
step-asr-1.1
阶跃自动语音识别模型,适用于音频文件识别场景。 特点:- 可应用于语音转写、会议记录、客服质检、语音搜索等场景。
step-asr-1.1-stream
阶跃自动语音识别模型,适用于流式语音识别场景。 特点:- 适用于实时语音输入与流式文本返回场景。
使用限制
- 单次请求支持的最大字符数:tts 模型单次最多支持输入 1000 个字符。
- 输出格式:支持 wav、mp3、flac、opus,默认为 mp3 格式。
模型快速入门
音频合成开发指南
了解语音生成、音色复刻和语音识别等能力的接入方式。