语音模型列表 - StepFun 开放平台文档中心

模型概览

阶跃语音系列模型基于先进的语音合成与识别技术，提供从文字到语音的高表现力生成、以及从语音到文字的高准确率识别能力，覆盖配音、语音助手、智能硬件、直播带货、Voice Agent、实时字幕、会议记录等多种语音交互与转写场景。

模型列表

关于 StepAudio 2.5 系列的对话模型，我们提供了两种不同的方式调用最新的语音对话模型，分别对应 StepAudio 2.5 Realtime 和 StepAudio 2.5 Chat：

StepAudio 2.5 Realtime，支持实时语音对话的 Realtime 交互形式，使用 websocket 协议，支持语音请求、语音回复，便于直接使用我们封装好的一整套实时对话能力使用。
StepAudio 2.5 Chat，支持按轮次对话的 Chat Comletion 交互形式，支持单次提交语音请求、流式文本输出回复内容，便于基于接口和模型能力进行接入和开发。

StepAudio 2.5 Realtime

真正具备”活人感”的实时语音大模型。全维度打造专属人设，连每一次呼吸和轻笑都不掉戏。

核心提升

情绪价值：不再是冰冷的 AI，而是有脾气、有态度、懂接梗的鲜活搭子，为你带来最自然、好玩的陪伴体验。
对话双商领跑：实现对话智商与情商的双重跃升。不仅能深度理解复杂语意、机智抛梗，更具备行业顶级副语言感知力——瞬间读懂你语气中的迟疑与轻笑，极速输出契合度拉满的高情商反馈。
副语言感知：不仅能深度理解复杂语意、机智抛梗，更具备行业顶级副语言感知力——瞬间读懂你语气中的迟疑与轻笑，极速输出契合度拉满的高情商反馈。
千万人设完全自定义：真正实现”全维灵魂捏脸”，彻底打破预设模板束缚。支持细颗粒度定义性格特征、专属口癖与情绪边界，随心打造千万种独一无二的专属搭子。
贴合语境神级表现力：在声音表现层面，StepAudio 2.5 Realtime 全面继承了业内顶尖的 StepAudio 2.5 TTS 能力，理解与生成的深度融合，结合强化学习训练，实现了”Global 全局场景定调”与”句内细节雕琢”的双重能力。能够精准洞察对话氛围，极细颗粒度地拿捏语速、重音与潜台词；发声时自然融入轻笑、叹息等真实细节，让每一次开口都与当下的交流场景完美契合。

适配场景

情感陪伴、日常交流、百科问答、任务助手等日常实时沟通交互对话全场景。

StepAudio 2.5 Chat

真正具备”活人感”的对话大模型。全维度打造专属人设，连每一次呼吸和轻笑都不掉戏。

核心提升

情绪价值：不再是冰冷的 AI，而是有脾气、有态度、懂接梗的鲜活搭子，为你带来最自然、好玩的陪伴体验。
对话双商领跑：实现对话智商与情商的双重跃升。不仅能深度理解复杂语意、机智抛梗，更具备行业顶级副语言感知力——瞬间读懂你语气中的迟疑与轻笑，极速输出契合度拉满的高情商反馈。
副语言感知：不仅能深度理解复杂语意、机智抛梗，更具备行业顶级副语言感知力——瞬间读懂你语气中的迟疑与轻笑，极速输出契合度拉满的高情商反馈。
千万人设完全自定义：真正实现”全维灵魂捏脸”，彻底打破预设模板束缚。支持细颗粒度定义性格特征、专属口癖与情绪边界，随心打造千万种独一无二的专属搭子。

StepAudio 2.5 TTS

Contextual TTS，真正具有声音表演能力的语音合成模型。首次将语境理解能力引入语音生成全流程，让 AI 不是念文本，而是演文本。支持通过自然语言描述实现全局语境定调与句中细腻控制，生成具有呼吸感、轻重主次、情绪弧线的真人级表达。

核心提升

双档语境控制，人人都是配音导演：
- 通过 Global Context（全局语境）+ Inline Context（文中语境）双档控制，既能为整段内容定调氛围和人物关系，也能逐句精控每个字词如何演绎。
- 告别传统标签匹配，用自然语言描述你想要的声音表达。情绪、风格、场景、说话状态，模型都能理解并精准执行。
- 支持「克制的悲伤，不哭腔，轻轻发颤」「试探着撒娇，不是很黏，带一点嘴硬」这类复杂、混合、有层次的表达意图，实现更开放、更连续、也更贴近真实语境的情绪控制。
Zero-shot Clone 全音色可控，百变音色随心复刻：
- 只需 3s 参考音频即可进行音色复刻，且完整继承全局 / 文中语境控制能力，不受固定音库和预设角色的限制。
字字有戏，句句真实，开口没有 AI 味：
- 在停顿、重音、节奏、语气转折等韵律维度上全面提升，合成语音有呼吸感、有轻重主次、有情绪起伏。
- 底层人声品质升级，输出的声音更通透、更具拟人感，没有传统语音合成常见的”塑料感”和”AI 味”。

适配场景

有声书、短剧配音、广告旁白、情感叙事、内容二创等多种对语音表现力有高要求的场景。

Step TTS 2

step-tts-mini 的升级版：极简高效设计摒弃传统 speaker/emotion 嵌入模块，通过纯 NTP 实现端到端语音生成，大幅降低系统复杂度。支持 step-tts-mini 全部音色、情绪、风格、语种，并在其基础上，进一步强化情绪与风格的可控度、情绪表现力 和音色复刻效果。

核心提升

11 种情绪 17种风格 3种语言精准可控，情绪饱满，韵律自然，表现力强：
- 内置 11 种情绪与 17 种风格控制，覆盖从温柔甜美到严肃豪爽的多样化表达。语气、韵律与停连更贴近真人情绪起伏。
- 完美适配需要情绪张力的配音与对话。
- 支持粤语、四川话、日语。
10s 音频，精准复刻，0成本支持全部情绪风格控制：
- 仅需约 10 秒参考音频，即可精准复刻音色，并零成本激活全部情绪与风格控制；
- 适合需要用复刻后的音色 + 多情绪播报的场景，如短视频配音、情感陪聊、营销播报等。
音色复刻支持口音精准还原：
- 领先的 LLM-based 架构，相较同类产品，可提供对说话人口音细节更精准的复刻效果。
- 为 直播带货 场景提供更加真实、自然的语音交互体验，有效提升观众沉浸感和信任度。让虚拟主播或智能话术如同真人般亲切生动，显著降低用户听觉疲劳，助力转化率提升。

Step TTS Mini

强大的文本转语音模型，以高情绪表现力和风格可控性为亮点。

11 种情绪、7种风格、3种语言可控：内置 9 种情绪与 13 种风格控制；支持粤语、四川话、日语。
10s 音频，精准复刻，0成本支持全部情绪风格控制：仅需约 10 秒参考音频，即可精准复刻音色，并零成本激活全部情绪与风格控制。复刻相似度业界领先。

StepAudio 2.5 ASR

阶跃新一代语音识别模型，4B 参数 + Multi-Token Prediction（MTP）架构。在保持 SOTA 转写精度的同时单步并行预测多个 Token，大幅削减串行等待——5 分钟音频可在 1 秒内完成转写。提供一次性提交（SSE，模型字符串 stepaudio-2.5-asr）与实时双向流式（WebSocket，模型字符串 stepaudio-2.5-asr-stream）两种接入方式。

核心提升

极速推理，吞吐与时延双线突破：
- 引入 MTP 技术单步并行预测多个 Token，吞吐量较传统 ASR 提升 400%，时延降低 60%。
- 引擎侧 RTF ≈ 0.0053，转写 1 小时音频约需 19 秒，5 分钟音频 1 秒内出完整结果。
SOTA 转写精度，多场景全面刷新基线：
- 基于 4B 参数深度优化，在新闻、会议、强噪声等多场景下，中英文错误率全面刷新行业基线。
- 支持 ITN 文本规范化，转写结果可直接用于业务系统。
进阶识别能力：
- 双向流式（stepaudio-2.5-asr-stream）支持累计全量文本、可纠错尾词与字级时间戳，适合实时对话、语音助手、会议字幕。
- 音频文件识别支持分句与字 / 词级时间戳、双声道分轨，以及说话人识别（区分同一段音频中的不同说话人）。
极致性价比，Step Plan 直接可用：
- 一次性提交（SSE）API 定价 0.15 元 / 小时，仅为上代 step-asr 系列的 1/10；双向流式 1.2 元 / 小时。
- Step Plan 订阅用户可直接调用，无需额外开通。

适配场景

Voice Agent、大规模批量转写、实时字幕 / 直播、会议记录、语音输入等对识别速度与准确率均有要求的场景。

StepAudio 2 ASR Pro

32B 参数的 ASR Pro 模型。

Step ASR

阶跃自动语音识别模型，支持实时与离线识别，具备高准确率与低延迟。特点：

支持中英文及多种方言；
可应用于语音转写、会议记录、客服质检、语音搜索等场景。

Step ASR 1.1

阶跃自动语音识别模型，适用于音频文件识别场景。特点：

可应用于语音转写、会议记录、客服质检、语音搜索等场景。

Step ASR 1.1 Stream

阶跃自动语音识别模型，适用于流式语音识别场景。特点：

适用于实时语音输入与流式文本返回场景。

使用限制

单次请求支持的最大字符数：tts 模型单次最多支持输入 1000 个字符。
输出格式：支持 wav、mp3、flac、opus，默认为 mp3 格式。

模型快速入门

音频合成开发指南

了解语音生成、音色复刻和语音识别等能力的接入方式。

​模型概览

​模型列表

​StepAudio 2.5 Realtime

​核心提升

​适配场景

​StepAudio 2.5 Chat

​核心提升

​StepAudio 2.5 TTS

​核心提升

​适配场景

​Step TTS 2

​核心提升

​Step TTS Mini

​StepAudio 2.5 ASR

​核心提升

​适配场景

​StepAudio 2 ASR Pro

​Step ASR

​Step ASR 1.1

​Step ASR 1.1 Stream

​使用限制

​模型快速入门

音频合成开发指南

模型概览

模型列表

StepAudio 2.5 Realtime

核心提升

适配场景

StepAudio 2.5 Chat

核心提升

StepAudio 2.5 TTS

核心提升

适配场景

Step TTS 2

核心提升

Step TTS Mini

StepAudio 2.5 ASR

核心提升

适配场景

StepAudio 2 ASR Pro

Step ASR

Step ASR 1.1

Step ASR 1.1 Stream

使用限制

模型快速入门