> ## Documentation Index
> Fetch the complete documentation index at: https://platform.stepfun.com/docs/llms.txt
> Use this file to discover all available pages before exploring further.

# 语音模型列表

## 模型概览

阶跃语音系列模型基于先进的语音合成与识别技术，提供从文字到语音的高表现力生成、以及从语音到文字的高准确率识别能力，覆盖配音、语音助手、智能硬件、直播带货、Voice Agent、实时字幕、会议记录等多种语音交互与转写场景。

## 模型列表

关于 StepAudio 2.5 系列的对话模型，我们提供了两种不同的方式调用最新的语音对话模型，分别对应 StepAudio 2.5 Realtime 和 StepAudio 2.5 Chat：

* StepAudio 2.5 Realtime，支持实时语音对话的 Realtime 交互形式，使用 websocket 协议，支持语音请求、语音回复，便于直接使用我们封装好的一整套实时对话能力使用。
* StepAudio 2.5 Chat，支持按轮次对话的 Chat Comletion 交互形式，支持单次提交语音请求、流式文本输出回复内容，便于基于接口和模型能力进行接入和开发。

### StepAudio 2.5 Realtime

真正具备"活人感"的实时语音大模型。**全维度打造专属人设，连每一次呼吸和轻笑都不掉戏。**

#### 核心提升

1. **情绪价值**：不再是冰冷的 AI，而是有脾气、有态度、懂接梗的鲜活搭子，为你带来最自然、好玩的陪伴体验。
2. **对话双商领跑**：实现对话智商与情商的双重跃升。不仅能深度理解复杂语意、机智抛梗，更具备行业顶级副语言感知力——瞬间读懂你语气中的迟疑与轻笑，极速输出契合度拉满的高情商反馈。
3. **副语言感知**：不仅能深度理解复杂语意、机智抛梗，更具备行业顶级副语言感知力——瞬间读懂你语气中的迟疑与轻笑，极速输出契合度拉满的高情商反馈。
4. **千万人设完全自定义**：真正实现"全维灵魂捏脸"，彻底打破预设模板束缚。支持细颗粒度定义性格特征、专属口癖与情绪边界，随心打造千万种独一无二的专属搭子。
5. **贴合语境神级表现力**：在声音表现层面，StepAudio 2.5 Realtime 全面继承了业内顶尖的 StepAudio 2.5 TTS 能力，理解与生成的深度融合，结合强化学习训练，实现了"Global 全局场景定调"与"句内细节雕琢"的双重能力。能够精准洞察对话氛围，极细颗粒度地拿捏语速、重音与潜台词；发声时自然融入轻笑、叹息等真实细节，让每一次开口都与当下的交流场景完美契合。

#### 适配场景

情感陪伴、日常交流、百科问答、任务助手等日常实时沟通交互对话全场景。

### StepAudio 2.5 Chat

真正具备"活人感"的对话大模型。**全维度打造专属人设，连每一次呼吸和轻笑都不掉戏。**

#### 核心提升

1. **情绪价值**：不再是冰冷的 AI，而是有脾气、有态度、懂接梗的鲜活搭子，为你带来最自然、好玩的陪伴体验。
2. **对话双商领跑**：实现对话智商与情商的双重跃升。不仅能深度理解复杂语意、机智抛梗，更具备行业顶级副语言感知力——瞬间读懂你语气中的迟疑与轻笑，极速输出契合度拉满的高情商反馈。
3. **副语言感知**：不仅能深度理解复杂语意、机智抛梗，更具备行业顶级副语言感知力——瞬间读懂你语气中的迟疑与轻笑，极速输出契合度拉满的高情商反馈。
4. **千万人设完全自定义**：真正实现"全维灵魂捏脸"，彻底打破预设模板束缚。支持细颗粒度定义性格特征、专属口癖与情绪边界，随心打造千万种独一无二的专属搭子。

### StepAudio 2.5 TTS

Contextual TTS，真正具有声音表演能力的语音合成模型。首次将**语境理解能力**引入语音生成全流程，让 AI 不是念文本，而是演文本。支持**通过自然语言描述实现全局语境定调与句中细腻控制**，生成具有呼吸感、轻重主次、情绪弧线的真人级表达。

#### 核心提升

1. **双档语境控制，人人都是配音导演**：
   * 通过 Global Context（全局语境）+ Inline Context（文中语境）双档控制，既能为整段内容定调氛围和人物关系，也能逐句精控每个字词如何演绎。
   * 告别传统标签匹配，用自然语言描述你想要的声音表达。情绪、风格、场景、说话状态，模型都能理解并精准执行。
   * 支持「克制的悲伤，不哭腔，轻轻发颤」「试探着撒娇，不是很黏，带一点嘴硬」这类复杂、混合、有层次的表达意图，实现更开放、更连续、也更贴近真实语境的情绪控制。
2. **Zero-shot Clone 全音色可控，百变音色随心复刻**：
   * 只需 3s 参考音频即可进行音色复刻，且完整继承全局 / 文中语境控制能力，不受固定音库和预设角色的限制。
3. **字字有戏，句句真实，开口没有 AI 味**：
   * 在停顿、重音、节奏、语气转折等韵律维度上全面提升，合成语音有呼吸感、有轻重主次、有情绪起伏。
   * 底层人声品质升级，输出的声音更通透、更具拟人感，没有传统语音合成常见的"塑料感"和"AI 味"。

#### 适配场景

有声书、短剧配音、广告旁白、情感叙事、内容二创等多种对语音表现力有高要求的场景。

### Step TTS 2

`step-tts-mini` 的升级版：极简高效设计摒弃传统 speaker/emotion 嵌入模块，通过纯 NTP 实现端到端语音生成，大幅降低系统复杂度。支持 `step-tts-mini` 全部音色、情绪、风格、语种，并在其基础上，进一步强化**情绪与风格的可控度**、**情绪表现力** 和**音色复刻效果**。

#### 核心提升

1. **11 种情绪 17种风格 3种语言精准可控，情绪饱满，韵律自然，表现力强**：
   * 内置 11 种情绪 与 17 种风格 控制，覆盖从温柔甜美到严肃豪爽的多样化表达。语气、韵律与停连更贴近真人情绪起伏。
   * 完美适配需要情绪张力的配音与对话。
   * 支持粤语、四川话、日语。
2. **10s 音频，精准复刻，0成本支持全部情绪风格控制**：
   * 仅需约 10 秒参考音频，即可精准复刻音色，并零成本激活全部情绪与风格控制；
   * 适合需要用复刻后的音色 + 多情绪播报的场景，如短视频配音、情感陪聊、营销播报等。
3. **音色复刻支持口音精准还原**：
   * 领先的 LLM-based 架构，相较同类产品，可提供对说话人口音细节更精准的复刻效果。
   * 为 **直播带货** 场景提供更加真实、自然的语音交互体验，有效提升观众沉浸感和信任度。让虚拟主播或智能话术如同真人般亲切生动，显著降低用户听觉疲劳，助力转化率提升。

### Step TTS Mini

强大的文本转语音模型，以高情绪表现力和风格可控性为亮点。

1. **11 种情绪、7种风格、3种语言可控**：内置 9 种情绪 与 13 种风格 控制；支持粤语、四川话、日语。
2. **10s 音频，精准复刻，0成本支持全部情绪风格控制**：仅需约 10 秒参考音频，即可精准复刻音色，并零成本激活全部情绪与风格控制。复刻相似度业界领先。

### StepAudio 2.5 ASR

阶跃新一代语音识别模型，4B 参数 + Multi-Token Prediction（MTP）架构。在保持 SOTA 转写精度的同时单步并行预测多个 Token，大幅削减串行等待——5 分钟音频可在 1 秒内完成转写。

#### 核心提升

1. **极速推理，吞吐与时延双线突破**：
   * 引入 MTP 技术单步并行预测多个 Token，吞吐量较传统 ASR 提升 400%，时延降低 60%。
   * 引擎侧 RTF ≈ 0.0053，转写 1 小时音频约需 19 秒，5 分钟音频 1 秒内出完整结果。
2. **SOTA 转写精度，多场景全面刷新基线**：
   * 基于 4B 参数深度优化，在新闻、会议、强噪声等多场景下，中英文错误率全面刷新行业基线。
   * 支持 ITN 文本规范化，转写结果可直接用于业务系统。
3. **极致性价比，Step Plan 直接可用**：
   * API 定价 0.15 元 / 小时，仅为上代 `step-asr` 系列的 1/10。
   * Step Plan 订阅用户可直接调用，无需额外开通。

#### 适配场景

Voice Agent、大规模批量转写、实时字幕 / 直播、会议记录、语音输入等对识别速度与准确率均有要求的场景。

### StepAudio 2 ASR Pro

32B 参数的 ASR Pro 模型。

### Step ASR

阶跃自动语音识别模型，支持实时与离线识别，具备高准确率与低延迟。

特点：

* 支持中英文及多种方言；
* 可应用于语音转写、会议记录、客服质检、语音搜索等场景。

### Step ASR 1.1

阶跃自动语音识别模型，适用于音频文件识别场景。

特点：

* 可应用于语音转写、会议记录、客服质检、语音搜索等场景。

### Step ASR 1.1 Stream

阶跃自动语音识别模型，适用于流式语音识别场景。

特点：

* 适用于实时语音输入与流式文本返回场景。

## 使用限制

1. **单次请求支持的最大字符数**：tts 模型单次最多支持输入 1000 个字符。
2. **输出格式**：支持 wav、mp3、flac、opus，默认为 mp3 格式。

## 模型快速入门

<Columns cols={2}>
  <Card title="音频合成开发指南" href="/zh/guides/developer/tts">
    了解语音生成、音色复刻和语音识别等能力的接入方式。
  </Card>
</Columns>
