StepAudio 2.5 ASR

关键信息
核心能力
适用场景
API 端点
定价
快速上手
相关资源

StepAudio 2.5 ASR 是 4B 参数的语音识别模型。引入 Multi-Token Prediction（MTP）技术实现单步并行预测多个 Token，在保持 SOTA 转写精度的同时大幅削减串行等待周期——5 分钟音频可在 1 秒内完成转写。

在线体验

在阶跃星辰开放平台直接体验。

API 快速开始

查看最小可运行的 curl 调用示例。

Step Plan 接入

Step Plan 订阅用户可直接使用。

关键信息

模型架构

4B MTP

引擎侧 RTF

≈ 0.0053
转写 1 小时音频约需 19 秒

API 定价

0.15 元 / 小时

核心能力

⚡ 极速推理

引入 MTP（Multi-Token Prediction）技术，单步并行预测多个 Token，吞吐量较传统 ASR 提升 400%，时延降低 60%，5 分钟音频 1 秒内出完整转写结果。

🎯 SOTA 转写精度

基于 4B 参数深度优化，在新闻、会议、强噪声等多场景下，中英文错误率全面刷新行业基线。

适用场景

Voice Agent、大规模转写服务、实时字幕 / 直播。

API 端点

语音识别（流式返回文本）

POST /v1/audio/asr/sse
一次性提交音频 Base64 数据，服务端通过 SSE 流式返回识别文本。支持 PCM / OGG / MP3 / WAV，支持中英文识别，支持 enable_itn 与 prompt 参数。

定价

计费项	单价
API 调用	0.15 元 / 小时

仅为上代 Step ASR 2 的 1/10。Step Plan 用户可直接使用。具体规则见定价与限速。

快速上手

curl https://api.stepfun.com/v1/audio/asr/sse \
  -H "Authorization: Bearer $STEP_API_KEY" \
  -H "Content-Type: application/json" \
  -H "Accept: text/event-stream" \
  -d '{
    "audio": {
      "data": "base64_encoded_audio",
      "input": {
        "transcription": {
          "model": "stepaudio-2.5-asr",
          "language": "zh",
          "enable_itn": true
        },
        "format": {
          "type": "pcm",
          "codec": "pcm_s16le",
          "rate": 16000,
          "bits": 16,
          "channel": 1
        }
      }
    }
  }'

服务端会逐步发送 transcript.text.delta 事件并以 transcript.text.done 结束。

Demo Page

产品 Demo 页面。

Model Card

模型卡，查看架构与评测细节。

语音识别（流式返回文本）API

查看完整参数、响应事件、错误处理。

Step Plan 接入

Step Plan 订阅下的 ASR 调用路径。

StepAudio 2.5 TTS 生图改图模型

开始使用

模型列表

定价计费

条款与协议

在线体验

API 快速开始

Step Plan 接入

关键信息

模型架构

引擎侧 RTF

API 定价

核心能力

⚡ 极速推理

🎯 SOTA 转写精度

适用场景

API 端点

语音识别（流式返回文本）

定价

快速上手

相关资源

Demo Page

Model Card

语音识别（流式返回文本）API

Step Plan 接入

开始使用

模型列表

定价计费

条款与协议

在线体验

API 快速开始

Step Plan 接入

​关键信息

模型架构

引擎侧 RTF

API 定价

​核心能力

⚡ 极速推理

🎯 SOTA 转写精度

​适用场景

​API 端点

语音识别（流式返回文本）

​定价

​快速上手

​相关资源

Demo Page

Model Card

语音识别（流式返回文本）API

Step Plan 接入

关键信息

核心能力

适用场景

API 端点

定价

快速上手

相关资源