跳转到主要内容
StepAudio 2.5 ASR 是 4B 参数的语音识别模型。引入 Multi-Token Prediction(MTP)技术实现单步并行预测多个 Token,在保持 SOTA 转写精度的同时大幅削减串行等待周期——5 分钟音频可在 1 秒内完成转写。

在线体验

在阶跃星辰开放平台直接体验。

API 快速开始

查看最小可运行的 curl 调用示例。

Step Plan 接入

Step Plan 订阅用户可直接使用。

关键信息

模型架构

4B MTP

引擎侧 RTF

≈ 0.0053
转写 1 小时音频约需 19 秒

API 定价

0.15 元 / 小时

核心能力

⚡ 极速推理

引入 MTP(Multi-Token Prediction)技术,单步并行预测多个 Token,吞吐量较传统 ASR 提升 400%,时延降低 60%,5 分钟音频 1 秒内出完整转写结果。

🎯 SOTA 转写精度

基于 4B 参数深度优化,在新闻、会议、强噪声等多场景下,中英文错误率全面刷新行业基线。

适用场景

Voice Agent、大规模转写服务、实时字幕 / 直播。

API 端点

语音识别(流式返回文本)

POST /v1/audio/asr/sse
一次性提交音频 Base64 数据,服务端通过 SSE 流式返回识别文本。支持 PCM / OGG / MP3 / WAV,支持中英文识别,支持 enable_itnprompt 参数。

定价

计费项单价
API 调用0.15 元 / 小时
仅为上代 Step ASR 2 的 1/10。Step Plan 用户可直接使用。具体规则见 定价与限速

快速上手

curl https://api.stepfun.com/v1/audio/asr/sse \
  -H "Authorization: Bearer $STEP_API_KEY" \
  -H "Content-Type: application/json" \
  -H "Accept: text/event-stream" \
  -d '{
    "audio": {
      "data": "base64_encoded_audio",
      "input": {
        "transcription": {
          "model": "stepaudio-2.5-asr",
          "language": "zh",
          "enable_itn": true
        },
        "format": {
          "type": "pcm",
          "codec": "pcm_s16le",
          "rate": 16000,
          "bits": 16,
          "channel": 1
        }
      }
    }
  }'
服务端会逐步发送 transcript.text.delta 事件并以 transcript.text.done 结束。

相关资源

Demo Page

产品 Demo 页面。

Model Card

模型卡,查看架构与评测细节。

语音识别(流式返回文本)API

查看完整参数、响应事件、错误处理。

Step Plan 接入

Step Plan 订阅下的 ASR 调用路径。