在线体验
在阶跃星辰开放平台直接体验。
API 快速开始
查看最小可运行的 curl 调用示例。
Step Plan 接入
Step Plan 订阅用户可直接使用。
关键信息
模型架构
4B MTP
引擎侧 RTF
≈ 0.0053
转写 1 小时音频约需 19 秒
转写 1 小时音频约需 19 秒
API 定价
0.15 元 / 小时
核心能力
⚡ 极速推理
引入 MTP(Multi-Token Prediction)技术,单步并行预测多个 Token,吞吐量较传统 ASR 提升 400%,时延降低 60%,5 分钟音频 1 秒内出完整转写结果。
🎯 SOTA 转写精度
基于 4B 参数深度优化,在新闻、会议、强噪声等多场景下,中英文错误率全面刷新行业基线。
适用场景
Voice Agent、大规模转写服务、实时字幕 / 直播。API 端点
语音识别(流式返回文本)
POST /v1/audio/asr/sse一次性提交音频 Base64 数据,服务端通过 SSE 流式返回识别文本。支持 PCM / OGG / MP3 / WAV,支持中英文识别,支持
enable_itn 与 prompt 参数。定价
| 计费项 | 单价 |
|---|---|
| API 调用 | 0.15 元 / 小时 |
快速上手
transcript.text.delta 事件并以 transcript.text.done 结束。
相关资源
Demo Page
产品 Demo 页面。
Model Card
模型卡,查看架构与评测细节。
语音识别(流式返回文本)API
查看完整参数、响应事件、错误处理。
Step Plan 接入
Step Plan 订阅下的 ASR 调用路径。