如需基于 WebSocket 的实时双向流式识别,请参考 流式语音识别(双向流式)。
服务地址
POST https://api.stepfun.com/v1/audio/asr/sse
Step Plan 场景请使用
POST https://api.stepfun.com/step_plan/v1/audio/asr/sse。请求头
Content-Typestringrequired
固定为application/json。Acceptstringrequired
固定为text/event-stream。Authorizationstringrequired
认证令牌,格式为Bearer $STEPFUN_API_KEY。
请求参数
-
audioobjectrequired
音频数据与识别配置。
请求示例
兼容性说明:
- 为保持向后兼容,SSE 仍接受
step-asr-1.1-stream作为model值传入,等同于stepaudio-2.5-asr。 - SSE 不再支持
full_rerun_on_commit(二遍识别纠错)参数;存量代码中如仍传入该参数,将被服务端忽略,不影响识别结果。如需二遍识别能力,请改用 WebSocket 接入(见 流式语音识别(双向流式))。
- 音频数据需使用 Base64 编码。
- 支持的音频格式包括
ogg、mp3、wav、pcm。 - 当音频格式为
pcm时,rate、bits、channel为必填参数;为ogg、mp3、wav时为选填。
响应
SSE 流式响应,包含以下事件类型。Delta 事件(transcript.text.delta)
表示增量转录文本。typestring
事件类型,固定为transcript.text.delta。meta.session_idstring
会话 ID。meta.timestampint64
服务端事件 Unix 时间戳,单位毫秒。deltastring
增量转录文本。item_idstring
对话项 ID。content_indexint
内容索引。start_timeint64
识别文本对应的音频开始时间,单位毫秒。end_timeint64
识别文本对应的音频结束时间,单位毫秒。
当请求参数
enable_timestamp=true 时,Delta 事件返回结果中新增 item_id、content_index、start_time、end_time 字段;meta.timestamp 是服务端事件 Unix 时间戳,start_time / end_time 是识别文本在音频中的时间位置,二者单位均为毫秒。Done 事件(transcript.text.done)
表示完整转录文本已经生成。typestring
事件类型,固定为transcript.text.done。meta.session_idstring
会话 ID。meta.timestampint64
Unix 时间戳,单位毫秒。textstring
完整转录文本。usageobject
使用统计信息。
错误事件(error)
表示识别过程出错。typestring
事件类型,固定为error。meta.session_idstring
会话 ID。meta.timestampint64
Unix 时间戳,单位毫秒。messagestring
错误描述信息。