stepaudio-2.5-asr-stream。
如需基于 HTTP + SSE 一次性提交音频并接收流式识别结果,请参考 语音识别(流式返回文本)。
服务地址
通过 WebSocket 连接:wss://api.stepfun.com/v1/realtime/asr/stream
鉴权
Authorizationstringrequired
认证令牌,格式为Bearer $STEPFUN_API_KEY。
客户端消息
会话更新(session.update)
更新会话配置,包括音频格式、识别参数等。-
event_idstringrequired
当前消息事件 ID。 -
typestringrequired
消息类型,固定为session.update。 -
session.audio.input.formatobject
音频格式。 -
session.audio.input.transcriptionobject
识别配置。 -
session.audio.input.turn_detectionobject
语音活动检测(VAD)配置。
- 当前支持
stepaudio-2.5-asr-stream、step-asr-1.1-stream。 - 如果不传
turn_detection.type=server_vad,服务端不会自动做 VAD,此时客户端需主动发送input_audio_buffer.commit。
追加音频(input_audio_buffer.append)
发送音频数据进行实时识别。event_idstringrequired
事件唯一标识。audiostringrequired
base64 编码的音频数据(WAV 格式)。
提交缓冲区(input_audio_buffer.commit)
仅在关闭server_vad 时需要发送该消息,要求服务端提交音频缓冲区、触发转录处理。
event_idstringrequired
事件唯一标识。
服务端消息
会话创建确认(session.created)
确认会话创建成功。会话更新确认(session.updated)
确认会话配置更新成功。语音开始(input_audio_buffer.speech_started)
仅在开启server_vad 时返回,表示服务端检测到语音开始。
语音结束(input_audio_buffer.speech_stopped)
仅在开启server_vad 时返回,表示服务端检测到语音结束。
缓冲区提交确认(input_audio_buffer.committed)
确认音频缓冲区已提交。对话项创建(conversation.item.created)
新的对话项(转录结果)已创建。转录增量(conversation.item.input_audio_transcription.delta)
返回转录增量结果(流式输出)。stepaudio-2.5-asr-stream(推荐)
item_idstring
对话项 ID。content_indexint
内容索引。textstring
截止当前的累计全量文本(含对前文的纠错)。客户端应整体替换展示,不要再追加拼接。stashstring
可纠错的尾部文本(末尾若干字,后续可能被改写)。建议与text区分样式展示。wordslist
逐字时间数组,元素为{ "word", "start", "end", "final" }。start/end单位为秒(float);final=false表示该字在stash区、时间为临时估计。
step-asr-1.1-stream(逐步废弃)
item_idstring
对话项 ID。content_indexint
内容索引。textstring
增量转录文本。start_timeint64
开始时间(毫秒)。end_timeint64
结束时间(毫秒)。
转录完成(conversation.item.input_audio_transcription.completed)
返回完整转录结果。stepaudio-2.5-asr-stream(推荐)
item_idstring
对话项 ID。content_indexint
内容索引。transcriptstring
完整转录文本。wordslist
该段全部逐字时间,结构同delta;此处final均为true。开启enable_timestamp_align=true后为精确字级时间戳。usageobject
使用统计信息。
step-asr-1.1-stream(逐步废弃)
item_idstring
对话项 ID。content_indexint
内容索引。transcriptstring
完整转录文本。usageobject
使用统计信息。
错误消息(error)
返回错误信息。| 类型 | 描述 |
|---|---|
invalid_request_error | 请求参数错误 |
internal_error | 服务器内部错误 |
risk | 内容安全风险 |
| 错误码 | 描述 |
|---|---|
invalid_value | 无效参数值 |
missing_param | 缺少必需参数 |
internal_error | 内部错误 |
max_idle_timeout | 空闲超时 |
pong_timeout | 心跳超时 |
risk_blocked | 内容被拦截 |
故障排除
- 连接失败:检查服务是否可达、地址与鉴权是否正确。
- 音频无识别结果:确认音频格式、编码与质量。
- 识别准确性低:尝试使用
prompt提示词或更换模型。 - 延迟过高:减小音频分块大小。