实时对话体验
访问体验中心,感受双向语音对话效果。
API 快速开始
查看最小可运行的 WebSocket 调用示例。
Step Plan 接入
Step Plan 订阅用户可直接使用。
关键信息
模型类型
端到端实时语音
语音输入 / 语音输出
语音输入 / 语音输出
协议
WebSocket
核心能力
💗 情绪价值
不再是冰冷的 AI,而是有脾气、有态度、懂接梗的鲜活搭子,为你带来最自然、好玩的陪伴体验。
🧠 对话双商领跑
实现对话智商与情商的双重跃升。深度理解复杂语意、机智抛梗,输出契合度拉满的高情商反馈。
👂 副语言感知
具备行业顶级副语言感知力——瞬间读懂语气中的迟疑与轻笑,无需用户明说就能精准捕捉情绪。
🎭 千万人设完全自定义
真正实现”全维灵魂捏脸”,彻底打破预设模板束缚。支持细颗粒度定义性格特征、专属口癖与情绪边界。
🎬 贴合语境神级表现力
全面继承 StepAudio 2.5 TTS 能力,实现”Global 全局场景定调”与”句内细节雕琢”的双重能力,发声时自然融入轻笑、叹息等真实细节。
🎙️ 音色复刻
支持音色复刻——上传参考音频获取自定义 voiceid,复刻效果与 StepAudio 2.5 TTS 相当,可用 TTS 试听复刻效果。
适用场景
情感陪伴、日常交流、百科问答、任务助手等日常实时沟通交互对话全场景。API 端点
双向实时语音
WebSocket /v1/realtime建立 WebSocket 连接,通过 Client / Server Event 完成双向语音交互。
定价
| 计费项 | 单价 |
|---|---|
| 输入(缓存未命中) | 10 元 / 1M tokens |
| 输入(缓存命中) | 2 元 / 1M tokens |
| 输出 | 70 元 / 1M tokens |
快速上手
session.update 配置会话;通过 input_audio_buffer.append 持续追加音频帧;ServerVAD 检测到说话结束自动触发推理,模型以 response.audio.delta 流式返回语音。
相关资源
语音大模型总览
返回语音大模型概览页,查看所有 TTS / ASR / 实时语音模型。
双向实时语音 API
查看完整事件协议、参数与响应。
StepAudio 2.5 TTS
可用 TTS 试听音色复刻效果。
Step Plan 接入
Step Plan 订阅下的实时语音对话路径。