实时语音互动模型 - StepFun 开放平台文档中心

模型概览

阶跃星辰提供两种语音对话方案，适用于不同的场景需求：

特性	Chat Completions API	Realtime API
连接方式	HTTP 请求	WebSocket 长连接
语音识别 (ASR)	需自行实现或使用第三方服务	内置，自动识别用户语音
上下文管理	需自行维护 messages 列表	内置，自动管理对话历史
语音活动检测 (VAD)	需自行实现	内置，自动检测用户说话
联网搜索	需自行实现搜索接口	内置 web_search 工具
知识库检索	需自行实现	内置 retrieval 工具
延迟	较低（流式输出）	极低（双向流式交互）
适用场景	离线处理、批量任务、简单集成	实时对话、语音助手、客服机器人

以下模型你可以通过 Chat API 和 Realtime API 来使用它们。

模型列表

Step Audio R1.5

定位：深度声音理解与推理（Step Audio R1.1 升级版）
能力标签：边说边想、深度推理、自然交互
体验入口：体验中心
在 Step Audio R1.1 的基础上升级，进一步强化声音细节分析与逻辑推理能力，能听懂语气背后的深意，大幅提高对声音和情绪的理解。
引入基于人类反馈的强化学习（RLHF），在保持推理能力的同时，提升长程语音对话的自然度与情感连贯性。
推理和说话并发进行，在保证高质量回复的同时实现更快响应。

原 Step Audio R1.1 已升级为 Step Audio R1.5，并结束限时免费，按文本 token 计费。计费标准请见定价与限速。

Step Audio 2

定位：全方位感官理解与端到端自然交互
能力标签：音色复刻、Tool Call、网络搜索
体验入口：体验中心
在语言方面能够理解中文普通话、中文方言、英语、日语。支持语音复刻（通过上传音色片段实现自定义音色）。在能力方面能够理解环境声音事件、人类副语言和语音中的情绪、根据声音推测用户年龄、理解音乐，能够控制不同的语速、语调和情感进行表达，具备原生的 Tool Call 和网络搜索能力。

Step Audio 2 Mini

定位：轻盈、极速而又不失深度
能力标签：Tool Call、网络搜索
接入方式：仅支持 API 接入
与 step-audio-2 模型相似，原生的 Tool Call 和网络搜索能力，效果得分在指令遵循、数理和推理任务上略低于 step-audio-2。模型推理速度更快，需要的资源更少。

Step-1o Audio

定位：稳定型，久经考验
能力标签：Tool Call
接入方式：仅支持 API 接入
第一代端到端语音模型。技术成熟稳定，在汽车场景下大规模部署，久经考验，支持多种预置音色风格，支持工具调用。适用于构建基础的语音交互、内容生成等常规业务场景。

应用案例展示

情感陪伴场景：在用户分享人生重要时刻时，如相亲成功经历，模型能够表达恰当的祝贺，提出深入问题，并展现真实的情感共鸣。
安全驾驶辅助：识别驾驶者疲劳状态下的语音特征，给予针对性的安全建议，同时通过情感支持缓解疲劳感。
方言交互能力：精准模拟地方方言特性，如四川话的音调起伏和特色词汇运用，提供本地化的语音交互体验。
如何与男朋友撒娇：以自然可爱且略带俏皮的语气，示范与亲密关系间的撒娇互动，增强关系亲密度。
亲子关系支持：针对家长首次送孩子入学等敏感场景，理解并安抚焦虑情绪，同时提供实用的适应性建议。

业务场景应用

Realtime API 凭借实时交互与情感理解能力，已在多个行业领域实现成功落地：

智能座舱：为车载系统提供自然语音交互界面，支持驾驶过程中的信息查询、闲聊对话和安全提醒
智能终端：为各类 IOT 智能硬件设备提供实时语音交互能力，提升用户与设备间的交互体验
社交娱乐：帮助社交平台和娱乐应用构建情感陪伴 Agent
智能客服：实现高度拟人化的客户服务体验，提升服务效率和客户满意度
金融调解：在金融纠纷处理过程中提供中立、专业的沟通辅助

通过集成 Realtime API，开发者可以快速构建具备人类般自然交流能力的应用，为用户带来真正沉浸式的语音交互体验。

模型快速入门

实时双向语音开发

了解 Realtime API 的事件模型、会话管理和语音交互流程。

语音对话开发

通过 Chat Completion 接口接入语音输入输出与音频流式能力。

Realtime API 事件文档

查看 Realtime API 的请求格式、事件字段和接口说明。

Realtime API Demo

参考官方前端演示项目，快速搭建实时语音对话控制台。

​模型概览

​模型列表

​Step Audio R1.5

​Step Audio 2

​Step Audio 2 Mini

​Step-1o Audio

​应用案例展示

​业务场景应用

​模型快速入门

实时双向语音开发

语音对话开发

Realtime API 事件文档

Realtime API Demo

模型概览

模型列表

Step Audio R1.5

Step Audio 2

Step Audio 2 Mini

Step-1o Audio

应用案例展示

业务场景应用

模型快速入门