跳转到主要内容

模型概览

阶跃星辰提供两种语音对话方案,适用于不同的场景需求:
特性Chat Completions APIRealtime API
连接方式HTTP 请求WebSocket 长连接
语音识别 (ASR)需自行实现或使用第三方服务内置,自动识别用户语音
上下文管理需自行维护 messages 列表内置,自动管理对话历史
语音活动检测 (VAD)需自行实现内置,自动检测用户说话
联网搜索需自行实现搜索接口内置 web_search 工具
知识库检索需自行实现内置 retrieval 工具
延迟较低(流式输出)极低(双向流式交互)
适用场景离线处理、批量任务、简单集成实时对话、语音助手、客服机器人
以下模型你可以通过 Chat APIRealtime API 来使用它们。

模型列表

step-audio-r1.1

  • 定位:深度声音理解与思考
  • 能力标签:边说边想、深度推理
  • 体验入口:体验中心
  • 具备强大的声音细节分析与逻辑推理能力。支持语音推理,能听懂语气背后的深意。通过推理思考,大幅提高对声音和情绪的理解。
  • 推理和说话并发进行,在保证高质量回复的同时实现更快响应。

step-audio-2

  • 定位:全方位感官理解与端到端自然交互
  • 能力标签:音色复刻、Tool Call、网络搜索
  • 体验入口:体验中心
  • 在语言方面能够理解中文普通话、中文方言、英语、日语。支持语音复刻(通过上传音色片段实现自定义音色)。在能力方面能够理解环境声音事件、人类副语言和语音中的情绪、根据声音推测用户年龄、理解音乐,能够控制不同的语速、语调和情感进行表达,具备原生的 Tool Call 和 网络搜索 能力。

step-audio-2-mini

  • 定位:轻盈、极速而又不失深度
  • 能力标签:Tool Call、网络搜索
  • 接入方式:仅支持 API 接入
  • 与 step-audio-2 模型相似,原生的 Tool Call 和 网络搜索 能力,效果得分在指令遵循、数理和推理任务上略低于 step-audio-2。模型推理速度更快,需要的资源更少。

step-1o-audio

  • 定位:稳定型,久经考验
  • 能力标签:Tool Call
  • 接入方式:仅支持 API 接入
  • 第一代 端到端语音模型。技术成熟稳定,在汽车场景下大规模部署,久经考验,支持多种预置音色风格,支持工具调用。适用于构建基础的语音交互、内容生成等常规业务场景。

应用案例展示

  • 情感陪伴场景:在用户分享人生重要时刻时,如相亲成功经历,模型能够表达恰当的祝贺,提出深入问题,并展现真实的情感共鸣。
试听: 恭喜相亲成功 (由 step-1o-audio 生成)
  • 安全驾驶辅助:识别驾驶者疲劳状态下的语音特征,给予针对性的安全建议,同时通过情感支持缓解疲劳感。
试听: 疲劳提醒 (由 step-1o-audio 生成)
  • 方言交互能力:精准模拟地方方言特性,如四川话的音调起伏和特色词汇运用,提供本地化的语音交互体验。
试听: 四川话 (由 step-1o-audio 生成)
  • 如何与男朋友撒娇:以自然可爱且略带俏皮的语气,示范与亲密关系间的撒娇互动,增强关系亲密度。
试听: 撒娇互动 (由 step-1o-audio 生成)
  • 亲子关系支持:针对家长首次送孩子入学等敏感场景,理解并安抚焦虑情绪,同时提供实用的适应性建议。
试听: 入学的安抚 (由 step-1o-audio 生成)

业务场景应用

Realtime API 凭借实时交互与情感理解能力,已在多个行业领域实现成功落地:
  • 智能座舱:为车载系统提供自然语音交互界面,支持驾驶过程中的信息查询、闲聊对话和安全提醒
  • 智能终端:为各类IOT智能硬件设备提供实时语音交互能力,提升用户与设备间的交互体验
  • 社交娱乐:帮助社交平台和娱乐应用构建情感陪伴Agent
  • 智能客服:实现高度拟人化的客户服务体验,提升服务效率和客户满意度
  • 金融调解:在金融纠纷处理过程中提供中立、专业的沟通辅助
通过集成 Realtime API,开发者可以快速构建具备人类般自然交流能力的应用,为用户带来真正沉浸式的语音交互体验。

模型快速入门

实时双向语音开发

了解 Realtime API 的事件模型、会话管理和语音交互流程。

语音对话开发

通过 Chat Completion 接口接入语音输入输出与音频流式能力。

Realtime API 事件文档

查看 Realtime API 的请求格式、事件字段和接口说明。

Realtime API Demo

参考官方前端演示项目,快速搭建实时语音对话控制台。