> ## Documentation Index
> Fetch the complete documentation index at: https://platform.stepfun.com/docs/llms.txt
> Use this file to discover all available pages before exploring further.

# 实时语音互动模型

export const DemoAudioPlayer = ({src, title, subtitle}) => {
  if (!src) {
    return title || null;
  }
  return <div style={{
    display: "grid",
    gap: "0.25rem",
    margin: "0.25rem 0"
  }}>
      {title ? <strong>{title}</strong> : null}
      {subtitle ? <span>{subtitle}</span> : null}
      <audio controls preload="none" src={src} style={{
    width: "100%"
  }} />
    </div>;
};

## 模型概览

阶跃星辰提供两种语音对话方案，适用于不同的场景需求：

| 特性           | Chat Completions API | Realtime API      |
| ------------ | -------------------- | ----------------- |
| 连接方式         | HTTP 请求              | WebSocket 长连接     |
| 语音识别 (ASR)   | 需自行实现或使用第三方服务        | 内置，自动识别用户语音       |
| 上下文管理        | 需自行维护 messages 列表    | 内置，自动管理对话历史       |
| 语音活动检测 (VAD) | 需自行实现                | 内置，自动检测用户说话       |
| 联网搜索         | 需自行实现搜索接口            | 内置 web\_search 工具 |
| 知识库检索        | 需自行实现                | 内置 retrieval 工具   |
| 延迟           | 较低（流式输出）             | 极低（双向流式交互）        |
| 适用场景         | 离线处理、批量任务、简单集成       | 实时对话、语音助手、客服机器人   |

以下模型你可以通过 [Chat API](/zh/guides/developer/audio-chat) 和 [Realtime API](/zh/guides/developer/realtime) 来使用它们。

## 模型列表

### Step Audio R1.1

* 定位：深度声音理解与思考
* 能力标签：边说边想、深度推理
* 体验入口：[体验中心](https://www.stepfun.com/studio/audio?tab=conversation)
* 具备强大的声音细节分析与逻辑推理能力。支持语音推理，能听懂语气背后的深意。通过推理思考，大幅提高对声音和情绪的理解。
* 推理和说话并发进行，在保证高质量回复的同时实现更快响应。

### Step Audio 2

* 定位：全方位感官理解与端到端自然交互
* 能力标签：音色复刻、Tool Call、网络搜索
* 体验入口：[体验中心](https://www.stepfun.com/studio/audio?tab=voice-chat)
* 在语言方面能够理解中文普通话、中文方言、英语、日语。支持语音复刻（通过上传音色片段实现自定义音色）。在能力方面能够理解环境声音事件、人类副语言和语音中的情绪、根据声音推测用户年龄、理解音乐，能够控制不同的语速、语调和情感进行表达，具备原生的 Tool Call 和 网络搜索 能力。

### Step Audio 2 Mini

* 定位：轻盈、极速而又不失深度
* 能力标签：Tool Call、网络搜索
* 接入方式：仅支持 API 接入
* 与 `step-audio-2` 模型相似，原生的 Tool Call 和网络搜索能力，效果得分在指令遵循、数理和推理任务上略低于 `step-audio-2`。模型推理速度更快，需要的资源更少。

### Step-1o Audio

* 定位：稳定型，久经考验
* 能力标签：Tool Call
* 接入方式：仅支持 API 接入
* 第一代 端到端语音模型。技术成熟稳定，在汽车场景下大规模部署，久经考验，支持多种预置音色风格，支持工具调用。适用于构建基础的语音交互、内容生成等常规业务场景。

## 应用案例展示

* **情感陪伴场景**：在用户分享人生重要时刻时，如相亲成功经历，模型能够表达恰当的祝贺，提出深入问题，并展现真实的情感共鸣。

  <DemoAudioPlayer title="试听：恭喜相亲成功" subtitle="由 step-1o-audio 生成" src="/audio/xiangqin.mp3" />

* **安全驾驶辅助**：识别驾驶者疲劳状态下的语音特征，给予针对性的安全建议，同时通过情感支持缓解疲劳感。

  <DemoAudioPlayer title="试听：疲劳提醒" subtitle="由 step-1o-audio 生成" src="/audio/anmo.mp3" />

* **方言交互能力**：精准模拟地方方言特性，如四川话的音调起伏和特色词汇运用，提供本地化的语音交互体验。

  <DemoAudioPlayer title="试听：四川话" subtitle="由 step-1o-audio 生成" src="/audio/fangyan.mp3" />

* **如何与男朋友撒娇**：以自然可爱且略带俏皮的语气，示范与亲密关系间的撒娇互动，增强关系亲密度。

  <DemoAudioPlayer title="试听：撒娇互动" subtitle="由 step-1o-audio 生成" src="/audio/sajiao.mp3" />

* **亲子关系支持**：针对家长首次送孩子入学等敏感场景，理解并安抚焦虑情绪，同时提供实用的适应性建议。

  <DemoAudioPlayer title="试听：入学的安抚" subtitle="由 step-1o-audio 生成" src="/audio/ruxue.mp3" />

## 业务场景应用

Realtime API 凭借实时交互与情感理解能力，已在多个行业领域实现成功落地：

* **智能座舱**：为车载系统提供自然语音交互界面，支持驾驶过程中的信息查询、闲聊对话和安全提醒
* **智能终端**：为各类 IOT 智能硬件设备提供实时语音交互能力，提升用户与设备间的交互体验
* **社交娱乐**：帮助社交平台和娱乐应用构建情感陪伴 Agent
* **智能客服**：实现高度拟人化的客户服务体验，提升服务效率和客户满意度
* **金融调解**：在金融纠纷处理过程中提供中立、专业的沟通辅助

通过集成 Realtime API，开发者可以快速构建具备人类般自然交流能力的应用，为用户带来真正沉浸式的语音交互体验。

## 模型快速入门

<Columns cols={2}>
  <Card title="实时双向语音开发" href="/zh/guides/developer/realtime">
    了解 Realtime API 的事件模型、会话管理和语音交互流程。
  </Card>

  <Card title="语音对话开发" href="/zh/guides/developer/audio-chat">
    通过 Chat Completion 接口接入语音输入输出与音频流式能力。
  </Card>

  <Card title="Realtime API 事件文档" href="/zh/api-reference/realtime/chat">
    查看 Realtime API 的请求格式、事件字段和接口说明。
  </Card>

  <Card title="Realtime API Demo" href="https://github.com/stepfun-ai/Step-Realtime-Console">
    参考官方前端演示项目，快速搭建实时语音对话控制台。
  </Card>
</Columns>
