跳转到主要内容

Documentation Index

Fetch the complete documentation index at: https://platform.stepfun.com/docs/llms.txt

Use this file to discover all available pages before exploring further.

模型概览

阶跃语音系列模型基于先进的语音合成与识别技术,提供从文字到语音的高表现力生成、以及从语音到文字的高准确率识别能力,覆盖配音、语音助手、智能硬件、直播带货、Voice Agent、实时字幕、会议记录等多种语音交互与转写场景。

模型列表

关于 StepAudio 2.5 系列的对话模型,我们提供了两种不同的方式调用最新的语音对话模型,分别对应 StepAudio 2.5 Realtime 和 StepAudio 2.5 Chat:
  • StepAudio 2.5 Realtime,支持实时语音对话的 Realtime 交互形式,使用 websocket 协议,支持语音请求、语音回复,便于直接使用我们封装好的一整套实时对话能力使用。
  • StepAudio 2.5 Chat,支持按轮次对话的 Chat Comletion 交互形式,支持单次提交语音请求、流式文本输出回复内容,便于基于接口和模型能力进行接入和开发。

StepAudio 2.5 Realtime

真正具备”活人感”的实时语音大模型。全维度打造专属人设,连每一次呼吸和轻笑都不掉戏。

核心提升

  1. 情绪价值:不再是冰冷的 AI,而是有脾气、有态度、懂接梗的鲜活搭子,为你带来最自然、好玩的陪伴体验。
  2. 对话双商领跑:实现对话智商与情商的双重跃升。不仅能深度理解复杂语意、机智抛梗,更具备行业顶级副语言感知力——瞬间读懂你语气中的迟疑与轻笑,极速输出契合度拉满的高情商反馈。
  3. 副语言感知:不仅能深度理解复杂语意、机智抛梗,更具备行业顶级副语言感知力——瞬间读懂你语气中的迟疑与轻笑,极速输出契合度拉满的高情商反馈。
  4. 千万人设完全自定义:真正实现”全维灵魂捏脸”,彻底打破预设模板束缚。支持细颗粒度定义性格特征、专属口癖与情绪边界,随心打造千万种独一无二的专属搭子。
  5. 贴合语境神级表现力:在声音表现层面,StepAudio 2.5 Realtime 全面继承了业内顶尖的 StepAudio 2.5 TTS 能力,理解与生成的深度融合,结合强化学习训练,实现了”Global 全局场景定调”与”句内细节雕琢”的双重能力。能够精准洞察对话氛围,极细颗粒度地拿捏语速、重音与潜台词;发声时自然融入轻笑、叹息等真实细节,让每一次开口都与当下的交流场景完美契合。

适配场景

情感陪伴、日常交流、百科问答、任务助手等日常实时沟通交互对话全场景。

StepAudio 2.5 Chat

真正具备”活人感”的对话大模型。全维度打造专属人设,连每一次呼吸和轻笑都不掉戏。

核心提升

  1. 情绪价值:不再是冰冷的 AI,而是有脾气、有态度、懂接梗的鲜活搭子,为你带来最自然、好玩的陪伴体验。
  2. 对话双商领跑:实现对话智商与情商的双重跃升。不仅能深度理解复杂语意、机智抛梗,更具备行业顶级副语言感知力——瞬间读懂你语气中的迟疑与轻笑,极速输出契合度拉满的高情商反馈。
  3. 副语言感知:不仅能深度理解复杂语意、机智抛梗,更具备行业顶级副语言感知力——瞬间读懂你语气中的迟疑与轻笑,极速输出契合度拉满的高情商反馈。
  4. 千万人设完全自定义:真正实现”全维灵魂捏脸”,彻底打破预设模板束缚。支持细颗粒度定义性格特征、专属口癖与情绪边界,随心打造千万种独一无二的专属搭子。

StepAudio 2.5 TTS

Contextual TTS,真正具有声音表演能力的语音合成模型。首次将语境理解能力引入语音生成全流程,让 AI 不是念文本,而是演文本。支持通过自然语言描述实现全局语境定调与句中细腻控制,生成具有呼吸感、轻重主次、情绪弧线的真人级表达。

核心提升

  1. 双档语境控制,人人都是配音导演
    • 通过 Global Context(全局语境)+ Inline Context(文中语境)双档控制,既能为整段内容定调氛围和人物关系,也能逐句精控每个字词如何演绎。
    • 告别传统标签匹配,用自然语言描述你想要的声音表达。情绪、风格、场景、说话状态,模型都能理解并精准执行。
    • 支持「克制的悲伤,不哭腔,轻轻发颤」「试探着撒娇,不是很黏,带一点嘴硬」这类复杂、混合、有层次的表达意图,实现更开放、更连续、也更贴近真实语境的情绪控制。
  2. Zero-shot Clone 全音色可控,百变音色随心复刻
    • 只需 3s 参考音频即可进行音色复刻,且完整继承全局 / 文中语境控制能力,不受固定音库和预设角色的限制。
  3. 字字有戏,句句真实,开口没有 AI 味
    • 在停顿、重音、节奏、语气转折等韵律维度上全面提升,合成语音有呼吸感、有轻重主次、有情绪起伏。
    • 底层人声品质升级,输出的声音更通透、更具拟人感,没有传统语音合成常见的”塑料感”和”AI 味”。

适配场景

有声书、短剧配音、广告旁白、情感叙事、内容二创等多种对语音表现力有高要求的场景。

Step TTS 2

step-tts-mini 的升级版:极简高效设计摒弃传统 speaker/emotion 嵌入模块,通过纯 NTP 实现端到端语音生成,大幅降低系统复杂度。支持 step-tts-mini 全部音色、情绪、风格、语种,并在其基础上,进一步强化情绪与风格的可控度情绪表现力音色复刻效果

核心提升

  1. 11 种情绪 17种风格 3种语言精准可控,情绪饱满,韵律自然,表现力强
    • 内置 11 种情绪 与 17 种风格 控制,覆盖从温柔甜美到严肃豪爽的多样化表达。语气、韵律与停连更贴近真人情绪起伏。
    • 完美适配需要情绪张力的配音与对话。
    • 支持粤语、四川话、日语。
  2. 10s 音频,精准复刻,0成本支持全部情绪风格控制
    • 仅需约 10 秒参考音频,即可精准复刻音色,并零成本激活全部情绪与风格控制;
    • 适合需要用复刻后的音色 + 多情绪播报的场景,如短视频配音、情感陪聊、营销播报等。
  3. 音色复刻支持口音精准还原
    • 领先的 LLM-based 架构,相较同类产品,可提供对说话人口音细节更精准的复刻效果。
    • 直播带货 场景提供更加真实、自然的语音交互体验,有效提升观众沉浸感和信任度。让虚拟主播或智能话术如同真人般亲切生动,显著降低用户听觉疲劳,助力转化率提升。

Step TTS Mini

强大的文本转语音模型,以高情绪表现力和风格可控性为亮点。
  1. 11 种情绪、7种风格、3种语言可控:内置 9 种情绪 与 13 种风格 控制;支持粤语、四川话、日语。
  2. 10s 音频,精准复刻,0成本支持全部情绪风格控制:仅需约 10 秒参考音频,即可精准复刻音色,并零成本激活全部情绪与风格控制。复刻相似度业界领先。

StepAudio 2.5 ASR

阶跃新一代语音识别模型,4B 参数 + Multi-Token Prediction(MTP)架构。在保持 SOTA 转写精度的同时单步并行预测多个 Token,大幅削减串行等待——5 分钟音频可在 1 秒内完成转写。

核心提升

  1. 极速推理,吞吐与时延双线突破
    • 引入 MTP 技术单步并行预测多个 Token,吞吐量较传统 ASR 提升 400%,时延降低 60%。
    • 引擎侧 RTF ≈ 0.0053,转写 1 小时音频约需 19 秒,5 分钟音频 1 秒内出完整结果。
  2. SOTA 转写精度,多场景全面刷新基线
    • 基于 4B 参数深度优化,在新闻、会议、强噪声等多场景下,中英文错误率全面刷新行业基线。
    • 支持 ITN 文本规范化,转写结果可直接用于业务系统。
  3. 极致性价比,Step Plan 直接可用
    • API 定价 0.15 元 / 小时,仅为上代 step-asr 系列的 1/10。
    • Step Plan 订阅用户可直接调用,无需额外开通。

适配场景

Voice Agent、大规模批量转写、实时字幕 / 直播、会议记录、语音输入等对识别速度与准确率均有要求的场景。

StepAudio 2 ASR Pro

32B 参数的 ASR Pro 模型。

Step ASR

阶跃自动语音识别模型,支持实时与离线识别,具备高准确率与低延迟。 特点:
  • 支持中英文及多种方言;
  • 可应用于语音转写、会议记录、客服质检、语音搜索等场景。

Step ASR 1.1

阶跃自动语音识别模型,适用于音频文件识别场景。 特点:
  • 可应用于语音转写、会议记录、客服质检、语音搜索等场景。

Step ASR 1.1 Stream

阶跃自动语音识别模型,适用于流式语音识别场景。 特点:
  • 适用于实时语音输入与流式文本返回场景。

使用限制

  1. 单次请求支持的最大字符数:tts 模型单次最多支持输入 1000 个字符。
  2. 输出格式:支持 wav、mp3、flac、opus,默认为 mp3 格式。

模型快速入门

音频合成开发指南

了解语音生成、音色复刻和语音识别等能力的接入方式。