跳转到主要内容

模型概览

阶跃语音系列模型基于先进的语音合成与理解技术,提供从文字到语音的高保真生成能力,覆盖配音、语音助手、智能硬件、直播带货等多种语音交互场景。

模型列表

StepAudio 2.5 TTS

Contextual TTS,真正具有声音表演能力的语音合成模型。首次将语境理解能力引入语音生成全流程,让 AI 不是念文本,而是演文本。支持通过自然语言描述实现全局语境定调与句中细腻控制,生成具有呼吸感、轻重主次、情绪弧线的真人级表达。

核心提升

  1. 双档语境控制,人人都是配音导演
    • 通过 Global Context(全局语境)+ Inline Context(文中语境)双档控制,既能为整段内容定调氛围和人物关系,也能逐句精控每个字词如何演绎。
    • 告别传统标签匹配,用自然语言描述你想要的声音表达。情绪、风格、场景、说话状态,模型都能理解并精准执行。
    • 支持「克制的悲伤,不哭腔,轻轻发颤」「试探着撒娇,不是很黏,带一点嘴硬」这类复杂、混合、有层次的表达意图,实现更开放、更连续、也更贴近真实语境的情绪控制。
  2. Zero-shot Clone 全音色可控,百变音色随心复刻
    • 只需 3s 参考音频即可进行音色复刻,且完整继承全局 / 文中语境控制能力,不受固定音库和预设角色的限制。
  3. 字字有戏,句句真实,开口没有 AI 味
    • 在停顿、重音、节奏、语气转折等韵律维度上全面提升,合成语音有呼吸感、有轻重主次、有情绪起伏。
    • 底层人声品质升级,输出的声音更通透、更具拟人感,没有传统语音合成常见的”塑料感”和”AI 味”。

适配场景

有声书、短剧配音、广告旁白、情感叙事、内容二创等多种对语音表现力有高要求的场景。

step-tts-2(阶跃语音合成 2.0)

Step-TTS-mini 的升级版:极简高效设计摒弃传统 speaker/emotion 嵌入模块,通过纯 NTP 实现端到端语音生成,大幅降低系统复杂度。 支持 step-tts-mini 全部音色、情绪、风格、语种,并在其基础上,进一步强化情绪与风格的可控度情绪表现力音色复刻效果

核心提升

  1. 11 种情绪 17种风格 3种语言精准可控,情绪饱满,韵律自然,表现力强
    • 内置 11 种情绪 与 17 种风格 控制,覆盖从温柔甜美到严肃豪爽的多样化表达。语气、韵律与停连更贴近真人情绪起伏。
    • 完美适配需要情绪张力的配音与对话。
    • 支持粤语、四川话、日语。
  2. 10s 音频,精准复刻,0成本支持全部情绪风格控制
    • 仅需约 10 秒参考音频,即可精准复刻音色,并零成本激活全部情绪与风格控制;
    • 适合需要用复刻后的音色 + 多情绪播报的场景,如短视频配音、情感陪聊、营销播报等。
  3. 音色复刻支持口音精准还原
    • 领先的 LLM-based 架构,相较同类产品,可提供对说话人口音细节更精准的复刻效果。
    • 直播带货 场景提供更加真实、自然的语音交互体验,有效提升观众沉浸感和信任度。让虚拟主播或智能话术如同真人般亲切生动,显著降低用户听觉疲劳,助力转化率提升。

step-tts-mini

强大的文本转语音模型,以高情绪表现力和风格可控性为亮点。
  1. 11 种情绪、7种风格、3种语言可控:内置 9 种情绪 与 13 种风格 控制;支持粤语、四川话、日语。
  2. 10s 音频,精准复刻,0成本支持全部情绪风格控制:仅需约 10 秒参考音频,即可精准复刻音色,并零成本激活全部情绪与风格控制。复刻相似度业界领先。

step-asr

阶跃自动语音识别模型,支持实时与离线识别,具备高准确率与低延迟。 特点:
  • 支持中英文及多种方言;
  • 可应用于语音转写、会议记录、客服质检、语音搜索等场景。

step-asr-1.1

阶跃自动语音识别模型,适用于音频文件识别场景。 特点:
  • 可应用于语音转写、会议记录、客服质检、语音搜索等场景。

step-asr-1.1-stream

阶跃自动语音识别模型,适用于流式语音识别场景。 特点:
  • 适用于实时语音输入与流式文本返回场景。

使用限制

  1. 单次请求支持的最大字符数:tts 模型单次最多支持输入 1000 个字符。
  2. 输出格式:支持 wav、mp3、flac、opus,默认为 mp3 格式。

模型快速入门

音频合成开发指南

了解语音生成、音色复刻和语音识别等能力的接入方式。