文档
模型列表
语音大模型

语音大模型

模型简介

阶跃星辰语音模型基于业界先进的语音生成等技术,开放 TTS、音频复刻、语音识别接口,帮助用户实现音频相关能力。可应用于智能客服、有声阅读、音视频创作、游戏NPC、会议记录等应用场景。

目前主要提供以下模型,详细介绍可查看各模型目录下的说明文档:

step-asr
该模型具有强大的中英文语音识别能力,能够自动区分语音和噪音,支持中英文混合语音识别,可广泛应用于语音输入、语音控制、会议记录等场景。此外,该模型还具有强大的重口音普通话识别能力,支持识别多种不同地方的重口音普通话。

step-tts-mini
该模型具有强大的文字转语音能力,在中英文混合输入场景表现突出,可广泛应用于有声阅读、音视频创作等场景。

此外,该模型还具有强大的音频复刻能力,仅需提供5-10秒的音源,即可极速复刻。支持中、英、日语复刻。

使用限制

  1. 单次请求支持的最大字符数:tts模型单次最多支持输入 1000 个字符。
  2. 输出格式:支持wav、mp3、flac、opus,默认为mp3格式。

模型快速入门


音频合成开发指南