语音大模型
模型简介
阶跃星辰语音模型基于业界先进的语音生成等技术,开放 TTS、音频复刻、语音识别接口,帮助用户实现音频相关能力。可应用于智能客服、有声阅读、音视频创作、游戏NPC、会议记录等应用场景。
目前主要提供以下模型,详细介绍可查看各模型目录下的说明文档:
step-asr
该模型具有强大的中英文语音识别能力,能够自动区分语音和噪音,支持中英文混合语音识别,可广泛应用于语音输入、语音控制、会议记录等场景。此外,该模型还具有强大的重口音普通话识别能力,支持识别多种不同地方的重口音普通话。
step-tts-mini
该模型具有强大的文字转语音能力,在中英文混合输入场景表现突出,可广泛应用于有声阅读、音视频创作等场景。
此外,该模型还具有强大的音频复刻能力,仅需提供5-10秒的音源,即可极速复刻。支持中、英、日语复刻。
使用限制
- 单次请求支持的最大字符数:tts模型单次最多支持输入 1000 个字符。
- 输出格式:支持wav、mp3、flac、opus,默认为mp3格式。
模型快速入门
音频合成开发指南