语音大模型
模型简介
阶跃语音系列模型基于先进的语音合成与理解技术,提供从文字到语音的高保真生成能力,覆盖配音、语音助手、智能硬件、直播带货等多种语音交互场景。
step-tts-2(阶跃语音合成 2.0)
Step-TTS-mini 的升级版:极简高效设计摒弃传统 speaker/emotion 嵌入模块,通过纯 NTP 实现端到端语音生成,大幅降低系统复杂度。 支持 step-tts-mini 全部音色、情绪、风格、语种,并在其基础上,进一步强化情绪与风格的可控度、情绪表现力 和音色复刻效果。
核心提升
- 11 种情绪 17种风格 3种语言精准可控,情绪饱满,韵律自然,表现力强:
- 内置 11 种情绪 与 17 种风格 控制,覆盖从温柔甜美到严肃豪爽的多样化表达。语气、韵律与停连更贴近真人情绪起伏。
- 完美适配需要情绪张力的配音与对话。
- 支持粤语、四川话、日语。
- 10s 音频,精准复刻,0成本支持全部情绪风格控制:
- 仅需约 10 秒参考音频,即可精准复刻音色,并零成本激活全部情绪与风格控制;
- 适合需要用复刻后的音色 + 多情绪播报的场景,如短视频配音、情感陪聊、营销播报等。
- 音色复刻支持口音精准还原:
- 领先的 LLM-based 架构,相较同类产品,可提供对说话人口音细节更精准的复刻效果。
- 为 直播带货 场景提供更加真实、自然的语音交互体验,有效提升观众沉浸感和信任度。让虚拟主播或智能话术如同真人般亲切生动,显著降低用户听觉疲劳,助力转化率提升。
step-tts-mini
强大的文本转语音模型,以高情绪表现力和风格可控性为亮点。
- 11 种情绪、7种风格、3种语言可控:内置 9 种情绪 与 13 种风格 控制;支持粤语、四川话、日语。
- 10s 音频,精准复刻,0成本支持全部情绪风格控制:仅需约 10 秒参考音频,即可精准复刻音色,并零成本激活全部情绪与风格控制。复刻相似度业界领先。
step-tts-vivid
音色极具真人感,在外呼场景下,几乎难以与真人区分。
核心优势
- 真人拟真度:音色质感与细节刻画逼真,适合对“听起来像真人”有硬性要求的业务;
- 6 种情绪、4种风格、3种语言可控:内置 6 种情绪 与 4 种风格 控制;支持粤语、四川话、日语。
step-asr
阶跃自动语音识别模型,支持实时与离线识别,具备高准确率与低延迟。
特点:
- 支持中英文及多种方言;
- 可应用于语音转写、会议记录、客服质检、语音搜索等场景。
使用限制
- 单次请求支持的最大字符数:tts 模型单次最多支持输入 1000 个字符。
- 输出格式:支持支持 wav、mp3、flac、opus,默认为 mp3 格式。
模型快速入门
音频合成开发指南
Last updated on