文档
开发指南
音频合成最佳实践

语音互动开发指南

阶跃星辰为开发者提供了语音互动模型,开发者可以使用阶跃星辰的语音互动模型来完成音频生成、音色克隆(内测中)、语音识别(内测中)的能力,帮助开发者可以在自己的应用中除了实现标准的大模型的理解能力,还可以实现语音交互。

快速开始

快速生成一段音频

复制如下代码,你可以快速生成一段音频文件。

curl --location 'https://api.stepfun.com/v1/audio/speech' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer $STEP_API_KEY" \
--data '{
    "model":"step-tts-mini",
    "input":"智能阶跃,十倍每一个人的可能",
    "voice":"cixingnansheng"
}'
--output "step.mp3"

应用场景

用法场景说明解决方案
有声书生成有声书产品需要大量的文本转音频的能力,且需要根据不同的小说选择合适的音色。接入阶跃星辰 TTS API, 通过官方音色和音色克隆能力,实现不同场景下的有声书生成。
智能助手语音交互智能助手场景下,希望在大模型生成的基础之上,提供音频的交互。接入阶跃星辰 TTS API,通过官方音色和对大模型生成的内容进行分句,提供 TTS 生成。
游戏 NPC 音频生成在游戏当中,需要大量的 NPC 语音,人工录入时间成本高、维护成本高。接入阶跃星辰 TTS API,并通过音色克隆能力,针对每一组 NPC 维护一套音色,根据游戏调整,随时录制所需的音频。

特色功能

支持音色

阶跃星辰为开发者提供了 20 种官方音色,你可以在这里试听不同的音色,并在 API 当中调用。如果你有自定义音色的需求,可以通过联系我们和我们取得联系,试用音色克隆能力。

中文名Voice ID试听音频
磁性男声cixingnansheng
正派青年zhengpaiqingnian
元气男声yuanqinansheng
青年大学生qingniandaxuesheng
播音男声boyinnansheng
儒雅男士ruyananshi
深沉男音shenchennanyin
亲切女声qinqienvsheng
温柔女声wenrounvsheng
机灵少女jilingshaonv
元气少女yuanqishaonv
软萌女声ruanmengnvsheng
优雅女声youyanvsheng
冷艳御姐lengyanyujie
爽快姐姐shuangkuaijiejie
文静学姐wenjingxuejie
邻家姐姐linjiajiejie
邻家妹妹linjiameimei
知性姐姐zhixingjiejie

输出格式

阶跃星辰 TTS 模型 支持 wav、mp3、flac、oups 格式的音频输出,默认为mp3格式,你可以根据自己的实际情况选择合适的音频格式进行消费。

输出语言

阶跃星辰 TTS 模型支持输出中文、英文,中英混合和日语音频。如果你有其他语言需求,可以通过联系我们取得联系,反馈你需要的语言。

FAQ

我是否拥有创造出来的音频?

是的,你创造出来的音频归你所有。但建议在产品上向用户说明相关音频由 AI 生成,以便于用户感知相关音频为 AI 生成。

如何调整生成的音频的音量?

你可以在调用生成 API 时,传入 volume 参数,可选值为 0.1~2.0 ,代表着将音量缩小至 10% ~ 增大至 200%(两倍音量)。

如何调整生成的音频的语速 你可以在调用生成 API 时,传入 speed 参数,可选值为 0.5-2 ,代表着将语速降速为之前的一半 ~ 提速至两倍。