语音互动开发指南
阶跃星辰为开发者提供了语音互动模型,开发者可以使用阶跃星辰的语音互动模型来完成音频生成、音色克隆(内测中)、语音识别(内测中)的能力,帮助开发者可以在自己的应用中除了实现标准的大模型的理解能力,还可以实现语音交互。
快速开始
快速生成一段音频
复制如下代码,你可以快速生成一段音频文件。
curl --location 'https://api.stepfun.com/v1/audio/speech' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer $STEP_API_KEY" \
--data '{
"model":"step-tts-mini",
"input":"智能阶跃,十倍每一个人的可能",
"voice":"cixingnansheng"
}'
--output "step.mp3"
应用场景
用法 | 场景说明 | 解决方案 |
---|---|---|
有声书生成 | 有声书产品需要大量的文本转音频的能力,且需要根据不同的小说选择合适的音色。 | 接入阶跃星辰 TTS API, 通过官方音色和音色克隆能力,实现不同场景下的有声书生成。 |
智能助手语音交互 | 智能助手场景下,希望在大模型生成的基础之上,提供音频的交互。 | 接入阶跃星辰 TTS API,通过官方音色和对大模型生成的内容进行分句,提供 TTS 生成。 |
游戏 NPC 音频生成 | 在游戏当中,需要大量的 NPC 语音,人工录入时间成本高、维护成本高。 | 接入阶跃星辰 TTS API,并通过音色克隆能力,针对每一组 NPC 维护一套音色,根据游戏调整,随时录制所需的音频。 |
特色功能
支持音色
阶跃星辰为开发者提供了 20 种官方音色,你可以在这里试听不同的音色,并在 API 当中调用。如果你有自定义音色的需求,可以通过联系我们和我们取得联系,试用音色克隆能力。
中文名 | Voice ID | 试听音频 |
---|---|---|
磁性男声 | cixingnansheng | |
正派青年 | zhengpaiqingnian | |
元气男声 | yuanqinansheng | |
青年大学生 | qingniandaxuesheng | |
播音男声 | boyinnansheng | |
儒雅男士 | ruyananshi | |
深沉男音 | shenchennanyin | |
亲切女声 | qinqienvsheng | |
温柔女声 | wenrounvsheng | |
机灵少女 | jilingshaonv | |
元气少女 | yuanqishaonv | |
软萌女声 | ruanmengnvsheng | |
优雅女声 | youyanvsheng | |
冷艳御姐 | lengyanyujie | |
爽快姐姐 | shuangkuaijiejie | |
文静学姐 | wenjingxuejie | |
邻家姐姐 | linjiajiejie | |
邻家妹妹 | linjiameimei | |
知性姐姐 | zhixingjiejie |
输出格式
阶跃星辰 TTS 模型 支持 wav、mp3、flac、oups 格式的音频输出,默认为mp3格式,你可以根据自己的实际情况选择合适的音频格式进行消费。
输出语言
阶跃星辰 TTS 模型支持输出中文、英文,中英混合和日语音频。如果你有其他语言需求,可以通过联系我们取得联系,反馈你需要的语言。
FAQ
我是否拥有创造出来的音频?
是的,你创造出来的音频归你所有。但建议在产品上向用户说明相关音频由 AI 生成,以便于用户感知相关音频为 AI 生成。
如何调整生成的音频的音量?
你可以在调用生成 API 时,传入 volume 参数,可选值为 0.1~2.0 ,代表着将音量缩小至 10% ~ 增大至 200%(两倍音量)。
如何调整生成的音频的语速 你可以在调用生成 API 时,传入 speed 参数,可选值为 0.5-2 ,代表着将语速降速为之前的一半 ~ 提速至两倍。