Skip to Content
开发指南音频合成最佳实践

语音互动开发指南

阶跃星辰为开发者提供了语音互动模型,开发者可以使用阶跃星辰的语音互动模型来完成音频生成、音色复刻语音识别的能力,帮助开发者可以在自己的应用中除了实现标准的大模型的理解能力,还可以实现语音交互。

快速开始

快速生成一段音频

复制如下代码,你可以快速生成一段音频文件。

curl --location 'https://api.stepfun.com/v1/audio/speech' \ --header 'Content-Type: application/json' \ --header "Authorization: Bearer $STEP_API_KEY" \ --data '{ "model":"step-tts-mini", "input":"智能阶跃,十倍每一个人的可能", "voice":"cixingnansheng" }'\ --output "step.mp3"

场景与官方音色推荐

阶跃星辰为开发者提供了七大场景数十种官方推荐音色,你可以在这里试听不同的音色,并在 API 当中调用。 但我们强烈建议您通过 音色复刻 的能力,定制您的专属音色。step-tts-2 模型具备业界领先的复刻性能,且复刻音色可0成本支持全部情绪、风格控制。

1. 营销场景

营销场景需要音色具有感染力、说服力和亲和力,能够有效传递产品价值并激发购买欲望。Step-TTS 特色在于能够给出饱满的情绪,给用户以信任感和专业度,让营销内容更具吸引力。

推荐模型推荐音色Voice-id合成示例
step-tts-2 / step-tts-mini活力轻快livelybreezy-female”我们的在线课程帮助数千人实现了职业突破,下一个成功的就是您!”
“精致的设计,贴心的细节,让每一件产品都成为您生活中的艺术品。”
step-tts-2 / step-tts-mini正派青年zhengpaiqingnian”限时优惠仅剩最后3天!现在购买即可享受买一送一超值福利,错过不再有!”
“想象一下,每天清晨被温暖的阳光唤醒,我们的智能窗帘为您开启美好的一天。”

2. 客服场景(电话催收等)

客服场景需要音色亲切、耐心、专业,能够有效安抚用户情绪并提供清晰解决方案。我们提供两种类型的客服音色,step-tts-2 音质突出、情绪饱满、真人感强,前四个推荐音色非常适合电话场景。

推荐模型推荐音色Voice-id合成示例
step-tts-2 / step-tts-vivid爽快男声shuangkuainansheng【催收场景】您好,请问是张先生吗?这里是催债公司客服,关于您账户尾号1788的款项,想跟您做个温馨提醒,目前已经逾期5天了。
“感谢您的来电,我是客服专员张明,工号2087,请问怎么称呼您?”
“关于您查询的账单问题,我这边可以看到具体明细,现在为您详细说明。
step-tts-2 / step-tts-vivid干练女声ganliannvsheng【催收场景】孙女士,这次逾期可能会对您的个人信用记录产生负面影响,我们希望能协助您避免这个问题。
“您好,欢迎致电客户服务中心,我是您的专属客服李静,很高兴为您服务。”
“请您提供一下手机号码和身份证后四位,我来为您核实账户信息。”
step-tts-2 / step-tts-vivid亲和女声qinhenvsheng【催收场景】如果目前全额还款有压力,我们可以先安排处理一部分,比如先还3万元,剩余部分我们再协商一个方案,您看可以吗?
“听到您的情况我很关切,请相信我们会尽全力帮助您。”
“这个情况确实比较特殊,请允许我请示主管后给您回电解答。“
step-tts-2 / step-tts-vivid活力女声huolinvsheng【催收场景】“您说‘马上处理’具体是指今天下午几点前呢?我需要记录一个确切的时间点,以便后续为您跟进服务。”
“很高兴能为您解决问题,祝您有美好的一天,再见!”
“我们的服务时间是早8点到晚10点,欢迎再次来电。“
step-tts-2 / step-tts-mini气质温婉elegantgentle-female”您的满意是我们最大的追求,感谢您选择我们的服务。”
“我完全理解您的情况,让我们一起来看看如何最好地解决这个问题。“
step-tts-2 / step-tts-mini活力轻快livelybreezy-female”您的满意是我们最大的追求,感谢您选择我们的服务。”
“我完全理解您的情况,让我们一起来看看如何最好地解决这个问题。”
step-tts-2 / step-tts-mini温柔男声wenrounansheng”非常理解您的心情,我们会尽快为您解决这个问题。”
“您的订单已经处理完成,预计明天下午就能送达,请您注意查收。”
step-tts-2 / step-tts-mini经典女声jingdiannvsheng”您的满意是我们最大的追求,感谢您选择我们的服务。”
“我完全理解您的情况,让我们一起来看看如何最好地解决这个问题。“
step-tts-2 / step-tts-mini温柔熟女wenroushunv”您的满意是我们最大的追求,感谢您选择我们的服务。”
“我完全理解您的情况,让我们一起来看看如何最好地解决这个问题。”
step-tts-2 / step-tts-mini甜美女声tianmeinvsheng”您的满意是我们最大的追求,感谢您选择我们的服务。”
“我完全理解您的情况,让我们一起来看看如何最好地解决这个问题。”
step-tts-2 / step-tts-mini清纯少女qingchunshaonv”您的满意是我们最大的追求,感谢您选择我们的服务。”
“我完全理解您的情况,让我们一起来看看如何最好地解决这个问题。”
step-tts-2 / step-tts-mini元气男声yuanqinansheng”非常理解您的心情,我们会尽快为您解决这个问题。”
“您的订单已经处理完成,预计明天下午就能送达,请您注意查收。”

3. 有声书场景

有声书需要音色富有表现力、感染力,能够生动展现不同角色和情节氛围。我们的 TTS 特色在于细腻的情感表达和多变的语音风格,让听众沉浸于故事世界。

推荐模型推荐音色Voice-id合成示例
step-tts-2 / step-tts-mini儒雅男士ruyananshi”老人的眼中闪烁着智慧的光芒,缓缓道出那个埋藏千年的秘密。”
“狂风呼啸,海浪拍打着船舷,水手们紧紧抓住缆绳,与命运抗争。“
step-tts-2 / step-tts-mini温柔女声wenrounvsheng”魔法森林中,精灵们跳着轻盈的舞蹈,星光为她们点亮前路。”
她轻轻抚摸着那本旧日记,泪水模糊了字迹,回忆如潮水般涌来。
step-tts-2 / step-tts-mini温柔公子wenrougongzi”月光洒在古老的城堡上,远处传来狼群的嚎叫,令人不寒而栗。”
“他深吸一口气,推开了那扇尘封已久的大门,命运的齿轮开始转动。”
step-tts-2 / step-tts-mini磁性男声cixingnansheng月光洒在古老的城堡上,远处传来狼群的嚎叫,令人不寒而栗。
“他深吸一口气,推开了那扇尘封已久的大门,命运的齿轮开始转动。”
step-tts-2 / step-tts-mini元气少女yuanqishaonv”花园里的玫瑰在晨露中绽放,散发着淡淡的香气,宛如少女的脸颊。”
“她轻轻抚摸着那本旧日记,泪水模糊了字迹,回忆如潮水般涌来。”
step-tts-2 / step-tts-mini正派青年zhengpaiqingnian”月光洒在古老的城堡上,远处传来狼群的嚎叫,令人不寒而栗。”
“他深吸一口气,推开了那扇尘封已久的大门,命运的齿轮开始转动。”
step-tts-2 / step-tts-mini元气男声yuanqinansheng”老人的眼中闪烁着智慧的光芒,缓缓道出那个埋藏千年的秘密。”
“狂风呼啸,海浪拍打着船舷,水手们紧紧抓住缆绳,与命运抗争。“
step-tts-2 / step-tts-mini播音男声boyinnansheng”月光洒在古老的城堡上,远处传来狼群的嚎叫,令人不寒而栗。”
“他深吸一口气,推开了那扇尘封已久的大门,命运的齿轮开始转动。“
step-tts-2 / step-tts-mini深沉男音shenchennanyin”月光洒在古老的城堡上,远处传来狼群的嚎叫,令人不寒而栗。”
“他深吸一口气,推开了那扇尘封已久的大门,命运的齿轮开始转动。”

4. 情感陪伴场景

情感陪伴需要音色温暖、柔和、富有同理心,能够给予用户心理慰藉和支持。我们的 TTS 特色在于细腻的音色温柔动听,情绪感染力强,可为您的用户营造出安全、舒适的交流氛围。

推荐模型推荐音色Voice-id合成示例
step-tts-2 / step-tts-mini气质温婉elegantgentle-female”我在这里陪着你,无论快乐还是忧伤,我们都一起面对。”
“你的坚强让我感动,但也要记得适时地让自己休息一下。”
step-tts-2 / step-tts-mini活力轻快livelybreezy-female”生活中总会有不如意的时候,但美好的事物永远值得期待。”
“说出来会好受一些,我永远是你忠实的听众和朋友。“
step-tts-2 / step-tts-mini温柔男声wenrounansheng”今天过得怎么样?如果有什么心事,我很愿意倾听。”
“每个人都会有感到迷茫的时候,这很正常,你并不孤单。”
step-tts-2 / step-tts-mini温柔公子wenrougongzi”深呼吸,放松心情,我相信你有能力面对任何挑战。”
“你的感受很重要,感谢你愿意与我分享内心的想法。“
step-tts-2 / step-tts-mini经典女声jingdiannvsheng”我在这里陪着你,无论快乐还是忧伤,我们都一起面对。”
“你的坚强让我感动,但也要记得适时地让自己休息一下。”
step-tts-2 / step-tts-mini亲切女声qinqienvsheng早上好呀,今天天气真不错,适合出去走走。
观众朋友们,大家好!欢迎收看今天的新闻播报。
step-tts-2 / step-tts-mini甜美女声tianmeinvsheng”生活中总会有不如意的时候,但美好的事物永远值得期待。”
“说出来会好受一些,我永远是你忠实的听众和朋友。“
step-tts-2 / step-tts-mini磁性男声cixingnansheng”今天过得怎么样?如果有什么心事,我很愿意倾听。”
“每个人都会有感到迷茫的时候,这很正常,你并不孤单。“
step-tts-2 / step-tts-mini元气少女yuanqishaonv”我在这里陪着你,无论快乐还是忧伤,我们都一起面对。”
“你的坚强让我感动,但也要记得适时地让自己休息一下。”
step-tts-2 / step-tts-mini邻家姐姐linjiajiejie”生活中总会有不如意的时候,但美好的事物永远值得期待。”
“说出来会好受一些,我永远是你忠实的听众和朋友。”
step-tts-2 / step-tts-mini儒雅男士ruyananshi”今天过得怎么样?如果有什么心事,我很愿意倾听。”
“每个人都会有感到迷茫的时候,这很正常,你并不孤单。”
step-tts-2 / step-tts-mini深沉男音shenchennanyin”深呼吸,放松心情,我相信你有能力面对任何挑战。”
“你的感受很重要,感谢你愿意与我分享内心的想法。”
step-tts-2 / step-tts-mini温柔女声wenrounvsheng”我在这里陪着你,无论快乐还是忧伤,我们都一起面对。”
“你的坚强让我感动,但也要记得适时地让自己休息一下。“
step-tts-2 / step-tts-mini软萌女声ruanmengnvsheng”生活中总会有不如意的时候,但美好的事物永远值得期待。”
“说出来会好受一些,我永远是你忠实的听众和朋友。“

5. 语音助手场景

语音助手需要音色清晰、自然、高效,能够准确理解并响应用户指令。我们的 TTS 特色在于韵律自然,情绪饱满,让您的语音助手既专业又亲切。

推荐模型推荐音色Voice-id合成示例
step-tts-2 / step-tts-mini气质温婉elegantgentle-female”您要查询的航班信息已经找到,需要我为您详细说明吗?”
“已为您设置明天早上7点的闹钟,祝您晚安。“
step-tts-2 / step-tts-mini活力轻快livelybreezy-female正在搜索您需要的资料,找到3个相关结果,现在为您展示。
今天北京天气晴朗,气温25度,适合外出活动。
step-tts-2 / step-tts-mini清纯少女qingchunshaonv”您要查询的航班信息已经找到,需要我为您详细说明吗?”
“电量不足,建议连接充电器,以保持最佳使用体验。“
step-tts-2 / step-tts-mini元气少女yuanqishaonv”新消息来自张经理:‘项目方案已通过,辛苦了!’”
“正在搜索您需要的资料,找到3个相关结果,现在为您展示。“
step-tts-2 / step-tts-mini邻家姐姐linjiajiejie”您要查询的航班信息已经找到,需要我为您详细说明吗?”
“电量不足,建议连接充电器,以保持最佳使用体验。”
step-tts-2 / step-tts-mini儒雅男士ruyananshi”已为您设置明天早上7点的闹钟,祝您晚安。”
“今天北京天气晴朗,气温25度,适合外出活动。”
step-tts-2 / step-tts-mini机灵少女jilingshaonv”新消息来自张经理:‘项目方案已通过,辛苦了!’”
“正在搜索您需要的资料,找到3个相关结果,现在为您展示。”
step-tts-2 / step-tts-mini软萌女声ruanmengnvsheng”您要查询的航班信息已经找到,需要我为您详细说明吗?”
“电量不足,建议连接充电器,以保持最佳使用体验。”
step-tts-2 / step-tts-mini邻家妹妹linjiameimei”新消息来自张经理:‘项目方案已通过,辛苦了!’”
“正在搜索您需要的资料,找到3个相关结果,现在为您展示。“
step-tts-2 / step-tts-mini知性姐姐zhixingjiejie”您要查询的航班信息已经找到,需要我为您详细说明吗?”
“电量不足,建议连接充电器,以保持最佳使用体验。“

6. 视频配音场景

视频配音需要音色富有表现力、节奏感和画面感,能够与视频内容完美融合。我们的 TTS 特色在于精准的情绪表达和语音节奏控制,增强您视频的感染力。

推荐模型推荐音色Voice-id合成示例
step-tts-2 / step-tts-mini邻家姐姐linjiajiejie”细腻的手工,精致的工艺,每一件作品都承载着匠人的心血与智慧。”
“美食是文化的载体,味蕾的记忆,让我们开启这段舌尖上的旅程。“
step-tts-2 / step-tts-mini邻家妹妹linjiameimei”在这个快节奏的时代,偶尔慢下来,发现生活中被忽略的美好。”
“爱与温暖,成长与蜕变,这是一个关于家庭和梦想的动人故事。”
step-tts-2 / step-tts-mini青年大学生qingniandaxuesheng最近在研究一个新课题,感觉超有挑战性,你要一起来研究吗?
从12月1日起,全区将全面应用医保刷脸支付,这一举措将进一步提升医保服务的便捷性。
step-tts-2 / step-tts-mini软萌女声ruanmengnvsheng”时尚不仅是外在的装扮,更是内心态度的表达和个性的宣言。”
“在这个快节奏的时代,偶尔慢下来,发现生活中被忽略的美好。“
step-tts-2 / step-tts-mini优雅女声youyanvsheng”在这个快节奏的时代,偶尔慢下来,发现生活中被忽略的美好。”
“爱与温暖,成长与蜕变,这是一个关于家庭和梦想的动人故事。”
step-tts-2 / step-tts-mini冷艳御姐lengyanyujie”细腻的手工,精致的工艺,每一件作品都承载着匠人的心血与智慧。”
“美食是文化的载体,味蕾的记忆,让我们开启这段舌尖上的旅程。”
step-tts-2 / step-tts-mini知性姐姐zhixingjiejie”从概念到现实,这款产品的诞生经历了数百个日夜的精心打磨。”
“穿越云海,俯瞰大地,这是只属于勇者的视觉盛宴和心灵震撼。“
step-tts-2 / step-tts-mini爽快姐姐shuangkuaijiejie这个项目我来负责,保证完成得漂漂亮亮!
从12月1日起,全区将全面应用医保刷脸支付,这一举措将进一步提升医保服务的便捷性。
step-tts-2 / step-tts-mini文静学姐wenjingxuejie这本书的见解很独特,值得一读。
近期有报道显示,出租车霸占公交车泊位的现象时有发生,这给乘客上下车带来了安全隐患。

7. 教育与培训场景

教培场景需要音色清晰、准确、有启发性,能够有效传递知识并激发学习兴趣。我们的 TTS 特色在于能把握教师在不同情绪下的声音特点。

推荐模型推荐音色Voice-id合成示例
step-tts-2 / step-tts-mini气质温婉elegantgentle-female”英语中的现在完成时表示过去发生但与现在有关联的动作或状态。”
“让我们一起朗读这首古诗,感受诗人笔下的明月和思乡之情。“
step-tts-2 / step-tts-mini温柔男声wenrounansheng”今天我们学习勾股定理:直角三角形的两条直角边的平方和等于斜边的平方。”
“请注意这个发音要点:舌尖要轻抵上齿龈,发出清晰的辅音。”
step-tts-2 / step-tts-mini活力轻快livelybreezy-female”光合作用是植物将光能转化为化学能的重要过程,让我们详细了解。”
“绘画时要注意透视原理,近大远小,让画面更有立体感。”
step-tts-2 / step-tts-mini温柔熟女wenroushunv”英语中的现在完成时表示过去发生但与现在有关联的动作或状态。”
“让我们一起朗读这首古诗,感受诗人笔下的明月和思乡之情。”

官方音色清单

中文名Voice ID支持模型推荐场景
气质温婉elegantgentle-femalestep-tts-2step-tts-mini客服与业务办理、口播(解说、新闻)、教育与培训、情感陪伴
活力轻快livelybreezy-femalestep-tts-2step-tts-mini情感陪伴、客服与业务办理、教育与培训、营销
温柔男声wenrounanshengstep-tts-2step-tts-mini口播(解说、新闻)、情感陪伴、客服与业务办理、教育与培训
温柔公子wenrougongzistep-tts-2step-tts-mini情感陪伴、有声书
元气男声yuanqinanshengstep-tts-2step-tts-mini有声书、口播(解说、新闻)、客服与业务办理
经典女声jingdiannvshengstep-tts-2step-tts-mini客服与业务办理、情感陪伴
温柔熟女wenroushunvstep-tts-2step-tts-mini客服与业务办理、口播(解说、新闻)、教育与培训
甜美女声tianmeinvshengstep-tts-2step-tts-mini情感陪伴、客服与业务办理
清纯少女qingchunshaonvstep-tts-2step-tts-mini客服与业务办理、语音助手
磁性男声cixingnanshengstep-tts-2step-tts-mini有声书、情感陪伴
元气少女yuanqishaonvstep-tts-2step-tts-mini有声书、情感陪伴、语音助手
邻家姐姐linjiajiejiestep-tts-2step-tts-mini口播(解说、新闻)、情感陪伴、语音助手、视频配音
正派青年zhengpaiqingnianstep-tts-2step-tts-mini营销、有声书
青年大学生qingniandaxueshengstep-tts-2step-tts-mini口播(解说、新闻)
播音男声boyinnanshengstep-tts-2step-tts-mini有声书、口播(解说、新闻)
儒雅男士ruyananshistep-tts-2step-tts-mini有声书、情感陪伴、口播(解说、新闻)、语音助手
深沉男音shenchennanyinstep-tts-2step-tts-mini情感陪伴、有声书
亲切女声qinqienvshengstep-tts-2step-tts-mini口播(解说、新闻)
温柔女声wenrounvshengstep-tts-2step-tts-mini有声书、情感陪伴
机灵少女jilingshaonvstep-tts-2step-tts-mini语音助手、口播(解说、新闻)
软萌女声ruanmengnvshengstep-tts-2step-tts-mini情感陪伴、语音助手、视频配音
优雅女声youyanvshengstep-tts-2step-tts-mini视频配音
冷艳御姐lengyanyujiestep-tts-2step-tts-mini视频配音
爽快姐姐shuangkuaijiejiestep-tts-2step-tts-mini口播(解说、新闻)
文静学姐wenjingxuejiestep-tts-2step-tts-mini口播(解说、新闻)
邻家妹妹linjiameimeistep-tts-2step-tts-mini视频配音、口播(解说、新闻)、语音助手
知性姐姐zhixingjiejiestep-tts-2step-tts-mini视频配音、口播(解说、新闻)、语音助手
爽快男声shuangkuainanshengstep-tts-2step-tts-vivid客服与业务办理、语音助手
干练女声ganliannvshengstep-tts-2step-tts-vivid客服与业务办理、语音助手
亲和女声qinhenvshengstep-tts-2step-tts-vivid客服与业务办理、语音助手
活力女声huolinvshengstep-tts-2step-tts-vivid客服与业务办理、语音助手

音色标签

音色标签支持语速演绎风格、情绪和语言三种选项;其中情绪类型的标签需要放置在 voice_label.emotion 字段中、语速演绎风格需放置在 voice_label.style 字段中。他们具体的支持情况如下表所示:

序号标签名称标签类型step-tts-2支持情况step-tts-mini支持情况step-tts-vivid支持情况
1高兴情绪
2非常高兴情绪
3悲伤情绪
4生气情绪
5非常生气情绪
6撒娇情绪
7慢速语速风格
8极慢语速风格
9快速语速风格
10极快语速风格
11恐惧情绪
12惊讶情绪
13兴奋情绪
14钦佩情绪
15困惑情绪
16冷漠演绎风格
17尴尬演绎风格
18沮丧演绎风格
19骄傲演绎风格
20温柔演绎风格
21甜美演绎风格
22豪爽演绎风格
23严肃演绎风格
24傲慢演绎风格
25老年演绎风格
26吼叫演绎风格
27阴阳怪气演绎风格
28磕巴演绎风格

输出格式

阶跃星辰 TTS 模型 支持 wav、mp3、flac、opus 和 pcm 格式的音频输出,默认为mp3格式,你可以根据自己的实际情况选择合适的音频格式进行使用。

输出语言

阶跃星辰 TTS 模型支持输出中文、英文,中英混合和日语音频。

FAQ

我是否拥有创造出来的音频?

是的,你创造出来的音频归你所有。但建议在产品上向用户说明相关音频由 AI 生成,以便于用户感知相关音频为 AI 生成。

如何调整生成的音频的音量?

你可以在调用生成 API 时,传入 volume 参数,可选值为 0.1~2.0 ,代表着将音量缩小至 10% ~ 增大至 200%(两倍音量)。

如何调整生成的音频的语速 你可以在调用生成 API 时,传入 speed 参数,可选值为 0.5-2 ,代表着将语速降速为之前的一半 ~ 提速至两倍。

Last updated on