Documentation Index
Fetch the complete documentation index at: https://platform.stepfun.com/docs/llms.txt
Use this file to discover all available pages before exploring further.
推理 / 文本推荐
Step 3.5 Flash 2603
Agent 优化
基于 step-3.5-flash 针对高频 Agent 场景优化,在保留旗舰推理与工具调用能力的同时,进一步提升 Token 效率与推理速度,并支持切换低推理模式以降低消耗。对 Coding 与 Agent 框架兼容性也做了专项优化。
推理Agent低推理模式
实时语音推荐
StepAudio 2.5 Realtime
活人感实时语音大模型
真正具备”活人感”的实时语音大模型。继承 StepAudio 2.5 TTS 表现力,结合行业顶级副语言感知能力——读懂语气中的迟疑与轻笑,输出契合度拉满的高情商反馈。支持千万人设完全自定义,可细颗粒度定义性格、口癖与情绪边界。适合情感陪伴、日常交流、百科问答、任务助手等实时对话场景。
实时语音副语言感知人设自定义
语音对话推荐
StepAudio 2.5 Chat
活人感对话大模型
真正具备”活人感”的对话大模型,仅文本返回。能深度理解复杂语意、机智抛梗,具备行业顶级副语言感知力——读懂语气中的迟疑与轻笑,输出高情商反馈。支持千万人设完全自定义,细颗粒度定义性格特征、专属口癖与情绪边界。
对话副语言感知人设自定义
语音合成推荐
StepAudio 2.5 TTS
Contextual TTS
真正具有声音表演能力的语音合成模型,首次将语境理解能力引入语音生成全流程。通过 Global Context(全局语境)+ Inline Context(文中语境)双档控制,配合 Zero-shot Clone,让合成语音有呼吸感、轻重主次和情绪弧线,适合有声书、短剧配音、广告旁白、情感叙事等高表现力场景。
Contextual TTS双档语境控制Zero-shot Clone
语音识别推荐
StepAudio 2.5 ASR
新一代流式 ASR 旗舰
阶跃新一代语音识别模型,4B 参数 + Multi-Token Prediction(MTP)架构,单步并行预测多个 Token,5 分钟音频 1 秒内完成转写。在保持 SOTA 转写精度的同时大幅降低时延,适合 Voice Agent、大规模批量转写、实时字幕 / 直播等场景。
极速推理SOTA 精度中英双语
旗舰级推理模型,专为智能体构建而生。推理深度比肩顶尖闭源模型,同时具备极速响应与稳定可靠的工具调用能力。在通用推理能力基础之上,更擅长复杂项目规划与长程任务执行。
推理工具调用
兼顾智能与效率的高性价比推理模型,典型应用场景有图片内容识别和提取、图片分析和推理、逻辑与数学问题回答、代码生成和补全、智能助手和日常问答、复杂问题调研和解答等。
推理图片理解
典型应用场景有文本创意改写、文本摘要生成、文本内容翻译、专业问题回答、角色扮演、信息提取与合并、query 指令补全等。
文本代码工具调用
典型应用场景有社媒发帖文案创作、AI 问答助手、图片与视频理解等。单次请求限制输入最多60张图片,总大小控制在20M 以内,输入视频为小于128MB 的 MP4文件。
图片理解视频理解文本生成
支持中、英、日语、粤语、四川话,提供19种官方音色,兼具出色的音色复刻能力,支持中、英、日语复刻。适合客服外呼、情感陪伴、智能助手语音交互等对发音真人感要求高的场景。
语音生成音色复刻情绪风格
图像生成 / 编辑推荐
Step Image Edit 2
文生图 + 图像编辑一体化
阶跃星辰最新迭代的轻量级编辑模型,单模型同时支持文生图与图像编辑。在 6B 以下参数规模内实现同量级性能标杆,可跨量级对标 12B-20B 级开源大模型,重塑实时交互修图体验。
文生图图像编辑极速响应
旗舰级推理模型,专为智能体构建而生。推理深度比肩顶尖闭源模型,同时具备极速响应与稳定可靠的工具调用能力。在通用推理能力基础之上,更擅长复杂项目规划与长程任务执行。
推理工具调用
兼顾智能与效率的高性价比推理模型,典型应用场景有图片内容识别和提取、图片分析和推理、逻辑与数学问题回答、代码生成和补全、智能助手和日常问答、复杂问题调研和解答等。
推理图片理解
典型应用场景有文本创意改写、文本摘要生成、文本内容翻译、专业问题回答、角色扮演、信息提取与合并、query 指令补全等。
文本代码工具调用
典型应用场景有资源处理引擎、聊天主播扮演、用户记忆数据整理、食物重量热量预估、意图识别与推荐 query 生成等。
文本通用规划
典型应用场景有对话中控引擎、销售客服、自动化快讯生成、问题改写、角色扮演、文本分类或关键词提取等。
文本数学代码
典型应用场景有问答助手、词条编辑、行业分析、搜索查询词生成等。
文本数学代码
典型应用场景有图片内容识别、图片分析和推理、代码生成和补全、数学问题回答、逻辑问题解答、日常问答等。
推理图片理解代码
典型应用场景有社媒发帖文案创作、AI 问答助手、图片与视频理解等。单次请求限制输入最多60张图片,总大小控制在20M 以内,输入视频为小于128MB 的 MP4文件。
图片理解视频理解文本生成
典型应用场景有管家机器人、智慧座舱助手、医学影像分析助手、食物识别、图片信息判断、图片内容描述等。单次请求限制最多50张图片,总大小控制在20M 以内。
图片理解文本生成
典型应用场景为图片描述、食物识别、心理咨询、穿搭建议等。单次请求限制最多20张图片,总大小控制在20M 以内。
图片理解短上下文
典型应用场景有文献阅读助手、图片理解、角色扮演、日常问答等。单次请求限制最多50张图片,总大小控制在20M 以内。
图片理解长上下文
图像生成 / 编辑新一代
Step Image Edit 2
文生图 / 编辑一体化
轻量级图像生成编辑模型,单模型同时支持文生图与图像编辑任务。6B 以下参数规模实现同量级性能标杆,可跨量级对标 12B-20B 级开源大模型;单次编辑 1-2 秒,适合实时交互修图。输入图片最大支持 4096x4096 分辨率。
图片生成图片编辑低延迟
适用于需要高质量图像生成的场景,如艺术创作、游戏开发等。输入文本最大长度为512个字符;输入图片需在10Mb 以内,像素不大于2048x2048,格式为 png 或 jpeg。单次可请求生成1张图像。
图片生成中文支持
新模型生成图片质感更真实,中英文文字生成能力更强。输入文本最大长度:文生图 512 字符,图生图 1024 字符;输入图片需在10Mb 以内,像素不大于2048x2048,格式为 png 或 jpeg。单次可请求生成1张图像。
图片生成中文提示词
模型能够理解用户的意图,并生成符合要求的图像编辑结果,适合应用于图像编辑、人像美化、艺术创作等场景。输入文本最大长度为512个字符;输入图片需在10Mb 以内,像素不大于1024x1024,格式为 png 或 jpeg。单次可请求生成1张图像。
图片编辑图像增强
实时语音推荐
StepAudio 2.5 Realtime
活人感实时语音大模型
真正具备”活人感”的实时语音大模型。继承 StepAudio 2.5 TTS 表现力,结合行业顶级副语言感知能力——读懂语气中的迟疑与轻笑,输出契合度拉满的高情商反馈。支持千万人设完全自定义,可细颗粒度定义性格、口癖与情绪边界。适合情感陪伴、日常交流、百科问答、任务助手等实时对话场景。
实时语音副语言感知人设自定义
语音对话推荐
StepAudio 2.5 Chat
活人感对话大模型
真正具备”活人感”的对话大模型,仅文本返回。能深度理解复杂语意、机智抛梗,具备行业顶级副语言感知力——读懂语气中的迟疑与轻笑,输出高情商反馈。支持千万人设完全自定义,细颗粒度定义性格特征、专属口癖与情绪边界。
对话副语言感知人设自定义
支持中、英、日语、粤语、四川话,提供19种官方音色,兼具出色的音色复刻能力,支持中、英、日语复刻。适合客服外呼、情感陪伴、智能助手语音交互等对发音真人感要求高的场景。
语音生成音色复刻情绪风格
语音识别推荐
StepAudio 2.5 ASR
新一代流式 ASR 旗舰
阶跃新一代流式语音识别模型,基于 4B MTP 架构,在识别准确率与响应延迟之间取得良好平衡。支持中英文识别与 ITN 文本规范化,适合实时字幕、语音输入、会议记录等对识别速度与准确率均有要求的场景。
高准确率低延迟中英双语
语音识别
StepAudio 2 ASR Pro
32B ASR Pro
具有强大的中英文语音识别能力的 ASR 模型,能够自动区分语音和噪音,支持中英文混合语音识别和多种重口音普通话识别。可广泛应用于语音输入、语音控制、会议记录等场景。
语音识别实时离线
提供超低延迟的双向交互语音对话体验,支持中文、英语、重口音普通话输入,支持中、英、日语、粤语和四川话输出。单次互动时长最长30分钟,可处理音频时长最长70分钟。已在智能座舱、智能终端、社交娱乐、情感陪伴、智能客服、金融调解等行业领域落地。
实时交互工具调用
旗舰级推理模型,专为智能体构建而生。推理深度比肩顶尖闭源模型,同时具备极速响应与稳定可靠的工具调用能力。在通用推理能力基础之上,更擅长复杂项目规划与长程任务执行。
推理工具调用
兼顾智能与效率的高性价比推理模型,典型应用场景有图片内容识别和提取、图片分析和推理、逻辑与数学问题回答、代码生成和补全、智能助手和日常问答、复杂问题调研和解答等。
推理图片理解
典型应用场景有文本创意改写、文本摘要生成、文本内容翻译、专业问题回答、角色扮演、信息提取与合并、query 指令补全等。
文本代码工具调用
典型应用场景有资源处理引擎、聊天主播扮演、用户记忆数据整理、食物重量热量预估、意图识别与推荐 query 生成等。
文本通用规划
典型应用场景有对话中控引擎、销售客服、自动化快讯生成、问题改写、角色扮演、文本分类或关键词提取等。
文本数学代码
典型应用场景有问答助手、词条编辑、行业分析、搜索查询词生成等。
文本数学代码
典型应用场景有图片内容识别、图片分析和推理、代码生成和补全、数学问题回答、逻辑问题解答、日常问答等。
推理图片理解代码
典型应用场景有社媒发帖文案创作、AI 问答助手、图片与视频理解等。单次请求限制输入最多60张图片,总大小控制在20M 以内,输入视频为小于128MB 的 MP4文件。
图片理解视频理解文本生成
典型应用场景有管家机器人、智慧座舱助手、医学影像分析助手、食物识别、图片信息判断、图片内容描述等。单次请求限制最多50张图片,总大小控制在20M 以内。
图片理解文本生成
典型应用场景为图片描述、食物识别、心理咨询、穿搭建议等。单次请求限制最多20张图片,总大小控制在20M 以内。
图片理解短上下文
典型应用场景有文献阅读助手、图片理解、角色扮演、日常问答等。单次请求限制最多50张图片,总大小控制在20M 以内。
图片理解长上下文
实时语音推荐
StepAudio 2.5 Realtime
活人感实时语音大模型
真正具备”活人感”的实时语音大模型。继承 StepAudio 2.5 TTS 表现力,结合行业顶级副语言感知能力——读懂语气中的迟疑与轻笑,输出契合度拉满的高情商反馈。支持千万人设完全自定义,可细颗粒度定义性格、口癖与情绪边界。适合情感陪伴、日常交流、百科问答、任务助手等实时对话场景。
实时语音副语言感知人设自定义
语音对话推荐
StepAudio 2.5 Chat
活人感对话大模型
真正具备”活人感”的对话大模型,仅文本返回。能深度理解复杂语意、机智抛梗,具备行业顶级副语言感知力——读懂语气中的迟疑与轻笑,输出高情商反馈。支持千万人设完全自定义,细颗粒度定义性格特征、专属口癖与情绪边界。
对话副语言感知人设自定义
语音合成推荐
StepAudio 2.5 TTS
Contextual TTS
真正具有声音表演能力的语音合成模型,首次将语境理解能力引入语音生成全流程。通过 Global Context(全局语境)+ Inline Context(文中语境)双档控制,配合 Zero-shot Clone,让合成语音有呼吸感、轻重主次和情绪弧线,适合有声书、短剧配音、广告旁白、情感叙事等高表现力场景。
Contextual TTS双档语境控制Zero-shot Clone
支持中、英、日语、粤语、四川话,提供19种官方音色,兼具出色的音色复刻能力,支持中、英、日语复刻。适合客服外呼、情感陪伴、智能助手语音交互等对发音真人感要求高的场景。
语音生成音色复刻情绪风格
语音识别推荐
StepAudio 2.5 ASR
新一代流式 ASR 旗舰
阶跃新一代流式语音识别模型,基于 4B MTP 架构,在识别准确率与响应延迟之间取得良好平衡。支持中英文识别与 ITN 文本规范化,适合实时字幕、语音输入、会议记录等对识别速度与准确率均有要求的场景。
高准确率低延迟中英双语
语音识别
StepAudio 2 ASR Pro
32B ASR Pro
具有强大的中英文语音识别能力的 ASR 模型,能够自动区分语音和噪音,支持中英文混合语音识别和多种重口音普通话识别。可广泛应用于语音输入、语音控制、会议记录等场景。
语音识别实时离线
提供超低延迟的双向交互语音对话体验,支持中文、英语、重口音普通话输入,支持中、英、日语、粤语和四川话输出。单次互动时长最长30分钟,可处理音频时长最长70分钟。已在智能座舱、智能终端、社交娱乐、情感陪伴、智能客服、金融调解等行业领域落地。
实时交互工具调用