共 5 个分类入口,便于按能力快速浏览公开模型
- 官方推荐模型
- 全部模型
- 推理
- 视觉
- 语音
推荐模型
官方推荐模型
Step 3.7 Flash
多模态推理旗舰
最大上下文
256K
阶跃星辰旗舰多模态推理模型。在 step-3.5-flash 的高速推理与工具调用能力基础上,新增原生多模态输入能力,可直接理解图片和视频内容,无需借助视觉 MCP 或额外模型。支持三档推理强度(low/medium/high),是智能体、代码与多模态场景的快且可依赖的模型。
相关入口
Step 3.5 Flash 2603
Agent 优化
最大上下文
256K
基于 step-3.5-flash 针对高频 Agent 场景优化,在保留旗舰推理与工具调用能力的同时,进一步提升 Token 效率与推理速度,并支持切换低推理模式以降低消耗。对 Coding 与 Agent 框架兼容性也做了专项优化。
相关入口
StepAudio 2.5 Realtime
活人感实时语音大模型
交互模态
语音 ↔ 语音
真正具备”活人感”的实时语音大模型。继承 StepAudio 2.5 TTS 表现力,结合行业顶级副语言感知能力——读懂语气中的迟疑与轻笑,输出契合度拉满的高情商反馈。支持千万人设完全自定义,可细颗粒度定义性格、口癖与情绪边界。适合情感陪伴、日常交流、百科问答、任务助手等实时对话场景。
相关入口
StepAudio 2.5 Chat
活人感对话大模型
输出模态
仅文本
真正具备”活人感”的对话大模型,仅文本返回。能深度理解复杂语意、机智抛梗,具备行业顶级副语言感知力——读懂语气中的迟疑与轻笑,输出高情商反馈。支持千万人设完全自定义,细颗粒度定义性格特征、专属口癖与情绪边界。
相关入口
StepAudio 2.5 TTS
Contextual TTS
单次输入上限
1000 字符
真正具有声音表演能力的语音合成模型,首次将语境理解能力引入语音生成全流程。通过 Global Context(全局语境)+ Inline Context(文中语境)双档控制,配合 Zero-shot Clone,让合成语音有呼吸感、轻重主次和情绪弧线,适合有声书、短剧配音、广告旁白、情感叙事等高表现力场景。
相关入口
StepAudio 2.5 ASR
新一代流式 ASR 旗舰
模型规模
4B MTP
阶跃新一代语音识别模型,4B 参数 + Multi-Token Prediction(MTP)架构,单步并行预测多个 Token,5 分钟音频 1 秒内完成转写。在保持 SOTA 转写精度的同时大幅降低时延,适合 Voice Agent、大规模批量转写、实时字幕 / 直播等场景。
相关入口
Step 3.5 Flash
旗舰推理
最大上下文
256K
旗舰级推理模型,专为智能体构建而生。推理深度比肩顶尖闭源模型,同时具备极速响应与稳定可靠的工具调用能力。在通用推理能力基础之上,更擅长复杂项目规划与长程任务执行。
相关入口
Step TTS Mini
高表现力 TTS
单次输入上限
1000 字符
支持中、英、日语、粤语、四川话,提供19种官方音色,兼具出色的音色复刻能力,支持中、英、日语复刻。适合客服外呼、情感陪伴、智能助手语音交互等对发音真人感要求高的场景。
相关入口
Step Image Edit 2
文生图 + 图像编辑一体化
单次响应
1-2 秒
阶跃星辰最新迭代的轻量级编辑模型,单模型同时支持文生图与图像编辑。在 6B 以下参数规模内实现同量级性能标杆,可跨量级对标 12B-20B 级开源大模型,重塑实时交互修图体验。