模型能力总览

共 5 个分类入口，便于按能力快速浏览公开模型

官方推荐模型
全部模型
推理
视觉
语音

推理 / 多模态推荐

Step 3.7 Flash

多模态推理旗舰

阶跃星辰旗舰多模态推理模型。在 step-3.5-flash 的高速推理与工具调用能力基础上，新增原生多模态输入能力，可直接理解图片和视频内容，无需借助视觉 MCP 或额外模型。支持三档推理强度（low/medium/high），是智能体、代码与多模态场景的快且可依赖的模型。

推理多模态Agent图片理解视频理解

相关入口

推理 / 文本推荐

Step 3.5 Flash 2603

Agent 优化

基于 step-3.5-flash 针对高频 Agent 场景优化，在保留旗舰推理与工具调用能力的同时，进一步提升 Token 效率与推理速度，并支持切换低推理模式以降低消耗。对 Coding 与 Agent 框架兼容性也做了专项优化。

推理Agent低推理模式

相关入口

实时语音推荐

StepAudio 2.5 Realtime

活人感实时语音大模型

真正具备”活人感”的实时语音大模型。继承 StepAudio 2.5 TTS 表现力，结合行业顶级副语言感知能力——读懂语气中的迟疑与轻笑，输出契合度拉满的高情商反馈。支持千万人设完全自定义，可细颗粒度定义性格、口癖与情绪边界。适合情感陪伴、日常交流、百科问答、任务助手等实时对话场景。

实时语音副语言感知人设自定义

相关入口

语音对话推荐

StepAudio 2.5 Chat

活人感对话大模型

真正具备”活人感”的对话大模型，仅文本返回。能深度理解复杂语意、机智抛梗，具备行业顶级副语言感知力——读懂语气中的迟疑与轻笑，输出高情商反馈。支持千万人设完全自定义，细颗粒度定义性格特征、专属口癖与情绪边界。

对话副语言感知人设自定义

相关入口

语音合成推荐

StepAudio 2.5 TTS

Contextual TTS

真正具有声音表演能力的语音合成模型，首次将语境理解能力引入语音生成全流程。通过 Global Context（全局语境）+ Inline Context（文中语境）双档控制，配合 Zero-shot Clone，让合成语音有呼吸感、轻重主次和情绪弧线，适合有声书、短剧配音、广告旁白、情感叙事等高表现力场景。

Contextual TTS双档语境控制Zero-shot Clone

相关入口

语音识别推荐

StepAudio 2.5 ASR

新一代流式 ASR 旗舰

阶跃新一代语音识别模型，4B 参数 + Multi-Token Prediction（MTP）架构，单步并行预测多个 Token，5 分钟音频 1 秒内完成转写。在保持 SOTA 转写精度的同时大幅降低时延，适合 Voice Agent、大规模批量转写、实时字幕 / 直播等场景。

极速推理SOTA 精度中英双语

相关入口

推理 / 文本推荐

Step 3.5 Flash

旗舰推理

旗舰级推理模型，专为智能体构建而生。推理深度比肩顶尖闭源模型，同时具备极速响应与稳定可靠的工具调用能力。在通用推理能力基础之上，更擅长复杂项目规划与长程任务执行。

推理工具调用

相关入口

语音合成推荐

Step TTS Mini

高表现力 TTS

支持中、英、日语、粤语、四川话，提供19种官方音色，兼具出色的音色复刻能力，支持中、英、日语复刻。适合客服外呼、情感陪伴、智能助手语音交互等对发音真人感要求高的场景。

语音生成音色复刻情绪风格

相关入口

图像生成 / 编辑推荐

Step Image Edit 2

文生图 + 图像编辑一体化

阶跃星辰最新迭代的轻量级编辑模型，单模型同时支持文生图与图像编辑。在 6B 以下参数规模内实现同量级性能标杆，可跨量级对标 12B-20B 级开源大模型，重塑实时交互修图体验。

文生图图像编辑极速响应

推理 / 多模态推荐

Step 3.7 Flash

多模态推理旗舰

推理多模态Agent图片理解视频理解

相关入口

推理 / 文本推荐

Step 3.5 Flash

旗舰推理

推理工具调用

相关入口

视觉

Step-1o Turbo Vision

图像 / 视频理解

典型应用场景有社媒发帖文案创作、AI 问答助手、图片与视频理解等。单次请求限制输入最多60张图片，总大小控制在20M 以内，输入视频为小于128MB 的 MP4文件。

图片理解视频理解文本生成

相关入口

图像生成 / 编辑新一代

Step Image Edit 2

文生图 / 编辑一体化

轻量级图像生成编辑模型，单模型同时支持文生图与图像编辑任务。6B 以下参数规模实现同量级性能标杆，可跨量级对标 12B-20B 级开源大模型；单次编辑 1-2 秒，适合实时交互修图。输入图片最大支持 4096x4096 分辨率。

图片生成图片编辑低延迟

相关入口

图像生成 / 编辑

Step 2X Large

文生图

该模型生成图片质感真实，中英文文字生成能力强。输入文本最大长度：文生图 512 字符，图生图 1024 字符；输入图片需在10Mb 以内，像素不大于2048x2048，格式为 png 或 jpeg。单次可请求生成1张图像。

图片生成中文提示词

相关入口

图像生成 / 编辑

Step 1X Edit

图像编辑

模型能够理解用户的意图，并生成符合要求的图像编辑结果，适合应用于图像编辑、人像美化、艺术创作等场景。输入文本最大长度为512个字符；输入图片需在10Mb 以内，像素不大于1024x1024，格式为 png 或 jpeg。单次可请求生成1张图像。

图片编辑图像增强

相关入口

实时语音推荐

StepAudio 2.5 Realtime

活人感实时语音大模型

实时语音副语言感知人设自定义

相关入口

语音对话推荐

StepAudio 2.5 Chat

活人感对话大模型

对话副语言感知人设自定义

相关入口

语音合成推荐

Step TTS Mini

高表现力 TTS

语音生成音色复刻情绪风格

相关入口

语音识别推荐

StepAudio 2.5 ASR

新一代流式 ASR 旗舰

阶跃新一代流式语音识别模型，基于 4B MTP 架构，在识别准确率与响应延迟之间取得良好平衡。支持中英文识别与 ITN 文本规范化，适合实时字幕、语音输入、会议记录等对识别速度与准确率均有要求的场景。

高准确率低延迟中英双语

相关入口

语音识别

StepAudio 2 ASR Pro

32B ASR Pro

32B 参数的 ASR Pro 模型。

大参数

相关入口

语音识别

Step ASR

实时 / 离线识别

具有强大的中英文语音识别能力的 ASR 模型，能够自动区分语音和噪音，支持中英文混合语音识别和多种重口音普通话识别。可广泛应用于语音输入、语音控制、会议记录等场景。

语音识别实时离线

相关入口

实时语音

Step-1o Audio

稳定型

提供超低延迟的双向交互语音对话体验，支持中文、英语、重口音普通话输入，支持中、英、日语、粤语和四川话输出。单次互动时长最长30分钟，可处理音频时长最长70分钟。已在智能座舱、智能终端、社交娱乐、情感陪伴、智能客服、金融调解等行业领域落地。

实时交互工具调用

相关入口

推理 / 多模态推荐

Step 3.7 Flash

多模态推理旗舰

推理多模态Agent图片理解视频理解

相关入口

推理 / 文本推荐

Step 3.5 Flash

旗舰推理

推理工具调用

相关入口

推理 / 多模态推荐

Step 3.7 Flash

多模态推理旗舰

推理多模态Agent图片理解视频理解

相关入口

视觉

Step-1o Turbo Vision

图像 / 视频理解

图片理解视频理解文本生成

相关入口

实时语音推荐

StepAudio 2.5 Realtime

活人感实时语音大模型

实时语音副语言感知人设自定义

相关入口

语音对话推荐

StepAudio 2.5 Chat

活人感对话大模型

对话副语言感知人设自定义

相关入口

语音合成推荐

StepAudio 2.5 TTS

Contextual TTS

Contextual TTS双档语境控制Zero-shot Clone

相关入口

语音合成推荐

Step TTS Mini

高表现力 TTS

语音生成音色复刻情绪风格

相关入口

语音识别推荐

StepAudio 2.5 ASR

新一代流式 ASR 旗舰

高准确率低延迟中英双语

相关入口

语音识别

StepAudio 2 ASR Pro

32B ASR Pro

32B 参数的 ASR Pro 模型。

大参数

相关入口

语音识别

Step ASR

实时 / 离线识别

语音识别实时离线

相关入口

实时语音

Step-1o Audio

稳定型

实时交互工具调用

相关入口

官方推荐模型

全部公开模型

推理模型

视觉理解模型

语音与实时语音模型

​官方推荐模型

​全部公开模型

​推理模型

​视觉理解模型

​语音与实时语音模型

官方推荐模型

全部公开模型

推理模型

视觉理解模型

语音与实时语音模型