跳转到主要内容

共 5 个分类入口,便于按能力快速浏览公开模型

推荐模型

官方推荐模型

推理 / 多模态推荐

Step 3.7 Flash

多模态推理旗舰

最大上下文

256K

阶跃星辰旗舰多模态推理模型。在 step-3.5-flash 的高速推理与工具调用能力基础上,新增原生多模态输入能力,可直接理解图片和视频内容,无需借助视觉 MCP 或额外模型。支持三档推理强度(low/medium/high),是智能体、代码与多模态场景的快且可依赖的模型。

推理多模态Agent图片理解视频理解

相关入口

推理 / 文本推荐

Step 3.5 Flash 2603

Agent 优化

最大上下文

256K

基于 step-3.5-flash 针对高频 Agent 场景优化,在保留旗舰推理与工具调用能力的同时,进一步提升 Token 效率与推理速度,并支持切换低推理模式以降低消耗。对 Coding 与 Agent 框架兼容性也做了专项优化。

推理Agent低推理模式

相关入口

实时语音推荐

StepAudio 2.5 Realtime

活人感实时语音大模型

交互模态

语音 ↔ 语音

真正具备”活人感”的实时语音大模型。继承 StepAudio 2.5 TTS 表现力,结合行业顶级副语言感知能力——读懂语气中的迟疑与轻笑,输出契合度拉满的高情商反馈。支持千万人设完全自定义,可细颗粒度定义性格、口癖与情绪边界。适合情感陪伴、日常交流、百科问答、任务助手等实时对话场景。

实时语音副语言感知人设自定义

相关入口

语音对话推荐

StepAudio 2.5 Chat

活人感对话大模型

输出模态

仅文本

真正具备”活人感”的对话大模型,仅文本返回。能深度理解复杂语意、机智抛梗,具备行业顶级副语言感知力——读懂语气中的迟疑与轻笑,输出高情商反馈。支持千万人设完全自定义,细颗粒度定义性格特征、专属口癖与情绪边界。

对话副语言感知人设自定义

相关入口

语音合成推荐

StepAudio 2.5 TTS

Contextual TTS

单次输入上限

1000 字符

真正具有声音表演能力的语音合成模型,首次将语境理解能力引入语音生成全流程。通过 Global Context(全局语境)+ Inline Context(文中语境)双档控制,配合 Zero-shot Clone,让合成语音有呼吸感、轻重主次和情绪弧线,适合有声书、短剧配音、广告旁白、情感叙事等高表现力场景。

Contextual TTS双档语境控制Zero-shot Clone

相关入口

语音识别推荐

StepAudio 2.5 ASR

新一代流式 ASR 旗舰

模型规模

4B MTP

阶跃新一代语音识别模型,4B 参数 + Multi-Token Prediction(MTP)架构,单步并行预测多个 Token,5 分钟音频 1 秒内完成转写。在保持 SOTA 转写精度的同时大幅降低时延,适合 Voice Agent、大规模批量转写、实时字幕 / 直播等场景。

极速推理SOTA 精度中英双语

相关入口

推理 / 文本推荐

Step 3.5 Flash

旗舰推理

最大上下文

256K

旗舰级推理模型,专为智能体构建而生。推理深度比肩顶尖闭源模型,同时具备极速响应与稳定可靠的工具调用能力。在通用推理能力基础之上,更擅长复杂项目规划与长程任务执行。

推理工具调用

相关入口

语音合成推荐

Step TTS Mini

高表现力 TTS

单次输入上限

1000 字符

支持中、英、日语、粤语、四川话,提供19种官方音色,兼具出色的音色复刻能力,支持中、英、日语复刻。适合客服外呼、情感陪伴、智能助手语音交互等对发音真人感要求高的场景。

语音生成音色复刻情绪风格

相关入口

图像生成 / 编辑推荐

Step Image Edit 2

文生图 + 图像编辑一体化

单次响应

1-2 秒

阶跃星辰最新迭代的轻量级编辑模型,单模型同时支持文生图与图像编辑。在 6B 以下参数规模内实现同量级性能标杆,可跨量级对标 12B-20B 级开源大模型,重塑实时交互修图体验。

文生图图像编辑极速响应