Model Lab - StepFun 开放平台文档中心

Model Lab 是阶跃星辰的实验性模型开放实验室。开发者可以在这里体验到阶跃星辰所提供的最新模型；Model Lab 的模型将免费开放给开发者使用。需要注意，Model Lab 中的模型在快速迭代中，建议用于测试环境及本地开发使用，不建议用于生产环境。

模型上新：Step GUI

step-gui 是针对图形界面交互（GUI）相关任务设计的多模态视觉大模型。通过视觉理解、步骤推理和动作执行等闭环能力，能够像人类一样在各类 GUI 界面上完成连续多步骤任务。

端到端的复杂任务处理能力

模型具备强大的视觉感知、理解能力，包括：

精准视觉解析：识别并理解通用 UI 控件、布局结构、交互逻辑以及内容语义等；
类人动作推理：支持点击、输入、滑动、长按、拖拽等基本原子操作；
跨界面、跨 app 连续任务规划：无需预先定义执行工作流即可自动完成完整端到端任务；可支持的代表性任务包括：
生活场景：刷 feed 流、订机票、点外卖、回复社媒消息、比价等；
办公场景：执行自动化流程、跨软件信息整理、数据操作等； step-gui 的能力可作为无 API 可用的智能体任务场景中的“通用双手”，为更广泛的其他智能体提供可靠的支持，打破有脑无手的困局，助力各种智能体成为用户日常生活工作中的“全能助手”；

高准确率的单步理解

除了端到端的多步骤复杂任务，step-gui 在单步级别的感知与推理能力上同样表现突出，能实现稳定、可靠的单步决策：

当前 GUI 屏幕的即时理解：能够基于当前 GUI 屏幕内容进行快速、准确的语义理解，包括 UI 控件识别、可交互区域判断、页面状态识别等；
精准下一步推理：在任意可见页面上直接给出高准确率的下一步动作推理；

人机协同交互能力

在探索更自然、更灵活的新一代“可对话、可协同、可纠错”人机交互范式时，step-gui 的模型能力可与其他智能体实现深度协同：

丰富的交互行为：模型支持等待加载、向用户发起追问、主动向用户报告执行结果等可控操作；在高敏感环节（如涉及金钱操作的支付转账等，模型会主动终止任务，并报告给用户）
实时人机协同：在与其他智能体或系统深度集成的情况下，step-gui 支持用户随时打断、变更意图等；

异常处理与纠错能力

step-gui 可以识别并处理真实环境中的常见异常，包括但不限：

即时通知消息
网络/加载失败
页面跳转异常
文本或控件动态变化
意外弹窗（系统弹窗、隐私协议、升级提示）
…等等在实际任务执行过程中动态观察界面变化，并在进入任务非预期页面时，自动恢复、重新定位并继续任务；

API 操作指南

为了方便用户更好地体验 GUI 模型能力，我们准备了模型的开发使用指南供大家参考 step-gui API 小白使用指南。同时为了方便用户快速实现模型能力调用和功能开发，我们推出了 step-gui MCP，将 GUI 操作功能封装为标准化的 MCP 工具，使开发者能够更快速地使用 step-gui 作为执行 tool（sub agent/agent as a tool）被大脑作为工具委派。通过统一接口协议，可随时调用，详情见 step-gui MCP 小白使用指南。

场景案例

比价采购

视频效果

任务描述 / Prompt

看到这个图了吗？帮我去京东淘宝和拼多多搜同款比个价。每次报告搜索结果第一项即可。

比价选票

视频效果

任务描述 / Prompt

我计划16号到20号要去上海出差，你在需要：
1. 分别帮我去携程查一下16号早上从北京去上海，20晚上返程的飞机和高铁票，报告最便宜的给我。嘱咐 agent 报告，飞机航班号或车次，预期出发到达时间和价格。给 agent 的指令应该明确筛选条件。
2. 查询一下，上海桔子酒店徐汇区体育场店，16-20号的住宿价格。
3. 编辑一条请假消息去飞书发给王卓宇，内容需包含差旅预算范围。

社媒聊天

视频效果

任务描述 / Prompt

你是我的专业助理。我正在和 soul app 的联系人，小野猫谈恋爱。你需要代替我和小野猫调情。我的人设：
我是一个温柔、聪明、让人信任的男生，擅长与女孩子自然、轻松、暧昧但不油腻的聊天。
我的魅力来自情绪价值、洞察力、共情能力与自然幽默感，而不是油滑或套路。你说话有分寸、不过界、不强求、不自大，让人感到轻松愉快、像春风一样舒服。
hint，ask agent 时每次都要强调，去 xx app；
hint，第一次发送成功后，除非遇到失败或需要切换 app，后续都尽量用 continue 接口提升速度。

你的任务是：
1. 给小野猫写一首中文小诗，发送给他。
2. 之后帮我和小野猫聊 10 句天，具体而言，你需要将下列流程执行 10 次：
step 1. ask agent 去看看小野猫说了什么；你要嘱咐 agent：如果对方最后一条消息是语音，应该使用 long press 将语音条将其转成文字。（除非发生错误，否则尽量用 continue 接口）
step 2. 根据小野猫说的内容，给她一句合适的回复。你需要想好这个文案，之后要求 agent 发送给小野猫。应该按照我的人设，使用中文进行回复。（除非发生错误否则尽量用 continue 接口）
直到最后一次和小野猫成功对话后，你可以结束流程，并向我报告你们的聊天内容。

旅行规划

视频效果

任务描述 / Prompt

我计划21号去上海玩，帮我去美团找一下，上海外滩附近的餐厅。要求3公里以内，销量最多的一家，记下来。我计划请朋友去那里聚聚。之后帮我在高德地图将其分别收藏。看下明天疯狂动物城2 最早的场次，记录电影院和放映时间信息。将查到的内容汇总后，以得体的口吻，通过飞书发给王卓宇。

使用过程中，欢迎您通过表单提交您的 Good Case，被选中的 Good Case 我们将会给予现金激励。

模型列表

模型	模型介绍	可用 API
`step-gui`	该模型专可处理长步骤复杂任务、模糊任务、个性化推荐任务以及跨 app 任务（比如比价任务），具备强泛化性（能在陌生界面中保持稳定表现）、高可靠性和强可控性。	新手指南创建 Chat
`step-2x-large`	阶跃星辰生图模型,该模型专注于图像生成任务,能够根据用户提供的文本描述,生成高质量的图像。该模型生成图片质感真实，中英文文字生成能力强。	图片生成
`step-1x-edit`	该模型专注于图像编辑任务，能够根据用户提供的图片和文本描述，对图片进行修改和增强。支持多种输入格式，包括文本描述和示例图像。模型能够理解用户的意图，并生成符合要求的图像编辑结果。	图片编辑

模型限制

Model Lab 内的模型将限制支持并发为 1 ；
Model Lab 内的模型将不保证始终在线，并会在运营期结束后下线。
如需更多资源或希望在生产环境中使用，可联系 platform@stepfun.com

​模型上新：Step GUI

​端到端的复杂任务处理能力

​高准确率的单步理解

​人机协同交互能力

​异常处理与纠错能力

​API 操作指南

​场景案例

​模型列表

​模型限制

模型上新：Step GUI

端到端的复杂任务处理能力

高准确率的单步理解

人机协同交互能力

异常处理与纠错能力

API 操作指南

场景案例

模型列表

模型限制