Documentation Index
Fetch the complete documentation index at: https://platform.stepfun.com/docs/llms.txt
Use this file to discover all available pages before exploring further.
step-3.7-flash 的多模态理解能力可以用于手机 GUI Agent 场景:模型读取手机截图、任务描述和历史轨迹,判断下一步动作,再由运行框架把动作执行到 Android 真机上。
当前推荐使用 GELab-Zero 跑通这类任务。GELab-Zero 是一个面向 Android 手机上的 GUI Agent 运行框架,负责连接手机、采集截图、调用多模态模型、执行动作并记录过程。
手机操作 Agent 涉及真机、ADB、模型调用和本地运行环境,适合作为进阶场景使用。第一次接入建议先完成 多模态快速上手,确认 API Key 与模型调用正常。
工作流程
GELab-Zero 将模型决策和手机执行串成一条完整链路:- 你给 Agent 一个自然语言任务。
- 电脑通过 ADB 连接 Android 手机并获取截图。
- 框架把当前截图、历史轨迹和任务描述发给多模态模型。
- 模型输出下一步动作,例如
AWAKE、CLICK、TYPE、SLIDE。 - 框架把动作真正执行到手机上。
- 每一步截图、动作和模型输出都会被记录。
- 任务结束后,可以通过可视化页面按
Session ID回看整个过程。
前置准备
运行前需要准备:- 一台 Android 手机,并开启开发者模式和 USB 调试
- ADB / platform-tools
- Python 3.12+
- GELab-Zero 仓库代码与依赖
- 可用的 Step API Key
unauthorized,需要在手机上允许 USB 调试授权。
安装 GELab-Zero
配置模型服务
GELab-Zero 的模型调用会读取model_config.yaml,并通过 OpenAI 兼容接口发起请求。先在 model_config.yaml 中配置 Step API:
examples/run_single_task_state_compress.py 中把模型 provider 指向 stepfun,并使用 step-3.7-flash:
GELab-Zero 的极简运行指南建议
temperature 保持为 1,不要改成 0.1 或 0.5。长轨迹任务建议开启 state compression,避免历史上下文持续膨胀。运行手机任务
先确认手机仍然在线:Session ID、每一步耗时、当前动作和最终总耗时。任务日志默认写入:
running_log/server_log/os-copilot-local-eval-logs/tracesrunning_log/server_log/os-copilot-local-eval-logs/images
查看执行过程
GELab-Zero 提供本地可视化页面,用于查看每一步截图、模型思考和动作结果:Session ID,粘贴到页面输入框后即可回看完整执行轨迹。
参考
GELab-Zero 极简运行指南
查看 Android 真机配置、State Compress 入口、推荐参数和可视化页面说明。