跳转到主要内容

Documentation Index

Fetch the complete documentation index at: https://platform.stepfun.com/docs/llms.txt

Use this file to discover all available pages before exploring further.

step-3.7-flash 可以把图片、视频和文本放在同一次对话中理解,适合把现实世界里的视觉信息转成计划、表格、代码草稿或问题诊断。本文收集一些常见场景的 prompt 模板,帮助你快速判断任务该怎么组织输入和输出。
这些示例侧重任务设计和输出格式。代码调用方式请先参考 快速上手;图片、视频的细节参数请参考 图片理解最佳实践视频理解最佳实践

使用建议

  • 先明确输出格式:让模型输出 Markdown 表格、JSON、CSV 行或任务清单。
  • 对关键字段要求保留证据:例如金额、日期、图表数值、任务 owner,需要让模型说明来源或不确定项。
  • 不要让模型猜缺失信息:看不清、无法判断的字段应输出 null、空字符串或“无法确认”。
  • 涉及财务、报销、合同、医疗等高风险数据时,需要人工复核。

白板转计划

适合处理会议白板、便利贴墙、手写流程图、项目讨论照片。目标是把松散信息转成可执行计划,而不是逐字转录。
这是一张项目讨论白板照片。请完成:
1. 提取白板中的主要议题和结论
2. 整理成一份项目计划,包含目标、关键里程碑、风险和待确认事项
3. 生成任务清单,字段包括:任务、负责人(如无法判断则为 null)、优先级、依赖项、建议截止时间
4. 单独列出识别不清或需要人工确认的内容
推荐输出:
## 项目计划
## 任务清单
## 风险与依赖
## 待确认事项

图表转数据

适合处理报告截图、仪表盘截图、柱状图、折线图、饼图等。目标是把图表内容转成结构化数据,并保留不确定性。
请从这张图表中提取数据,并按 JSON 返回:
{
  "chart_type": "",
  "title": "",
  "x_axis": "",
  "y_axis": "",
  "series": [
    {
      "name": "",
      "points": [
        {"label": "", "value": null, "confidence": "high|medium|low"}
      ]
    }
  ],
  "insights": [],
  "uncertain_fields": []
}

要求:
- 如果数值只能估算,请把 confidence 标为 low 或 medium
- 不要编造图中没有的信息
- 如果坐标轴、单位或图例看不清,请写入 uncertain_fields
图表截图中的数值可能受分辨率、压缩和坐标轴比例影响。需要精确计算时,应优先使用原始数据源;模型提取结果适合作为初稿或人工录入辅助。

票据转表格

适合处理收据、发票、报销单、购物小票等。目标是转成可直接写入表格的行数据,便于复制进表格或继续写入系统。
请从这张票据图片中提取结构化信息,按 JSON 返回:
{
  "merchant": "",
  "date": "",
  "currency": "",
  "total_amount": null,
  "tax_amount": null,
  "items": [
    {
      "name": "",
      "quantity": null,
      "unit_price": null,
      "amount": null
    }
  ],
  "payment_method": "",
  "uncertain_fields": []
}

要求:
- 金额必须来自票据画面,不要自行推断
- 看不清的字段填 null,并写入 uncertain_fields
- 保留原始币种和日期格式
如果你希望直接粘贴到电子表格,可以让模型改成 CSV:
请把票据中的明细输出为 CSV,列为:
merchant,date,item_name,quantity,unit_price,amount,currency,confidence

截图生成代码

适合处理网页、移动端界面、组件截图和设计稿截图。目标是得到可继续修改的 HTML / React / Tailwind 初稿。
这是一张网页界面截图。请用 React + Tailwind CSS 复刻这个页面。

要求:
1. 先描述页面结构、布局和主要视觉元素
2. 再给出可运行的 React 组件代码
3. 使用语义化命名,不要依赖截图中的真实品牌资产
4. 对无法确认的图片或图标,用占位元素表示
5. 保持移动端和桌面端都有合理布局
如果截图里包含大量文字,建议先让模型做一次“页面结构分析”,再让它生成代码。这样更容易减少布局遗漏。

录屏问题诊断

适合处理软件操作录屏、Bug 复现视频、App 使用路径、客服排障录屏等。目标是让模型还原用户动作、定位异常点并给出排查建议。
这是一个软件操作录屏。请分析:
1. 用户按时间顺序做了哪些操作
2. 哪一步开始出现异常
3. 异常表现是什么
4. 可能原因有哪些,请按可能性排序
5. 给出排查步骤和建议修复方向

请按 Markdown 输出,并把无法确认的内容单独列为“需要补充的信息”。
推荐输出:
## 操作时间线
## 异常点
## 可能原因
## 排查步骤
## 需要补充的信息

多图对比

适合比较设计改版前后、商品图片差异、截图中的 UI 状态差异、文档扫描页差异等。
请比较这几张图片,输出:
1. 相同点
2. 差异点,按视觉布局、文字内容、数据数值、状态变化分类
3. 可能影响
4. 需要人工复核的差异

如果某个差异无法确认,请明确说明原因,不要猜测。

结构化输出建议

当你需要把结果接入程序或表格时,建议显式要求 JSON 或 CSV,并说明空值策略:
请只返回合法 JSON,不要返回 Markdown。
如果字段无法从图片中确认,请填 null。
如果存在识别不确定的字段,请把字段名和原因写入 uncertain_fields。
如果下游程序需要稳定解析 JSON,可以配合 response_format 开启 JSON Mode。具体用法见 JSON Mode 使用建议Chat Completions API 对于需要人工复核的任务,可以让模型同时给出 confidence
{
  "field": "total_amount",
  "value": 128.5,
  "confidence": "medium",
  "evidence": "票据底部 Total 一行"
}

下一步

多模态快速上手

学习图片、视频、Base64 和 Files API 的基础调用方式。

Chat Completions API

查看 messagesimage_urlvideo_urlreasoning_effort 等参数。

手机操作 Agent

通过 GELab-Zero 连接 Android 真机,让模型规划手机操作。