场景示例

step-3.7-flash 可以把图片、视频和文本放在同一次对话中理解，适合把现实世界里的视觉信息转成计划、表格、代码草稿或问题诊断。本文收集一些常见场景的 prompt 模板，帮助你快速判断任务该怎么组织输入和输出。

这些示例侧重任务设计和输出格式。代码调用方式请先参考快速上手；图片、视频的细节参数请参考图片理解最佳实践和视频理解最佳实践。

使用建议

先明确输出格式：让模型输出 Markdown 表格、JSON、CSV 行或任务清单。
对关键字段要求保留证据：例如金额、日期、图表数值、任务 owner，需要让模型说明来源或不确定项。
不要让模型猜缺失信息：看不清、无法判断的字段应输出 null、空字符串或“无法确认”。
涉及财务、报销、合同、医疗等高风险数据时，需要人工复核。

白板转计划

适合处理会议白板、便利贴墙、手写流程图、项目讨论照片。目标是把松散信息转成可执行计划，而不是逐字转录。

这是一张项目讨论白板照片。请完成：
提取白板中的主要议题和结论
整理成一份项目计划，包含目标、关键里程碑、风险和待确认事项
生成任务清单，字段包括：任务、负责人（如无法判断则为 null）、优先级、依赖项、建议截止时间
单独列出识别不清或需要人工确认的内容

推荐输出：

## 项目计划
## 任务清单
## 风险与依赖
## 待确认事项

图表转数据

适合处理报告截图、仪表盘截图、柱状图、折线图、饼图等。目标是把图表内容转成结构化数据，并保留不确定性。

请从这张图表中提取数据，并按 JSON 返回：
{
  "chart_type": "",
  "title": "",
  "x_axis": "",
  "y_axis": "",
  "series": [
    {
      "name": "",
      "points": [
        {"label": "", "value": null, "confidence": "high|medium|low"}
      ]
    }
  ],
  "insights": [],
  "uncertain_fields": []
}

要求：
- 如果数值只能估算，请把 confidence 标为 low 或 medium
- 不要编造图中没有的信息
- 如果坐标轴、单位或图例看不清，请写入 uncertain_fields

图表截图中的数值可能受分辨率、压缩和坐标轴比例影响。需要精确计算时，应优先使用原始数据源；模型提取结果适合作为初稿或人工录入辅助。

票据转表格

适合处理收据、发票、报销单、购物小票等。目标是转成可直接写入表格的行数据，便于复制进表格或继续写入系统。

请从这张票据图片中提取结构化信息，按 JSON 返回：
{
  "merchant": "",
  "date": "",
  "currency": "",
  "total_amount": null,
  "tax_amount": null,
  "items": [
    {
      "name": "",
      "quantity": null,
      "unit_price": null,
      "amount": null
    }
  ],
  "payment_method": "",
  "uncertain_fields": []
}

要求：
- 金额必须来自票据画面，不要自行推断
- 看不清的字段填 null，并写入 uncertain_fields
- 保留原始币种和日期格式

如果你希望直接粘贴到电子表格，可以让模型改成 CSV：

请把票据中的明细输出为 CSV，列为：
merchant,date,item_name,quantity,unit_price,amount,currency,confidence

截图生成代码

适合处理网页、移动端界面、组件截图和设计稿截图。目标是得到可继续修改的 HTML / React / Tailwind 初稿。

这是一张网页界面截图。请用 React + Tailwind CSS 复刻这个页面。

要求：
先描述页面结构、布局和主要视觉元素
再给出可运行的 React 组件代码
使用语义化命名，不要依赖截图中的真实品牌资产
对无法确认的图片或图标，用占位元素表示
保持移动端和桌面端都有合理布局

如果截图里包含大量文字，建议先让模型做一次“页面结构分析”，再让它生成代码。这样更容易减少布局遗漏。

录屏问题诊断

适合处理软件操作录屏、Bug 复现视频、App 使用路径、客服排障录屏等。目标是让模型还原用户动作、定位异常点并给出排查建议。

这是一个软件操作录屏。请分析：
用户按时间顺序做了哪些操作
哪一步开始出现异常
异常表现是什么
可能原因有哪些，请按可能性排序
给出排查步骤和建议修复方向

请按 Markdown 输出，并把无法确认的内容单独列为“需要补充的信息”。

推荐输出：

## 操作时间线
## 异常点
## 可能原因
## 排查步骤
## 需要补充的信息

多图对比

适合比较设计改版前后、商品图片差异、截图中的 UI 状态差异、文档扫描页差异等。

请比较这几张图片，输出：
1. 相同点
2. 差异点，按视觉布局、文字内容、数据数值、状态变化分类
3. 可能影响
4. 需要人工复核的差异

如果某个差异无法确认，请明确说明原因，不要猜测。

结构化输出建议

当你需要把结果接入程序或表格时，建议显式要求 JSON 或 CSV，并说明空值策略：

请只返回合法 JSON，不要返回 Markdown。
如果字段无法从图片中确认，请填 null。
如果存在识别不确定的字段，请把字段名和原因写入 uncertain_fields。

如果下游程序需要稳定解析 JSON，可以配合 response_format 开启 JSON Mode。具体用法见 JSON Mode 使用建议和 Chat Completions API。对于需要人工复核的任务，可以让模型同时给出 confidence：

{
  "field": "total_amount",
  "value": 128.5,
  "confidence": "medium",
  "evidence": "票据底部 Total 一行"
}

下一步

多模态快速上手

学习图片、视频、Base64 和 Files API 的基础调用方式。

Chat Completions API

查看 messages、image_url、video_url、reasoning_effort 等参数。

手机操作 Agent

通过 GELab-Zero 连接 Android 真机，让模型规划手机操作。

开始使用

模型列表

定价计费

条款与协议

使用建议

白板转计划

图表转数据

票据转表格

截图生成代码

录屏问题诊断

多图对比

结构化输出建议

下一步

多模态快速上手

Chat Completions API

手机操作 Agent

​使用建议

​白板转计划

​图表转数据

​票据转表格

​截图生成代码

​录屏问题诊断

​多图对比

​结构化输出建议

​下一步

多模态快速上手

Chat Completions API

手机操作 Agent

使用建议

白板转计划

图表转数据

票据转表格

截图生成代码

录屏问题诊断

多图对比

结构化输出建议

下一步