初代 gelab 为纯视觉小模型,面对半透明弹窗、广告弹窗、验证码等复杂场景时识别准确率低,多步操作易出现幻觉、数字输入易遗漏。升级多模态大模型后,复杂场景适配能力大幅提升,批量多步操作通过率达96%,全链路交付稳定性显著增强。
Step 3.7 Flash 的升级绝非仅做视觉能力优化,而是实现了从「看懂屏幕内容」到「稳定跑通全流程交付」的核心质变。这种全链路稳定交付能力是 Agent to Agent(A2A)协同的核心基础:单 Agent 能力稳定是多 Agent 协同落地的必要前提,本次突破大幅降低了后续 A2A 体系的搭建与调试成本。