面向复杂调研与研报生成场景,基于证据驱动 Harness 实现从用户问题到带引用结构化报告的端到端系统。在 DeepResearch Bench 100 个跨领域任务上取得 54.37 分,达到开源 SOTA 55.95 的 97.2%。
-
多智能体 Harness 设计:基于 Agent-as-Tool 构建 Researcher、Searcher、Reporter 协作架构,以独立 prompt、工具集、轮次预算和输出协议定义角色边界;Researcher 维护任务树、搜索预算、证据充分性与终止条件。
-
Evidence Store 证据管理:设计 Evidence Store 管理证据记录、分析记录和证据索引,将网页检索结果、关键事实、来源层级、冲突信息和中间分析写入文件系统;支持跨 Agent 复用、结论级溯源和失败任务复盘。
-
章节级报告生成:实现 outline-first 写作链路,将报告拆分为大纲、章节证据绑定、章节草稿、引用列表和最终报告;按章节索引执行证据包准备、章节写作、覆盖检查和局部重写。
面向公司多端产品 UI 回归测试场景,设计并实现纯视觉驱动的跨端 GUI Agent 系统。同一套核心逻辑覆盖 Web、PC 客户端与 Android,已接入公司测试平台并投入使用。
-
Agent 编排与跨端执行引擎:设计「规划 → 定位 → 执行 → 观察」多轮决策循环,基于截图判断界面状态并回传执行结果;对外抽象定位、提取、断言等视觉原语,通过统一设备接口处理屏幕尺寸、动作空间和坐标转换差异。
-
LLM 决策约束与模型适配:通过 Prompt 约束和结构化输出协议,将模型每轮响应限定为「任务完成」或「执行单个动作」;按模型族适配坐标体系、输出格式和解析策略,减少解析失败和坐标偏移带来的执行错误。
-
任务调度与平台集成:构建测试任务执行服务,负责脚本解释、浏览器连接池、任务状态和报告产物管理;接入 BullMQ 与 Webhook 完成异步调度和结果回传,生成包含截图、模型调用、token 消耗和错误分类的执行报告。