瀚铄智擎

2026/02/28

生产级智能体部署的三层证据链

作者: 瀚铄智擎工程团队

本文面向生产级智能体项目的建设、交付与运维团队,目标是把“系统可运行”升级为“系统可证明”。所谓可证明,是指任何一次关键输出都能回答四个问题:谁触发、依据是什么、系统状态如何、责任链如何闭合。

1. 问题定义

在生产环境中,智能体的争议通常不在模型本身,而在证据链缺失。常见表现如下:

  1. 仅保留最终回答,缺失中间执行轨迹。
  2. 知识引用无定位信息,无法快速复核。
  3. 运行指标与业务结果脱节,无法解释故障原因。
  4. 审批和策略变更记录分散,责任难以界定。

三层证据链的目标是把“任务事实、系统事实、治理事实”统一到同一条可检索主链上,保障上线验收、审计抽检和故障复盘均有客观依据。

2. 三层证据链模型

三层模型采用“分层采集、统一索引、按需回放”的组织方式。

层级证据对象核心回答问题典型记录
任务执行层单任务生命周期做了什么、引用了什么、输出如何生成输入摘要、工具调用链、证据引用、结果码
系统运行层服务与资源状态当时系统是否在可控状态版本快照、时延、吞吐、失败率、回滚事件
治理审计层制度与责任链谁批准、谁变更、谁签署权限审批、策略版本、验收签署、例外放行

三层通过统一主键关联:request_idtask_idtrace_id。其中 request_id 用于跨系统检索,task_id 用于任务级回放,trace_id 用于系统链路追踪。

3. 第一层:任务执行证据

3.1 最小字段清单

字段含义采集时机是否必填
request_id请求唯一标识接入网关
task_id任务唯一标识调度创建
operator_id操作主体提交任务
prompt_digest输入摘要哈希调度前
tool_trace工具链记录执行中
evidence_refs证据定位集合输出前
output_digest输出摘要哈希输出后
result_code成功/失败/回滚结束时
ended_at完成时间结束时

3.2 工具调用记录规范

工具链记录至少应包含:工具名、参数摘要、返回码、耗时、重试次数、补偿动作。

{
  "tool": "knowledge_retrieval",
  "status": "ok",
  "latency_ms": 184,
  "retry": 0,
  "args_digest": "9df0b8f1",
  "response_code": "200"
}

3.3 证据引用规范

证据引用不应只有“来源名称”,还应包含“定位信息 + 版本信息 + 可信度”。

{
  "source": "policy_repo",
  "locator": "node_id=policy_208;chapter=4.2",
  "version": "v2026.01",
  "confidence": 0.94
}

4. 第二层:系统运行证据

系统运行证据用于解释“任务结果是否受系统异常影响”。建议分钟级采集快照,关键指标如下。

指标口径定义目标示例说明
端到端 P95 时延提交到结果返回的 95 分位耗时≤ 2.5s按业务高峰统计
工具调用成功率成功调用次数/总调用次数≥ 99.0%包含重试后成功
回滚成功率回滚成功次数/回滚触发次数≥ 99.5%需保留回滚证据
调度成功率成功完成任务/总任务≥ 98.5%按日统计
审计链完整率三层证据完整任务占比= 100%不达标即阻断发布

每次生产发布必须固化以下快照:

  1. 版本号与变更单号。
  2. 生效窗口与执行人。
  3. 回滚版本与触发阈值。
  4. 关键参数变更明细(并发、超时、限流、路由权重)。

5. 第三层:治理审计证据

治理层用于确认“流程是否合规、责任是否闭合”。

治理事项证据内容保留周期
权限变更申请单、审批链、执行记录不少于 12 个月
策略发布版本差异、审批人、回退记录不少于 12 个月
验收签署测试报告、门禁结果、签署页不少于 24 个月
例外放行放行原因、期限、责任人全量长期留存

建议采用 RACI 矩阵定义责任边界:

事项R 负责A 审核C 协同
生产发布平台工程师项目负责人安全审计
策略调整规则工程师合规负责人业务负责人
例外放行业务主管合规负责人运维值班
验收签署项目经理甲方代表测试/运维

6. 统一关联与一键复盘

6.1 主链设计

主链推荐为:request_id -> task_id -> trace_id -> audit_id

  • request_id:跨系统检索入口。
  • task_id:任务级证据主索引。
  • trace_id:系统运行证据定位键。
  • audit_id:治理事件与审批链索引。

6.2 复盘流程

function replay(request_id):
  task = load_task_evidence(request_id)
  runtime = load_runtime_snapshot(task.trace_id)
  governance = load_governance_events(request_id)

  if missing(task) or missing(runtime) or missing(governance):
    return "证据链不完整,触发审计告警"

  return {
    "input": task.prompt_digest,
    "tool_chain": task.tool_trace,
    "evidence": task.evidence_refs,
    "system_state": runtime.metrics,
    "governance": governance
  }

7. 验收口径

上线验收应采用“门禁 + 抽检 + 演练”三段式。

7.1 门禁条件

  • 关键任务路径通过率 = 100%。
  • 审计链完整率 = 100%。
  • 高风险缺陷数 = 0。
  • 回滚演练成功率 = 100%。

7.2 抽检要求

抽检对象数量建议验收标准
常规成功任务≥ 30 条三层证据完整可回放
失败任务≥ 10 条有失败原因与补偿记录
例外放行任务全量有审批链与有效期

7.3 演练要求

  1. 单节点故障切换演练。
  2. 策略误发回滚演练。
  3. 审计追溯查询演练。
  4. 任务失败补偿演练。

8. 上线前 Checklist

  • 三层字段清单冻结并评审通过。
  • 三层日志已实现主键关联。
  • 任意任务可在 3 分钟内完成证据回放。
  • 发布、回滚、例外放行均有标准审批模板。
  • 审计抽检脚本可自动输出缺失项报告。
  • 运维与合规团队完成联合演练。

9. 结语

生产级智能体的核心竞争力不只是生成能力,而是“结果有依据、过程可追踪、责任可闭环”。三层证据链是将智能体系统从试点能力升级为生产能力的关键基础设施。

预约演示提交需求