2026/03/05

本地/专网部署智能体总体架构与验收口径

作者: 瀚铄智擎技术团队

本文面向在本地机房、政企专网、行业内网等环境建设智能体系统的项目团队，目标是形成一套可落地、可审计、可验收的总体方法。文中指标均为示例口径，用于说明验收框架；实际目标应以项目实测与合同约定为准。

1. 背景与目标

问题定义

企业在推进智能体建设时，常见问题不是“能不能跑起来”，而是“是否可控、可验、可长期运行”。在本地或专网场景下，业务方通常同时提出四类约束：数据不出域、接口可追责、故障可回退、上线可审计。若前期只关注模型效果，忽略系统工程约束，后期会出现上线周期长、验收争议大、运维成本高的问题。

技术机制

总体目标应定义为“六可”：可部署、可接入、可编排、可追溯、可回滚、可验收。对应机制为：

以分层架构隔离变化，避免模型、工具、知识库、业务流程强耦合。
以状态机驱动任务执行，确保任务从受理到回传全链路可观测。
以证据链绑定输出，确保每条关键结论可回查来源。
以统一指标体系度量交付，避免“主观可用”替代“客观验收”。

实施方法

实施前应先完成三项基线工作：

场景分解：把“智能体能力”拆到具体业务任务，明确输入、处理、输出、责任人。
约束建模：梳理网络边界、数据分级、账号权限、外部依赖、合规条款。
验收对齐：在立项或需求评审阶段，先锁定指标定义、采集口径、验收样本和统计窗口。

验收口径

背景与目标阶段的交付验收可采用“文档+演示+抽检”三段式：

文档：总体架构说明、边界清单、风险清单、指标字典齐备。
演示：覆盖核心业务链路，能展示成功路径与失败补偿路径。
抽检：随机抽取不少于约定比例任务，检查日志、证据、审计链是否闭环。

2. 适用范围与边界（本地部署、专网部署、离线依赖、数据边界）

问题定义

本地部署与专网部署常被混用，导致实施策略错误。例如把“无公网出口”误解为“无任何外部依赖”，或把“专网互通”误解为“可跨域共享全部数据”。边界不清会直接引发合规风险与验收争议。

技术机制

建议从四类边界定义系统：

本地部署边界：系统运行在单单位本地机房，计算、存储、日志均在本域。
专网部署边界：系统运行在受控专网，可跨节点通信，但需按网络区划与访问策略受控放行。
离线依赖边界：模型文件、镜像、词库、规则包、补丁应支持离线导入、校验和升级。
数据边界：按数据分级定义“可入库、可索引、可出域、可脱敏、可留存”的处理规则。

实施方法

实施阶段建议落地四份边界清单：

网络清单：网段、端口、协议、南北向/东西向访问规则。
依赖清单：模型版本、运行时、第三方组件、离线包来源与签名。
数据清单：字段分级、存储位置、加密策略、保留周期、销毁流程。
接口清单：对接系统、调用频率、超时重试、降级策略、责任归属。

验收口径

边界验收可采用“配置核验+流量核验+数据核验”：

配置核验：检查网络策略、白名单、密钥托管、离线仓库是否按方案落地。
流量核验：通过抓包或网关日志确认无越界访问、无未备案外联。
数据核验：抽检敏感字段脱敏、加密、访问审批和留存策略执行结果。

3. 总体架构设计（分层说明）

问题定义

智能体系统若以单体方式堆叠能力，通常在两个月内出现“改一处动全局”。典型症状包括：工具变更导致对话异常、知识库更新导致推理链失稳、审计需求介入后大量返工。

技术机制

采用六层架构，将“交互、决策、执行、数据、审计、运维”分离，核心是接口契约稳定、层间责任清晰。
示例口径，以项目实测与合同约定为准。

层级	核心职责	关键组件（示例）	输入/输出	主要验收点
交互层	统一接入用户请求，处理会话、身份、上下文	Web/IM/工单入口、会话管理、身份网关	输入：用户请求；输出：标准任务请求	鉴权通过率、会话一致性、输入合法性拦截
任务编排层	意图识别、任务分解、状态机执行、路由策略	Planner、State Machine、Policy Engine	输入：标准任务请求；输出：可执行步骤	状态流转正确率、编排可解释性、异常转移覆盖
工具层	执行业务动作，屏蔽异构系统差异	Connector、Adapter、重试/熔断模块	输入：步骤指令；输出：工具结果/错误码	调用成功率、幂等性、超时与重试有效性
数据与知识层	提供结构化数据、文档知识、向量检索	RDBMS、对象存储、向量库、索引服务	输入：查询与写入；输出：证据与业务数据	数据一致性、索引更新时效、召回可解释性
审计层	全链路留痕、证据绑定、合规检查	审计日志、证据仓、签名与哈希、报表	输入：链路事件；输出：可审计记录	审计链完整率、不可抵赖性、审计查询可用性
运维层	监控、告警、发布、备份、容量与应急	APM、日志平台、CMDB、发布流水线	输入：运行指标；输出：告警/变更记录	SLA、告警准确率、恢复时长、变更可回滚性

实施方法

分层实施建议按“先契约、后实现、再联调”：

先定义层间 API 契约、错误码规范、TraceID 规范。
再实现最小可运行链路（MVP），优先打通单场景闭环。
最后扩展场景与容量，逐层压测并固化基线。
对每层保留独立回归测试与版本清单，避免跨层联动回归失控。

验收口径

架构验收重点不在“图是否完整”，而在“分层是否可替换、可测试、可追责”：

任意单层升级不应破坏既有契约。
关键链路必须具备端到端 TraceID 串联。
发生故障时可在约定时限内定位到层级责任与组件责任。

4. 关键机制

问题定义

关键机制缺位会导致三个直接后果：任务不可控、结果不可证、故障不可复盘。尤其在多工具、多系统协同时，单点失败若无补偿机制，容易造成“业务半成功、状态不一致”。

技术机制

4.1 任务编排与状态机

将任务拆分为标准状态，建议至少包含：RECEIVED、PLANNED、RUNNING、VERIFYING、COMPLETED、FAILED、COMPENSATING、ROLLED_BACK。每次状态流转必须记录触发条件、操作者、输入摘要、输出摘要和时间戳。

4.2 工具调用与回滚补偿

工具层需统一封装超时、重试、熔断、幂等键。对涉及写操作的步骤设置补偿动作（Compensation Action），失败时按逆序回滚，回滚失败需进入人工接管队列并自动告警。

4.3 证据引用与可追溯输出

智能体输出应绑定证据引用元数据，包括来源系统、文档版本、检索时间、哈希摘要、片段位置。面向业务输出可展示“摘要+引用”，面向审计输出保留“全文定位+签名校验”。

4.4 权限与审计留痕

采用“身份认证 + 授权策略 + 行为留痕”三段控制。授权建议结合 RBAC 与 ABAC：前者控制角色边界，后者控制场景细粒度约束（数据级、字段级、时间窗级）。

function handleTask(request):
  trace_id = newTraceId()
  audit.log(trace_id, "RECEIVED", request.meta)

  if not authn(request.user) or not authz(request.user, request.intent):
    audit.log(trace_id, "REJECTED", "AUTH_FAILED")
    return fail("无权限")

  plan = planner.build(request)
  audit.log(trace_id, "PLANNED", plan.summary)

  executed_steps = []
  for step in plan.steps:
    audit.log(trace_id, "RUNNING", step.id)
    result = tool.invoke(step, timeout=step.timeout, retry=step.retry, idempotency_key=trace_id+step.id)

    if result.ok:
      evidence.bind(trace_id, step.id, result.source, hash(result.payload))
      executed_steps.append(step)
      continue

    audit.log(trace_id, "FAILED", result.error_code)
    for done_step in reverse(executed_steps):
      compensate_result = tool.compensate(done_step)
      audit.log(trace_id, "COMPENSATING", done_step.id + ":" + compensate_result.status)

    if all_compensation_success():
      audit.log(trace_id, "ROLLED_BACK", "SUCCESS")
    else:
      audit.log(trace_id, "ROLLED_BACK", "PARTIAL_NEED_MANUAL")
      alert.oncall(trace_id)

    return fail("任务失败，已触发补偿")

  final_answer = responder.compose_with_evidence(trace_id)
  audit.log(trace_id, "COMPLETED", final_answer.summary)
  return success(final_answer)

实施方法

将状态机与流程配置外置，避免硬编码在单一服务。
将工具调用规范沉淀为 SDK，统一错误码和重试策略。
将证据模型定义为统一结构体，避免不同场景引用口径不一致。
将审计日志分为运行日志与合规日志，分别服务运维与监管。

验收口径

状态机覆盖率：核心业务场景状态转移覆盖达到约定阈值。
补偿有效性：注入故障后可触发逆序补偿并形成完整审计记录。
可追溯性：抽检输出可在审计系统回查到原始证据与版本信息。
权限控制：越权请求应被拒绝并可追踪到策略命中记录。

5. 部署模式与实施路径

问题定义

在本地/专网环境中直接“全量上线”风险高，常见后果是性能不达标、边界遗漏、运维体系未就绪。应采用分阶段推进，逐级放大场景与负载。

技术机制

采用“三阶段路径 + 阶段退出门槛”：

单点试运行：验证单场景闭环与关键机制可用。
专网小规模试点：验证跨系统协同与运维响应。
生产级上线：验证多场景并发、稳定性与合规持续性。

实施方法

5.1 单点试运行

目标是“跑通一条链路并可复盘”。重点完成：最小架构部署、单业务流程编排、基础审计留痕、首轮指标采集。

5.2 专网小规模试点

目标是“可扩展且可管控”。重点完成：多工具接入、跨系统身份打通、容量评估、告警规则、灰度发布。

5.3 生产级上线

目标是“可持续运行”。重点完成：高可用部署、备份与灾备、变更流程、值班机制、月度 SLA 看板和合规报表。

实施清单（Checklist）

已完成网络、依赖、数据、接口四类边界清单并签字确认。
已建立统一 TraceID、错误码、审计字段标准。
已完成核心流程的成功路径、失败路径、补偿路径联测。
已完成离线依赖包签名校验与版本台账。
已完成压测、稳态运行、故障演练并形成记录。
已配置分级告警、值班通讯录、应急处置手册。
已形成验收脚本、验收样本、指标看板与原始数据留档。

验收口径

阶段验收建议采用“门槛制”：未达到阶段指标不进入下一阶段。每阶段必须提交运行报告、问题清单、整改闭环和风险接受说明。

6. 验收口径（重点）

问题定义

智能体项目最常见争议点是“效果不错但无法验收”。原因通常是：指标定义模糊、采集方式不一致、统计窗口不统一、样本不具代表性。

技术机制

验收体系建议采用“指标字典 + 数据采集 + 统计窗口 + 判定规则”四件套。

指标字典统一公式和边界条件。
采集链路统一来源，避免手工统计。
统计窗口按日、周、月固定，防止选择性取样。
判定规则明确“通过/有条件通过/不通过”。

实施方法

6.1 功能验收

基于业务用例库逐条验证：任务受理、意图识别、流程执行、证据引用、失败补偿、结果回传。每个用例必须可复现、可回放、可追责。

6.2 性能验收

按照并发等级分层压测，至少覆盖常态流量、峰值流量、突发流量。必须区分问答型场景与多工具编排场景，分别统计 P50/P95/P99 与超时率。

6.3 稳定性验收

执行连续稳态运行与故障注入演练，覆盖组件重启、网络抖动、工具超时、存储异常。验证自动恢复、告警及时性、补偿链路与人工接管流程。

6.4 合规验收

围绕“最小权限、全程留痕、数据合规”开展核查。检查身份认证、权限审批、日志留存、敏感字段处理、审计报表与留痕不可篡改能力。

验收口径

示例口径，以项目实测与合同约定为准。

指标	指标定义	采集方式	目标示例	验收方法
任务成功率	成功完成任务数 / 受理任务总数	编排层任务状态统计（`COMPLETED`）	≥ 92%	连续 7 天按日统计，剔除无效请求后计算
工具调用成功率	成功调用次数 / 工具调用总次数	工具网关日志与错误码聚合	≥ 98.5%	抽取核心工具与全量工具双口径复核
P95 响应时延	95% 请求在该时延内返回	APM + 网关埋点统一计时	问答型 ≤ 6s；多工具型 ≤ 15s	分场景压测与生产试运行双验证
审计链完整率	完整审计字段记录数 / 应记录总数	审计平台字段完整性扫描	≥ 99.9%	抽检任务链路，核对 TraceID 全链路贯通
回滚成功率	回滚成功次数 / 触发回滚总次数	补偿模块日志 + 业务状态比对	≥ 99%	故障注入演练中统计，并进行业务一致性复核
系统可用性（SLA）	约定周期内可用时长占比	可用性监控探针与服务健康检查	月度 ≥ 99.5%	按月生成 SLA 报告并与故障工单对账

补充要求：验收报告应同时提交原始日志样本、统计脚本版本、数据时间窗说明，确保第三方可复算。

7. 常见风险与应对

问题定义

本地/专网项目进入运行期后，风险不再集中在“是否能用”，而集中在“是否持续可用、可控、可审”。缺少风险前置管理会导致反复返工。

技术机制

建立“风险台账 + 触发阈值 + 应急预案 + 复盘机制”闭环：

风险台账记录风险等级、触发条件、责任人与处置时限。
触发阈值绑定监控指标，实现自动预警。
应急预案覆盖降级、切换、回滚、人工接管。
复盘机制要求问题闭环到制度、流程、技术三层。

实施方法

常见风险与应对建议如下：

工具接口频繁变更：建立适配层版本管理与契约测试。
知识库过期导致答复偏差：建立定期重建索引与知识有效期策略。
权限配置漂移：引入策略基线检查与审批留痕。
观测数据不全：强制关键链路埋点，不允许“裸调用”。
容量预估不足：按峰值场景进行预留并设置弹性扩容阈值。
组织协同不足：明确业务、技术、安全、运维四方责任边界。

验收口径

风险管理验收不看“风险是否为零”，而看“风险是否可识别、可预警、可处置、可复盘”。验收时应抽查至少一次故障演练闭环记录及对应整改项完成情况。

8. 结语（可执行建议）

问题定义

很多项目在验收后进入“文档归档、机制弱化”的状态，导致后续版本迭代再次出现边界漂移和指标失真。

技术机制

将架构与验收从“一次性交付物”转为“持续治理机制”。核心是把指标、审计、变更和风险纳入常态化运行制度。

实施方法

建议按以下顺序执行：

先固化指标字典与采集脚本，确保后续版本可对比。
再建立月度运行评审，覆盖 SLA、故障、回滚、审计完整率。
最后把重大变更纳入评审门槛，执行“先验证、后放量”。

验收口径

结语阶段的最终判定标准是：系统不仅在验收当下达标，而且具备持续达标能力。建议将“季度复验 + 年度审计”写入运维与治理计划，确保本地/专网智能体系统长期稳定、可管可控。