Skip to content

工程落地手册

从 Demo 到 Production 的关键差异

  • Demo 追求“能回答”
  • Production 追求“稳定、可控、可追责”

OpenAI 生产实践文档给出的重点是:组织权限、速率限制、时延优化、成本监控。

生产级架构建议

  1. 网关层
  • 鉴权
  • 限流
  • 请求审计
  1. 编排层
  • Prompt 组装
  • 工具路由
  • 策略切换(快速模型/高精度模型)
  1. 能力层
  • 模型服务
  • 检索服务
  • 外部工具调用
  1. 质量层
  • 实时监控
  • 评测回放
  • 告警与回滚

性能与成本优化

  • 优先减少无效输出 token
  • streaming 提升首 token 体验
  • 对可并行任务做批处理
  • 建立模型路由,把高成本模型留给高难任务

Agent 设计建议

Anthropic 的工程文章给出一个很实用的循环:

  • gather context -> take action -> verify work -> repeat

你可以把它落成三类组件:

  • Context agents:负责检索与上下文整理
  • Action agents:负责工具调用与执行
  • Verifier agents:负责结果校验与异常处理

发布检查清单

  • 是否有回归评测门禁
  • 是否有速率限制与重试策略
  • 是否有可观测性(日志、指标、追踪)
  • 是否定义了故障降级和回滚
  • 是否完成安全评审

角色动作卡

开发者

  • 对关键链路建立 SLO,并配置报警策略。
  • 实现模型路由和兜底路径,防止单点故障。
  • 把上线开关、灰度比例和回滚做成标准化配置。

产品经理

  • 把“用户体验可接受阈值”写成可量化指标。
  • 在发布计划中预留灰度观察窗口和复盘窗口。
  • 根据业务优先级分配模型预算与资源配额。

开发者与产品经理交接件

  • 发布前检查表与签字记录。
  • 运行看板与异常升级路径。
  • 周迭代 backlog 与优先级说明。

参考来源