工程落地手册
从 Demo 到 Production 的关键差异
- Demo 追求“能回答”
- Production 追求“稳定、可控、可追责”
OpenAI 生产实践文档给出的重点是:组织权限、速率限制、时延优化、成本监控。
生产级架构建议
- 网关层
- 鉴权
- 限流
- 请求审计
- 编排层
- Prompt 组装
- 工具路由
- 策略切换(快速模型/高精度模型)
- 能力层
- 模型服务
- 检索服务
- 外部工具调用
- 质量层
- 实时监控
- 评测回放
- 告警与回滚
性能与成本优化
- 优先减少无效输出 token
- 用
streaming提升首 token 体验 - 对可并行任务做批处理
- 建立模型路由,把高成本模型留给高难任务
Agent 设计建议
Anthropic 的工程文章给出一个很实用的循环:
- gather context -> take action -> verify work -> repeat
你可以把它落成三类组件:
- Context agents:负责检索与上下文整理
- Action agents:负责工具调用与执行
- Verifier agents:负责结果校验与异常处理
发布检查清单
- 是否有回归评测门禁
- 是否有速率限制与重试策略
- 是否有可观测性(日志、指标、追踪)
- 是否定义了故障降级和回滚
- 是否完成安全评审
角色动作卡
开发者
- 对关键链路建立 SLO,并配置报警策略。
- 实现模型路由和兜底路径,防止单点故障。
- 把上线开关、灰度比例和回滚做成标准化配置。
产品经理
- 把“用户体验可接受阈值”写成可量化指标。
- 在发布计划中预留灰度观察窗口和复盘窗口。
- 根据业务优先级分配模型预算与资源配额。
开发者与产品经理交接件
- 发布前检查表与签字记录。
- 运行看板与异常升级路径。
- 周迭代 backlog 与优先级说明。
