角色驱动交付链路

这页把 AI 项目拆成 7 个阶段，并明确开发者与产品经理在每个阶段的职责、交付物和协作接口。

为什么要角色驱动

很多团队的问题不是“模型不够强”，而是角色协作断裂：

产品只给“做个 AI 功能”目标，缺少可评估标准。
开发只看可实现性，缺少业务验收定义。
上线前没有共同门禁，导致质量与风险责任不清。

角色驱动链路的目标是：每个阶段都有可交付物、可验收标准、可追责记录。

阶段 1：问题定义（Problem Framing）

开发者动作

明确输入输出边界和外部依赖。
预估技术路径、时延与成本上限。
标记高风险环节（检索质量、工具调用、注入攻击面）。

产品经理动作

定义业务目标和北极星指标。
明确用户场景、失败容忍度、人工兜底策略。
识别合规影响范围（地域、行业、用户类型）。

阶段交付物

PRD + 技术可行性说明。
任务级 KPI（质量、成本、时延、风控）。
风险清单 v1。

阶段 2：方案设计（Solution Design）

开发者动作

选择架构路线：长上下文、RAG、Agent、或混合模式。
设计 Prompt 结构与输出协议（优先结构化输出）。
定义系统级失败路径与降级策略。

产品经理动作

确认体验路径和关键交互文案。
约束“可解释性”和“可追溯性”要求。
评审里程碑范围，控制首版复杂度。

阶段交付物

架构设计文档。
交互流程图。
版本范围与里程碑计划。

阶段 3：数据与上下文（Context Engineering）

开发者动作

构建检索管线（切片、索引、召回、重排）。
设计上下文注入优先级与冲突策略。
实现证据绑定机制（回答必须可回溯来源）。

产品经理动作

定义知识库范围与内容更新 SLA。
对齐“可信回答”标准（无证据不强答）。
规划人机协同入口（澄清、转人工、补充资料）。

阶段交付物

知识库边界说明。
RAG 质量指标基线。
证据展示规范。

阶段 4：评测与门禁（Evaluation Gate）

开发者动作

建立 golden/edge/regression 三类样本集。
搭建离线评测与线上回放机制。
为每类错误定义自动检测与告警规则。

产品经理动作

确认上线阈值与灰度放量策略。
对齐业务验收标准与失败处理流程。
组织关键场景人工评审。

阶段交付物

评测报告。
上线门禁清单。
灰度策略与终止条件。

阶段 5：安全与治理（Safety and Governance）

开发者动作

引入注入防护、内容安全、输出校验。
建立审计日志与可追踪链路。
完成对抗样本测试与修复闭环。

产品经理动作

明确高风险场景的人在回路要求。
输出外部披露策略（免责声明、用户引导）。
建立跨法务/合规协同节奏。

阶段交付物

安全测试报告。
合规说明与用户策略。
事故响应预案。

阶段 6：上线与运行（Launch and Operations）

开发者动作

建立可观测性：日志、指标、链路追踪。
配置成本预算告警与降级路由。
实现快速回滚与热修复机制。

产品经理动作

监控核心业务指标与用户反馈。
组织周度复盘，维护需求优先级。
决策下一轮优化目标。

阶段交付物

运行看板（质量/成本/时延/风控）。
周度复盘记录。
下阶段迭代计划。

阶段 7：持续迭代（Continuous Improvement）

开发者动作

维护回归样本库与失败案例库。
评估模型升级收益与迁移风险。
将高频问题沉淀为可复用组件。

产品经理动作

评估功能价值与 ROI。
调整路线图与资源投入。
建立跨团队知识复用机制。

阶段交付物

迭代路线图。
能力复用清单。
季度复盘报告。

开发者与产品经理共用看板（建议）

质量：任务成功率、事实准确率、格式合规率。
成本：单请求成本、每千次调用成本。
时延：首 token 时延、P95 全链路时延。
风险：注入拦截率、高风险输出率、人工接管率。

使用方式

每个需求评审前，先过一遍阶段 1 到阶段 3。
每次上线前，必须走完阶段 4 和阶段 5 门禁。
每周复盘按阶段 6 到阶段 7 更新看板与计划。