AI 工程常见问题 FAQ
本文档收集 AI 工程落地过程中的高频问题与解答。
提示词与模型
Q: 为什么模型有时会"幻觉"?
A: 幻觉(Hallucination)是 LLM 的固有问题,核心原因:
- 训练数据局限:模型无法区分"知道"和"猜测"
- 生成机制:自回归生成倾向于产出流畅但可能不准确的文本
- 上下文不足:缺乏足够的背景信息约束
缓解方案:
- 使用 RAG 注入真实知识
- 强制输出"不确定时明确说明"
- 对关键信息要求引用来源
- 后处理验证事实性
Q: 如何选择合适的模型?
A: 按任务复杂度和成本考虑:
| 任务类型 | 推荐模型类型 | 说明 |
|---|---|---|
| 简单分类/抽取 | 小模型 (7B 以下) | 成本低、延迟小 |
| 对话/问答 | 中等模型 (7B-70B) | 平衡质量与成本 |
| 复杂推理/写作 | 大模型 (70B+) | 质量最高 |
| 结构化输出 | 支持 Function Calling 的模型 | 确保 JSON 格式 |
Q: Temperature 应该怎么设置?
A: 一般建议:
0.0 - 0.3:需要确定性输出(分类、抽取、代码)0.4 - 0.7:平衡创造性与一致性(对话、问答)0.8 - 1.0:需要多样性(创意写作、头脑风暴)
注意: Temperature 不等于"智能程度",只控制随机性。
Q: 提示词多长合适?
A: 建议:
- 核心指令控制在 500 tokens 以内
- 示例按需添加,一般 3-5 个
- 总长度避免超过上下文窗口的 50%(留空间给输入和输出)
RAG 与检索
Q: RAG 和长上下文怎么选?
A: 决策依据:
优先长上下文:
- 文档数量少(< 100 篇)
- 文档总量小(< 1M tokens)
- 需要全局理解
优先 RAG:
- 文档数量多(> 1000 篇)
- 知识频繁更新
- 需要来源追溯
- 成本敏感
Q: 为什么召回结果不准?
A: 常见原因:
- 分块策略不当:块太大丢失细节,块太小丢失上下文
- 嵌入模型不匹配:通用模型不适合专业领域
- 查询表达不清:用户问题和文档语言不一致
- 缺少重排:仅依赖向量相似度
排查步骤:
bash
1. 检查分块效果:人工抽样评估块质量
2. 对比不同嵌入模型:用评估集测试
3. 分析查询-文档匹配度:添加日志
4. 引入重排:使用 cross-encoderQ: 如何处理多语言文档?
A: 推荐方案:
- 统一语言处理:查询时检测语言,翻译后检索
- 多语言嵌入模型:如 multilingual-e5
- 分语言建索引:查询时路由到对应索引
评测与迭代
Q: 评测集需要多少样本?
A: 最小规模建议:
| 类型 | 数量 | 说明 |
|---|---|---|
| Golden Set | 50-100 | 核心场景,人工精标 |
| Edge Set | 30-50 | 边界和对抗样本 |
| Regression Set | 持续积累 | 从线上事故提取 |
关键: 质量 > 数量。100 个精标样本比 1000 个粗糙样本更有价值。
Q: 自动评测和人工评测怎么配比?
A: 建议分层:
- 格式、结构类:100% 自动评测
- 语义质量类:自动评测 + 20% 人工抽检
- 高风险场景:100% 人工评审
Q: 版本迭代后效果变差怎么办?
A: 排查流程:
- 运行回归测试集,定位具体下降场景
- 对比新旧版本在相同输入上的输出差异
- 检查是否有配置漂移(参数、模型版本)
- 如果是新数据引入问题,检查数据质量
- 回滚到上一稳定版本,逐步引入变更
工程与运维
Q: 如何控制成本?
A: 成本优化清单:
- [ ] 启用缓存(相同查询复用结果)
- [ ] 选择合适的模型(简单任务用小模型)
- [ ] 优化提示词长度(减少输入 token)
- [ ] 控制输出长度(设置 max_tokens)
- [ ] 批量请求(减少 API 调用次数)
- [ ] 监控用量异常(设置告警)
Q: 如何设计降级策略?
A: 推荐多层降级:
yaml
降级层级:
L1_大模型降级:
条件: 主模型不可用或超时
动作: 切换到备用模型(质量略低但更快)
L2_检索降级:
条件: 检索服务不可用
动作: 使用预置 FAQ 或模板回答
L3_完全降级:
条件: 所有 AI 服务不可用
动作: 返回静态回复 + 转人工入口Q: 如何监控线上质量?
A: 核心监控维度:
yaml
质量监控:
- 任务成功率 (按小时聚合)
- 用户反馈率 (点赞/点踩)
- 人工接管率 (高价值场景)
性能监控:
- 首 Token 时延 (P50/P95/P99)
- 端到端时延
- 队列积压
成本监控:
- 日/周/月调用量趋势
- Token 消耗分布
- 异常用量告警
安全监控:
- 注入攻击拦截率
- 敏感内容触发率
- 异常输入模式安全与合规
Q: 如何防止 Prompt Injection?
A: 多层防护:
- 输入过滤:检测常见注入模式
- 权限隔离:系统提示与用户输入分开处理
- 输出校验:检查输出是否泄露系统信息
- 最小权限:限制模型可访问的工具和数据
Q: 如何处理用户隐私?
A: 最佳实践:
- 不在提示词中传递敏感信息
- 使用脱敏后的数据
- 审计日志不存储原文
- 明确告知用户数据使用方式
- 遵守 GDPR、PIPL 等法规要求
Q: EU AI Act 对我们有什么影响?
A: 关键时间点:
- 2025-02-02:首批条款适用
- 2025-08-02:GPAI 与治理义务适用
- 2026-08-02:多数高风险规则适用
建议行动:
- 识别系统风险等级
- 建立合规文档
- 设计人类监督机制
- 准备技术文档和测试报告
