Skip to content

AI 工程常见问题 FAQ

本文档收集 AI 工程落地过程中的高频问题与解答。

提示词与模型

Q: 为什么模型有时会"幻觉"?

A: 幻觉(Hallucination)是 LLM 的固有问题,核心原因:

  1. 训练数据局限:模型无法区分"知道"和"猜测"
  2. 生成机制:自回归生成倾向于产出流畅但可能不准确的文本
  3. 上下文不足:缺乏足够的背景信息约束

缓解方案:

  • 使用 RAG 注入真实知识
  • 强制输出"不确定时明确说明"
  • 对关键信息要求引用来源
  • 后处理验证事实性

Q: 如何选择合适的模型?

A: 按任务复杂度和成本考虑:

任务类型推荐模型类型说明
简单分类/抽取小模型 (7B 以下)成本低、延迟小
对话/问答中等模型 (7B-70B)平衡质量与成本
复杂推理/写作大模型 (70B+)质量最高
结构化输出支持 Function Calling 的模型确保 JSON 格式

Q: Temperature 应该怎么设置?

A: 一般建议:

  • 0.0 - 0.3:需要确定性输出(分类、抽取、代码)
  • 0.4 - 0.7:平衡创造性与一致性(对话、问答)
  • 0.8 - 1.0:需要多样性(创意写作、头脑风暴)

注意: Temperature 不等于"智能程度",只控制随机性。

Q: 提示词多长合适?

A: 建议:

  • 核心指令控制在 500 tokens 以内
  • 示例按需添加,一般 3-5 个
  • 总长度避免超过上下文窗口的 50%(留空间给输入和输出)

RAG 与检索

Q: RAG 和长上下文怎么选?

A: 决策依据:

优先长上下文:

  • 文档数量少(< 100 篇)
  • 文档总量小(< 1M tokens)
  • 需要全局理解

优先 RAG:

  • 文档数量多(> 1000 篇)
  • 知识频繁更新
  • 需要来源追溯
  • 成本敏感

Q: 为什么召回结果不准?

A: 常见原因:

  1. 分块策略不当:块太大丢失细节,块太小丢失上下文
  2. 嵌入模型不匹配:通用模型不适合专业领域
  3. 查询表达不清:用户问题和文档语言不一致
  4. 缺少重排:仅依赖向量相似度

排查步骤:

bash
1. 检查分块效果:人工抽样评估块质量
2. 对比不同嵌入模型:用评估集测试
3. 分析查询-文档匹配度:添加日志
4. 引入重排:使用 cross-encoder

Q: 如何处理多语言文档?

A: 推荐方案:

  • 统一语言处理:查询时检测语言,翻译后检索
  • 多语言嵌入模型:如 multilingual-e5
  • 分语言建索引:查询时路由到对应索引

评测与迭代

Q: 评测集需要多少样本?

A: 最小规模建议:

类型数量说明
Golden Set50-100核心场景,人工精标
Edge Set30-50边界和对抗样本
Regression Set持续积累从线上事故提取

关键: 质量 > 数量。100 个精标样本比 1000 个粗糙样本更有价值。

Q: 自动评测和人工评测怎么配比?

A: 建议分层:

  • 格式、结构类:100% 自动评测
  • 语义质量类:自动评测 + 20% 人工抽检
  • 高风险场景:100% 人工评审

Q: 版本迭代后效果变差怎么办?

A: 排查流程:

  1. 运行回归测试集,定位具体下降场景
  2. 对比新旧版本在相同输入上的输出差异
  3. 检查是否有配置漂移(参数、模型版本)
  4. 如果是新数据引入问题,检查数据质量
  5. 回滚到上一稳定版本,逐步引入变更

工程与运维

Q: 如何控制成本?

A: 成本优化清单:

  • [ ] 启用缓存(相同查询复用结果)
  • [ ] 选择合适的模型(简单任务用小模型)
  • [ ] 优化提示词长度(减少输入 token)
  • [ ] 控制输出长度(设置 max_tokens)
  • [ ] 批量请求(减少 API 调用次数)
  • [ ] 监控用量异常(设置告警)

Q: 如何设计降级策略?

A: 推荐多层降级:

yaml
降级层级:
  L1_大模型降级:
    条件: 主模型不可用或超时
    动作: 切换到备用模型(质量略低但更快)

  L2_检索降级:
    条件: 检索服务不可用
    动作: 使用预置 FAQ 或模板回答

  L3_完全降级:
    条件: 所有 AI 服务不可用
    动作: 返回静态回复 + 转人工入口

Q: 如何监控线上质量?

A: 核心监控维度:

yaml
质量监控:
  - 任务成功率 (按小时聚合)
  - 用户反馈率 (点赞/点踩)
  - 人工接管率 (高价值场景)

性能监控:
  - 首 Token 时延 (P50/P95/P99)
  - 端到端时延
  - 队列积压

成本监控:
  - 日/周/月调用量趋势
  - Token 消耗分布
  - 异常用量告警

安全监控:
  - 注入攻击拦截率
  - 敏感内容触发率
  - 异常输入模式

安全与合规

Q: 如何防止 Prompt Injection?

A: 多层防护:

  1. 输入过滤:检测常见注入模式
  2. 权限隔离:系统提示与用户输入分开处理
  3. 输出校验:检查输出是否泄露系统信息
  4. 最小权限:限制模型可访问的工具和数据

Q: 如何处理用户隐私?

A: 最佳实践:

  • 不在提示词中传递敏感信息
  • 使用脱敏后的数据
  • 审计日志不存储原文
  • 明确告知用户数据使用方式
  • 遵守 GDPR、PIPL 等法规要求

Q: EU AI Act 对我们有什么影响?

A: 关键时间点:

  • 2025-02-02:首批条款适用
  • 2025-08-02:GPAI 与治理义务适用
  • 2026-08-02:多数高风险规则适用

建议行动:

  1. 识别系统风险等级
  2. 建立合规文档
  3. 设计人类监督机制
  4. 准备技术文档和测试报告