AI 工程常见问题 FAQ

本文档收集 AI 工程落地过程中的高频问题与解答。

提示词与模型

Q: 为什么模型有时会"幻觉"？

A: 幻觉（Hallucination）是 LLM 的固有问题，核心原因：

训练数据局限：模型无法区分"知道"和"猜测"
生成机制：自回归生成倾向于产出流畅但可能不准确的文本
上下文不足：缺乏足够的背景信息约束

缓解方案：

使用 RAG 注入真实知识
强制输出"不确定时明确说明"
对关键信息要求引用来源
后处理验证事实性

Q: 如何选择合适的模型？

A: 按任务复杂度和成本考虑：

任务类型	推荐模型类型	说明
简单分类/抽取	小模型 (7B 以下)	成本低、延迟小
对话/问答	中等模型 (7B-70B)	平衡质量与成本
复杂推理/写作	大模型 (70B+)	质量最高
结构化输出	支持 Function Calling 的模型	确保 JSON 格式

Q: Temperature 应该怎么设置？

A: 一般建议：

0.0 - 0.3：需要确定性输出（分类、抽取、代码）
0.4 - 0.7：平衡创造性与一致性（对话、问答）
0.8 - 1.0：需要多样性（创意写作、头脑风暴）

注意： Temperature 不等于"智能程度"，只控制随机性。

Q: 提示词多长合适？

A: 建议：

核心指令控制在 500 tokens 以内
示例按需添加，一般 3-5 个
总长度避免超过上下文窗口的 50%（留空间给输入和输出）

RAG 与检索

Q: RAG 和长上下文怎么选？

A: 决策依据：

优先长上下文：

文档数量少（< 100 篇）
文档总量小（< 1M tokens）
需要全局理解

优先 RAG：

文档数量多（> 1000 篇）
知识频繁更新
需要来源追溯
成本敏感

Q: 为什么召回结果不准？

A: 常见原因：

分块策略不当：块太大丢失细节，块太小丢失上下文
嵌入模型不匹配：通用模型不适合专业领域
查询表达不清：用户问题和文档语言不一致
缺少重排：仅依赖向量相似度

排查步骤：

bash

1. 检查分块效果：人工抽样评估块质量
2. 对比不同嵌入模型：用评估集测试
3. 分析查询-文档匹配度：添加日志
4. 引入重排：使用 cross-encoder

Q: 如何处理多语言文档？

A: 推荐方案：

统一语言处理：查询时检测语言，翻译后检索
多语言嵌入模型：如 multilingual-e5
分语言建索引：查询时路由到对应索引

评测与迭代

Q: 评测集需要多少样本？

A: 最小规模建议：

类型	数量	说明
Golden Set	50-100	核心场景，人工精标
Edge Set	30-50	边界和对抗样本
Regression Set	持续积累	从线上事故提取

关键： 质量 > 数量。100 个精标样本比 1000 个粗糙样本更有价值。

Q: 自动评测和人工评测怎么配比？

A: 建议分层：

格式、结构类：100% 自动评测
语义质量类：自动评测 + 20% 人工抽检
高风险场景：100% 人工评审

Q: 版本迭代后效果变差怎么办？

A: 排查流程：

运行回归测试集，定位具体下降场景
对比新旧版本在相同输入上的输出差异
检查是否有配置漂移（参数、模型版本）
如果是新数据引入问题，检查数据质量
回滚到上一稳定版本，逐步引入变更

工程与运维

Q: 如何控制成本？

A: 成本优化清单：

[ ] 启用缓存（相同查询复用结果）
[ ] 选择合适的模型（简单任务用小模型）
[ ] 优化提示词长度（减少输入 token）
[ ] 控制输出长度（设置 max_tokens）
[ ] 批量请求（减少 API 调用次数）
[ ] 监控用量异常（设置告警）

Q: 如何设计降级策略？

A: 推荐多层降级：

yaml

降级层级:
  L1_大模型降级:
    条件: 主模型不可用或超时
    动作: 切换到备用模型（质量略低但更快）

  L2_检索降级:
    条件: 检索服务不可用
    动作: 使用预置 FAQ 或模板回答

  L3_完全降级:
    条件: 所有 AI 服务不可用
    动作: 返回静态回复 + 转人工入口

Q: 如何监控线上质量？

A: 核心监控维度：

yaml

质量监控:
  - 任务成功率 (按小时聚合)
  - 用户反馈率 (点赞/点踩)
  - 人工接管率 (高价值场景)

性能监控:
  - 首 Token 时延 (P50/P95/P99)
  - 端到端时延
  - 队列积压

成本监控:
  - 日/周/月调用量趋势
  - Token 消耗分布
  - 异常用量告警

安全监控:
  - 注入攻击拦截率
  - 敏感内容触发率
  - 异常输入模式

安全与合规

Q: 如何防止 Prompt Injection？

A: 多层防护：

输入过滤：检测常见注入模式
权限隔离：系统提示与用户输入分开处理
输出校验：检查输出是否泄露系统信息
最小权限：限制模型可访问的工具和数据

Q: 如何处理用户隐私？

A: 最佳实践：

不在提示词中传递敏感信息
使用脱敏后的数据
审计日志不存储原文
明确告知用户数据使用方式
遵守 GDPR、PIPL 等法规要求

Q: EU AI Act 对我们有什么影响？

A: 关键时间点：

2025-02-02：首批条款适用
2025-08-02：GPAI 与治理义务适用
2026-08-02：多数高风险规则适用

建议行动：

识别系统风险等级
建立合规文档
设计人类监督机制
准备技术文档和测试报告

AI 工程常见问题 FAQ ​

提示词与模型 ​

Q: 为什么模型有时会"幻觉"？ ​

Q: 如何选择合适的模型？ ​

Q: Temperature 应该怎么设置？ ​

Q: 提示词多长合适？ ​

RAG 与检索 ​

Q: RAG 和长上下文怎么选？ ​

Q: 为什么召回结果不准？ ​

Q: 如何处理多语言文档？ ​

评测与迭代 ​

Q: 评测集需要多少样本？ ​

Q: 自动评测和人工评测怎么配比？ ​

Q: 版本迭代后效果变差怎么办？ ​

工程与运维 ​

Q: 如何控制成本？ ​

Q: 如何设计降级策略？ ​

Q: 如何监控线上质量？ ​

安全与合规 ​

Q: 如何防止 Prompt Injection？ ​

Q: 如何处理用户隐私？ ​

Q: EU AI Act 对我们有什么影响？ ​