ai-engineering-from-scratch-zh/phases/11-llm-engineering/13-production-app/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
[
  {
    "question": "一个 LLM 演示和一个生产级 LLM 应用之间最大的差距是什么？",
    "options": ["模型质量", "基础设施：错误处理、流式输出、成本跟踪、限流、回退、可观测性，以及高负载下的优雅降级", "prompt 质量", "API 提供商的选择"],
    "correct": 1,
    "explanation": "演示只是调用 API 并打印回复。生产必须处理超时、提供商宕机、并发用户、成本预算、流式投递、日志记录和优雅降级。模型反倒是简单的部分。",
    "stage": "pre"
  },
  {
    "question": "为什么流式 token 投递在生产级 LLM 应用中很重要？",
    "options": ["它降低成本", "用户会觉得首个 token 快速到达就是更快，即使总生成时间相同——把感知延迟从数秒降到毫秒级", "它占用更少内存", "它提升模型准确率"],
    "correct": 1,
    "explanation": "没有流式输出，用户要等 3-10 秒、什么都看不到，直到完整回复出现。有了流式输出，首个 token 约 200 毫秒到达，文字持续涌出，让体验感觉很灵敏。",
    "stage": "pre"
  },
  {
    "question": "当你的 LLM API 提供商发生宕机时，应该发生什么？",
    "options": ["给用户显示一个错误页面", "应用应该自动回退到备用提供商，或返回一个优雅的降级响应", "无限重试直到提供商恢复", "切换到本地模型"],
    "correct": 1,
    "explanation": "生产系统需要回退策略：提供商 A 失败时尝试提供商 B、对常见查询提供缓存回复，或返回一条有帮助的「暂时不可用」消息。永远不要让提供商宕机使你的应用崩溃。",
    "stage": "post"
  },
  {
    "question": "生产级 LLM 应用应该跟踪哪些可观测性指标？",
    "options": ["只跟踪错误计数", "请求延迟（P50/P95/P99）、每请求成本、错误率、token 用量、缓存命中率，以及来自自动化评估的质量分数", "只跟踪模型准确率", "只跟踪每月成本"],
    "correct": 1,
    "explanation": "全面的可观测性覆盖：延迟分位数（用于 SLA 合规）、成本跟踪（用于预算管理）、错误率（用于可靠性）、token 用量（用于优化），以及质量指标（用于检测回归）。",
    "stage": "post"
  },
  {
    "question": "为什么你应该在 LLM 应用中实现限流（rate limiting）？",
    "options": ["让应用显得很独家", "防止个别用户耗尽你的 API 预算、抵御滥用，并确保高流量期间的公平访问", "降低模型准确率", "限流只在免费层级才需要"],
    "correct": 1,
    "explanation": "没有限流，单个用户（或机器人）可能在几分钟内耗尽你当天的 API 预算。限流保护你的成本、防止滥用，并确保所有用户在高峰负载期间获得合理的响应时间。",
    "stage": "post"
  }
]