ai-engineering-from-scratch-zh/phases/17-infrastructure-and-production/22-load-testing-llm-apis/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
  "lesson": "22-load-testing-llm-apis",
  "title": "对 LLM API 做负载测试 —— 为什么 k6 和 Locust 会撒谎",
  "questions": [
    {
      "stage": "pre",
      "question": "基于 Locust 的 LLM 负载测试中的 GIL 陷阱是什么？",
      "options": [
        "Locust 只能在 Windows 上工作",
        "Locust 不支持 HTTP",
        "客户端侧的分词在 Python GIL 下运行，并排在请求生成之后排队，从而虚高了上报的 token 间延迟",
        "Locust 需要 CUDA"
      ],
      "correct": 2,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "prompt 同质化陷阱是什么？",
      "options": [
        "同质化的 prompt 总会拖慢服务器",
        "从真实分布采样会低估长 prompt 的占比",
        "同质化的 prompt 需要流式传输",
        "循环使用同一个 prompt 会让前缀缓存看起来像是满并发 decode，从而虚高了上报的吞吐量"
      ],
      "correct": 3,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "本课推荐哪四种负载模式？",
      "options": [
        "连续 10 天恒定 1 RPS",
        "手动点击测试",
        "稳态（steady-state）、爬坡（ramp）、尖峰（spike）、浸泡（soak）",
        "仅突发（burst）"
      ],
      "correct": 2,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "本课建议如何构建一个真实的 prompt 分布？",
      "options": [
        "用均值和标准差从真实分布中采样（例如 LLMPerf 的 --mean-input-tokens / --stddev-input-tokens），或回放真实流量",
        "每个请求用随机字符",
        "手写 5 个 prompt 然后打乱",
        "始终使用同一个 prompt 以最大化缓存命中"
      ],
      "correct": 0,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "哪种 2026 年的工具组合被定位为最适合 CI/CD 的 SLA 门禁和 Kubernetes 原生的分布式运行？",
      "options": [
        "k6 v2026.1.0 搭配 k6 Operator 1.0 GA（TestRun / PrivateLoadZone CRD）",
        "仅 guidellm",
        "仅 Vegeta",
        "原版 Locust 2.43.3"
      ],
      "correct": 0,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "浸泡（soak）负载模式能捕捉哪种失败模式？",
      "options": [
        "数小时内的内存泄漏、连接池漂移以及可观测性溢出",
        "冷启动长尾",
        "Tokenizer 的 GIL 争用",
        "缓存驱逐风暴"
      ],
      "correct": 0,
      "explanation": ""
    }
  ]
}