-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
78 lines (78 loc) · 2.58 KB
/
Copy pathquiz.json
File metadata and controls
78 lines (78 loc) · 2.58 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
"lesson": "22-load-testing-llm-apis",
"title": "对 LLM API 做负载测试 —— 为什么 k6 和 Locust 会撒谎",
"questions": [
{
"stage": "pre",
"question": "基于 Locust 的 LLM 负载测试中的 GIL 陷阱是什么?",
"options": [
"Locust 只能在 Windows 上工作",
"Locust 不支持 HTTP",
"客户端侧的分词在 Python GIL 下运行,并排在请求生成之后排队,从而虚高了上报的 token 间延迟",
"Locust 需要 CUDA"
],
"correct": 2,
"explanation": ""
},
{
"stage": "check",
"question": "prompt 同质化陷阱是什么?",
"options": [
"同质化的 prompt 总会拖慢服务器",
"从真实分布采样会低估长 prompt 的占比",
"同质化的 prompt 需要流式传输",
"循环使用同一个 prompt 会让前缀缓存看起来像是满并发 decode,从而虚高了上报的吞吐量"
],
"correct": 3,
"explanation": ""
},
{
"stage": "check",
"question": "本课推荐哪四种负载模式?",
"options": [
"连续 10 天恒定 1 RPS",
"手动点击测试",
"稳态(steady-state)、爬坡(ramp)、尖峰(spike)、浸泡(soak)",
"仅突发(burst)"
],
"correct": 2,
"explanation": ""
},
{
"stage": "check",
"question": "本课建议如何构建一个真实的 prompt 分布?",
"options": [
"用均值和标准差从真实分布中采样(例如 LLMPerf 的 --mean-input-tokens / --stddev-input-tokens),或回放真实流量",
"每个请求用随机字符",
"手写 5 个 prompt 然后打乱",
"始终使用同一个 prompt 以最大化缓存命中"
],
"correct": 0,
"explanation": ""
},
{
"stage": "post",
"question": "哪种 2026 年的工具组合被定位为最适合 CI/CD 的 SLA 门禁和 Kubernetes 原生的分布式运行?",
"options": [
"k6 v2026.1.0 搭配 k6 Operator 1.0 GA(TestRun / PrivateLoadZone CRD)",
"仅 guidellm",
"仅 Vegeta",
"原版 Locust 2.43.3"
],
"correct": 0,
"explanation": ""
},
{
"stage": "post",
"question": "浸泡(soak)负载模式能捕捉哪种失败模式?",
"options": [
"数小时内的内存泄漏、连接池漂移以及可观测性溢出",
"冷启动长尾",
"Tokenizer 的 GIL 争用",
"缓存驱逐风暴"
],
"correct": 0,
"explanation": ""
}
]
}