ai-engineering-from-scratch-zh/phases/17-infrastructure-and-production/18-vllm-production-stack-lmcache/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
  "lesson": "18-vllm-production-stack-lmcache",
  "title": "搭配 LMCache KV 卸载的 vLLM 生产技术栈",
  "questions": [
    {
      "stage": "pre",
      "question": "在 vLLM 部署中，LMCache 主要解决什么问题？",
      "options": [
        "HBM 中的 KV 缓存压力导致抢占，以及对相同前缀的重复 prefill",
        "Tokenizer 的 GIL 争用",
        "网络出站（egress）过滤",
        "冷启动时的镜像拉取"
      ],
      "correct": 0,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "哪个 vLLM API 引入了可插拔的 KV 缓存后端？",
      "options": [
        "前缀缓存开关",
        "PagedAttention v2",
        "vLLM v0.9.0 中的 Connector API",
        "ChunkedPrefill API"
      ],
      "correct": 2,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "vLLM 0.11.0（2026 年 1 月）版本为 KV 卸载路径增加了什么？",
      "options": [
        "一条异步卸载路径，使引擎在常见情形下不会因卸载而阻塞",
        "仅同步卸载",
        "强制使用 FP8 KV 缓存",
        "移除了对 LMCache 的支持"
      ],
      "correct": 0,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "什么时候应该选择 LMCache 而非原生的 CPU 卸载？",
      "options": [
        "当多个引擎跨租户、跨 LoRA 变体或在重复的 RAG 上下文之间共享前缀时，跨引擎复用才划算",
        "当你想完全禁用 KV 缓存时",
        "当单个引擎有 HBM 压力且没有前缀共享时",
        "当你只在 CPU 上运行时"
      ],
      "correct": 0,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "当 KV 占用远低于 HBM 时，LMCache 的收益会怎样？",
      "options": [
        "LMCache 会自动禁用",
        "它仍能把吞吐量翻倍",
        "各配置与基线持平，伴随约 3-5% 的开销，且没有实际收益",
        "引擎崩溃"
      ],
      "correct": 2,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "为什么 LMCache 能与分离式服务（Phase 17 · 17）组合使用？",
      "options": [
        "因为 LMCache 取代了 NIXL",
        "从 prefill 传到 decode 的 KV 会落入 LMCache；后续查询可从 LMCache 拉取并跳过 prefill，因此缓存感知路由器可以挑选其本地缓存或 LMCache 共享缓存能匹配的引擎",
        "因为 LMCache 与引擎跑在同一块 GPU 上",
        "并不能 —— 它们是互斥的"
      ],
      "correct": 1,
      "explanation": ""
    }
  ]
}