-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
78 lines (78 loc) · 2.6 KB
/
Copy pathquiz.json
File metadata and controls
78 lines (78 loc) · 2.6 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
"lesson": "18-vllm-production-stack-lmcache",
"title": "搭配 LMCache KV 卸载的 vLLM 生产技术栈",
"questions": [
{
"stage": "pre",
"question": "在 vLLM 部署中,LMCache 主要解决什么问题?",
"options": [
"HBM 中的 KV 缓存压力导致抢占,以及对相同前缀的重复 prefill",
"Tokenizer 的 GIL 争用",
"网络出站(egress)过滤",
"冷启动时的镜像拉取"
],
"correct": 0,
"explanation": ""
},
{
"stage": "check",
"question": "哪个 vLLM API 引入了可插拔的 KV 缓存后端?",
"options": [
"前缀缓存开关",
"PagedAttention v2",
"vLLM v0.9.0 中的 Connector API",
"ChunkedPrefill API"
],
"correct": 2,
"explanation": ""
},
{
"stage": "check",
"question": "vLLM 0.11.0(2026 年 1 月)版本为 KV 卸载路径增加了什么?",
"options": [
"一条异步卸载路径,使引擎在常见情形下不会因卸载而阻塞",
"仅同步卸载",
"强制使用 FP8 KV 缓存",
"移除了对 LMCache 的支持"
],
"correct": 0,
"explanation": ""
},
{
"stage": "check",
"question": "什么时候应该选择 LMCache 而非原生的 CPU 卸载?",
"options": [
"当多个引擎跨租户、跨 LoRA 变体或在重复的 RAG 上下文之间共享前缀时,跨引擎复用才划算",
"当你想完全禁用 KV 缓存时",
"当单个引擎有 HBM 压力且没有前缀共享时",
"当你只在 CPU 上运行时"
],
"correct": 0,
"explanation": ""
},
{
"stage": "post",
"question": "当 KV 占用远低于 HBM 时,LMCache 的收益会怎样?",
"options": [
"LMCache 会自动禁用",
"它仍能把吞吐量翻倍",
"各配置与基线持平,伴随约 3-5% 的开销,且没有实际收益",
"引擎崩溃"
],
"correct": 2,
"explanation": ""
},
{
"stage": "post",
"question": "为什么 LMCache 能与分离式服务(Phase 17 · 17)组合使用?",
"options": [
"因为 LMCache 取代了 NIXL",
"从 prefill 传到 decode 的 KV 会落入 LMCache;后续查询可从 LMCache 拉取并跳过 prefill,因此缓存感知路由器可以挑选其本地缓存或 LMCache 共享缓存能匹配的引擎",
"因为 LMCache 与引擎跑在同一块 GPU 上",
"并不能 —— 它们是互斥的"
],
"correct": 1,
"explanation": ""
}
]
}