-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
78 lines (78 loc) · 2.76 KB
/
Copy pathquiz.json
File metadata and controls
78 lines (78 loc) · 2.76 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
"lesson": "17-disaggregated-prefill-decode",
"title": "prefill/decode 分离 —— NVIDIA Dynamo 与 llm-d",
"questions": [
{
"stage": "pre",
"question": "为什么 prefill 和 decode 想要不同的最优 GPU 配置?",
"options": [
"prefill 必须跑在 AMD 上,decode 必须跑在 NVIDIA 上",
"prefill 在矩阵乘吞吐上是计算受限的;decode 在 HBM 带宽上是内存受限的,因此把它们放在一起会浪费其中一种资源",
"它们使用不同的模型权重",
"decode 需要更多网络带宽"
],
"correct": 1,
"explanation": ""
},
{
"stage": "check",
"question": "NVIDIA Dynamo 使用什么传输方式在 prefill 池与 decode 池之间搬运 KV 缓存?",
"options": [
"纯 HTTP",
"仅 gRPC 双向流",
"NFS 上的共享文件系统",
"NIXL(可用时走 RDMA/InfiniBand,回退到 TCP)"
],
"correct": 3,
"explanation": ""
},
{
"stage": "check",
"question": "按本课所述,什么情况下分离(disaggregation)不划算?",
"options": [
"Blackwell 上的 MoE 工作负载",
"带共享系统提示的多租户服务",
"带 8K+ 前缀的 RAG",
"prompt 不到 512 token、输出不到 200 token 时,KV 传输税会盖过收益"
],
"correct": 3,
"explanation": ""
},
{
"stage": "check",
"question": "Dynamo 与 llm-d 的核心架构差异是什么?",
"options": [
"Dynamo 是开源的,llm-d 是闭源的",
"Dynamo 跑在 CPU 上,llm-d 跑在 GPU 上",
"Dynamo 是凌驾于 vLLM/SGLang/TRT-LLM 之上的编排器;llm-d 是 Kubernetes 原生的,把 prefill/decode/router 作为相互独立的 Service",
"Dynamo 要求 AMD,llm-d 要求 NVIDIA"
],
"correct": 2,
"explanation": ""
},
{
"stage": "post",
"question": "Dynamo 的哪些组件会为达成某个 SLO 而自动调优 prefill:decode 比例?",
"options": [
"Sidecar 代理与 Envoy 过滤器",
"Planner Profiler 与 SLA Planner",
"Cluster Autoscaler",
"Marlin 内核"
],
"correct": 1,
"explanation": ""
},
{
"stage": "post",
"question": "分离与 Phase 17 · 11 的缓存感知路由如何相互配合?",
"options": [
"分离会完全禁用 KV 缓存复用",
"缓存感知路由器可以把请求落到已经持有其前缀的 decode 池上;未命中时则流经 prefill -> decode,因此两者相辅相成",
"它们是互斥的",
"缓存感知路由仅适用于同机部署(colocated)的服务"
],
"correct": 1,
"explanation": ""
}
]
}