-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
78 lines (78 loc) · 2.88 KB
/
Copy pathquiz.json
File metadata and controls
78 lines (78 loc) · 2.88 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
"lesson": "14-prompt-semantic-caching",
"title": "prompt 缓存与语义缓存经济学",
"questions": [
{
"stage": "pre",
"question": "L1 语义缓存与 L2 prompt/前缀缓存有什么区别?",
"options": [
"L1 在嵌入相似度命中时完全跳过 LLM;L2 在供应商侧为重复前缀复用 attention KV",
"L1 在供应商侧,L2 在客户端侧",
"L2 存储嵌入,L1 存储 attention KV",
"L1 和 L2 是一回事"
],
"correct": 0,
"explanation": ""
},
{
"stage": "check",
"question": "Anthropic 用哪种机制把内容块标记为可缓存以供 L2 prompt 缓存使用?",
"options": [
"在请求的内容块上显式设置 cache_control 属性",
"一个单独的 /caches 端点",
"工具定义中的文件名后缀",
"一个隐式的 prompt 长度阈值"
],
"correct": 0,
"explanation": ""
},
{
"stage": "check",
"question": "并行化反模式是如何抬高账单的?",
"options": [
"并行请求绕过了批处理",
"并行化触发了一笔按请求计的护栏(guardrail)费用",
"所有并行请求会自动共享同一个缓存条目",
"N 个具有相同前缀的并行请求在第一次缓存写入完成之前就到达,于是每个都付了写入溢价却得不到任何折扣"
],
"correct": 3,
"explanation": ""
},
{
"stage": "check",
"question": "可缓存前缀中的动态内容反模式是什么?",
"options": [
"把工具 schema 放进前缀里",
"总是流式返回响应",
"在可缓存前缀里包含每个请求都会变化的内容(精确到分钟的当前时间、请求 ID、随机化的示例顺序),从而扼杀命中率",
"使用过短的系统提示"
],
"correct": 2,
"explanation": ""
},
{
"stage": "post",
"question": "batch + 缓存输入如何在夜间叠加以削减成本?",
"options": [
"batch 只节省输出成本",
"batch API 给 50% 折扣;缓存输入再叠加约 10 倍优势;两者结合,夜间流水线可降至同步无缓存成本的约 10%",
"batch 与缓存不兼容",
"缓存会让请求失去 batch 资格"
],
"correct": 1,
"explanation": ""
},
{
"stage": "post",
"question": "对于语义缓存「95% 准确率」的宣称,本课怎么说?",
"options": [
"95% 是 OpenAI 的默认缓存命中率",
"95% 指的是匹配正确率,而非命中率;据报告,生产环境命中率从约 10%(开放对话)到约 70%(结构化 FAQ)不等",
"95% 是厂商文档记录的命中率基线",
"95% 意味着你应当预期 95% 的缓存命中"
],
"correct": 1,
"explanation": ""
}
]
}