ai-engineering-from-scratch-zh/phases/17-infrastructure-and-production/14-prompt-semantic-caching/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
  "lesson": "14-prompt-semantic-caching",
  "title": "prompt 缓存与语义缓存经济学",
  "questions": [
    {
      "stage": "pre",
      "question": "L1 语义缓存与 L2 prompt/前缀缓存有什么区别？",
      "options": [
        "L1 在嵌入相似度命中时完全跳过 LLM；L2 在供应商侧为重复前缀复用 attention KV",
        "L1 在供应商侧，L2 在客户端侧",
        "L2 存储嵌入，L1 存储 attention KV",
        "L1 和 L2 是一回事"
      ],
      "correct": 0,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "Anthropic 用哪种机制把内容块标记为可缓存以供 L2 prompt 缓存使用？",
      "options": [
        "在请求的内容块上显式设置 cache_control 属性",
        "一个单独的 /caches 端点",
        "工具定义中的文件名后缀",
        "一个隐式的 prompt 长度阈值"
      ],
      "correct": 0,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "并行化反模式是如何抬高账单的？",
      "options": [
        "并行请求绕过了批处理",
        "并行化触发了一笔按请求计的护栏（guardrail）费用",
        "所有并行请求会自动共享同一个缓存条目",
        "N 个具有相同前缀的并行请求在第一次缓存写入完成之前就到达，于是每个都付了写入溢价却得不到任何折扣"
      ],
      "correct": 3,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "可缓存前缀中的动态内容反模式是什么？",
      "options": [
        "把工具 schema 放进前缀里",
        "总是流式返回响应",
        "在可缓存前缀里包含每个请求都会变化的内容（精确到分钟的当前时间、请求 ID、随机化的示例顺序），从而扼杀命中率",
        "使用过短的系统提示"
      ],
      "correct": 2,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "batch + 缓存输入如何在夜间叠加以削减成本？",
      "options": [
        "batch 只节省输出成本",
        "batch API 给 50% 折扣；缓存输入再叠加约 10 倍优势；两者结合，夜间流水线可降至同步无缓存成本的约 10%",
        "batch 与缓存不兼容",
        "缓存会让请求失去 batch 资格"
      ],
      "correct": 1,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "对于语义缓存「95% 准确率」的宣称，本课怎么说？",
      "options": [
        "95% 是 OpenAI 的默认缓存命中率",
        "95% 指的是匹配正确率，而非命中率；据报告，生产环境命中率从约 10%（开放对话）到约 70%（结构化 FAQ）不等",
        "95% 是厂商文档记录的命中率基线",
        "95% 意味着你应当预期 95% 的缓存命中"
      ],
      "correct": 1,
      "explanation": ""
    }
  ]
}