ai-engineering-from-scratch-zh/phases/17-infrastructure-and-production/15-batch-apis/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
  "lesson": "15-batch-apis",
  "title": "Batch API —— 作为行业标准的 50% 折扣",
  "questions": [
    {
      "stage": "pre",
      "question": "2026 年 OpenAI、Anthropic 和 Google 通用的 batch-API 报价是什么？",
      "options": [
        "10% 折扣，1 小时交付",
        "90% 折扣，7 天交付",
        "1k token 以下免费",
        "50% 折扣，24 小时交付"
      ],
      "correct": 3,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "在本课的框架下，「24 小时交付」实际保证的是什么？",
      "options": [
        "24 小时是缓存的 TTL",
        "批处理总是耗时 24 小时",
        "供应商承诺在 24 小时内返回，典型 P50 约为 2-6 小时",
        "只有 1k 请求以下的批次才符合资格"
      ],
      "correct": 2,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "在一个共享系统提示的工作负载上，把 batch 与缓存输入叠加，相比同步无缓存会如何改变账单？",
      "options": [
        "没有影响，因为缓存是自动的",
        "只有当模型在 Vertex 上时才有帮助",
        "可降至同步无缓存基线的大约 10%",
        "会让成本增加 50%"
      ],
      "correct": 2,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "对于内容流水线和离线标注，2026 年默认走哪条工作负载分流通道是错误的？",
      "options": [
        "交互式，因为它听起来很紧急",
        "批处理，因为用户看不到 24 小时的延迟",
        "批处理与缓存混合",
        "带异步队列的半交互式"
      ],
      "correct": 0,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "跨供应商的输出 schema 陷阱是什么？",
      "options": [
        "Anthropic 不支持 JSONL",
        "所有供应商都使用相同的 OpenAI JSONL 格式",
        "Vertex 仅要求 Parquet",
        "各供应商的批处理文件格式各不相同（OpenAI JSONL、Anthropic JSONL、Vertex BigQuery/GCS），因此可移植的客户端需要为每家供应商提供适配器"
      ],
      "correct": 3,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "按本课所述，把工作负载分流到批处理的最简单决策规则是什么？",
      "options": [
        "如果 prompt 不到 1k token，就走批处理",
        "如果它用到了工具，就走批处理",
        "只有当网关要求时才走批处理",
        "如果用户不会察觉到 24 小时的交付延迟，就总是走批处理（并叠加缓存）"
      ],
      "correct": 3,
      "explanation": ""
    }
  ]
}