ai-engineering-from-scratch-zh/phases/11-llm-engineering/10-evaluation/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
[
  {
    "question": "为什么手动读几个 LLM 输出不是一种可靠的评估方法？",
    "options": ["它太耗时", "小样本会漏掉只在规模化时才出现的失败模式，而且人类判断在不同评审者和不同时段间并不一致", "人工评审太贵", "LLM 输出总是正确的"],
    "correct": 1,
    "explanation": "读 10 个输出只让你看到分布中的 10 个点。一次 prompt 修改可能改善 90% 的输出，却破坏 10% 的边界情况。没有系统化评估，你会一直发现不了这个回退，直到用户报告。",
    "stage": "pre"
  },
  {
    "question": "在 LLM 应用的语境下，回归测试（regression testing）是什么？",
    "options": ["测试线性回归模型", "在每次改动（prompt、模型、参数）后运行一套固定的测试用例，确保质量没有退化", "在训练数据上测试", "在训练期间测量模型损失"],
    "correct": 1,
    "explanation": "每一次 prompt 修改、模型替换或温度调整都会改变输出分布。回归测试能捕捉到那些改善了某个方面却悄悄损害了另一个方面的改动。",
    "stage": "pre"
  },
  {
    "question": "什么是 LLM-as-judge 评估方法？",
    "options": ["让模型评估它自己的训练损失", "用一个强大的 LLM 按评分标准给输出打分，替代昂贵的人工评估，同时可扩展到数千个测试用例", "使用模型的置信度分数", "比较两个模型的参数量"],
    "correct": 1,
    "explanation": "LLM-as-judge 把（输入、输出、评分标准）发给一个强大的模型（例如 GPT-4），由它给输出打分。它比人工评估更便宜、更快，尽管有已知偏差（例如偏爱冗长的回复）。",
    "stage": "post"
  },
  {
    "question": "什么样的评估数据集对 LLM 应用来说是好的？",
    "options": ["尽可能多的样本", "多样化的输入，覆盖常见情况、边界情况、对抗性输入，以及带清晰评分标准的期望输出", "只有最难的样本", "从互联网上随机抽取的样本"],
    "correct": 1,
    "explanation": "好的评估集覆盖整个分布：正常路径用例、边界情况（空输入、超长输入）、对抗性输入（prompt 注入）和模糊查询。每个样本都有清晰的期望输出或评分标准。",
    "stage": "post"
  },
  {
    "question": "在评估中你应该如何处理非确定性的 LLM 输出？",
    "options": ["所有评估都把温度设为 0", "把每个测试用例运行多次，使用聚合指标（通过率、平均分）来考虑输出方差", "非确定性不影响评估", "只评估第一个输出"],
    "correct": 1,
    "explanation": "即使温度为 0，有些提供商也会引入采样波动。把每个测试运行 3-5 次并测量通过率或平均分，比可能撞上幸运/不幸样本的单次运行能给出更可靠的画面。",
    "stage": "post"
  }
]