ai-engineering-from-scratch-zh/phases/10-llms-from-scratch/10-evaluation/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
[
  {
    "question": "为什么像 MMLU 这样的基准在比较前沿模型时变得不那么有用了？",
    "options": ["它们测试的科目错了", "前沿模型已经在 MMLU 上饱和（86-89%），把排行榜压缩到差异只是统计噪声的范围内", "MMLU 是为更小的模型设计的", "题目太简单"],
    "correct": 1,
    "explanation": "当 GPT-4、Claude 3 和 Llama 3 在 MMLU 上都得 86-89% 时，1 分的差异并无意义。这个基准已经无法区分模型，但它仍然主导着排行榜文化。",
    "stage": "pre"
  },
  {
    "question": "在 LLM 评估的语境下，古德哈特定律（Goodhart's Law）是什么？",
    "options": ["一条关于模型规模扩展的定律", "当一个度量变成目标，它就不再是一个好的度量——模型和团队会为基准而优化，而非为真实能力", "一条关于学习率调度的规则", "一个关于 attention 机制的定理"],
    "correct": 1,
    "explanation": "实验室为基准分数而优化（数据污染、针对基准的 prompt）。分数上去了，但真实世界能力未必提升。你自己针对任务的评估才是唯一可靠的度量。",
    "stage": "pre"
  },
  {
    "question": "什么是 LLM-as-judge 评估方法？",
    "options": ["让人类评审评估每一个回复", "用一个强大的 LLM（例如 GPT-4）按评分标准给回复打分，大规模地替代昂贵的人工评估", "为评估训练一个独立的分类器", "用模型评估它自己"],
    "correct": 1,
    "explanation": "LLM-as-judge 用一个有能力的模型按既定标准给回复打分。它比人工评估更便宜、更快，尽管它有一些必须校准的偏差（例如偏爱冗长的回复）。",
    "stage": "post"
  },
  {
    "question": "为什么构建自定义评估套件很重要，而不是依赖公开基准？",
    "options": ["公开基准总是错的", "公开基准测试的是通用能力；你的应用有特定需求，只有自定义评估才能衡量", "自定义评估更容易构建", "公开基准太贵了"],
    "correct": 1,
    "explanation": "一个在 MMLU 上得 90% 的模型，可能在你的特定任务上失败（例如按你的格式从法律文档中提取日期）。只有用你的数据、你的边界情况和你的成功标准构建的自定义评估，才能衡量真正重要的东西。",
    "stage": "post"
  },
  {
    "question": "在 LLM 基准的语境下，数据污染（data contamination）是什么？",
    "options": ["训练数据被损坏", "基准题目出现在模型的预训练数据中，在不反映真实能力的情况下抬高了分数", "模型生成了不正确的数据", "评估数据被错误标注"],
    "correct": 1,
    "explanation": "如果 MMLU 的题目出现在训练语料中，模型记住了答案而非对其进行推理。这会抬高分数，使基准对比不可靠。随着训练语料的扩大，这个问题日益严重。",
    "stage": "post"
  }
]