-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
37 lines (37 loc) · 2.91 KB
/
Copy pathquiz.json
File metadata and controls
37 lines (37 loc) · 2.91 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
[
{
"question": "为什么像 MMLU 这样的基准在比较前沿模型时变得不那么有用了?",
"options": ["它们测试的科目错了", "前沿模型已经在 MMLU 上饱和(86-89%),把排行榜压缩到差异只是统计噪声的范围内", "MMLU 是为更小的模型设计的", "题目太简单"],
"correct": 1,
"explanation": "当 GPT-4、Claude 3 和 Llama 3 在 MMLU 上都得 86-89% 时,1 分的差异并无意义。这个基准已经无法区分模型,但它仍然主导着排行榜文化。",
"stage": "pre"
},
{
"question": "在 LLM 评估的语境下,古德哈特定律(Goodhart's Law)是什么?",
"options": ["一条关于模型规模扩展的定律", "当一个度量变成目标,它就不再是一个好的度量——模型和团队会为基准而优化,而非为真实能力", "一条关于学习率调度的规则", "一个关于 attention 机制的定理"],
"correct": 1,
"explanation": "实验室为基准分数而优化(数据污染、针对基准的 prompt)。分数上去了,但真实世界能力未必提升。你自己针对任务的评估才是唯一可靠的度量。",
"stage": "pre"
},
{
"question": "什么是 LLM-as-judge 评估方法?",
"options": ["让人类评审评估每一个回复", "用一个强大的 LLM(例如 GPT-4)按评分标准给回复打分,大规模地替代昂贵的人工评估", "为评估训练一个独立的分类器", "用模型评估它自己"],
"correct": 1,
"explanation": "LLM-as-judge 用一个有能力的模型按既定标准给回复打分。它比人工评估更便宜、更快,尽管它有一些必须校准的偏差(例如偏爱冗长的回复)。",
"stage": "post"
},
{
"question": "为什么构建自定义评估套件很重要,而不是依赖公开基准?",
"options": ["公开基准总是错的", "公开基准测试的是通用能力;你的应用有特定需求,只有自定义评估才能衡量", "自定义评估更容易构建", "公开基准太贵了"],
"correct": 1,
"explanation": "一个在 MMLU 上得 90% 的模型,可能在你的特定任务上失败(例如按你的格式从法律文档中提取日期)。只有用你的数据、你的边界情况和你的成功标准构建的自定义评估,才能衡量真正重要的东西。",
"stage": "post"
},
{
"question": "在 LLM 基准的语境下,数据污染(data contamination)是什么?",
"options": ["训练数据被损坏", "基准题目出现在模型的预训练数据中,在不反映真实能力的情况下抬高了分数", "模型生成了不正确的数据", "评估数据被错误标注"],
"correct": 1,
"explanation": "如果 MMLU 的题目出现在训练语料中,模型记住了答案而非对其进行推理。这会抬高分数,使基准对比不可靠。随着训练语料的扩大,这个问题日益严重。",
"stage": "post"
}
]