-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
78 lines (78 loc) · 3.51 KB
/
Copy pathquiz.json
File metadata and controls
78 lines (78 loc) · 3.51 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
"lesson": "68-rag-eval-precision-recall",
"title": "顶点课 68 —— RAG 评估:precision、recall、MRR、nDCG、faithfulness、答案相关性",
"questions": [
{
"stage": "pre",
"question": "为什么在生产 RAG 里 recall@k 通常是头号 retrieval 指标?",
"options": [
"recall 忽略排名",
"生成阶段可以丢掉无关 chunk,但无法从一个它根本没看到的 chunk 里凭空造出答案,所以漏掉对的 chunk 是代价更高的失败",
"OpenAPI 规范要求用 recall",
"在 RAG 里 recall 和 precision 是一回事"
],
"correct": 1,
"explanation": "一个漏掉正确 chunk 的 retriever 在下游无法修复;多余的 chunk 会浪费 token,但很少会污染答案。"
},
{
"stage": "pre",
"question": "MRR 计算的是什么?",
"options": [
"各 query 上「第一个相关文档位置的倒数」的均值",
"cosine 相似度的几何平均",
"第二个相关文档排名的中位数",
"答案的 token 数"
],
"correct": 0,
"explanation": "MRR 由列表顶端主导:rank 1 贡献 1.0,rank 2 贡献 0.5,rank 10 贡献 0.1。"
},
{
"stage": "check",
"question": "什么时候应该用 nDCG 而不是 recall@k?",
"options": [
"当语料很小时",
"当标注(gold label)带有分级相关性(比如文档 A 是 3、文档 B 是 2、文档 C 是 1),而二值指标会丢失信息时",
"当 retriever 不返回分数时",
"永远不用"
],
"correct": 1,
"explanation": "nDCG 使用分级增益和位置折扣;recall 则把一切压平成二值。"
},
{
"stage": "check",
"question": "faithfulness 和答案相关性(answer relevance)的区别是什么?",
"options": [
"faithfulness 问的是「答案是否扎根于召回的上下文」;答案相关性问的是「答案是否切中了问题」",
"faithfulness 衡量 precision,relevance 衡量 recall",
"faithfulness 是 retrieval 指标,relevance 是 chunker 指标",
"它们是同一个指标的两个名字"
],
"correct": 0,
"explanation": "一个忠实但跑题的答案在 faithfulness 上得分高、在 relevance 上得分低;一个切题但无依据的答案在 relevance 上得分高、在 faithfulness 上得分低。"
},
{
"stage": "check",
"question": "一条 pipeline 的 recall@5 还不错但 MRR 很低,你应该先排查哪个阶段?",
"options": [
"chunker",
"reranker,因为正确的 chunk 在 top-k 里、但没排到最前面",
"generator",
"语料摄入(ingestor)"
],
"correct": 1,
"explanation": "recall@5 高说明 gold 在 top-5 里;MRR 低说明它没排到列表顶端。把它排到顶端正是 rerank 阶段的活。"
},
{
"stage": "post",
"question": "什么样的生产隐患会让一个冻结的 qrels 文件随着时间推移变得危险?",
"options": [
"retriever 在半年后就会停止工作",
"qrels 会腐坏:语料在变,上个季度还是标准答案的文档如今已不再是对的答案;指标却还在拿过期的标注来报",
"embedding 向量会过期",
"评估套件会占满磁盘空间"
],
"correct": 1,
"explanation": "排一个每季度的 qrels 复核,否则随着语料演变,你的指标会在衡量错误的东西。"
}
]
}