ai-engineering-from-scratch-zh/phases/19-capstone-projects/68-rag-eval-precision-recall/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
  "lesson": "68-rag-eval-precision-recall",
  "title": "顶点课 68 —— RAG 评估：precision、recall、MRR、nDCG、faithfulness、答案相关性",
  "questions": [
    {
      "stage": "pre",
      "question": "为什么在生产 RAG 里 recall@k 通常是头号 retrieval 指标？",
      "options": [
        "recall 忽略排名",
        "生成阶段可以丢掉无关 chunk，但无法从一个它根本没看到的 chunk 里凭空造出答案，所以漏掉对的 chunk 是代价更高的失败",
        "OpenAPI 规范要求用 recall",
        "在 RAG 里 recall 和 precision 是一回事"
      ],
      "correct": 1,
      "explanation": "一个漏掉正确 chunk 的 retriever 在下游无法修复；多余的 chunk 会浪费 token，但很少会污染答案。"
    },
    {
      "stage": "pre",
      "question": "MRR 计算的是什么？",
      "options": [
        "各 query 上「第一个相关文档位置的倒数」的均值",
        "cosine 相似度的几何平均",
        "第二个相关文档排名的中位数",
        "答案的 token 数"
      ],
      "correct": 0,
      "explanation": "MRR 由列表顶端主导：rank 1 贡献 1.0，rank 2 贡献 0.5，rank 10 贡献 0.1。"
    },
    {
      "stage": "check",
      "question": "什么时候应该用 nDCG 而不是 recall@k？",
      "options": [
        "当语料很小时",
        "当标注（gold label）带有分级相关性（比如文档 A 是 3、文档 B 是 2、文档 C 是 1），而二值指标会丢失信息时",
        "当 retriever 不返回分数时",
        "永远不用"
      ],
      "correct": 1,
      "explanation": "nDCG 使用分级增益和位置折扣；recall 则把一切压平成二值。"
    },
    {
      "stage": "check",
      "question": "faithfulness 和答案相关性（answer relevance）的区别是什么？",
      "options": [
        "faithfulness 问的是「答案是否扎根于召回的上下文」；答案相关性问的是「答案是否切中了问题」",
        "faithfulness 衡量 precision，relevance 衡量 recall",
        "faithfulness 是 retrieval 指标，relevance 是 chunker 指标",
        "它们是同一个指标的两个名字"
      ],
      "correct": 0,
      "explanation": "一个忠实但跑题的答案在 faithfulness 上得分高、在 relevance 上得分低；一个切题但无依据的答案在 relevance 上得分高、在 faithfulness 上得分低。"
    },
    {
      "stage": "check",
      "question": "一条 pipeline 的 recall@5 还不错但 MRR 很低，你应该先排查哪个阶段？",
      "options": [
        "chunker",
        "reranker，因为正确的 chunk 在 top-k 里、但没排到最前面",
        "generator",
        "语料摄入（ingestor）"
      ],
      "correct": 1,
      "explanation": "recall@5 高说明 gold 在 top-5 里；MRR 低说明它没排到列表顶端。把它排到顶端正是 rerank 阶段的活。"
    },
    {
      "stage": "post",
      "question": "什么样的生产隐患会让一个冻结的 qrels 文件随着时间推移变得危险？",
      "options": [
        "retriever 在半年后就会停止工作",
        "qrels 会腐坏：语料在变，上个季度还是标准答案的文档如今已不再是对的答案；指标却还在拿过期的标注来报",
        "embedding 向量会过期",
        "评估套件会占满磁盘空间"
      ],
      "correct": 1,
      "explanation": "排一个每季度的 qrels 复核，否则随着语料演变，你的指标会在衡量错误的东西。"
    }
  ]
}