ai-engineering-from-scratch-zh/phases/05-nlp-foundations-to-advanced/13-question-answering/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
{
  "lesson": "13-question-answering",
  "title": "问答系统",
  "questions": [
    {
      "stage": "pre",
      "question": "抽取式 QA 预测什么？",
      "options": [
        "一个生成的自然语言答案",
        "仅一个置信度分数",
        "答案跨度在给定段落中的起始和结束 token 索引",
        "一个检索到的段落 ID"
      ],
      "correct": 2,
      "explanation": "抽取式 QA 输出段落中包含答案的那段跨度。"
    },
    {
      "stage": "pre",
      "question": "哪两个组件定义了一个基础的 RAG 流水线？",
      "options": [
        "联合训练的一个编码器和一个解码器",
        "一个重排器和一个翻译器",
        "tokenizer 和词性标注器",
        "一个检索器（找到相关段落）和一个阅读器（抽取或生成答案）"
      ],
      "correct": 3,
      "explanation": "RAG = 检索器（找到相关上下文）加阅读器（基于它作答）。"
    },
    {
      "stage": "check",
      "question": "在 SQuAD 上，Exact Match (EM) 衡量什么？",
      "options": [
        "编辑距离",
        "逐词重叠",
        "在归一化（转小写、去标点、去冠词）后，预测是否与参考答案完全一致",
        "token 级 F1"
      ],
      "correct": 2,
      "explanation": "EM 是经过定义的归一化步骤后的严格相等；部分匹配得零分。"
    },
    {
      "stage": "check",
      "question": "相比 SQuAD 1.1 模型，deepset/roberta-base-squad2 增加了什么？",
      "options": [
        "多语言支持",
        "在无法回答的问题上训练，使模型能预测空答案",
        "更大的上下文窗口",
        "跨语言检索"
      ],
      "correct": 1,
      "explanation": "SQuAD 2.0 包含无法回答的条目；在其上训练的模型能预测“无答案”。"
    },
    {
      "stage": "check",
      "question": "RAGAS 的哪个维度专门针对幻觉？",
      "options": [
        "答案相关性",
        "上下文召回率",
        "忠实度，通过答案论断与检索到的上下文之间的 NLI 蕴含来衡量",
        "上下文精确率"
      ],
      "correct": 2,
      "explanation": "忠实度通过 NLI 蕴含逐条核对答案论断与检索到的上下文。"
    },
    {
      "stage": "post",
      "question": "为什么在评估阅读器准确率之前应先衡量检索召回率？",
      "options": [
        "transformer 要求如此",
        "召回率决定 ROUGE",
        "阅读器延迟取决于它",
        "如果正确段落不在 top-k 内，无论阅读器多好都无法成功"
      ],
      "correct": 3,
      "explanation": "缺了正确段落时阅读器无法作答；检索召回率限定了阅读器性能的上限。"
    },
    {
      "stage": "post",
      "question": "哪种 prompt 模式能减少 RAG 生成中的幻觉？",
      "options": [
        "告诉模型只根据所提供的上下文作答，且当上下文不充分时回复“我不知道”",
        "纳入更多段落",
        "要求模型发挥创意",
        "去掉问题"
      ],
      "correct": 0,
      "explanation": "基于上下文 + 明确的拒答指令能大幅降低幻觉率。"
    },
    {
      "stage": "post",
      "question": "在 2026 年，什么时候抽取式 QA 仍优于生成式 RAG？",
      "options": [
        "对话式 QA",
        "受监管领域（法律、医疗、审计），需要逐字引用权威来源",
        "多语言支持",
        "开放域常识问答"
      ],
      "correct": 1,
      "explanation": "抽取式 QA 提供来自权威语料的逐字引用，这是合规场景所要求的。"
    }
  ]
}