ai-engineering-from-scratch-zh/phases/19-capstone-projects/65-hybrid-retrieval-bm25-dense/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
  "lesson": "65-hybrid-retrieval-bm25-dense",
  "title": "顶点课 65 —— BM25 与 dense embedding 的 hybrid retrieval",
  "questions": [
    {
      "stage": "pre",
      "question": "为什么生产环境的 RAG 端点需要同时用上 lexical 和 semantic retrieval？",
      "options": [
        "semantic retrieval 永远更准",
        "合规上法律强制要求做 lexical 检索",
        "query 分布里既有字面标识符查询又有改写过的查询；每一类各有一种模态会失手",
        "这样能把索引体积砍掉一半"
      ],
      "correct": 2,
      "explanation": "BM25 在字面符号上占优，dense 在改写表述上占优。真实端点会从同一批用户那里同时收到这两类 query。"
    },
    {
      "stage": "pre",
      "question": "BM25 里默认取 0.75 的参数 b 是什么含义？",
      "options": [
        "对 IDF 项的一个乘数",
        "一个长度归一化的旋钮：较长的文档会被惩罚，但不是线性的",
        "query 时作用在 cosine 相似度上的指数",
        "文档里的字段数量"
      ],
      "correct": 1,
      "explanation": "b 在不做长度归一化（0）和完全归一化（1）之间插值；0.75 是公开推荐的取值。"
    },
    {
      "stage": "check",
      "question": "Reciprocal Rank Fusion（RRF）对每个候选计算的是什么？",
      "options": [
        "在每个包含该候选的排序列表上，对 1 / (k + rank) 求和",
        "各模态 cosine 相似度的乘积",
        "对 BM25 和 dense 分数做 min-max 归一化后取平均",
        "各模态排名的中位数"
      ],
      "correct": 0,
      "explanation": "RRF 把每个排序列表里的 1 / (k + rank) 贡献加起来；k = 60 是公开的默认值。"
    },
    {
      "stage": "check",
      "question": "为什么基于排名的融合比对 BM25 和 cosine 分数做线性插值更受青睐？",
      "options": [
        "cosine 分数是无界的",
        "BM25 分数无法排序",
        "BM25 分数无界且依赖语料，cosine 被限制在 -1 到 1 之间；两者的分数尺度在不同语料间不可比",
        "线性插值需要 GPU 支持"
      ],
      "correct": 2,
      "explanation": "分数插值会在每次重建索引时失效，因为分数分布会漂移；而排名按构造方式在各模态间天然可比。"
    },
    {
      "stage": "check",
      "question": "当你把 RRF 的常数 k 取得非常小时会发生什么？",
      "options": [
        "top-1 的贡献会主导整个融合；靠后的排名几乎没有贡献",
        "融合等价于线性分数求和",
        "语料外的词会得到一个正分",
        "融合会忽略第二种模态"
      ],
      "correct": 0,
      "explanation": "k 取小会把贡献集中到 rank-1 上；k 取大则会把贡献曲线压平，让靠后的候选也能投票。"
    },
    {
      "stage": "post",
      "question": "通过重复 token 来做字段加权，专门规避了哪种失效模式？",
      "options": [
        "词表外（OOV）的 embedding",
        "在 query 时再加一步分数聚合；这样数学形式保持不变，也就不需要按字段分数组合的逻辑",
        "BM25 的 IDF 坍缩为零",
        "cosine 相似度变成负数"
      ],
      "correct": 1,
      "explanation": "在建索引时重复 token 会成倍提高词频，从而让 BM25 的打分数学保持一个求和式，而不必再引入一个独立的字段分数组合器。"
    }
  ]
}